Reihenherausgeber: Prof. Dr. Holger Dette · Prof. Dr. Wolfgang Härdle
Statistik und ihre Anwendungen Weitere Bände di...
253 downloads
2196 Views
8MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Reihenherausgeber: Prof. Dr. Holger Dette · Prof. Dr. Wolfgang Härdle
Statistik und ihre Anwendungen Weitere Bände dieser Reihe finden Sie unter http://www.springer.com/series/5100
Azizi Ghanbari, S. Einführung in die Statistik für Sozial- und Erziehungswissenschaftler 2002 Bickeböller, H.; Fischer, C. Einführung in die Genetische Epidemiologie 2007 Dehling, H.; Haupt, B. Einführung in die Wahrscheinlichkeitstheorie und Statistik 2. Auflage 2004 Dümbgen, L. Stochastik für Informatiker 2003 Falk, M.; Becker, R.; Marohn, F. Angewandte Statistik 2004 Franke, J.; Härdle,W.; Hafner, C. Einführung in die Statistik der Finanzmärkte 2. Auflage 2004 Greiner, M. Serodiagnostische Tests 2003 Handl, A. Multivariate Analysemethoden 2003 Hilgers, R.-D.; Bauer, R.; Scheiber, V. Einführung in die Medizinische Statistik 2. Auflage 2007 Kohn, W. Statistik Datenanalyse und Wahrscheinlichkeitsrechnung 2005 Kreiß, J.-P.; Neuhaus, G. Einführung in die Zeitreihenanalyse 2006 Ligges, U. Programmieren mit R 3. Auflage 2008 Meintrup, D.; Schäffler, S. Stochastik Theorie und Anwendungen 2005 Plachky, D. Mathematische Grundbegriffe der Stochastik 2002 Pruscha, H. Statistisches Methodenbuch Verfahren, Fallstudien, Programmcodes 2005 Schumacher, M.; Schulgen, G. Methodik klinischer Studien 3. Auflage 2008 Steland, A. Mathematische Grundlagen der empirischen Forschung 2004 Zucchini, W.; Schlegel, A.; Nenadi´c, O.; Sperlich S. Statistik für Bachelor- und Masterstudenten 2009
Walter Zucchini · Andreas Schlegel Oleg Nenadi´c · Stefan Sperlich
Statistik für Bachelorund Masterstudenten Eine Einführung für Wirtschaftsund Sozialwissenschaftler
123
Prof. Dr. Walter Zucchini Andreas Schlegel Dr. Oleg Nenadi´c Prof. Dr. Stefan Sperlich Universität Göttingen Institut für Statistik und Ökonometrie Platz der Göttinger Sieben 5 37073 Göttingen
ISBN 978-3-540-88986-1 e-ISBN 978-3-540-88987-8 DOI 10.1007/978-3-540-88987-8 Springer Dordrecht Heidelberg London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2009 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.de)
Für Wilfried Ahlborn, mit Dank für seinen langjährigen Einsatz für unser Institut.
Vorwort
Wie der Titel bereits andeutet, richtet sich dieses Buch an Anfänger im Fach Statistik und eignet sich für Bachelor- und Masterstudenten aller Disziplinen, auch wenn viele Beispiele ihren Schwerpunkt in den Wirtschaftswissenschaften haben. Die wesentlichen Konzepte statistischer Methoden, ihre Ideen und Umsetzung werden im Detail erklärt und anhand von Beispielen erläutert. Das Buch enthält daher recht viele, wenn auch meist einfache, Beispiele aus der Praxis, die das Interesse der Leser wecken und die Anwendung der Methoden illustrieren sollen. Der Stil ist betont mathematisch informell, wenn auch mathematisch exakt, denn unser Fokus war primär das Vermitteln der zugrunde liegenden Konzepte. Aus diesem Grund handelt es sich bei diesem Buch auch nicht um ein Referenz- oder Nachschlagewerk, sondern um ein vorlesungsunterstützendes Buch, das natürlich ebenso für das Selbststudium geeignet und gedacht ist. Das heute vorliegende Werk entstand aus den vorlesungsbegleitenden Unterlagen der Statistik-Grundvorlesungen an der Wirtschaftswissenschaftlichen Fakultät der Georg-August-Universität Göttingen. Der Umfang des vorgestellten Lehrstoffes ist auf eine Veranstaltung mit ca. 45 Stunden Vorlesung und 45 Stunden Übungen (15 in Großübung, 30 in Kleingruppen) ausgerichtet. Außerdem liegen noch ca. 30 Stunden praktische Computerübung, für gewöhnlich mit der statistischen Programmiersprache R, der Veranstaltung zugrunde. Daher sind, als begleitende Ergänzungen aber auch als eigenständige Volumina, zwei weitere Werke in Vorbereitung: Ein Übungsbuch mit Rechen- und Wissensfragen und eine deutschsprachige Einführung in die statistische Programmiersprache R. Am viele Jahre dauernden Prozess, in dem dieses ursprüngliche Manuskript zum jetzigen Buch gewachsen ist, haben viele weitere Personen mitgewirkt. Wir danken für ihre Beiträge und Hilfe insbesondere Prof. Dr. Fred Böker, Herrn Philipp Kunze, Frau Ellen Riefling, Dr. Britta Schnoor, Frau Katja Stempel und Herrn Michael Vorfeld. Göttingen, November 2008
Walter Zucchini Andreas Schlegel Oleg Nenadi´c Stefan Sperlich
vii
Inhaltsverzeichnis
1
Der Zufall in unserer Welt — Einführende Beispiele und Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Deterministische und stochastische Modelle . . . . . . . . . . . . . . . . . . . . 1 1.2 Beispiele stochastischer Probleme und Modelle . . . . . . . . . . . . . . . . . 7 1.3 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2
Fakten in Zahlen — Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Deskriptive Statistik für diskrete Merkmale . . . . . . . . . . . . . . . . . . . . . 2.2.1 Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Besonderheiten für nominal- und ordinal-skalierte Merkmale 2.3 Deskriptive Statistik für stetige Merkmale . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Häufigkeiten und grafische Darstellungen . . . . . . . . . . . . . . . . 2.3.2 Statistiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 44 46 47 49 54 59 60 67
3
Den Zufall quantifizieren — Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . 3.1 Zufallsexperimente, Ergebnisse, Ergebnismenge, Ereignisse . . . . . . . 3.2 Definition der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Berechnung von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Interpretation von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Bedingte Wahrscheinlichkeit und Unabhängigkeit . . . . . . . . . . . . . . .
73 73 76 79 82 86
4
Wieviel sind meine Aktien morgen wert — Verteilungen und ihre Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.2 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.3 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.4 Kennzahlen (Momente) einer Zufallsvariablen . . . . . . . . . . . . . . . . . . 113
ix
x
Inhaltsverzeichnis
4.4.1 4.4.2 4.4.3
Der Erwartungswert einer Zufallsvariablen . . . . . . . . . . . . . . . 113 Die Varianz einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 120 Schiefe und Kurtosis einer Zufallsvariablen . . . . . . . . . . . . . . 125
5
Eins, Zwei oder Drei — Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . 131 5.1 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.2.1 Erwartungswert und Varianz der Binomialverteilung . . . . . . . 144 5.3 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 5.3.1 Die Binomialverteilung als Approximation für die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . 150 5.4 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 5.4.1 Erwartungswert und Varianz einer Poissonverteilung . . . . . . 154 5.4.2 Poisson-Approximation der Binomialverteilung . . . . . . . . . . . 155 5.5 Exkurs: Ursprung der Binomialkoeffizienten . . . . . . . . . . . . . . . . . . . . 158
6
Gaußglocke und andere Kurven – Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 6.1 Rechteckverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 6.2 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 6.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 6.3.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . 177 6.4 Weitere stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 6.4.1 χ 2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.4.2 F-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 6.4.3 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 6.4.4 Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7
Ein Modell für meine Daten — Modellanpassung und Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . 189 7.1 Histogramme als Schätzer für Dichtefunktionen . . . . . . . . . . . . . . . . . 189 7.2 Schätzung von Parametern mit der Methode der Momente . . . . . . . . 201 7.3 Schätzung von Parametern mit der Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . . . . 208 7.4 Eigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 7.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 7.5.1 Resultate für eine normalverteilte Grundgesamtheit . . . . . . . . 222 7.5.2 Resultate für andere Verteilungen der Grundgesamtheit . . . . 223 7.6 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 7.6.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 7.6.2 Konfidenzintervalle für μ bei unbekannter Varianz . . . . . . . . 229 7.6.3 Konfidenzintervalle für μ bei bekannter Varianz . . . . . . . . . . 232 7.6.4 Konfidenzintervalle für den Anteilswert π . . . . . . . . . . . . . . . 234 7.6.5 Konfidenzintervalle für die Varianz . . . . . . . . . . . . . . . . . . . . . 237
Inhaltsverzeichnis
xi
8
Richtig oder falsch — Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 8.1 Einführung in den klassischen Signifikanztest . . . . . . . . . . . . . . . . . . . 241 8.2 Hypothesen über den Anteil π einer Population . . . . . . . . . . . . . . . . . 254 8.3 Hypothesen über den Mittelwert μ einer Population . . . . . . . . . . . . . . 259 8.3.1 Hypothesen über den Mittelwert bei unbekannter Varianz . . 260 8.3.2 Hypothesen über den Mittelwert bei bekannter Varianz . . . . . 264 8.4 Hypothesen über die Varianz einer Population . . . . . . . . . . . . . . . . . . . 266 8.5 Ergänzende Hinweise zum klassischen Signifikanztest . . . . . . . . . . . . 269 8.5.1 Voraussetzungen des klassischen Signifikanztests . . . . . . . . . 269 8.5.2 Zur Wahl der Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . 270 8.5.3 Signifikanztests und Konfidenzintervalle . . . . . . . . . . . . . . . . . 271 8.5.4 P-Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
9
Der Zufall im Doppelpack — Paare von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 9.1 Paare diskreter Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 9.2 Paare stetiger Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 9.3 Gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 9.4 Zusammenhang zwischen Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 300 9.5 Die zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 308
10 Stimmt mein Modell — χ 2 -Anpassungs- und Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . 315 10.1 χ 2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 10.2 χ 2 -Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 11 Beziehungen quantifizieren — Regressionsanalyse . . . . . . . . . . . . . . . . . 345 11.1 Der bedingte Erwartungswert und das lineare Modell . . . . . . . . . . . . 345 11.2 Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 11.3 Anmerkungen zur Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 362 11.4 Voraussagen in der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 368 11.5 Modellauswahl in der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . 373 12 Faktoreinflüsse — Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 12.1 Einführung in die einfache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . 381 12.2 Erweiterungen der einfachen Varianzanalyse . . . . . . . . . . . . . . . . . . . . 397 12.3 Anwendungsbeispiele der einfachen Varianzanalyse . . . . . . . . . . . . . 398 13 Der Zufall im Zeitverlauf — Zeitreihen und Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 13.1 Klassische Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 13.1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 13.1.2 Zerlegung von Zeitreihen ohne Saisonschwankungen . . . . . . 411 13.1.3 Zerlegung von Zeitreihen mit Saisonschwankungen . . . . . . . 415
xii
Inhaltsverzeichnis
13.2 Indizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 13.2.1 Preisindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 13.2.2 Mengen- und Umsatzindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 434 13.2.3 Aktienindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439 A
Verteilungstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
Kapitel 1
Der Zufall in unserer Welt — Einführende Beispiele und Grundbegriffe
Jeder hat eine Vorstellung davon, was man unter Statistik versteht, und viele denken dabei sicherlich zunächst an umfangreiche Tabellen oder grafische Darstellungen, die bestimmte Sachverhalte in komprimierter Weise verdeutlichen. Dies ist jedoch nur ein Teil der Statistik, die sogenannte beschreibende oder deskriptive Statistik, die dazu dient, umfangreiche Datensätze mit Hilfe von Abbildungen und Kennzahlen anschaulich darzustellen. In den meisten Fällen geht die Statistik jedoch weit über die reine Beschreibung von Datensätzen hinaus. In der Regel sind vorliegende Daten nur eine Stichprobe aus einer sogenannten Grundgesamtheit, und man möchte aus der Stichprobe Schlussfolgerungen für die Grundgesamtheit ziehen. Dieser Teil der Statistik wird schließende oder induktive Statistik genannt. Zu Beginn dieses ersten Kapitels werden zunächst einige praktische Anwendungsbeispiele statistischer Methoden vorgestellt, um einen Eindruck von den vielfältigen Anwendungsmöglichkeiten der Statistik zu vermitteln. Im hinteren Teil des Kapitels werden dann einige wichtige Grundbegriffe der Statistik, wie zum Beispiel Stichprobe und Grundgesamtheit, eingeführt.
1.1 Deterministische und stochastische Modelle Bevor die einführenden Anwendungsbeispiele statistischer Methoden und Modelle vorgestellt werden, sollen zunächst die Begriffe deterministisches Modell und stochastisches Modell erläutert werden. Dazu ist zunächst der Begriff des Modells zu definieren. Ein Modell lässt sich etwa als vereinfachte Beschreibung der Realität definieren. Ein anschauliches Beispiel ist eine Landkarte, die eine bestimmte, reale Landschaft vereinfacht auf einem Blatt Papier beschreibt. Man hat es in der Statistik immer mit Daten zu tun, d.h. mit Größen, die gemessen, gezählt oder auf andere Art und Weise quantifiziert werden können. Statistische Modelle werden durch mathematische Formeln, durch Zahlen oder als Grafik gegeben. Auf dieser Grundlage ist eine engere Definition des Modells sinnvoll: W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
1
2
1 Einführung
Ein Modell ist die Beschreibung eines quantitativ erfassbaren Phänomens. Die nachfolgenden Beispiele und Bemerkungen dienen dazu, einen Eindruck von der Bedeutung stochastischer, d.h. zufallsabhängiger Sachverhalte in verschiedensten Bereichen des Lebens, sowie der Anwendung statistischer Modelle in diesem Zusammenhang zu vermitteln. Lediglich das erste Beispiel ist nicht durch zufällige Einflüsse geprägt. Es stellt eher die Ausnahmesituation als die Regel dar. Beispiel 1.1. Schwingungsdauer eines Pendels Zunächst wird ein Beispiel für ein deterministisches Modell betrachtet, und zwar für die Schwingungsdauer eines Pendels. Die Physik liefert dazu eine Theorie, aus der man ableiten kann, dass die Schwingungsdauer T von der Länge L des Pendels abhängt und durch die Gleichung L T = 2π g beschrieben wird, wobei π die Kreiszahl und g die Erdbeschleunigung bezeichnet. Um die Schwingungsdauer T eines realen Pendels zu berechnen und somit das Modell für einen bestimmten Zweck zu verwenden, benötigt man die Länge des Pendels und die Erdbeschleunigung am Ort des Pendels. In Göttingen z.B. ist g etwa 9.81 m/s2 (die Einheit ist hier Meter dividiert durch Sekunde zum Quadrat); dann ergibt sich beispielsweise für L = 7.5 m die Schwingungsdauer 7.5 m T = 2π = 5.5 s . 9.81 m/s2 Dabei wird vorausgesetzt, dass der Pendelausschlag klein gegenüber der Pendellänge ist, d.h. dass das Pendel nur kleine Winkel durchläuft. Man benötigt also nur die Länge des Pendels L, um die Schwingungsdauer T zu bestimmen. Diese Formel ist ein Beispiel für ein Modell, das den quantitativen Zusammenhang zwischen zwei Größen, der Länge eines Pendels und der Schwingungsdauer, beschreibt (bei gegebener Erdbeschleunigung). Grafisch ist dieser Zusammenhang in Abb. 1.1 dargestellt. Sowohl die Grafik als auch die Formel sind als Modell für das Pendel zu verstehen. Lediglich die Darstellungsform ist eine andere. Die Anwendungsmöglichkeit des Modells ist offensichtlich: wir können mit Hilfe dieses Modells die Schwingungsdauer T für verschiedene Werte von L bestimmen. Falls jetzt die Frage aufkommt, aus welchem Grund man sich für die Schwingungsdauer eines Pendels interessieren sollte: bis zur Erfindung der Quarz-Uhren in den 1930er Jahren waren Pendeluhren über Jahrhunderte das genaueste Mittel der Zeitmessung, und auch heute noch hat sicher der eine oder andere eine Pendeluhr zu Hause. Das mathematische Pendel ist ein Beispiel für eine deterministische Beziehung zwischen zwei Größen. Mit deterministisch ist gemeint, dass es für jeden Wert der
1.1 Deterministische und stochastische Modelle
3
Abb. 1.1 Modell für die Schwingungsdauer eines Pendels in Abhängigkeit von der Länge
Länge L genau einen Wert für die Schwingungsdauer T gibt. Die Schwingungsdauer ist durch die Länge des Pendels determiniert. Es gibt hier keine Unsicherheit oder Unbestimmtheit. Wenn die Länge des Pendels bekannt ist, kennt man auch die Schwingungsdauer. Ganz anders ist die Beziehung zwischen zwei Größen in dem folgenden Beispiel. Beispiel 1.2. Blockzeit eines Linienfluges Wer privat oder geschäftlich mit dem Flugzeug reist, ist sicherlich nicht nur daran interessiert, sicher am Ziel anzukommen, sondern auch möglichst schnell und pünktlich. Dabei hängt die Dauer eines Linienfluges in erster Linie von der Länge der Flugstrecke ab. Tabelle 1.1 enthält die Strecke d in nautischen Meilen (entspricht 1 852 Metern) sowie die dazugehörige Dauer t in Minuten für 100 zufällig ausgewählte inneramerikanische Flüge (mit einer Flugstrecke von maximal 1 500 Meilen) der Fluggesellschaft American Airlines im Februar 2006.1 Die Dauer umfasst dabei die Zeit vom Losrollen eines Flugzeugs von der Start-Position bis zum Stillstand auf der Ziel-Position (on blocks) und wird daher auch Blockzeit genannt. Sie beinhaltet neben der reinen Flugzeit auch die sogenannte Taxi-Out-Zeit (Zeit vom Losrollen bis zum Abheben) sowie die Taxi-In-Zeit (Zeit vom Aufsetzen bis zum Stillstand). Die im Flugplan einer Fluggesellschaft angegebene Dauer eines Fluges stellt immer die geplante Blockzeit dar, und nicht die reine Flugzeit. Wenn man Tabelle 1.1 betrachtet, stellt man fest, dass es den erwarteten Zusammenhang zwischen der Flugstrecke und der Blockzeit gibt; je länger die Flugstrecke, desto länger ist tendenziell die Blockzeit. Die Beziehung zwischen Flugstrecke und Blockzeit ist jedoch von anderer Art als die oben betrachtete Beziehung zwischen der Länge und der Schwingungsdauer eines Pendels. Im Falle des Pendels gehört 1
Die Original-Daten der American Airlines Flüge im Februar 2006, die im Rahmen dieses Beispiels betrachtet werden, stammen aus der Airline On-Time Performance Data Datenbank, die das US-amerikanische Bureau of Transportation Statistics auf seiner Internetseite http://www.transtats.bts.gov zur Verfügung stellt (Stand 24. April 2008).
4
1 Einführung
Tabelle 1.1 Flugstrecke d in nautischen Meilen und Blockzeit t in Minuten für 100 zufällig ausgewählte inneramerikanische American Airlines Flüge (mit einer maximalen Flugstrecke von 1 500 Meilen) im Februar 2006 d t
258 1 189 1 145 64 195 178
d t
748 126
733 105
258 72
403 78
612 146
175 46
733 138
416 1 437 98 220
950 154
888 1 121 1 235 143 193 193
337 70
761 144
988 1 055 168 174
950 147
190 1 205 63 199
d 1 171 1 045 t 173 142
236 65
583 1 035 1 471 124 179 195
867 1 162 1 017 1 055 1 171 126 185 172 183 196
d t
569 1 431 89 243
190 49
733 1 464 1 235 131 199 165
177 62
190 59
247 82
786 124
551 1 055 96 162
d t
551 1 302 1 372 82 182 197
448 86
987 164
678 110
334 86
964 140
d t
762 141
762 128
603 1 456 1 189 95 222 177
861 149
522 1 005 114 159
888 150
868 1 235 1 171 160 170 182
190 67
867 167
762 1 017 175 137
583 1 217 106 207
733 1 045 1 440 148 158 210
190 58
175 53
468 79
d 1 145 1 062 1 389 t 204 203 197
612 128
175 1 313 50 182
783 100
868 155
551 1 235 102 181
551 115
641 1 068 118 168
592 1 182 1 213 115 189 166
612 1 144 142 167
177 59
551 96
733 1 438 149 212
zu jedem Wert der Länge genau ein Wert für die Schwingungsdauer. Die Schwingungsdauer ist durch die Länge eindeutig bestimmt. Im Beispiel mit der Blockzeit ist das anders. Es gibt z.B. 5 Flüge mit einer Flugstrecke von 733 Meilen und dazugehörigen Blockzeiten von 138, 105, 148, 131 und 149 Minuten. Die Blockzeit ist also nicht eindeutig durch die Flugstrecke bestimmt. Vielmehr scheint es zufällige Schwankungen zu geben. Eine solche Beziehung nennt man stochastisch. Eine grafische Darstellung der Beziehung zwischen Flugstrecke und Blockzeit gibt Abb. 1.2.
Abb. 1.2 Flugstrecke d in nautischen Meilen und Blockzeit t in Minuten für 100 zufällig ausgewählte inneramerikanische American Airlines Flüge (mit einer maximalen Flugstrecke von 1 500 Meilen) im Februar 2006 sowie angepasste Gerade
1.1 Deterministische und stochastische Modelle
5
Neben den Beobachtungen ist in Abb. 1.2 auch eine an die Daten angepasste Gerade eingezeichnet (wie man eine solche Gerade bestimmt, wird in Kapitel 11 gezeigt). Die eingetragenen Punkte liegen nur annähernd auf der Geraden. Das ist der entscheidende Unterschied zum vorigen Beispiel. Hier tritt eine zufällige Variation oder Streuung auf. Die Blockzeit ist nicht nur durch die Flugstrecke bestimmt, sondern es treten noch weitere Einflussfaktoren auf, die für die zufällige Variation verantwortlich sind; beispielsweise spielt die Verkehrsdichte am Start- und Zielflughafen, sowie im durchflogenden Luftraum eine Rolle. Die Beziehung ist damit nicht deterministisch, sondern stochastisch. Auch wenn die tatsächlichen Blockzeiten schwanken, ist es dennoch von Nutzen, die annähernde Gerade zu kennen, um die Blockzeit für eine bestimmte Strecke, beispielsweise für die Flugplanung, zumindest ungefähr abschätzen zu können. Die wichtigste Einflussgröße auf die Blockzeit ist neben der Flugstrecke die Flugrichtung; so ist z.B. ein Flug von Los Angeles nach New York auf Grund des Rückenwindes in der Regel deutlich kürzer als der entsprechende Flug von New York nach Los Angeles. Doch auch wenn man die Flugdauer für eine ganz bestimmte Flugstrecke betrachtet, kann man deutliche zufällige Schwankungen beobachten. Dies verdeutlicht Tabelle 1.2, die eine Zusammenfassung der 174 verfügbaren Blockzeiten der Flüge von American Airlines von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) im Februar 2006 darstellt. Tabelle 1.2 Blockzeiten der American Airlines Flüge auf der Strecke DFW-PHL im Februar 2006 [150;160] (160;170] (170;180] (180;190] (190;200] (200;210] (210;220] (220;230] (230;240] 7
24
42
54
29
11
5
1
1
Laut Tabelle 1.2 schwankte die Blockzeit der American Airlines Flüge von Dallas nach Philadelphia im Februar 2006 zwischen 150 und 240 Minuten, wobei die meisten Blockzeiten zwischen 180 und 190 Minuten lagen. Laut Flugplan betrug die geplante Blockzeit je nach Verbindung zwischen 180 und 189 Minuten, bei einer Flugstrecke von 1 302 Meilen. Da man normalerweise Informationen aus einer Grafik wesentlich leichter und schneller erfassen kann, sind die Daten aus Tabelle 1.2 in Abb. 1.3 noch einmal als sogenanntes Histogramm dargestellt. Bei der Erstellung eines Histogramms teilt man in der Regel die Häufigkeiten durch die gesamte Zahl an Beobachtungen und durch die Klassenbreite (die Breite des Intervalls) und stellt das Ergebnis dann als Rechteck über dem entsprechenden Intervall dar. Eine detaillierte Beschreibung der Konstruktion von Histogrammen folgt in Kapitel 2. Das Histogramm vermittelt einen guten Eindruck von der Verteilung der Blockzeiten. Zusätzlich ist in Abb. 1.3 noch eine Kurve eingezeichnet. Diese Kurve stellt ein stochastisches Modell zur Beschreibung der Blockzeiten dar und kann als Glättung des Histogramms interpretiert werden. Wie dieses stochastische Modell bestimmt worden ist und ob es die Blockzeiten angemessen beschreibt, wird in späteren Kapiteln noch erläutert. An dieser Stelle soll nur festgehalten werden, dass
6
1 Einführung
Abb. 1.3 Histogramm der Blockzeiten der American Airlines Flüge auf der Strecke DFW-PHL im Februar 2006 und angepasste Normalverteilung
die Blockzeiten zufälligen Schwankungen unterliegen, wobei sie jedoch gewisse Muster aufweisen (viele Beobachtungen in der Mitte, wenige am Rand), die durch ein stochastisches Modell beschrieben werden können. Mit Hilfe dieses Modells ist es dann möglich, bestimmten Beobachtungen Wahrscheinlichkeiten zuzuordnen. Laut dem Histogramm der Blockzeiten, sowie der eingezeichneten Kurve ist es beispielsweise wahrscheinlicher, dass die tatsächliche Blockzeit zwischen 180 und 190 Minuten beträgt, als dass sie unter 160 Minuten oder über 210 Minuten liegt. Was genau eine Wahrscheinlichkeit ist und wie man sie mit Hilfe eines stochastischen Modells bestimmt, wird ebenfalls in den späteren Kapiteln detailliert erläutert. Nach Betrachtung der Beispiele der Schwingungsdauer eines Pendels sowie der Blockzeit eines Linienfluges können wir den Unterschied zwischen deterministischen und stochastischen Modellen folgendermaßen beschreiben:
Treten bei den betrachteten Phänomenen zufällige Schwankungen auf, so ist damit der Begriff Wahrscheinlichkeiten verbunden. Ein stochastisches Modell ist zur Beschreibung erforderlich. Spielen bei den betrachteten Phänomenen zufällige Schwankungen keine Rolle, dann kommt man mit einem deterministischen Modell aus. Hat man es mit Phänomenen zu tun, die durch ein deterministisches Modell beschrieben werden können, dann weiß man genau, wie sich dieses Phänomen unter gegebenen Bedingungen verhält. Der Zusammenhang zwischen den betrachteten Größen ist vollkommen. Keine weiteren Einflüsse als die, die im Modell auftauchen, spielen hinein. Dies ist nicht der Fall, wenn es eine stochastische oder zufällige Variation gibt. Will man ein Phänomen beschreiben, das eine zufällige Variation aufweist, so ist notwendigerweise zu beachten, dass der Zusammenhang zwischen den betrachteten Größen nicht vollkommen ist. Es kommt jetzt darauf an, Begriffe und Maße zu finden, mit denen das Phänomen beschrieben werden kann. Nur dann
1.2 Beispiele stochastischer Probleme und Modelle
7
kann man, unterstützt durch das Modell, fundierte und angemessene Entscheidungen treffen. Viele interessante bzw. bedeutende Phänomene sind von Natur aus eher stochastischer als deterministischer Art, z.B. Phänomene, die die Umwelt, das Wetter, das menschliche Verhalten, die Wirtschaft oder Ähnliches betreffen. Man kann z.B. nicht genau vorhersagen, wie schnell ein Baum in einem Wald wachsen wird, da sein Wachstum von vielen Faktoren abhängt, wie z.B. der Niederschlagsmenge, die wiederum selbst auch nicht exakt vorhergesagt werden kann. Genauso sind • • • • •
das wirtschaftliche Wachstum, die Enwicklung der Arbeitslosigkeit, die Zahl der zukünftigen Auftragseingänge, die Inflationsrate oder der morgige Wechsel- oder Aktienkurs
nicht genau vorherzusagen. Man kann auch nicht wissen, wie potenzielle Käufer auf • • • •
eine bestimmte Werbung, eine neue Verpackung eines Produkts, eine Preisänderung oder eine andere Platzierung eines Produkts innerhalb des Geschäftes oder im Regal
reagieren. Man weiß auch nicht im Voraus, wie eine bestimmte Person auf ein gewisses Medikament reagiert. Solche Phänomene können nur sehr selten durch deterministische Modelle beschrieben werden, da diese Phänomene in der Regel zu komplex sind. Sie werden auf komplizierte Art von vielen unterschiedlichen Faktoren beeinflusst. Häufig kann man jedoch ein stochastisches Modell aufstellen, um damit Wahrscheinlichkeiten anzugeben, dass gewisse Ereignisse eintreten. So wird man sehr selten in der Lage sein, Aussagen der folgenden Art zu machen: Dieses Individuum wird positiv auf die Behandlung reagieren. Mit geeigneten Daten wird es jedoch häufig möglich sein, Aussagen der folgenden Form zu treffen: Mit einer Wahrscheinlichkeit von 0.9 (bzw. 90 %) wird das Individuum positiv auf die Behandlung reagieren. Dies soll anhand der folgenden Beispiele stochastischer Probleme und Modelle verdeutlicht werden.
1.2 Beispiele stochastischer Probleme und Modelle Beispiel 1.3. Aspirin und Herzanfälle Am 27. Januar 1988 lautete eine Schlagzeile auf der ersten Seite der New York Times Heart Attack Risk Found to be Cut by Taking Aspirin. Der zu der Überschrift gehörende Artikel berichtete über die Ergebnisse einer Untersuchung, in der überprüft wurde, ob geringe Dosen Aspirin Herzanfällen bei gesunden Männern mittleren Alters vorbeugen. 22 071 Männer waren zufällig in zwei Gruppen aufgeteilt
8
1 Einführung
Tabelle 1.3 Ergebnisse einer Studie zur Wirkung von Aspirin auf Herzanfälle bei Männern mittleren Alters Personen Herzanfälle Herzanfälle pro 1 000 Personen Aspirin-Gruppe Placebo-Gruppe
11 037 11 034
104 189
9.4 17.1
worden. Eine dieser Gruppen, die Behandlungsgruppe, hatte regelmäßig Aspirin erhalten. Die zweite Gruppe, die Placebogruppe, hatte eine Substanz ohne wirksame Inhaltsstoffe erhalten (man spricht dann von einem Placebo). Es war genau aufgezeichnet worden, wer welche Behandlung erhalten hatte und bei wem im Laufe der Zeit ein Herzanfall aufgetreten war. Dabei wussten weder die Patienten noch die Ärzte, ob es sich bei der verabreichten Substanz um Aspirin oder um ein Placebo handelte. Diese Art von Versuch heißt Doppelblindstudie. Wenn jeder gewusst hätte, mit welcher Substanz er behandelt worden war, so hätte das möglicherweise das Resultat beeinflusst. Tabelle 1.3 enthält eine Zusammenfassung der Ergebnisse der Studie, die in dem Zeitungsartikel veröffentlicht wurden. Es ist klar, dass das Ergebnis dieses Versuchs nicht durch ein deterministisches Modell beschrieben werden kann. Ob ein Mann mittleren Alters einen Herzanfall erleiden wird, hängt nicht einzig und allein davon ab, ob er regelmäßig Aspirin zu sich nimmt oder nicht. Auch andere Faktoren spielen hier eine Rolle. Die Beziehung zwischen der Art der Behandlung und dem Eintreten eines Herzanfalls ist stochastisch. Die Ergebnisse der Studie müssen daher im Kontext eines stochastischen Modells betrachtet werden, auch wenn sie die Vermutung nahe legen, dass die Wahrscheinlichkeit (oder das Risiko), einen Herzanfall zu erleiden, in der AspirinGruppe niedriger ist. Die genannte Wirkung von Aspirin wurde natürlich weiter untersucht. Bevor man also sofort zur Apotheke läuft, um Aspirin zu kaufen, würde es sich lohnen, Berichte über die vielen Ergebnisse von späteren Untersuchungen zu lesen. Dass man mit der Interpretation statistischer Analysen und stochastischer Modelle sehr vorsichtig sein muss, zeigen auch die folgenden beiden Beispiele. Beispiel 1.4. Weinkonsum und Herzkrankheiten Abbildung 1.4a zeigt den Zusammenhang zwischen dem jährlichen Alkoholkonsum in Form von Wein (Liter purer Alkohol / Kopf) und der Todesrate durch Herzkrankheiten (Anzahl Tote / 100 000 Einwohner) für 21 Industrienationen im Jahr 1988, wobei ausgewählten Punkten die entsprechenden Länder zugeordnet sind.2 Die Beobachtungen sowie die an sie angepasste Gerade erwecken den Eindruck, dass sich das Risiko, an einer Herzkrankheit zu sterben, durch erhöhten Weinkonsum deutlich senken lässt. Dies kann man jedoch nicht so einfach sagen, denn aus 2
Die Original-Daten stammen aus dem Artikel Criqui, M.H. and Ringel, B.L. (1994): Does diet or alcohol explain the French paradox? The Lancet 344, December 24/31, 1719-1723. Die genauen Zahlen wurden allerdings aus dem Artikel Wine for the Heart: Over All, Risks May Outweigh Benefits, der am 28. Dezember 1994 auf Seite C10 der New York Times erschien, übernommen.
1.2 Beispiele stochastischer Probleme und Modelle
9
a
b
Abb. 1.4 a Weinkonsum und Herzkrankheiten in 21 Industrienationen mit angepasster Gerade. b Fettkonsum und Brustkrebsrisiko in 39 Nationen mit angepasster Gerade
dem statistischen Zusammenhang folgt nicht automatisch auch ein kausaler Zusammenhang. So kann es beispielsweise völlig andere Gründe dafür geben, dass in Frankreich nur wenige Personen durch Herzkrankheiten sterben, während das Todesrisiko durch Herzkrankheiten in Irland und Großbritannien relativ hoch ist. Außerdem besteht die Möglichkeit, dass der Weinkonsum neben einer eventuellen positiven Wirkung auf das Risiko von Herzkrankheiten auch deutlich negativen Einfluss auf andere gesundheitliche Aspekte hat. Insofern muss man gerade bei der Auswertung und Interpretation aggregierter Daten sehr vorsichtig sein. Man sollte nicht als Haupterkenntnis der ersten Seiten dieses Buches folgern, dass der abendliche Weinkonsum in Verbindung mit der morgendlichen Aspirin-Einnahme nur positive Effekte auf die Gesundheit hat! Ähnlich problematisch ist die Interpretation des folgenden Beispiels. Beispiel 1.5. Fettkonsum und Brustkrebsrisiko Abbildung 1.4b stellt den Zusammenhang zwischen dem täglichen Fettkonsum (in Gramm pro Person) und der jährlichen Anzahl durch Brustkrebs verursachter Todesfälle (pro 100 000 Personen) für 39 Nationen Mitte der 1960er Jahre dar.3 In diesem Fall scheint mit zunehmendem Fettkonsum das Brustkrebsrisiko zu steigen. Allerdings muss man auch hier vorsichtig sein. Es könnte sein, dass das 3
Die Original-Daten wurden zuerst als Grafik in dem Artikel Carroll, K.K. (1975): Experimental Evidence of Dietary Factors and Hormone-Dependent Cancers. Cancer Research 35, 3374-3383, veröffentlicht. Die genauen Zahlen wurden allerdings von der Internetseite http://qrc.depaul.edu/Excel_Files/BreastCancerFatIntake.xls des Quantitative Reasoning Centers der DePaul University heruntergeladen (05. Mai 2008).
10
1 Einführung
Brustkrebsrisiko von völlig anderen Faktoren abhängt oder dass der Fettkonsum mit anderen Faktoren einhergeht, die ursächlich für ein erhöhtes Brustkrebsrisiko sind. Wenn man im Internet nach anderen Studien sucht, die den Zusammenhang zwischen Krebsrisiko und Fettkonsum untersuchen, findet man sehr unterschiedliche Ergebnisse, so dass der kausale Zusammenhang mit der obigen Grafik sicher nicht bewiesen ist. Nachdem die letzten Beispiele eher in der Medizin angesiedelt waren, möchten wir uns im Folgenden wieder den Wirtschaftswissenschaften zuwenden und noch einige Anwendungsbeispiele statistischer Methoden und stochastischer Modelle mit wirtschaftswissenschaftlichem Hintergrund vorstellen. Stochastische Modelle spielen, wie in vielen anderen wirtschaftswissenschaftlichen Bereichen, auch in der betrieblichen Finanzwirtschaft eine wichtige Rolle. Jeder hat sicherlich schon von Begriffen wie Risikomanagement, Volatilität oder Value at Risk gehört oder gelesen. Ein Aspekt, der diese Begriffe verbindet, ist das stochastische Verhalten der Wertpapierkurse, die durch entsprechende Modelle abgebildet werden können. Nicht geeignet sind in diesem Fall deterministische Modelle. Die Kurse an allen Aktienmärkten der Welt unterliegen einer Vielzahl von Einflüssen. Da eine deterministische Erfassung und Auswertung aller Einflüsse unmöglich ist, müssen die Kursschwankungen durch ein stochastisches Modell beschrieben werden. Im Folgenden werden einige Möglichkeiten der statistischen Analyse von Aktienkursen vorgestellt. Beispiel 1.6. Entwicklung von Aktienkursen In Abb. 1.5 ist die Entwicklung des Deutschen Aktienindex (DAX) sowie des Aktienkurses der Deutsche Bank Aktie von Anfang 2006 bis Ende 2007 dargestellt.4 Ein Ausschnitt der Kurse ist in Tabelle 1.4 gegeben. Tabelle 1.4 Schlusskurse des DAX und der Deutsche Bank Aktie in den Jahren 2006 und 2007 Datum 02. Jan 06 03. Jan 06 04. Jan 06 05. Jan 06 06. Jan 06 09. Jan 06 10. Jan 06 11. Jan 06 12. Jan 06 13. Jan 06 .. .
4
DAX
Deutsche Bank
5 449.98 5 460.68 5 523.62 5 516.53 5 536.32 5 537.11 5 494.71 5 532.89 5 542.13 5 483.09 .. .
81.93 81.74 83.47 83.50 84.24 84.55 84.70 86.71 86.78 85.64 .. .
Datum .. . 12. Dez 07 13. Dez 07 14. Dez 07 17. Dez 07 18. Dez 07 19. Dez 07 20. Dez 07 21. Dez 07 27. Dez 07 28. Dez 07
DAX
Deutsche Bank
.. . 8 076.12 7 928.31 7 948.36 7 825.44 7 850.74 7 837.32 7 869.19 8 002.67 8 038.60 8 067.32
.. . 91.16 88.75 89.15 87.79 87.73 87.45 87.15 87.87 89.14 89.40
Historische Kurse findet man auf vielen Seiten im Internet. Die hier verwendeten Daten wurden am 28. April 2008 auf der Seite http://de.finance.yahoo.com/ abgefragt und beziehen sich auf das elektronische Handelssystem XETRA.
1.2 Beispiele stochastischer Probleme und Modelle
11
Abb. 1.5 Zeitliche Entwicklung des DAX und des Aktienkurses der Deutschen Bank in den Jahren 2006 und 2007
Der DAX ist der wichtigste deutsche Aktienindex. Ein Aktienindex stellt einen Maßstab dar, der die generelle Entwicklungsrichtung des Aktienmarktes beschreibt und an dem die Entwicklung einzelner Aktien gemessen werden kann. Der DAX wird als gewichteter Durchschnitt der Kurse der bedeutendsten deutschen Aktien berechnet. Er wurde zum 01.01.1988 mit einem Basiswert von 1000 Punkten eingeführt; der aktuelle Wert des DAX beschreibt somit die Entwicklung des deutschen Aktienmarktes im Vergleich zu diesem Datum. In die Berechnung des DAX gehen 30 wichtige deutsche Aktienwerte aus den Technologie- und klassischen Branchen ein, wobei als Auswahlkriterien für die Aufnahme der Börsenumsatz und die Marktkapitalisierung (Produkt aus der Anzahl frei verfügbarer Aktien und dem Aktienkurs) dienen. Detailliertere Informationen zum DAX folgen in Abschnitt 13.2.3. Die Aktie der Deutschen Bank gehört zu den 30 Aktien, die aktuell in die Berechnung des DAX eingehen; am 28.12.2007 betrug ihr Gewicht bei der Berechnung 5.63 %. Da der Aktienkurs der Deutschen Bank den Stand des DAX direkt beeinflusst, ist es nicht überraschend, dass sich der Aktienkurs der Deutschen Bank und der DAX im Betrachtungszeitraum ähnlich entwickelt haben. Man sieht jedoch vor allem in der rechten Hälfte der jeweiligen Grafiken, dass es auch Phasen gibt, in denen sich die beiden Kurse gegensätzlich entwickeln. Dies ist in diesem Fall vermutlich darauf zurückzuführen, dass die Deutsche Bank vom Beginn der Finanzkrise im Jahr 2007 deutlich stärker betroffen war als der Aktienmarkt allgemein. Einen weiteren Einblick in ein Detail der Kursentwicklung der Deutsche Bank Aktie vermittelt Abb. 1.6, in der die (nicht in Tabelle 1.4 angegebenen) Eröffnungskurse der Deutsche Bank Aktie des oben genannten Zeitraums gegen die Schlusskurse des jeweiligen Vortags abgetragen sind.
1 Einführung
€
12
€
Abb. 1.6 Eröffnungskurs der Deutsche Bank Aktie und Schlusskurs am Vortag in den Jahren 2006 und 2007
Wie man erkennt, liegen die meisten Punkte sehr dicht an der eingezeichneten Winkelhalbierenden, d.h. fast immer sind Schlussstand und nachfolgender Eröffnungsstand nahezu identisch. In den Formulierungen fast immer und nahezu spiegelt sich der Zufall wider. Nahezu bedeutet, dass der Eröffnungskurs mal ein wenig über, mal ein wenig unter dem Schlusskurs des Vortages liegt. Fast immer bedeutet das, dass es auch Fälle geben kann, in denen der grundsätzliche Zusammenhang zwischen Eröffnungskurs und vorherigem Schlusskurs nicht gilt. In Abb. 1.6 sind zwei Punkte besonders gekennzeichnet, bei denen der Eröffnungskurs besonders stark vom Schlusskurs des Vortages abweicht. Am 16. August 2007 lag der Eröffnungskurs der Deutsche Bank Aktie fast 4 % unter dem Schlusskurs des Vortages, während er am 19. September 2007 rund 5 % oberhalb des vorangegangenen Schlusskurses lag. Im Nachhinein ist es manchmal möglich, die Ursache solcher „Störungen“ zu bestimmen, beispielsweise Ankündigungen eines Unternehmens, politische Entwicklungen oder auch technische Fortschritte (z.B. in der Biotechnologie). So lag die Ursache für den niedrigen Eröffnungskurs am 16. August 2007 vermutlich in den starken Kursverlusten an den Börsen in den USA und Asien während der Nacht zuvor, und der Eröffnungskurs am 19. September 2007 war wohl eine Folge der Ankündigung einer Zinssenkung durch die US-Notenbank am Vorabend.5 Das Problem aus Anlegersicht ist, dass derartige Geschehnisse nicht im Voraus bekannt sind bzw. sich deren Auswirkungen auf die Kursentwicklung nicht exakt abschätzen lassen. Trägt man den Eröffnungsstand gegen den Schlussstand des vor5
Vergleiche den Artikel DAX kommt unter die Räder auf der Seite http://www.sueddeutsche.de/ finanzen/artikel/494/128284/article.html sowie den Artikel DAX startet nach Zinssenkung mit Kurssprung unter http://www.focus.de/finanzen/boerse/aktien/boerse-am-morgen_aid_133236.html (Download am 29. April 2008).
1.2 Beispiele stochastischer Probleme und Modelle
13
letzten Tages ab (Abb. 1.7a), sind die Punkte sogar noch weiter von der Winkelhalbierenden entfernt als in Abb. 1.6. Noch stärker sind die Abweichungen, wenn drei weitere Tage zwischen Eröffnungs- und Schlussstand liegen (Abb. 1.7b).
Abb. 1.7 Eröffnungskurs der Deutsche Bank Aktie in den Jahren 2006 und 2007 und Schlusskurs a zwei Tage und b fünf Tage zuvor
Die Abbildungen 1.6 und 1.7 verdeutlichen, dass bei der Verwendung des Schlusskurses der Aktie an einem bestimmten Tag zur Vorhersage des Eröffnungskurses an einem zukünftigen Tag die Unsicherheit wächst, je weiter man in die Zukunft prognostiziert. Während Abb. 1.6 einen nahezu deterministischen Zusammenhang zeigt, sind die Zusammenhänge in Abb. 1.7 stochastischer Natur. Je weiter eine Prognose in die Zukunft weist, desto länger ist der Zeitraum, in dem verschiedenste Ereignisse die Kurse in eine zum Zeitpunkt der Prognose unvorhersehbare Richtung lenken. Dieses Verhältnis zwischen Zukunftszeitraum und Unsicherheit stellt (neben vielen anderen Phänomenen) ein Phänomen dar, das mit Hilfe statistischer Methoden analysiert werden kann.
14
1 Einführung
Eine andere Möglichkeit, den Aktienkurs der Deutsche Bank Aktie zu betrachten, stellen die täglichen Renditen dar, d.h. die täglichen Veränderungen in Prozent. Am 03.01.2006 beispielsweise betrug laut Tabelle 1.4 der Schlusskurs der Deutsche Bank Aktie 81.74 e; für den nächsten Tag wurde er mit 83.47 e angegeben. Für die prozentuale Veränderung, also die tägliche Rendite, ergibt sich demnach: einfache Rendite = 100 ·
(83.47 − 81.74) ≈ 2.12 % 81.74
Der Kurs der Aktie ist also am 04.01.2006 um 2.12 % gestiegen. Alternativ zu den soeben betrachteten Renditen werden in der Statistik oft die sogenannten kontinuierlichen Renditen berechnet. Diese stellen den Logarithmus des Verhältnisses aus dem Schlusskurs am betrachteten Tag und dem des Vortages, multipliziert mit 100, dar: kontinuierliche Rendite = 100 · log
83.47 81.74
≈ 2.09 %
Dieser Wert liegt sehr nah bei der einfachen Rendite. Es kann gezeigt werden, dass dies immer gilt, wenn die Renditen hinreichend klein sind. Abbildung 1.8 zeigt ein Histogramm der (kontinuierlichen) Renditen der Deutsche Bank Aktie für den betrachteten Zeitraum. Man erkennt, dass die Renditen in den Jahren 2006 und 2007 im Bereich von −6% bis 6% lagen und eine steigende Häufigkeit für Werte festzustellen ist, die näher bei Null liegen. Wie bei der Blockzeit in Abb. 1.3 stellt die in Abb. 1.8 enthaltene Kurve ein stochastisches Modell dar. Sie kann wiederum als Glättung des Histogramms betrachtet werden. Diese Kurve gibt einen Hinweis darauf, wie die Renditen in dem betrachteten Zeitraum verteilt sind. Wie bereits erwähnt, wird die Konstruktion solcher Modelle und ihre Überprüfung in späteren Kapiteln detailliert erläutert. Zu diesem Zeitpunkt bleibt festzuhalten:
Abb. 1.8 Kontinuierliche Tagesrenditen der Deutsche Bank Aktie in den Jahren 2006 und 2007 mit angepasster Normalverteilung
1.2 Beispiele stochastischer Probleme und Modelle
15
• Die Renditen sind nicht deterministisch. Sie variieren zufällig. • Die Renditen zeigen bestimmte Muster, z.B. sind Werte nahe Null am häufigsten, und die Häufigkeit nimmt ab, je weiter die Renditen von Null entfernt sind. Obwohl die Renditen zufällig variieren, kann man sehen, dass gewisse Aussagen über ihr Verhalten dennoch möglich sind. Wie brauchbare Aussagen aus vorliegenden Daten gebildet und interpretiert werden können, ist eines der zentralen Themen dieses Buches. Auch die Beziehung zwischen der Entwicklung der Deutsche Bank Aktie und der Entwicklung des DAX kann mit Hilfe statistischer Methoden untersucht werden. Weiter oben wurde bereits erwähnt, dass ein Aktienindex als Maßstab dient, an dem die Kursentwicklung einzelner Aktien gemessen werden kann. Eines der bekanntesten Modelle der Finanzwirtschaft ist das Capital Asset Pricing Model (CAPM). Im CAPM werden die Renditen einzelner Aktien mit der sogenannten Marktrendite verglichen, die zum Beispiel durch die Entwicklung eines Aktienindex gemessen werden kann. In Abb. 1.9 sind die (kontinuierlichen) täglichen Renditen der Deutsche Bank Aktie gegen die entsprechenden Renditen des DAX abgetragen. Es ist gut zu erkennen, dass es einen Zusammenhang zwischen den jeweiligen Renditen gibt, allerdings weicht dieser Zusammenhang tendenziell von der Winkelhalbierenden ab. Die Renditen der Deutsche Bank Aktie scheinen deutlicher zu schwanken als die des DAX; während die Renditen des DAX nur selten außerhalb des Intervalls [−2% ; 2%] liegen, kommen bei den Renditen der Deutsche Bank Aktie wesentlich häufiger extremere Werte vor. Dies wird auch durch die angepasste Gerade verdeutlicht, die für eine gegebene DAX-Rendite eine etwas extremere Rendite für die Deutsche Bank Aktie vorhersagt. In Kapitel 11 wird im Rahmen der Regressionsanalyse noch einmal auf die Analyse des Zusammenhangs zwischen Deutsche Bank Rendite und DAX-Rendite,
Abb. 1.9 Kontinuierliche Renditen der Deutsche Bank Aktie und des DAX in den Jahren 2006 und 2007 und angepasste Gerade
16
1 Einführung
sowie die Berechnung und Interpretation der Geraden zur Beschreibung des Zusammenhangs eingegangen. Die Kurse bzw. Börsenindizes der Aktienmärkte sind nur ein Beispiel für stochastische Phänomene in der Finanzwelt. Es gibt viele andere Risiken/Unsicherheiten, beispielsweise Risiken, die sich aus Veränderungen bei Währungspreisen oder Zinsen ergeben. Banken und andere Kreditinstitute sollten zum Beispiel das Risiko von Kreditausfällen bei der Durchführung ihrer Geschäfte berücksichtigen. Ein weiterer Bereich, in dem stochastische Modelle eine bedeutende Rolle spielen, ist der Versicherungsbereich. Das Wesentliche an einem Versicherungsgeschäft ist die Kompensation eines Schadens im Schadensfall. Daher müssen Versicherungen mögliche Risiken und damit verbundene Schäden sorgfältig quantifizieren. Wie sonst könnte eine Versicherung ihre Versicherungsprämien kalkulieren? Beispielsweise müssen Versicherungen abschätzen, mit welcher Wahrscheinlichkeit eine Person erkrankt (Krankenversicherung) oder mit welcher Wahrscheinlichkeit ein Autofahrer einen Unfall verursacht (Kfz-Haftpflichtversicherung). Sogar für Weltraumfahrzeuge müssen derartige Überlegungen angestellt werden, wenn sich eine Versicherung in diesem Zweig behaupten will. Besonders große Probleme ergeben sich für Versicherungen und Rückversicherer aus Naturkatastrophen, deren Anzahl in den letzten Jahren zugenommen zu haben scheint. Daher ist es für Versicherungen von großem Interesse, das Risiko des Auftretens solcher Katastrophen mit Hilfe statistischer Methoden abzuschätzen. Beispiel 1.7. Erdbeben und Tsunamis Abbildung 1.10 zeigt Histogramme der Zeit zwischen den weltweit im Zeitraum 1982–2002 registrierten Tsunamis (oben), sowie der Zeit zwischen den weltweit im Zeitraum 1973–2007 registrierten Erdbeben der Stärke 7.0 oder größer (unten), jeweils in Tagen.6 Es fällt auf, dass beide Grafiken eine sehr ähnliche Struktur haben. Sowohl zwischen Tsunamis als auch zwischen starken Erdbeben vergehen sehr häufig nur wenige Tage, während längere Zeiträume zwischen jeweils zwei aufeinander folgenden Ereignissen nur sehr selten vorkommen. Wie bei den bereits in den vorherigen Beispielen betrachteten Histogrammen, wurde auch hier versucht, die Daten jeweils mit Hilfe eines stochastischen Modells zu „glätten“. In Kapitel 6 wird die zu Grunde liegende Modellfamilie näher vorgestellt. Dabei wird auch aufgezeigt, dass es weitere Phänomene gibt, deren Histogramme diesen typischen exponentiell fallenden Verlauf aufweisen. In direktem Zusammenhang mit der Zeit, die zwischen zwei Erdbeben (oder zwei Tsunamis) vergeht, steht die Anzahl in einem bestimmten Zeitraum auftretender Erdbeben (oder Tsunamis). In Abb. 1.11 ist die Anzahl monatlich beobachteter Erdbeben der Stärke 7.0 dargestellt. Dieser Abbildung liegen dieselben Daten zu Grunde wie dem obigen Histogramm der Zeit zwischen zwei Erdbeben. 6 Die Tsunami-Daten wurden aus dem 2003 erschienen Heft 1 des Jahrgangs 21 der Zeitschrift Science of Tsunami Hazards entnommen. Die Erdbeben-Daten werden vom National Earthquake Information Center des U.S. Geological Survey auf der Internetseite http://neic.usgs.gov/neis/epic/epic_global.html zur Verfügung gestellt (Download am 25.04.2008).
17
Klassenbreite
1.2 Beispiele stochastischer Probleme und Modelle
Klassenbreite
a
b
Abb. 1.10 a Tage zwischen den weltweit im Zeitraum 1982–2002 beobachten Tsunamis und angepasste Exponentialverteilung. b Tage zwischen den weltweit im Zeitraum 1973–2007 beobachteten Erdbeben der Stärke 7.0 oder größer und angepasste Exponentialverteilung
Abb. 1.11 Anzahl monatlicher Erdbeben der Stärke 7.0 oder größer im Zeitraum 1973–2007 und angepasste Poissonverteilung
Insgesamt wurden von Anfang 1973 bis Ende 2007 weltweit 532 Erdbeben registriert, die eine Stärke von 7.0 oder größer hatten. Für die jeweilige Anzahl an Erdbeben pro Monat ist die entsprechende beobachtete Häufigkeit als schwarze Säule eingetragen. Beispielsweise gab es 127 Monate, in denen kein starkes Erdbeben auftrat. Man nennt diesen Abbildungstyp Säulen- oder Balkendiagramm. Die grauen Balken, die jeweils an die schwarzen Balken grenzen, repräsentieren ein stochastisches Modell (eine Poissonverteilung), das an die Daten angepasst wurde und die Anzahl monatlicher Erdbeben beschreiben soll. Wie ein solches Modell
18
1 Einführung
ermittelt wird und ob es die Daten angemessen beschreibt, wird in späteren Kapiteln noch behandelt. Dann wird man auch verstehen, welchen unmittelbaren Zusammenhang es zwischen dem Modell für die Zeit zwischen zwei Erdbeben und dem Modell für die Anzahl von Erdbeben gibt. Es gäbe noch viele weitere Beispiele aus den Geowissenschaften (oder auch Ingenieurwissenschaften), die auch wirtschaftswissenschaftliche Relevanz haben. Will man zum Beispiel Brücken oder Staudämme bauen, so muss man etwas über das Auftreten extremer Belastungen, d.h. abnormal hoher Wasserstände wissen. Man baut so, dass Belastungen bis zu einer bestimmten Grenze ausgehalten werden können. Es ist unmittelbar einleuchtend, dass hohe Belastungen, also hohe Wasserstände, zufällig auftreten. Statistische Methoden können daher helfen, das Risiko und die Höhe extremer Belastungen zu quantifizieren. Statistische Methoden werden auch eingesetzt, um abzuschätzen, ob ein Goldvorkommen (oder auch eine Ölquelle) wirtschaftlich ausbeutbar ist. Man untersucht beispielsweise den Goldgehalt vorhandener Erzproben und zieht dann Rückschlüsse auf den gesamten Goldgehalt einer potenziellen Mine. Auch im Marketing spielen statistische Methoden eine große Rolle. Beispielsweise wird im Marketing mit Hilfe von Marktforschungsstudien abgeschätzt, auf welchen Märkten noch Chancen bestehen, wie sich bestimmte Werbemaßnahmen auswirken oder auf welche Produkteigenschaften Konsumenten wie reagieren. Ein Produktmerkmal, dass bei sehr vielen Produkten einen großen Einfluss auf den Absatz hat, ist der Preis, wie das folgende Beispiel verdeutlicht. Beispiel 1.8. Preis und Absatz von Traubensaft In diesem Beispiel wird ein Datensatz betrachtet, der Informationen über die wöchentlichen Verkaufszahlen einer bestimmten Traubensaft-Sorte in einem bestimmten Supermarkt im Großraum Chicago im Zeitraum zwischen Juli 1992 und Juni 1996 in Abhängigkeit vom Verkaufspreis enthält.7 Der Zusammenhang zwischen Verkaufspreis und Verkaufsmenge ist in Abb. 1.12 dargestellt. Die zusätzlich eingezeichnete Gerade ist die sogenannte Preis-Absatz-Funktion, die den prinzipiellen Zusammenhang zwischen dem Verkaufspreis und der Absatzmenge beschreibt. Es ist offensichtlich, dass die tatsächlichen Verkaufszahlen stark um die Preis-Absatz-Funktion schwanken, allerdings kann mit Hilfe der Geraden in etwa die durchschnittliche wöchentliche Verkaufsmenge für einen vorgegebenen Preis abgelesen werden. Wie man eine solche Preis-Absatz-Funktion bestimmen kann, wird im Rahmen der Regressionsanalyse in Kapitel 11 näher erläutert. Die Regressionsanalyse findet auch im folgenden Beispiel Anwendung, das vielleicht für einige Leser auch von privatem Interesse ist. 7
Der hier verwendete Datensatz stellt einen kleinen Ausschnitt der Scanner-Daten dar, die in der Dominick’s Database des Kilts Centers for Marketing der Chicago Graduate School of Business auf der Internetseite http://research.chicagogsb.edu/marketing/databases/index.aspx zur Verfügung gestellt werden (Stand 29.08.2008). Aus diesen Scanner-Daten wurden ein Supermarkt und ein Produkt ausgewählt. Außerdem wurden die Daten auf diejenigen Wochen beschränkt, in denen es keine besonderen Promotions-Aktivitäten für die gewählte Traubensaft-Sorte gab, damit man einen möglichst unverfälschten Eindruck vom Einfluss des Preises erhält.
1.2 Beispiele stochastischer Probleme und Modelle
19
Abb. 1.12 Preis und Absatz eines Traubensaft-Produktes sowie angepasste Gerade
Beispiel 1.9. Verkaufspreis bei Online-Auktionen Wir betrachten einen Datensatz, der Beobachtungen aller Auktionen neuer Handys vom Modell Nokia 8310 auf der Online-Plattform www.ricardo.ch von Oktober 2001 bis Januar 2002 enthält.8 Dabei werden nur diejenigen Auktionen berücksichtigt, bei denen genau ein neues Handy angeboten wurde und die erfolgreich, d.h. mit einem Verkauf, abgeschlossen wurden. Abbildung 1.13a stellt die Entwicklung des Maximalgebotes (in Schweizer Franken, CHF) im Lauf der Zeit (beginnend mit dem Tag der ersten beobachteten Auktion) dar. Es wird deutlich, dass das Maximalgebot tendenziell mit der Zeit sinkt. Das bedeutet, dass die höchsten Preise im Durchschnitt im Oktober 2001 erzielt wurden, als das Handy-Modell gerade auf den Markt kam; anschließend gingen die Preise degressiv zurück. Diese Aussage wird durch die eingezeichnete Kurve unterstützt, die wie bei vorangegangenen ähnlichen Beispielen, wieder ein stochastisches Modell darstellt, das den Zusammenhang zwischen Zeit und Maximalgebot beschreibt. Diese Kurve wurde unter Ausschluss des „Ausreißers“ mit einem Maximalgebot von 800 CHF ermittelt; mit Einschluss dieser Beobachtung sähe ihr Verlauf auffallend anders aus. Abbildung 1.13b verdeutlicht einen anderen Aspekt der Daten. Sie stellt das Maximalgebot in Abhängigkeit vom Wochentag mit sogenannten Boxplots dar. 50% der Maximalgebote für einen gegebenen Wochentag liegen innerhalb der jeweiligen Box; außerdem kennzeichnet der Querstrich in der Box den Gebotspreis, der die Beobachtungen dieses Wochentages so teilt, dass 50% der Maximalgebote kleiner oder gleich diesem Wert und die anderen 50% dementsprechend größer oder gleich diesem Wert sind. Außerdem sagt die Breite der Boxplots etwas über die Anzahl der Beobachungen aus, d.h. je breiter die Box, desto mehr Auktionen endeten am 8
Die Daten wurden in dem Artikel Diekmann, A. und Wyder, D. (2002): Vertrauen und Reputationseffekte bei Internet-Auktionen. Kölner Zeitschrift für Soziologie und Sozialpsychologie 54(4), 674-693 im Hinblick auf Reputationseffekte analysiert und stehen auf der Internetseite http://www.socio.ethz.ch/research/datafiles/ der Professur für Soziologie der ETH Zürich zur Verfügung (Download am 25.04.2008).
20
1 Einführung
Abb. 1.13 Maximalgebot bei Online-Auktionen des Handy-Modells Nokia 8310 auf www.ricardo.ch von Oktober 2001 bis Januar 2002 in Abhängigkeit von a der Zeit seit dem ersten Angebot und b vom Wochentag
entsprechenden Wochentag. Die genaue Konstruktion solcher Boxplots wird in Kapitel 2 näher erläutert. Durch die Darstellung wird beispielsweise deutlich, dass das Maximalgebot dienstags tendenziell niedriger war als montags, oder dass das Maximalgebot sonntags stärker schwankte als samstags. Es kann jedoch auch sein, dass diese Eindrücke durch rein zufällige Schwankungen entstanden sind und nicht „nachweisbar“ auf den Einfluss des Wochentages zurückgeführt werden können. In Kapitel 12 wird eine Methode vorgestellt, mit der der Einfluss des Wochentages auf das Maximalgebot überprüft werden kann. Beispiel 1.10. Anrufe in einem Call-Center Heutzutage sind interne oder externe Call-Center, die Anrufe von Kunden entgegen nehmen und Fragen beantworten oder Aufträge zur Bearbeitung weiterleiten, weit verbreitet. Dabei kann einerseits ein langes oder häufiges Verbleiben des Kunden in einer Warteschleife, bis ein freier Call-Center-Mitarbeiter zur Verfügung steht, ein Ärgernis darstellen, dass die Zufriedenheit des Kunden mit der Service-Qualität des entsprechenden Unternehmens stark negativ beeinflusst. Andererseits verursacht jedoch jeder weitere Mitarbeiter in einem Call-Center neue Kosten. Aus diesem Grund müssen die personellen Ressourcen in einem CallCenter möglichst effizient geplant werden. Zu diesem Zweck können als Planungsgrundlage historische Anrufdaten mit Hilfe statistischer Methoden ausgewertet werden.
1.2 Beispiele stochastischer Probleme und Modelle
21
In diesem Beispiel werden Daten untersucht, die Informationen zu den Anrufen im Call-Center einer anonymen israelischen Bank im Januar 1999 enthalten.9 Dabei wird zunächst nur die Anzahl eintreffender Anrufe pro 5-Minuten-Intervall am Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr betrachtet. Dieser Tag wurde zufällig ausgewählt, das Zeitintervall dagegen bewusst, da die Anrufe in diesem Intervall relativ gleichmäßig auf die einzelnen Stunden verteilt waren, während in den Stunden vor und nach dem betrachteten Intervall deutlich weniger Anrufe eintrafen. Insgesamt wurden in dem gegebenen Intervall 711 Anrufe registriert. Die Häufigkeiten der beobachteten Anrufzahlen der 5-Minuten-Intervalle sind in Tabelle 1.5 gegeben. In Abb. 1.14a sind diese Häufigkeiten als Säulendiagramm dargestellt. Für die jeweilige Anzahl an Anrufen pro 5-Minuten-Intervall ist die entsprechende beobachtete Häufigkeit als schwarze Säule eingetragen, während die grauen Säulen ein stochastisches Modell repräsentieren, das an die Daten angepasst wurde (eine Poissonverteilung). Neben der Anzahl eintreffender Anrufe ist auch die Dauer der einzelnen Telefonate entscheidend für die Anzahl benötigter Call-Center-Mitarbeiter. Abbildung 1.14b zeigt daher ein Histogramm der Anrufdauer (in Sekunden) derjenigen 590 Anrufe, die tatsächlich von einem Call-Center-Mitarbeiter bedient wurden (die anderen Anrufer sind von einem Computer bedient worden oder haben vorher bereits aufgelegt; außerdem wurde ein extrem hoher Wert von der weiteren Analyse ausgeschlossen). Die Häufigkeiten sind in Tabelle 1.6 enthalten. Wenn man die Tabelle mit dem Histogramm vergleicht, fällt auf, dass das Histogramm bei 800 Sekunden abgeschnitten ist, obwohl 14 Anrufe zwischen 800 und 1 400 Sekunden gedauert haben (der längste beobachtete Anruf hatte eine Länge von 1 354 Sekunden). Diese extrem langen Anrufe wären in dem Histogramm kaum zu erkennen gewesen, so dass das Histogramm so beschränkt wurde, dass der linke Teil des Histogramms etwas größer dargestellt werden kann. Für praktische Anwendungen (sowie für die Auswahl eines potenziellen stochastischen Modells) können diese extremen Beobachtungen allerdings von großer Bedeutung sein. Eventuell ist es wichtig zu wissen, wie oft extrem lange Anrufe auftreten. Dann kann wie folgt vorgegangen werden, um das durchschnittliche Auftreten langer Anrufdauern zu bestimmen. Aus Tabelle 1.6 kann man ablesen, dass 14
Tabelle 1.5 Anzahl der Anrufe pro 5-Minuten-Intervall im Call-Center einer israelischen Bank am Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr
9
Anzahl Anrufe
4 5 6 7 8 9 10 11 12 13 14 15 16
Summe
Häufigkeit
6 8 11 13 11 3 9 8 6 4 3 1 1
711
Die Daten werden (ebenso wie weitere Daten für das gesamte Jahr 1999) von Prof. Avishai Mandelbaum vom Technion — Israel Institute of Technology auf der Internetseite http://iew3.technion.ac.il/serveng/callcenterdata/index.html zur Verfügung gestellt (Download am 25.04.2008) und umfassen unter anderem den Zeitpunkt, an dem ein Anruf im Call-Center eintrifft, sowie den Zeitpunkt, zu dem der Anruf beendet wurde.
22
1 Einführung
Abb. 1.14 Anrufe im Call-Center einer israelischen Bank am Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr. a Anzahl der Anrufe pro 5-Minuten-Intervall und Poissonverteilung. b Dauer der angenommenen Anrufe und Exponentialverteilung Tabelle 1.6 Dauer der von einem Mitarbeiter im Call-Center einer israelischen Bank am Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr bedienten Anrufe (Sekunden) [0;100] (100;200] (200;300] (300;400] (400;500] (500;600] (600;700] (700;800] (800;1 400] 271
160
65
36
18
15
9
2
14
von 590 Anrufen eine Dauer von mehr als 800 Sekunden hatten. Wenn man davon ausgeht, dass der beobachtete Zeitraum typisch für das Call-Center war, kann man sagen, dass im Durchschnitt 14/590 · 100% ≈ 2.4% aller Anrufe extrem lang dauern. Dann würde man erwarten, dass im Schnitt ungefähr jeder 42. Anruf extrem lang ist. Bei der Interpretation einer solchen Aussage muss man allerdings vorsichtig sein, denn sie bedeutet nicht, dass regelmäßig jeder 42. Anruf extrem lang dauert. Direkt nach einem langen Anruf kann man nicht sagen: Jetzt haben wir 40 Anrufe lang Ruhe. Es handelt sich um eine Aussage über zufällige Ereignisse. Man kann nicht sagen, wann gewisse genau bestimmte Ereignisse eintreten werden, sondern nur die Wahrscheinlichkeiten angeben, mit denen sie auftreten. Es sollen aber auch noch einmal die nicht so extremen Beobachtungen betrachtet werden, die im Histogramm der Anrufdauer in Abb. 1.14 dargestellt sind. Man erkennt deutlich, dass fast die Hälfte aller Anrufe zwischen 0 und 100 Sekunden gedauert hat. Darüber hinaus nimmt die Anzahl beobachteter Anrufe mit zunehmender Anrufdauer ab. Auch hier wurde versucht, ein stochastisches Modell zu
1.2 Beispiele stochastischer Probleme und Modelle
23
finden, das die beobachteten Daten angemessen beschreibt; es wurde wiederum als Kurve über das Histogramm gezeichnet (hier eine Exponentialverteilung). Mit Hilfe dieses Modells könnte man jetzt noch genauere Aussagen über das Auftreten extrem langer oder auch extrem kurzer Anrufe treffen, als es mit den Häufigkeiten der Fall war (Voraussetzung ist allerdings, dass das Modell die Daten angemessen beschreibt). An dieser Stelle könnte aber noch auffallen, dass die Grafiken in Abb. 1.14 eine gewisse Ähnlichkeit mit den Erdbeben-Grafiken in den Abbildungen 1.10 und 1.11 aufweisen. Dies ist kein Zufall, denn wie sich später noch zeigen wird, liegt in beiden Fällen vermutlich ein ähnlicher stochastischer Prozess zu Grunde. Bisher haben wir Beispiele mit eher betriebswirtschaftlichem Bezug betrachtet. Es gibt jedoch auch viele volkswirtschaftliche Anwendungsmöglichkeiten statistischer Methoden. Die Disziplin, die sich mit der Anwendung statistischer Methoden auf volkswirtschaftliche Fragestellungen beschäftigt, hat sogar einen eigenen Namen: Ökonometrie. Ökonometriker untersuchen beispielsweise, ob es einen Zusammenhang zwischen der Inflationsrate und der Arbeitslosenquote gibt (wie er von der sogenannten Phillips-Kurve unterstellt wird) oder ob sich die Hartz-Gesetze tatsächlich positiv auf den Arbeitsmarkt ausgewirkt haben. Beispiel 1.11. Entwicklung der Arbeitslosenquote in Deutschland Es ist sicherlich weithin bekannt, dass die Arbeitslosenquote in Deutschland starken Saison-Schwankungen unterliegt. So ist die Arbeitslosenquote im Winter in der Regel deutlich höher als im Sommer, weil beispielsweise viele Arbeitnehmer im Baugewerbe vorübergehend entlassen werden. Abbildung 1.15 verdeutlicht dies durch die Darstellung der zeitlichen Entwicklung der monatlichen Arbeitslosenquote in Deutschland (in % aller Erwerbspersonen) von Anfang 2002 bis Ende 2007.10
Abb. 1.15 Zeitliche Entwicklung der monatlichen Arbeitslosenquote in Deutschland von Januar 2002 bis Dezember 2007
10
Die Arbeitslosenquoten wurden am 25. April 2008 auf der Internetseite https://www-genesis. destatis.de/genesis/online/logon des statistischen Informationssystems GENESIS-Online des Statistischen Bundesamtes abgefragt.
24
1 Einführung
Wenn man die Entwicklung einer Größe mit der Zeit betrachtet, spricht man auch von einer Zeitreihe. Die Zeitreihe der Arbeitslosenquote zeigt das erwartete saisonale Muster. Darüber hinaus scheint sie aber auch einen Trend aufzuweisen, der bis 2005 langsam ansteigt und danach wieder relativ stark abnimmt. Im Rahmen der Zeitreihenanalyse (Kapitel 13) werden einfache Methoden vorgestellt, mit denen man solche Zeitreihen untersuchen kann. An dieser Stelle soll abschließend noch ein Beispiel aus der Qualitätskontrolle betrachtet werden, das im weiteren Verlauf des Buches mehrfach verwendet wird. Beispiel 1.12. Brenndauer von Glühbirnen Tabelle 1.7 gibt die Brenndauer (in Stunden) von 30 Glühbirnen (40 Watt) an, die im Rahmen einer Qualitätskontrolle untersucht wurden.11 Eine Einteilung der Brenndauern in Intervalle ist Tabelle 1.8 zu entnehmen. In Abb. 1.16 sind die Daten grafisch dargestellt. Die Striche am unteren Rand der Grafik kennzeichnen, bei welchen Werten die beobachteten Brenndauern lagen. Die glatte Kurve stellt wieder ein stochastisches Modell dar (eine Normalverteilung), das an die Daten angepasst wurde. Wie bereits mehrfach erwähnt, werden im Laufe dieses Buches Methoden vorgestellt, mit deren Hilfe man Modelle anpassen und interpretieren kann. Tabelle 1.7 Brenndauer von 30 Glühbirnen (Stunden) 699 756 814 827 863 889 924 956 1 003 1 028 1 049 1 055 1 058 1 061 1 063 1 068 1 085 1 134 1 160 1 178 1 197 1 204 1 222 1 252 1 255 1 262 1 303 1 310 1 550 1 562
Tabelle 1.8 Brenndauer von 30 Glühbirnen (Stunden), gruppiert [600;800] (800;1 000] (1 000;1 200] (1 200;1 400] 2
6
13
7
(1 400;1 600] 2
Es soll nun die folgende Frage betrachtet werden: Wie groß ist die Brenndauer einer Glühbirne dieser Art? Es gibt keine einfache Antwort auf diese Frage. Diese Frage lässt sich nämlich nicht durch die Nennung einer einzigen Zahl beantworten. Jede Glühbirne hat eine andere bzw. zufällige Brenndauer. Man hat es wieder mit einer stochastischen Situation zu tun. Die Frage kann nur mit Aussagen über Wahrscheinlichkeiten beantwortet werden. In diesem Buch geht es darum, einen Eindruck von der statistischen Analyse zu bekommen, die man etwa wie folgt zusammenfassen kann: Eine statistische Analyse besteht in der Regel aus dem Suchen, Anpassen, Überprüfen und Interpretieren stochastischer Modelle. 11
Die Original-Daten stammen aus dem Artikel Davis, D.J. (1952): An Analysis of Some Failure Data. Journal of the American Statistical Association 47, 113-150. Von den in diesem Artikel angegebenen Brenndauern von insgesamt 417 Glühbirnen wurden hier 30 zufällig ausgewählt.
1.2 Beispiele stochastischer Probleme und Modelle
25
Abb. 1.16 Brenndauer von Glühbirnen und Normalverteilung
In diesem Kernsatz sind die Inhalte dieses Buches zusammengefasst. Das Ziel dieses Buches ist, zu beschreiben, wie man bei der Durchführung der einzelnen Schritte vorgeht. Dabei gibt es ein eingeführtes Vokabular, um über stochastische Modelle und Begriffe, wie Wahrscheinlichkeit objektiv zu diskutieren. Dieses Buch wird das Grundvokabular vermitteln, das nötig ist, um stochastische Phänomene objektiv zu beschreiben. Von großer Bedeutung sind Grundbegriffe wie Zufall, Wahrscheinlichkeit, Variation und Schätzung. Sie sind nicht nur Meilensteine auf dem Weg, kompliziertere Methoden zu verstehen, sie eröffnen auch die Möglichkeit, Aspekte unseres Lebens und unserer Umwelt besser zu verstehen. Viele dieser Ideen werden mit mathematischen Symbolen dargestellt. Die oben dargestellten Beispiele (mit Ausnahme des Pendels) haben gemeinsam, dass sie mit dem Begriff Unbestimmtheit oder Unsicherheit zu tun haben. Das englische Wort uncertainty (oder auch das deutsche Wort Ungewissheit) drückt das am besten aus. Im täglichen Leben hat man viel mit Ungewissheit zu tun. Sehr viele Entscheidungen, die man jeden Tag trifft, enthalten Ungewissheit (oder Unbestimmtheit). Dies können triviale Entscheidungen sein, wie z.B. die Frage, ob man einen Regenschirm mitnehmen soll für den Fall, dass es regnet, oder die Frage, ob es sich lohnt, für eine bestimmte Vorlesung sehr früh aufzustehen. Aber es gibt auch wichtigere Entscheidungen, die unter der Bedingung eines ungewissen Ausgangs getroffen werden müssen, z.B. in den Bereichen Gesundheit, Umwelt, Politik, Wirtschaft oder Wissenschaft. Entscheidungen, die unter der Bedingung eines ungewissen Ausgangs gefällt werden, sind sehr zahlreich. Einige Beispiele für Fragestellungen, die entschieden werden müssen, sind die folgenden: • • • •
Ist eine gewisse Maßnahme zum Umweltschutz effektiv oder nicht? Ist eine neue Medizin verträglich genug, um freigegeben zu werden? Sollte man in ein bestimmtes Projekt investieren oder nicht? Wie wird der Markt auf eine gewisse Produktänderung reagieren?
Es ist wohl nicht nötig, weiter zu begründen, dass es sinnvoll ist, über den Begriff uncertainty nachzudenken, insbesondere über das Verstehen und die Messbarkeit von Unsicherheit. Die Hauptsache ist, dass man beginnt, kritisch über Fragestellun-
26
1 Einführung
gen nachzudenken, die unter der Bedingung der Ungewissheit entschieden werden. Diese Begriffe sollten nach der Lektüre des Buches zum intellektuellen Handwerkszeug gehören. Man sollte dann auch in der Lage sein, nicht nur wissenschaftliche Problemstellungen, sondern auch einfache reale Fragestellungen unter Ungewissheit mit Hilfe statistischer Methoden systematisch zu analysieren. Einige Beispiele sind die folgenden: • Ist es für einen rational denkenden Menschen sinnvoll, Lotto zu spielen? • Wie groß ist die Chance, bei der Auslosung von Tickets für eine Fußball-Weltmeisterschaft Karten für mindestens ein Spiel zu erhalten? • Lohnt sich an Stelle des Kaufs einer regulären, 12 Monate gültigen BahnCard 25 der Kauf einer Aktions-BahnCard 25, deren Gültigkeitsdauer vom Erfolg der deutschen Fußball-Nationalmannschaft abhängt, wie z.B. bei der WeltmeisterBahnCard zur WM 2006 oder der Fan-BahnCard zur EM 2008? • Rentiert sich die Investition in eine Anleihe, deren Rückzahlungshöhe auf eine bestimmte Weise an die Entwicklung des Aktienindex Dow Jones EURO STOXX 50 gekoppelt ist? Bevor in den folgenden Abschnitten dieses Kapitels noch einige wichtige statistische Grundbegriffe eingeführt werden, sind noch einige kurze Bemerkungen zu dem Beispiel eines Pendels notwendig. Das Pendel, das in Beispiel 1.1 betrachtet wurde, ist kein reales Pendel, sondern ein mathematisches. Es ist eine Idealisierung, da von idealsierten Bedingungen ausgegangen wird, beispielsweise, dass sich das Pendel im Vakuum befindet. Ein reales Pendel jedoch ist kein perfekter Gegenstand. Es bewegt sich nicht exakt nach der Formel des deterministischen Modells. Angenommen man misst für verschiedene Pendel-Längen die genaue Zeit, die das Pendel braucht, um einmal hin und zurück zu schwingen. Dann ist unwahrscheinlich, dass die Beobachtungen exakt auf der Kurve liegen, die in Abb. 1.1 die Schwingungsdauer des Pendels beschreibt. Sie würden vom Charakter her vermutlich eher wie in Abb. 1.17 aussehen. Ebenso wie die Dauer eines Linienfluges nicht nur von der Flugstrecke abhängt, wird die Schwingungsdauer des realen Pendels außer von der Länge noch durch an-
Abb. 1.17 Beobachtungen für die Schwingungsdauer realer Pendel
1.3 Grundgesamtheit und Stichprobe
27
dere Faktoren beeinflusst; man stelle sich als extremes Beispiel ein Pendel vor, das auf einer Wiese im Wind schwingt. Das bedeutet, dass auch die Beziehung zwischen der Länge und der Schwingungsdauer eines realen Pendels im Grunde stochastisch ist. Trotzdem ist das deterministische Modell für praktische Zwecke wie die Zeitmessung genau genug.
1.3 Grundgesamtheit und Stichprobe Die Begriffe Grundgesamtheit und Stichprobe sollen anhand des Glühbirnen-Beispiels (Beispiel 1.12) eingeführt werden. In größerem Zusammenhang gesehen kommt Glühbirnen nur eine relativ geringe Bedeutung zu. Es besteht kein dringendes persönliches Interesse an Glühbirnen oder ähnlichen geringwertigen Gegenständen des privaten Bedarfs. Dieses Beispiel wird verwendet, weil es sehr einfach zu verstehen ist und gleichzeitig viel Grundlegendes an ihm erklärt werden kann. Angenommen, die Informationen über die Glühbirnen-Brenndauer aus den Tabellen 1.7 und 1.8 bzw. der Abb. 1.16 sind nicht verfügbar, und man möchte in einem Geschäft eine Glühbirne kaufen. Dann ist es nicht unerheblich zu wissen, wie lange diese Glühbirne leuchten wird. Es stellt sich also die einfache Frage: Wie lange wird diese Glühbirne brennen? Die Antwort auf diese Frage ist gar nicht so einfach. Zwei mögliche Antworten sind die folgenden: • Es ist nicht möglich, die Frage für eine bestimmte Glühbirne zu beantworten, da alle Glühbirnen eine unterschiedliche Lebensdauer haben. • Die Beantwortung kann eindeutig erfolgen, aber erst dann, wenn die Glühbirne durchgebrannt ist. Keine der beiden Antworten ist von besonderem Nutzen. Die erste sagt nicht das, was man eigentlich wissen möchte, und auf die zweite Anwort kann man nicht warten. Man hat es, wie bereits mehrfach erwähnt, mit einer stochastischen Situation zu tun. Alle Individuen (Glühbirnen) sind verschieden. Jede Glühbirne hat ihre eigene Lebensdauer. Die Frage hat keine einfache Antwort wie etwa 1 000 Stunden. Eine Möglichkeit, in einer solchen Situation weiterzukommen, ist die folgende: man kann andere ähnliche Glühbirnen testen und beobachten, wie lange diese brennen. Dadurch erhält man indirekt Informationen über die mögliche Brenndauer der zu kaufenden Birne. Das entscheidende Wort ist hier ähnlich. Was damit gemeint ist, wird im Folgenden genauer betrachtet. Zunächst ist zu entscheiden, welche Glühbirnen derjenigen ähnlich sind, die man kaufen möchte. Es bringt nichts, eine andere Sorte zu untersuchen. Das bedeutet, man muss eine Menge von Glühbirnen bestimmen, aus der man einige zum Testen auswählt. Eine solche Menge wird in der Statistik als Grundgesamtheit bezeichnet. Die Grundgesamtheit ist die Menge der Objekte, Personen oder anderer Dinge, über die man Informationen gewinnen möchte.
28
1 Einführung
Überraschenderweise ist es in vielen Fällen keineswegs trivial, die zur Beantwortung einer bestimmten Frage geeignete Grundgesamtheit einzugrenzen. Welche Menge von Glühbirnen sollte man als Grundgesamtheit in diesem Beispiel verwenden: • Alle Glühbirnen dieses Typs, die jemals hergestellt wurden, • nur diejenigen Glühbirnen, die in einem bestimmten Jahr produziert wurden oder • diejenigen, die in einer bestimmten Produktionsperiode angefertigt wurden? Diese Frage soll zunächst zurückgestellt werden. Für den Moment wird angenommen, dass die Grundgesamtheit durch alle Glühbirnen der gewünschten Sorte im ausgesuchten Geschäft beschrieben wird und dass diese Grundgesamtheit genau 100 Glühbirnen umfasst. Diese Grundgesamtheit ist schematisch in Abb. 1.18 dargestellt. Nun steht man vor der nächsten Frage: Wie viele Glühbirnen soll man untersuchen? In der Regel betrachtet man aus Kostengründen oder anderen Gründen nur eine Teilmenge der relevanten Grundgesamtheit und spricht dann von einer Stichprobe. Da man nicht annehmen kann, dass die Brenndauer aller Glühbirnen gleich lang ist, macht es dabei keinen Sinn, nur die Brenndauer einer einzigen Glühbirne zu beobachten. Im Allgemeinen ist es unvernünftig, nur ein Mitglied einer Grundgesamtheit zu untersuchen, es sei denn, man hat es mit einem deterministischen Phänomen zu tun. Andererseits kann man nicht alle 100 Glühbirnen testen. Dann bleiben keine mehr übrig. Es gibt allerdings Situationen, in denen es — zumindest prinzipiell — sinnvoll bzw. möglich ist, alle Mitglieder einer Grundgesamtheit zu untersuchen, z.B. wenn die Grundgesamtheit durch die Menge aller Autos in Deutschland gegeben ist und man den Schadstoffausstoß messen möchte. Dadurch würden natürlich enorme Kosten entstehen. Ein weiteres Beispiel, in dem man im Prinzip die ganze Grundgesamtheit untersuchen könnte, findet sich im Bereich des Prüfungswesens. Aber auch
Abb. 1.18 Schematische Darstellung der Grundgesamtheit von 100 Glühbirnen
1.3 Grundgesamtheit und Stichprobe
29
Jahresabschlussprüfungen in Unternehmen werden aus Zeit- und Kostengründen auf Stichprobenbasis durchgeführt. Die Festlegung der Stichprobengröße, also der genauen Anzahl der zu untersuchenden Objekte, wird von vielen Faktoren abhängen, unter anderem davon • wieviel es kostet, ein Mitglied der Grundgesamtheit zu untersuchen und • mit welcher Genauigkeit man die Grundgesamtheit beschreiben möchte. Die Frage, wie viele Objekte aus der Grundgesamtheit man untersuchen sollte, ist in der Tat sehr schwierig, und wird zunächst zurückgestellt. Stattdessen folgen zunächst einige Anmerkungen zum nächsten Problem, der Stichprobenziehung. Sicherlich ist in der Zwischenzeit klar geworden, dass die ursprüngliche, so einfach erscheinende Frage: Wie lange wird diese Glühbirne brennen? sich als eine sehr komplizierte Frage erweist, wobei das nicht heißen soll, dass einfache Dinge nur aus Spaß an der Theorie kompliziert gemacht werden. Man muss solche Überlegungen auch anstellen, um bedeutendere Fragen solcher Art zu beantworten, und die Konsequenzen der Antworten in anderen Situationen (Kernkraftwerke, neue Medikamente, Investitionen) sind wesentlich gravierender als im Falle einer Glühbirne. Angenommen, man hat sich für 30 Glühbirnen als eine gut zu untersuchende Anzahl von Glühbirnen entschieden und möchte also eine Stichprobe von 30 Glühbirnen nehmen und ihre Brenndauer beobachten. Dann stellt sich die Frage, welche der 100 Glühbirnen im Supermarkt-Regal man für die Stichprobe auswählen soll: • Soll man sie von vorne wegnehmen oder vielleicht nicht? Vielleicht gibt es in dem Supermarkt die Praxis, die älteren Glühbirnen, deren Brenndauer vielleicht geringer ist, ganz nach vorne in das Regal zu legen. Andererseits könnten die alten auch länger halten. • Soll man 15 von vorne und 15 von hinten nehmen? Vielleicht gibt es auch noch andere Gründe für systematische Verfälschungen, von denen man nichts weiß, z.B. dass 5 alte hinten im Regal liegen, während vorne 95 neue liegen. Dann hätte man in der Stichprobe 5 alte und 25 neue Glühbirnen. Auch das würde einen verfälschten Eindruck von der Grundgesamtheit geben. Eine Möglichkeit, das Problem zu lösen, ist die Glühbirnen zufällig auszuwählen. Man könnte z.B. jeder Glühbirne in der Grundgesamtheit eine Nummer (1 bis 100) zuordnen, diese Zahlen auf kleine Zettel schreiben, die Zettel gründlich mischen und dann 30 Zettel ziehen. Dieses Verfahren ist unter dem Namen einfache Zufallsauswahl bekannt. Die Stichprobe, die man erhält, nennt man einfache Zufallsstichprobe. Der große Vorteil einer zufälligen Auswahl ist, dass systematische Fehler vermieden werden. Oder umgekehrt formuliert, Zufallsstichproben sind in der Regel repräsentativ, weil bei einfachen Zufallsstichproben alle Mitglieder der Grundgesamtheit die gleiche Chance haben, in die Stichprobe zu kommen. In Abb. 1.19 ist ein mögliches Ergebnis der Zufallsauswahl dargestellt. Es gibt jedoch keine Methode, die garantiert, dass die gewählte Stichprobe die Grundgesamtheit korrekt repräsentiert. Die Zufallsauswahl ist ein Versuch, systema-
30
1 Einführung
Abb. 1.19 Schematische Darstellung der Grundgesamtheit von 100 Glühbirnen und einer Stichprobe von 30 Glühbirnen
tische Fehler zu vermeiden. Sie liefert jedoch nicht immer repräsentative Stichproben. Angenommen, 70 der 100 Glühbirnen taugen nichts und die anderen 30 haben eine lange Brenndauer. Auch bei einer zufälligen Auswahl könnte man, wenn man absolutes Pech hat, gerade die 30 guten erwischen. Das kann passieren, ist aber bei einer zufälligen Auswahl sehr unwahrscheinlich. Zufällige Stichproben tendieren also dazu, repräsentativ zu sein. Zusammenfassend sind die Schritte, die wir bisher durchlaufen haben, die folgenden. Man möchte die Frage Wie lange hält die Glühbirne? beantworten. Man schafft das nicht, ohne die Glühbirne durchzubrennen. Deshalb betrachtet man andere Glühbirnen aus der Grundgesamtheit und beobachtet, wie lange diese brennen. Im Idealfall würde man alle anderen außer der gewählten Glühbirne untersuchen. Das würde die maximal mögliche Information liefern. Jedoch wäre es zu teuer, alle zu untersuchen. Deshalb untersucht man nur 30 Glühbirnen. Man möchte, dass diese 30 Glühbirnen einen „fairen“ Eindruck über die Lebensdauer der Glühbirnen in der Grundgesamtheit vermitteln, d.h. man möchte, dass die Glühbirnen in der Stichprobe repräsentativ für alle Glühbirnen der Grundgesamtheit sind. Zusammenfassend ist von Bedeutung, aus welcher Grundgesamtheit wie viele und welche Elemente in die Stichprobe sollen. Die Prinzipien, die an diesem simplen Beispiel aufgezeigt werden können, gelten auch für Fragen, die von größerer Bedeutung sind, wie z.B.: • Wann fällt der Motor eines Flugzeugs aus, das man gerade besteigen will? • Wann wird es einen Störfall im Kernkraftwerk nahe eines Wohnortes geben? In allen Bereichen des Lebens gibt es ähnliche Fragen. Weitere Beispiele sind: • • • •
Wie lange braucht ein bestimmter Patient, um gesund zu werden? Wie viele Autos, Schuhe, Brötchen oder Bananen werden wir heute verkaufen? Wie wird der Goldpreis in einem Jahr sein? Wie lange wird es dauern, bis Tiere dieser Art ausgestorben sind?
1.3 Grundgesamtheit und Stichprobe
31
Im folgenden Beispiel soll das Problem der systematischen Verfälschung noch einmal aufgegriffen und genauer betrachtet werden. Es geht also wieder um die Frage, welche Elemente der Grundgesamtheit in die Stichprobe gelangen sollen. Beispiel 1.13. Lebensmittelausgaben Göttinger Studenten Angenommen, man möchte die Ausgaben der Göttinger Studenten für Lebensmittel in der letzten Woche schätzen. Zunächst muss man klären, wen man zur Gruppe der Göttinger Studenten (Grundgesamtheit) zählt. Werden Studenten mit einbezogen, die in der letzten Woche gar nicht in Göttingen waren oder die bei ihren Eltern leben? Im Folgenden soll angenommen werden, dass man sich darüber geeinigt hat, über welche Gruppe von Studenten man spricht, dass also eine klar abgegrenzte Grundgesamtheit definiert wurde. Außerdem sollen bei den folgenden Erklärungen rein technische Schwierigkeiten vernachlässigt werden, wie z.B. die Frage, wie man erfährt, wieviel ein bestimmter Student in der letzten Woche ausgegeben hat. Es soll einfach davon ausgegangen werden, dass alle Studenten genau wissen, wieviel sie in der letzten Woche für Lebensmittel ausgegeben haben und dass sie ehrlich antworten. Schließlich soll noch angenommen werden, dass ausreichend Mittel zur Verfügung stehen, um die Befragung von 50 Studenten zu finanzieren; d.h. auch der Stichprobenumfang ist festgelegt. Man wird nicht sehr viel herausfinden, wenn die ausgewählte Stichprobe nicht repräsentativ für die Grundgesamtheit der Göttinger Studenten ist. Man würde höchstens etwas über die Ausgaben der 50 Studenten aus der Stichprobe erfahren, nichts jedoch über die Grundgesamtheit; d.h. die Ergebnisse sind nicht generalisierbar, wenn man nicht annehmen kann, dass die Stichprobe repräsentativ ist. Es gibt viele Möglichkeiten, Stichproben auszuwählen, die nicht repräsentativ sind: man könnte z.B. die ersten 50 Studenten aus der Göttinger Mensa-Schlange auswählen. Dann wären allerdings diejenigen Studenten, die nicht in der Mensa essen, mit Sicherheit nicht in der Stichprobe vertreten. Das würde bedeuten, dass man diejenigen Studenten nicht erfasst, • die es sich nicht leisten können, in der Mensa zu essen, • die lieber in Restaurants essen oder • die gar nicht zu Mittag essen usw. Da davon auszugehen ist, dass diese Gruppen andere Lebensmittelausgaben haben, ist es keine gute Idee, die ersten 50 Studenten der Mensa-Schlange zu wählen. Die Stichprobe ist mit Blick auf die Grundgesamtheit verfälscht. Man könnte sich ein komplizierteres System überlegen, das nicht zu einer so unrepräsentativen Stichprobe führt. Wenn man sich eine gute Methode überlegen möchte, um eine Stichprobe von 50 Göttinger Studenten auszuwählen, wird man merken, dass es nicht einfach ist, eine Methode zu finden, die praktisch durchführbar und darüber hinaus nicht systematisch verfälscht ist. Mit einer systematischen Verfälschung oder Verzerrung ist gemeint, dass eine Gruppe ganz übersehen wird oder nicht im richtigen Verhältnis (im Vergleich zur
32
1 Einführung
Grundgesamtheit) vertreten ist. Der wichtigste Punkt bei einer zufälligen Auswahl ist, dass jeder Student die gleiche Chance hat, ausgewählt zu werden. Um eine zufällige Auswahl zu treffen, könnte man tatsächlich so vorgehen wie im Beispiel der Glühbirnen, d.h. man schreibt die Namen aller Göttinger Studenten auf jeweils einen Zettel, durchmischt diese Zettel und zieht dann 50 heraus. Eine einfachere Möglichkeit wäre, sich die Matrikelnummern im Studentensekretariat ausdrucken zu lassen und diese für die Ziehung zu verwenden. Diese oder ähnliche mechanische Vorgehensweisen wären hier noch durchführbar, weil es nicht allzu viele Göttinger Studenten gibt. Es gibt jedoch Situationen, in denen man mit den beschriebenen Vorgehensweisen nicht weiterkommt. Betrachtet man noch einmal Beispiel 1.3, Aspirin und Herzanfälle, dann ist nicht klar, wie groß die Grundgesamtheit bei dieser Studie war. Die Stichprobe allein bestand schon aus 22 072 Männern mittleren Alters. Man würde ziemlich viel Aufwand betreiben, um die zugehörige Grundgesamtheit auf Papier zu bringen. Natürlich führt man die Auswahl in solchen Situationen mit Hilfe eines Computers durch, der so programmiert wird, dass er zufällig aus einer Liste auswählt. Auch für kleine Stichproben ist es nicht nötig, mechanische Geräte wie Zettel oder den Apparat zur Ziehung der Lottozahlen im Fernsehen zu benutzen. Stattdessen kann man Statistik-Programme verwenden, um Zufallszahlen wie in dem Glühbirnen-Beispiel zu ziehen. In der Praxis wird es allerdings oft, insbesondere bei räumlich sehr ausgedehnten Studien, zu kostspielig sein, eine einfache Zufallsstichprobe zu ziehen. Angenommen, man möchte etwas über die Wirkung von saurem Regen auf Birken in Europa oder auch nur in Niedersachsen erfahren. Man kann sich vorstellen, wie viel es kosten würde, eine Liste aller Bäume zu erstellen, um damit eine einfache Zufallsstichprobe aus dieser Grundgesamtheit zu ziehen. Man muss in solchen Fällen andere Methoden verwenden, die weniger kostspielig sind. Es gibt eine ganze Theorie, die Stichprobentheorie, über die unterschiedlichen Möglichkeiten, Stichproben zu ziehen, ohne dabei einen systematischen Fehler zu machen oder ihn zumindest zu kontrollieren. Im Folgenden soll kurz auf solche Möglichkeiten eingegangen werden. Bei geschichteten Zufallsstichproben (stratified sampling) ist man in der Lage die Grundgesamtheit in Gruppen (strata) zu unterteilen. Angenommen, man wäre daran interessiert, das Einkommen eines Landes zu schätzen, in dem viele Einwohner arm und wenige reich sind. Der Stichprobenmittelwert wird dann stark davon abhängen, wie viele reiche Personen in der Stichprobe enthalten sind. Man kann sich leicht vorstellen, dass es bei einer relativ kleinen Stichprobe nicht unwahrscheinlich ist, eine Stichprobe zu erhalten, die nicht repräsentativ ist, d.h. das richtige Verhältnis von arm und reich widerspiegelt. Anders ausgedrückt, würde man eine sehr große Zufallsstichprobe benötigen, um repräsentative Ergebnisse zu erhalten. Bei den geschichteten Zufallsstichproben wird die Grundgesamtheit zunächst in Gruppen (Arme und Reiche) unterteilt. Anschließend werden Personen aus den verschiedenen Gruppen zufällig für die Stichprobe ausgewählt. Bei der Berechnung des mittleren Einkommens muss dann das (bekannte) Verhältnis der Gruppen in der Grundgesamtheit berücksichtigt werden. Es ist somit mög-
1.3 Grundgesamtheit und Stichprobe
33
lich, mit einer relativ kleinen Stichprobe ein repräsentatives Ergebnis zu erhalten. Bei der Ziehung von Klumpenstichproben (cluster sampling) werden ebenfalls Gruppen gebildet. Diese Gruppen unterscheiden sich jedoch nicht, sondern stellen kleine Abbilder der Grundgesamtheit dar. Bei der bereits erwähnten Untersuchung aller Birken in Niedersachsen z.B. müsste man für eine Zufallsstichprobe quer durch das Land reisen, um die Stichprobe zu untersuchen. Bildet man statt dessen Cluster, beispielsweise einzelne Wälder, und wählt dann zufällig einige Cluster und anschließend einzelne Bäume aus den Clustern aus, so können die Kosten einer repräsentativen Erhebung gesenkt werden. Man muss nur noch die entsprechenden Cluster anfahren. Die bewussten Auswahlverfahren (quota sampling) legen bestimmte Quoten in der Stichprobe von vornherein fest. Wenn z.B. bei der Untersuchung der Lebensmittelausgaben Göttinger Studenten bekannt ist, dass 40 % der Göttinger Studenten weiblich sind, wäre es möglich, in einer Stichprobe der Größe 50 genau 20 Frauen und 30 Männer aufzunehmen. Man erreicht Repräsentativität bezüglich des Geschlechts. Ebenso könnte mit weiteren Merkmalen vorgegangen werden, wie beispielsweise Fachrichtung oder Semesterzahl. Problematisch ist, dass man nicht in der Lage ist, alle relevanten Merkmale zu kontrollieren, so dass durch die Vermeidung einer zufälligen Auswahl die Gefahr besteht, genau das Gegenteil, nämlich eine unrepräsentative Stichprobe zu erhalten. Bei statistischen Untersuchungen muss man sich immer darüber im Klaren sein, wie eine Stichprobe erzeugt worden ist und welche Konsequenzen dies haben könnte. Die Verfahren wurden hier kurz beschrieben, um zu zeigen, dass es Möglichkeiten gibt, wenn die einfache Zufallsauswahl ungeeignet erscheint. Im Folgenden soll jedoch immer mit Zufallsstichproben gearbeitet werden. Unabhängig von den beschriebenen Verfahren der Stichprobentheorie ist eine Möglichkeit, die Kosten gering zu halten, ein kleine und leicht zugängliche Grundgesamtheit zu verwenden. Jedoch ist bei der Wahl der Grundgesamtheit zu beachten, dass die Grundgesamtheit, aus der man die Stichprobe zieht, die Allgemeingültigkeit der Ergebnisse und Schlussfolgerungen bestimmt. Diese gelten jeweils nur für die Grundgesamtheit, aus der die Stichprobe gezogen wurde. Wie dies zu verstehen ist, wird noch einmal an dem bereits bekannten Beispiel von Aspirin und Herzanfällen (Beispiel 1.3) erläutert. Angenommen, man wollte eine ähnliche Studie in Deutschland wiederholen, um zu sehen, ob die Ergebnisse auch hier gültig sind. Das Risiko eines Herzanfalls unter deutschen Männern mittleren Alters könnte ja anders sein als das unter amerikanischen Männern mittleren Alters. Beispielsweise unterscheidet sich die Nahrung in den beiden Ländern, ebenso Sport- und Rauchgewohnheiten usw. Und auch wenn sich die Risiken für einen Herzanfall in den beiden Ländern nicht unterscheiden, könnte es sein, dass die Verminderung des Risikos, die aus der Einnahme von Aspirin resultiert, sich hier von der unterscheidet, die für die amerikanische Grundgesamtheit ermittelt wurde. Die Originalstudie war auf gesunde Männer mittleren Alters beschränkt. Das umfasst (auch in Deutschland) sehr viele Personen. Man könnte diese Gruppe ein-
34
1 Einführung
schränken, indem man nur gesunde Männer mittleren Alters aus Niedersachsen betrachtet. Wenn diese Gruppe immer noch zu groß ist, könnte man sie weiter einschränken auf gesunde, 40-jährige Männer aus Niedersachsen. Die Grundgesamtheit wird noch einmal kleiner und überschaubarer. Wenn man die Grundgesamtheit immer weiter eingrenzt, wird man aber am Ende nur sehr eingeschränkte Schlussfolgerungen ziehen können. Beispielsweise sind Aussagen der folgenden Art von sehr geringem Interesse: Eine Studie über gesunde, 40-jährige männliche, ledige Linkshänder aus Niedersachsen ergab, dass Aspirin das Risiko, einen Herzanfall zu erleiden, reduziert. Begründeterweise würden die meisten diese Nachricht nur mit einem Achselzucken zur Kenntnis nehmen, da sie nicht Teil der Grundgesamtheit sind. Es muss daher noch einmal betont werden, dass die Grundgesamtheit, aus der man die Stichprobe zieht, die Allgemeingültigkeit der Ergebnisse und Schlussfolgerungen bestimmt. Wenn man nur eine sehr spezielle Grundgesamtheit untersucht, sind die Ergebnisse also von begrenzter Verwendbarkeit. Das bedeutet jedoch nicht, dass es immer besser ist, eine große Grundgesamtheit zu haben (auch wenn der Kostenaspekt einmal vernachlässigt wird). Für einen gesunden, 40-jährigen, männlichen, ledigen Linkshänder aus Niedersachsen wäre die oben genannte hypothetische Studie einer allgemeineren vorzuziehen. Für Personen, die diesem Linkshänder sehr ähnlich sind, wären die Ergebnisse wesentlich spezifischer und folglich (bei sonst gleichen Bedingungen) auch genauer. Bisher wurde davon ausgegangen, dass es nur eine Frage des Aufwands ist, eine adäquate Stichprobe zu ziehen (beispielsweise aus allen Göttinger Studenten). In einigen Situationen ist es jedoch gar nicht möglich, eine Zufallsstichprobe zu ziehen. Selbst wenn Kosten keine Rolle spielen, muss man mit gegebenen Daten auskommen. Ein solcher Fall liegt zum Beispiel bei der Blockzeit eines Linienfluges (Beispiel 1.2) vor. Daten wie die Blockzeit aller American Airlines Flüge von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) im Februar 2006 sind eine wichtige Grundlage für die Erstellung von Flugplänen, denn um einen möglichst effizienten Flugplan zu erstellen, müssen die Fluggesellschaften wissen, wie groß die Blockzeiten für einzelne Strecken sind. Dabei interessiert weniger, wie groß die Blockzeiten im Februar 2006 oder in den letzten 5 Jahren waren, sondern wie groß sie in der Zukunft sein werden, z.B. im nächsten Jahr. Die verfügbare Stichprobe umfasst aber nur die Blockzeiten vergangener Flüge der Grundgesamtheit. Diese Stichprobe ist natürlich keine zufällige Stichprobe aus der Grundgesamtheit. Es ist nicht möglich, eine zufällige Stichprobe aus der Grundgesamtheit (alle Blockzeiten vom Erstflug einer Strecke bis zum letzten jemals durchgeführten Flug) zu ziehen. Man benutzt die zur Verfügung stehenden Information, da es keine weiteren Informationen gibt. In solchen Situationen muss man annehmen, dass die Blockzeiten in der Stichprobe repräsentativ für die Grundgesamtheit sind. Vorher muss man sich jedoch sehr genau überlegen, ob es irgendeinen Grund gibt, der gegen eine solche Annahme spricht (vielleicht eine extrem lange Blockzeit, die daraus resultierte, dass sich ein inzwischen entlassener Pilot verflogen hatte) oder ob sich die äußeren Rahmenbedingungen seit der Erhebung der Stichprobe geändert haben (z.B. eine neue Flugroute).
1.4 Zufallsvariablen
35
Man kann auch geeignete Korrekturen (vielleicht Ausschluss extrem kurzer oder extrem langer Blockzeiten) vornehmen, um diese Quelle von Unsicherheit auszugleichen. Eine andere Möglichkeit ist, dass der Flugplan so große Sicherheitspuffer enthält, dass auch noch extremere Blockzeiten als die bisher beobachteten ohne größere Verspätungen aufgefangen werden könnten. Dies würde natürlich wiederum die Produktivität der Flotte reduzieren. Zusammenfassend lauten die wichtigsten Erkenntnisse dieses Abschnitts: • In der Regel werden Zufallsstichproben gezogen, z.B. mit Hilfe von Computern. • Weitere Methoden werden in der Stichprobentheorie behandelt. • Es gibt Situationen, in denen man keine Zufallsstichprobe ziehen kann.
1.4 Zufallsvariablen Im Folgenden soll eines der wichtigsten statistischen Konzepte, das der Zufallsvariablen, vermittelt werden. Hierzu soll wieder die Brenndauer einer hypothetischen Glühbirne betrachtet werden (Beispiel 1.12). Es wird nun angenommen, dass eine zufällige Stichprobe von 30 Glühbirnen gezogen wurde. Der nächste Schritt ist nun, die Glühbirnen in der Stichprobe zu untersuchen, d.h. die Brenndauern der 30 Glühbirnen zu beobachten und die Ergebnisse festzuhalten. Wir wollen auch davon ausgehen, dass dies bereits geschehen ist und die 30 beobachteten Zahlen für die Brenndauern genau die Werte aus Tabelle 1.7 sind. Das dazugehörige Histogramm wurde bereits in Abb. 1.16 dargestellt. Allgemein geben die Beobachtungen nur Aufschluss über die Brenndauern in der Stichprobe. Tatsächlich ist man jedoch an der Brenndauer der Glühbirnen in der Grundgesamtheit interessiert. Um die Brenndauer in der Grundgesamtheit zu schätzen, benutzt man ein Modell, in diesem Fall die glatte Kurve in Abb. 1.16. Die Kurve ist das Modell für die Brenndauer in der Grundgesamtheit, das man aus den Stichprobendaten erhält. In den folgenden Kapiteln wird ausführlich beschrieben, wie man solche Modelle berechnet. Im Moment soll nur betont werden, dass diese Kurve als geglättete Version des Histogramms aufgefasst werden kann. Genau wie das Histogramm sagt auch die Kurve, wo die Punkte konzentriert sind. So kann man z.B. aus der Kurve abschätzen, dass es in der Grundgesamtheit mehr Glühbirnen mit einer Brenndauer in der Nähe von 1 000 Stunden als mit einer Brenndauer in der Nähe von 500 Stunden gibt. Die Kurve heißt Dichtefunktion, da sie etwas über die Dichte der Punkte sagt. Abbildung 1.20 zeigt die Dichtefunktion ohne das Histogramm. Es handelt sich übrigens um eine so genannte Normalverteilung, die im weiteren Verlauf dieses Buches und in der Statistik allgemein eine bedeutende Rolle spielt und zum Beispiel auch auf dem ehemaligen 10 DM-Schein abgebildet war. Charakteristisch für die Dichtefunktion ist die Tatsache, dass die Fläche zwischen ihr und der x-Achse immer genau 1 beträgt. Die Dichtefunktion ermöglicht es, den Anteil der Brenndauern in der Grundgesamtheit, der in ein bestimmtes Intervall
36
1 Einführung
fällt, zu schätzen. Angenommen, man möchte schätzen, wie viele Glühbirnen der Grundgesamtheit eine Brenndauer zwischen 1 000 und 1 500 Stunden haben. Dies kann berechnet werden durch die Größe der Fläche unter der Kurve zwischen den beiden Punkten (oder besser vertikalen Linien) 1 000 und 1 500. In Abb. 1.21 ist diese Fläche gekennzeichnet. Berechnet man die Größe der Fläche, so erhält man den Wert 0.65, d.h. die Fläche entspricht 65 % der Gesamtfläche. Daher schätzt man, dass 65% der Glühbirnen der Grundgesamtheit eine Brenndauer zwischen 1 000 und 1 500 haben. Da alle diese Glühbirnen derjenigen ähnlich sind, die man kaufen möchte, kann man das Resultat auch so interpretieren: Mit einer Wahrscheinlichkeit von 65% wird die gekaufte Glühbirne zwischen 1 000 und 1 500 Stunden brennen. Die Dichtefunktion in den Abbildungen 1.20 und 1.21 stellt somit die Antwort auf die ursprüngliche Frage: Wie lange wird diese Glühbirne brennen? dar. Zumindest ist dies die konkreteste Antwort, die man überhaupt auf diese Frage bekommen kann. Man weiß immer noch nicht genau, wie lange die gekaufte Glühbirne brennen wird, aber man kann mit Hilfe der Dichtefunktion Wahrscheinlichkeiten für alle in Frage kommenden Möglichkeiten geben.
Abb. 1.20 Dichtefunktion als Modell für die Brenndauer von Glühbirnen
Abb. 1.21 Dichtefunktion als Modell für die Brenndauer von Glühbirnen und Wahrscheinlichkeit für eine Brenndauer zwischen 1 000 und 1 500 Stunden
1.4 Zufallsvariablen
37
Die Antwort auf die gestellte Frage ist daher nicht eine einzige Zahl, wie etwa 1 200 Stunden. Sie ist etwas anderes. Tatsächlich ist sie eines der faszinierendsten Objekte in der Mathematik. Man nennt sie eine Zufallsvariable. In späteren Kapiteln wird noch genau definiert, was unter einer Zufallsvariablen zu verstehen ist. Im Rahmen dieses Buchs werden Zufallsvariablen mit Großbuchstaben bezeichnet, wie z.B. X,Y, Z. Damit sollen sie von gewöhnlichen Variablen unterschieden werden. In dem Glühbirnen-Beispiel könnte man also sagen, X sei die Brenndauer der gekauften Glühbirne. Im Folgenden werden noch einmal die Eigenschaften von X betont. Eine Zufallsvariable X ist kein einzelner Wert. X hat einen ganzen Bereich möglicher Werte. Es sieht so aus, als ob die Brenndauer der Glühbirne irgendwo zwischen 0 und 1 800 Stunden liegt. Wenn man sehr viel Glück hat, brennt sie länger. Diese Möglichkeit ist nicht auszuschließen. Vielleicht hält sie 5 000 Stunden, vielleicht auch noch länger. Daher sollen als Wertebereich von X alle Zahlen betrachten, die größer als 0 sind. Das Verhalten einer Zufallsvariablen X kann durch Wahrscheinlichkeiten beschrieben werden. Es ist im Moment noch nicht wichtig, alle Details über die Kurve zu behalten, die als Dichtefunktion bezeichnet wurde. Es ist nur wichtig, zu verstehen, dass es in stochastischen Situationen nur möglich ist, Wahrscheinlichkeiten für gewisse Dinge anzugeben. Das bedeutet, Entscheidungen beruhen auf Wahrscheinlichkeiten, nicht auf Gewissheiten. Im weiteren Verlauf des Buches werden Dichtefunktionen noch eine große Rolle spielen und im Detail erklärt. Angenommen, die gekaufte Glühbirne soll mindestens 1 600 Stunden glühen. Die Wahrscheinlichkeit ist durch die Fläche unterhalb der Dichtefunktion rechts von 1 600 gegeben. Diese Fläche ist in Abb. 1.22a gekennzeichnet. Sie ist gleich 0.01, d.h. es gibt eine Wahrscheinlichkeit von 1 zu 100 bzw. 1%, dass die gekaufte Glühbirne länger als 1 600 Stunden brennen wird. Wenn man also tatsächlich eine Glühbirne braucht, die länger als 1 600 Stunden brennt, sollte man eine andere Sorte wählen und mit der ganzen Prozedur von vorne beginnen. Andererseits ist man vielleicht schon zufrieden, wenn die Glühbirne länger als 800 Stunden brennt. Ein Blick auf Abb. 1.22b zeigt, dass dies ziemlich sicher ist. Die Fläche, die man jetzt berechnen muss, ist diejenige unter der Dichtefunktion rechts von 800. Diese Fläche beträgt 0.92. Die Chance, dass der Wunsch, eine Glühbirne mit einer größeren Brenndauer als 800 Stunden zu erhalten, erfüllt wird, ist also 92%. Es wurde gezeigt, dass die Antwort auf die ursprüngliche Frage Wie lange wird diese Glühbirne brennen? keine Zahl ist, sondern etwas, das gerade Zufallsvariable genannt wurde. Wenn man also nach der Brenndauer einer Glühbirne gefragt wird,
38
1 Einführung
kann man als Antwort keine Zahl geben, sondern ein Bild wie das in Abb. 1.20. Damit besteht die Antwort auf die Frage aus einer ganzen Reihe von Möglichkeiten, und es wurden Informationen aus der Stichprobe genutzt, um die Wahrscheinlichkeiten dieser Möglichkeiten zu schätzen. Die Geschichte mit der Glühbirne ist allerdings noch nicht zu Ende. Man nimmt die Glühbirne schließlich mit nach Hause, benutzt sie und eines Tages geht sie kaputt, z.B. nach 1 452 Stunden. Zu diesem speziellem Zeitpunkt geschieht etwas sehr Bedeutendes. Alle Ungewissheit, über die so lange gesprochen wurde, verschwindet in diesem Moment. Die Brenndauer einer Glühbirne wird plötzlich zu einer gewöhnlichen Zahl: 1 452 Stunden. Die Frage nach der Brenndauer der Glühbirne begann mit einer komplizierten Sache, die Zufallsvariable genannt wurde und die nur durch Wahrscheinlichkeiten beschrieben werden kann. Nachdem die Glühbirne durchgebrannt ist, ist die Antwort auf die Frage eine einfache Zahl. Die tatsächliche Brenndauer der Glühbirne wurde beobachtet. In der Statistik drückt man das folgendermaßen aus: man hat jetzt eine Realisation der Zufallsvariablen, d.h. sie hat jetzt einen konkreten Wert angenommen, den Wert 1 452 Stunden. Damit hat die ursprüngliche Frage zwei verschiedene Antworten: • Bevor die Glühbirne kaputt geht, kann die Antwort nur durch das Nennen möglicher Werte und ihrer Wahrscheinlichkeiten gegeben werden. • Nachdem die Glühbirne kaputt ist, wird die Antwort zu einer gewöhnlichen Zahl. Die Unbestimmtheit ist nach dem Durchbrennen der Glühbirne verschwunden. Der wichtige Punkt ist natürlich, dass man sich entscheiden muss, die Glühbirne zu kau-
a
b
Abb. 1.22 Dichtefunktion als Modell für die Brenndauer von Glühbirnen und Wahrscheinlichkeit für eine Brenndauer von a mehr als 1 600 Stunden bzw. b von mehr als 800 Stunden
1.4 Zufallsvariablen
39
fen, bevor man ihre Brenndauer beobachten kann und nicht nachher. Dasselbe passiert bei unzähligen anderen Entscheidungen, die man jeden Tag treffen muss. Beispiel 1.14. Investition von 1 000 e Angenommen, man hätte 1 000 e zur Verfügung und möchte diese für ein Jahr anlegen. Zum einen besteht die Möglichkeit, das Geld zu einem festen Zinssatz, z.B. 5%, auf ein Bankkonto zu legen. Wenn man das Risiko ignoriert, dass die Bank in Konkurs geht, ist dies eine sichere Anlage (und selbst dann wäre das Geld bei einer deutschen Bank abgesichert). Man weiß, dass man nach einem Jahr 1 050 e haben wird. Dies ist ein deterministischer Zusammenhang. Als Alternative könnte man das Geld auf dem Aktienmarkt anlegen. In diesem Fall ist die Auszahlung, die am Ende des Jahres zufließt, im Voraus nicht bekannt. Sie ist eine Zufallsvariable. Angenommen, man hat die Dichtefunktion dieser Zufallsvariablen durch die Kurve in Abb. 1.23 geschätzt.
€
€
Abb. 1.23 Dichtefunktion für die Auszahlung am Ende des Anlagezeitraums
Der Wert 1 050 e ist durch den senkrechten Strich dargestellt und zeigt, was man bei der Anlage bei der Bank garantiert bekommt. Das Bild verdeutlicht, dass gute Chancen bestehen, mehr Geld zu bekommen, wenn man in Aktien investiert. Jedoch gibt es auch eine positive Wahrscheinlichkeit, dass man nach einem Jahr weniger als 1 050 e erhält, evtl. sogar noch weniger als die eingesetzten 1 000 e. Dieses Beispiel kann man auch anhand der realen Daten aus Beispiel 1.6 betrachten, in dem die Entwicklung Deutsche Bank Aktienkurses untersucht wurde. Hätte man am 02.01.2006 1 000 e in Aktien der Deutschen Bank zu einem Schlusskurs von 81.93 e investiert (also 12.21 Aktien gekauft), dann wäre das investierte Kapital bis zum 29.12.2006 auf 1 236.91 e gestiegen, da an diesem Tag der (nicht in Tabelle 1.4 angegebene) Schlusskurs bei 101.34 e lag. Hätte man dagegen erst am 02.01.2007 zugeschlagen und 1000/102.89 ≈ 9.72 Aktien erstanden, dann wäre der Aktienbesitz am 28.12.2007 bei einem Schlusskurs von 89.40 e gerade noch 868.89 e Wert gewesen (dabei wurde natürlich vernachlässigt, dass man nur ganze Stücke kaufen kann und bei Kauf und Verkauf noch Transaktionskosten anfallen).
40
1 Einführung
Informationen dieser Art werden verwendet, um ein Modell wie in Abb. 1.23 zu erstellen, das einen bei der Anlageentscheidung unterstützt. Es kann aber auch im folgenden Jahr alles ganz anders kommen. Erst nach Ablauf des Jahres wird man wissen, was man hätte tun sollen. Die Zufallsvariable wird dann eine Realisation sein und damit einen konkreten Wert haben. Die Statistik kann zwar nicht sagen, welche Entscheidung die bessere ist, sie kann aber Methoden anbieten, mit deren Hilfe man das Risiko, das mit den verschiedenen Möglichkeiten verbunden ist, abwägen kann. Diese Methoden werden z.B. verwendet, um den sogenannten Value-at-Risk zu berechnen, der später noch näher erläutert wird.
Kapitel 2
Fakten in Zahlen — Deskriptive Statistik
In diesem Kapitel soll die deskriptive Statistik vorgestellt werden. Was unter dem Begriff deskriptive Statistik zu verstehen ist, wurde bereits kurz angesprochen: Unter deskriptiver Statistik versteht man alle Methoden, Formeln und grafischen Verfahren zur Beschreibung beobachteter Werte eines Merkmals in einer Grundgesamtheit oder Stichprobe. Alternativ wird auch von beschreibender Statistik gesprochen. Es existiert eine Vielzahl von Methoden zur Beschreibung von Daten, mehr als in mehreren Kapiteln behandelt werden könnte. Aus diesem Grund werden hier nur die wichtigsten Methoden dargestellt. Die hier vorgestellten Methoden stehen in engem Zusammenhang zu den stochastischen Problemstellungen der späteren Kapitel und können deshalb als Grundlage betrachtet werden. Wir beginnen mit Beschreibungsformen für diskrete Merkmale. Zunächst sollen anhand eines sehr einfachen Beispiels einige Notationen, Definitionen und Formeln erläutert werden.
2.1 Merkmale Die Populationen (oder auch Grundgesamtheiten) und Stichproben, die wir betrachten, bestehen aus (Untersuchungs-)Einheiten, z.B. Menschen, Glühbirnen, Autos, Bäumen, Aktien, usw. Gewöhnlich sind wir daran interessiert, ein oder mehrere Merkmale dieser Einheiten zu untersuchen. Im Beispiel mit den Glühbirnen waren wir an der Brenndauer interessiert. Im Linienflug-Beispiel waren die Merkmale die Flugstrecke und die Flugdauer. In dem Aspirin-Herzanfall-Beispiel war das interessierende Merkmal anderer Art. In diesem Beispiel waren die Unterscheidungsmerkmale, ob die Individuen Asprin nahmen oder nicht, und ob sie einen Herzanfall hatten oder nicht. Die Merkmale, die wir in der Statistik untersuchen, können also sehr verschiedenartig sein. Es können Zahlen sein oder andere Beschreibungsarten. In Tabelle 2.1 sieht man, wie in der Statistik Merkmale gewöhnlich klassifiziert werden. Zunächst betrachten wir qualitative Merkmale. Es handelt sich um Eigenschaften der Untersuchungseinheiten, die nur der Qualität nach bestimmt werden können. W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
41
42
2 Deskriptive Statistik
Tabelle 2.1 Klassifizierung von Merkmalen mit Beispielen qualitativ
rangskaliert
quantitativ
nominalskaliert
ordinalskaliert
metrisch
Geschlecht Augenfarbe Automarke
Schulnote Rangplatz Güteklasse
Gewicht Verkaufszahl Lebensdauer
Ein typisches Beispiel ist das Geschlecht, das zwei Ausprägungen besitzt, nämlich männlich und weiblich. Die Augenfarbe ist ebenfalls ein qualitatives Merkmal, das auf mehrere Weisen klassifiziert werden kann. Wir könnten z.B. nur daran interessiert sein, ob die Augenfarbe blau oder nicht blau ist. Alternativ könnten wir die Augenfarbe in vier Klassen aufteilen: blau, braun, grün und andere. Genetiker sind z.B. an der Augenfarbe interessiert. Ein weiteres Beispiel für ein qualitatives Merkmal sind Automarken. Wieder könnte man sich dafür interessieren, ob ein Auto ein VW oder kein VW ist. Oder man teilt Automarken nach dem Herstellerland ein in Deutsches Fabrikat, Japanisches Fabrikat, Amerikanisches Fabrikat und andere. Ein letztes Beispiel für ein qualitatives Merkmal ist, ob ein Mensch einen Herzanfall hatte oder nicht. Die beiden Ausprägungen sind hier Ja und Nein. Die Ausprägungen eines qualitativen Merkmals sind nach ihrem Charakter nicht zwangsläufig mit Zahlen verknüpft. Sie werden nur durch ihre Namen unterschieden, lassen sich aber nicht quantitativ messen, z.B. erhält man nicht −11 Punkte, wenn man einen Herzanfall hatte und +11 Punkte sonst. Deshalb bezeichnen wir solche Merkmale auch als nominal skalierte Merkmale (nominal wie Name). Die nächste Klasse von Merkmalen sind rangskalierte Merkmale, wie z.B. • Schulnoten, die gewöhnlich in sehr gut, gut, befriedigend usw. eingeteilt sind, • Rangplätze, z.B. im Sport: Gold, Silber, Bronze, • Güteklassen, z.B. 1. Wahl, 2. Wahl oder Ia, Ib. Die Ausprägungen der rangskalierten Merkmale besitzen eine eindeutige Ordnung, aber sie besitzen keinen absoluten Wert wie 20 cm oder 10 kg. Im Beispiel der Schulnoten ist sehr gut eindeutig besser als gut, aber ob sehr gut zweimal oder nur einmal besser ist als gut können wir nicht sagen. In vielen Fragebögen wird verlangt, sich für eine der folgenden Möglichkeiten zu entscheiden (vergleiche auch Evaluierungsbögen): Sehr dagegen, Dagegen, Gleichgültig, Dafür, Sehr dafür . Dies ist ein weiteres Beispiel für rangskalierte Merkmale. Man nennt diese Merkmale auch ordinalskalierte Merkmale (ordinal wie geordnet). Die dritte Kategorie, die quantitativen Merkmale, sind diejenigen, deren Ausprägungen sich durch Zahlen beschreiben lassen. Diese Merkmale sind häufig Messungen oder Zählungen, z.B. • das Gewicht eines Gegenstandes, z.B. eines Waschmittelpakets, oder • die wöchentlichen Verkaufszahlen eines Produkts.
2.1 Merkmale
43
Anders als die qualitativen oder rangskalierten Merkmale lässt sich ein Gewicht im üblichen Sinne messen. Diese Merkmale heißen deshalb auch metrische Variablen. Weitere Beispiele für quantitative Merkmale sind Größe, Kinderzahl, Schuhgröße, Brenndauer usw. Es gibt gute Gründe, warum man sich diese Mühe macht, die Merkmale zu klassifizieren. Zwei sollen hier genannt werden: • Erstens soll gezeigt werden, wie vielfältig die verschiedenen Merkmale sind, die mit Methoden der Statistik untersucht werden können. • Zweitens, das ist der wichtigere Grund, muss man zur Untersuchung verschiedener statistischer Merkmale verschiedene statistische Methoden heranziehen. Um dies zu verdeutlichen, folgt ein einfaches Beispiel. Betrachten wir die Population aller Studierenden in Göttingen. Das uns interessierende Merkmal sei das verfügbare Einkommen. Es ist dann sinnvoll von dem durchschnittlichen verfügbaren Einkommen zu sprechen. Wären wir aber an der Augenfarbe interessiert, wäre es unsinnig, von einer durchschnittlichen Augenfarbe zu sprechen. Wir können aus qualitativen Merkmalen keine Durchschnitte bilden, weil sie keine Zahlen sind. Eine weitere, etwas schwierigere Unterscheidung quantitativer Merkmale ist die Folgende. Es gibt zwei Typen quantitativer Merkmale: diskrete und stetige. Diskrete Merkmale haben eine abzählbare Anzahl möglicher Ausprägungen. Stetige Merkmale haben eine nicht abzählbare (=überabzählbare) Anzahl möglicher Ausprägungen. Für unsere Zwecke ausreichend ist die folgende Regel: Ein Merkmal ist diskret, wenn seine Ausprägungen in einer Folge aufgelistet werden können. Ein Merkmal ist stetig, wenn es nicht diskret ist. Gewöhnlich umfassen die Ausprägungen eines stetigen Merkmals ein Intervall der reellen Zahlengeraden. Besitzt ein Merkmal nur eine endliche Anzahl von Ausprägungen, so ist es immer möglich, alle Ausprägungen aufzulisten. Daher ist ein Merkmal mit endlich vielen Ausprägungen diskret. Auch alle qualitativen und rangskalierten Merkmale sind diskret, da sie in der Regel nur endlich viele Ausprägungen (auf jeden Fall aber höchstens abzählbar unendlich viele) Ausprägungen besitzen. Wenn wir z.B. Menschen danach klassifizieren, ob sie einen Herzanfall hatten oder nicht, so gibt es nur 2 Ausprägungen. Merkmale mit endlich vielen Ausprägungen sind diskret, das heißt • qualitative Merkmale sind diskret, • rangskalierte Merkmale sind diskret.
44
2 Deskriptive Statistik
Ein quantitatives Merkmal mit einer endlichen Anzahl von Ausprägungen ist beispielsweise die Anzahl der Passagiere, die einen bestimmten Flug nehmen. Wenn das Flugzeug maximal 350 Passagiere mitnehmen kann, dann sind die möglichen Werte, die wir beobachten können 0, 1, 2, . . . , 350. Wir haben uns nun mit Merkmalen befasst, die eine endliche Anzahl von Ausprägungen besitzen. Nun sollen Beispiele folgen, bei denen die Anzahl der möglichen Ausprägungen nicht endlich ist. Die Anzahl der Kinder in einer Familie ist 0, 1, 2, 3, . . . Nach unserer Definition handelt es sich um ein diskretes Merkmal, weil die möglichen Ausprägungen in einer Folge aufgelistet werden können. Man könnte natürlich sagen, die Anzahl der Kinder in einer Familie sei in jedem Fall endlich und die Kinderzahl daher ein diskretes Merkmal (theoretisch sind aber unendlich viele Kinder denkbar). Ähnliche Beispiele sind die Anzahl der Kunden in einem Supermarkt an einem bestimmten Tag oder die Anzahl der Auftragseingänge in einem Monat. Betrachten wir als Gegensatz hierzu die Brenndauer einer Glühbirne. Auch hier sind unendlich viele Ausprägungen möglich. Die möglichen Beobachtungen sind alle positiven reellen Zahlen. Der Unterschied zur Anzahl der Kinder ist jedoch, dass man nicht in der Lage ist, alle reellen Zahlen, die größer sind als Null, in einer Folge aufzulisten. Stellen wir uns vor, wir wollten dies tun und begännen mit 0. Welches ist die nächste Zahl? Es ist nicht 0.00000001. Es gibt keine Zahl, die 0 am nächsten ist. Das Merkmal Brenndauer ist also stetig. Die möglichen Beobachtungen liegen im Intervall [0, ∞]. Andere Beispiele für eine stetige Zufallsvariable sind die Flugdauer eines Linienfluges (man kann die Zeit theoretisch auf beliebig viele Nachkommastellen genau messen) oder die Schwingungsdauer des realen Pendels.
2.2 Deskriptive Statistik für diskrete Merkmale Beispiel 2.1. 6 Kinder mit 3 Merkmalen Nehmen wir an, wir hätten eine kleine Grundgesamtheit von sechs Kindern und drei Merkmale, die uns interessieren: • Merkmal 1: Geschlecht (nominal-skaliert) • Merkmal 2: Reaktion auf Fischgerichte (ordinal-skaliert) • Merkmal 3: Alter (quantitative Variable) Tabelle 2.2 zeigt die Beobachtungen/Ausprägungen der Merkmale für die sechs Kinder. Die Symbole zur Kennzeichnung der Ausprägungen des Merkmals 2 werden heutzutage oft in Zeitungen oder im Marketing verwendet. Das Merkmal ist ordinal-skaliert, weil man die Symbole bzw. die damit verbundenen Ausprägungen ordnen kann. Die Reihenfolge der Präferenzen ist: < <
2.2 Deskriptive Statistik für diskrete Merkmale
45
Tabelle 2.2 Beobachtungen für 3 Merkmale an 6 Kindern (eine kleine Grundgesamtheit) Merkmal / Kind Geschlecht (nominal) Reaktion auf Fischgerichte (ordinal) Alter (quantitativ)
Lars
Laura Tilman
Tina
Julia
Leon
M
W
M
W
W
M
13
13
15
15
15
16
Tabelle 2.2 stellt eine sehr einfache Möglichkeit dar, die Daten zu beschreiben. Sie ist folglich der deskriptiven Statistik zuzuordnen. Es ist gelegentlich sinnvoll, ein diskretes Merkmal so zu behandeln, als wäre es stetig, und umgekehrt. In einem Satz: Es gibt Merkmale, die je nach Kontext, sowohl als stetig als auch als diskret betrachtet werden können. Das Merkmal Alter ist ein solches Merkmal. Laut vorheriger Definition ist das Alter ein stetiges Merkmal. Im Prinzip sind alle Werte größer oder gleich Null möglich. Aber, wenn man eines dieser Kinder fragen würde Wie alt bist Du?, wäre die Antwort Beim nächsten Ton bin ich 15 Jahre, 5 Monate, 5 Tage, 5 Stunden, 8 Minuten und 55.378 Sekunden alt eher unüblich. Üblich wäre vielmehr eine Antwort wie Ich bin 15. Wenn man das Alter nur in vollständigen Jahren betrachtet, ist es also ein diskretes Merkmal, obwohl das exakte Alter eigentlich ein stetiges Merkmal ist. Merkmale, die mit Geld zu tun haben, sind besonders schizophren. Zum Beispiel wird das Merkmal Kontostand nur bis auf einen Cent genau gegeben. Man könnte theoretisch genauer rechnen, z.B. die Zinsen eines Anlagebetrages. Aber die Banken tun das nicht, sie runden auf einen Cent und betrachten das Geld somit als diskret. Das gleiche gilt für Merkmale wie Gehalt, Steuer, Preis usw. Also scheint Geld diskret zu sein. Es ist aber auch umgekehrt möglich, Geld als stetig zu betrachten. Als etwas übertriebenes Beispiel nehmen wir an, dass wir über das Bruttoinlandsprodukt von Deutschland reden wollen. Genau betrachtet ist dieses Merkmal auch diskret. Aber es hat sehr viele mögliche Werte (Milliarden davon), und die kleinste Einheit Ein Cent ist sehr klein; für praktische Zwecke ist sie unendlich klein. In der Praxis wird dieses Merkmal daher in der Regel als stetig betrachtet. Merkmale, die mit Geld zu tun haben, können wir also entweder als diskret oder als stetig betrachten, je nach dem in welchem Kontext das Merkmal betrachtet wird: Stetige Merkmale, die stark gerundet sind, werden auch als diskret betrachtet. Diskrete Merkmale, mit vielen Ausprägungen, werden auch als stetig betrachtet. Es gibt einen Grund, warum hier so ausführlich über den Unterschied zwischen diskreten und stetigen Merkmalen (bzw. deren Interpretation als stetig bzw. diskret)
46
2 Deskriptive Statistik
gesprochen wird. In späteren Kapiteln werden wir sehen, dass die stochastischen Modelle für diskrete Merkmale anders sind als die für stetige Merkmale.
2.2.1 Häufigkeiten Kommen wir jetzt zurück zu dem Beispiel mit den 6 Kindern (Beispiel 2.1). In den nachfolgenden Ausführungen wird näher auf die Notation, also die Art, Dinge aufzuschreiben, eingegangen. Beginnen wir mit dem dritten Merkmal, dem Alter. Im Folgenden werden die unterschiedlichen beobachteten Werte des Merkmals in dieser Grundgesamtheit durch das Symbol xi bezeichnet. Die Grundgesamtheit besteht aus 6 Kindern, beobachtet wurden aber nur 3 unterschiedliche Werte: x1 = 13,
x2 = 15,
x3 = 16.
Diese Werte kommen unterschiedlich oft vor. Um die Häufigkeiten der Werte zu kennzeichnen, wird das Symbol Ni verwendet: N1 = 2,
N2 = 3,
N3 = 1.
Die Summe der Häufigkeiten wird mit N bezeichnet, das heißt 3
N = N1 + N2 + N3 = ∑ Ni = 2 + 3 + 1 = 6 . i=1
N ist die Anzahl der Mitglieder der Grundgesamtheit, und diese ist natürlich gleich der Summe der Häufigkeiten für die einzelnen Werte. Relative Häufigkeiten sind die Anteile Ni / N für i = 1, 2, 3. Mit ihnen kann die Frage beantwortet werden, welcher Anteil der Grundgesamtheit einen bestimmten Wert xi annimmt: N1 /N = 2/6,
N2 /N = 3/6,
N3 /N = 1/6.
Die kumulierten absoluten Häufigkeiten zeigen, wie viele Werte der Grundgesamtheit kleiner oder gleich einem bestimmten Wert xi sind: K1 = N1 = 2 , K2 = N1 + N2 = 2 + 3 = 5 , K3 = N1 + N2 + N3 = 2 + 3 + 1 = 6 . Also ist Ki =
i
∑ Nj
j=1
für i = 1, 2, 3.
2.2 Deskriptive Statistik für diskrete Merkmale
47
Verlassen wir für einen Augenblick unsere 3 verschiedenen Beobachtungen und stellen uns vor, es gäbe k verschiedene Werte. Wenn man statt 3 möglicher Werte k mögliche Werte hat, ändern sich die möglichen Werte für den Index: Ki =
i
∑ Nj
für i = 1, 2, ..., k .
j=1
Zurück zum Beispiel: Alternativ zu der obigen Gleichung kann man die Ki der Grundgesamtheit auch so darstellen: K1 = N1 = 2 , K2 = K1 + N2 = 2 + 3 = 5 , K3 = K2 + N3 = 5 + 1 = 6 . Die kumulierten relativen Häufigkeiten sind als Ki / N, i = 1, 2, ..., k, definiert. Sie sagen somit aus, welcher Anteil der Beobachtungen aus der Grundgesamtheit kleiner oder gleich einem bestimmten Wert xi ist. Für die 6 Kinder meiner Grundgesamtheit sind die Werte: K1 /N = 2/6,
K2 /N = 5/6,
K3 /N = 6/6.
Um einen Überblick über die Arten von Häufigkeiten zu geben, sind diese noch einmal in Tabelle 2.3 zusammengefasst. Tabelle 2.3 Häufigkeiten für das Alter in der Grundgesamtheit der 6 Kinder i 1 2 3
Alter abs. Häufigk. rel. Häufigk. kum. abs. Häufigk. kum. rel. Häufigk. (Ni ) (Ni /N) (Ki ) (Ki /N) (xi ) 13 15 16
2 3 1
2/6 3/6 1/6
2 5 6
2/6 5/6 6/6
2.2.2 Grafische Darstellungen Eine grafische Darstellung der absoluten Häufigkeiten wird als Säulendiagramm bezeichnet. Auf der x-Achse zeigt es die möglichen Werte und auf der y-Achse die absoluten Häufigkeiten. Abbildung 2.1a zeigt das Säulendiagramm für das Alter der 6 Kinder aus dem Beispiel. Man muss nur die Skala der y-Achse entsprechend ändern, um die relativen Häufigkeiten darzustellen. Konkret müssen die Werte der y-Achse durch N dividiert werden. Somit erhält man Abb. 2.1b, das Säulendiagramm der relativen Häufigkeiten.
48
2 Deskriptive Statistik
a
b
Abb. 2.1 Säulendiagramm für das Merkmal Alter mit a absoluten und b relativen Häufigkeiten
Die kumulierten absoluten Häufigkeiten werden als Treppenkurve dargestellt. Eine solche Treppenkurve ist für die beobachteten Werte in Abb. 2.2a dargestellt. Auch hier erhält man durch eine Transformation der y-Achse die Treppenkurve der kumulierten relativen Häufigkeiten (Abb. 2.2b).
a
b
Abb. 2.2 Treppenkurve für das Merkmal Alter mit a kumulierten absoluten Häufigkeiten und b kumulierten relativen Häufigkeiten
2.2 Deskriptive Statistik für diskrete Merkmale
49
2.2.3 Statistiken Bis zu dieser Stelle wurden die ursprünglichen Daten und verschiedene Arten von Häufigkeiten in einer Tabelle oder grafisch dargestellt. Alle diese Instrumente gehören zur deskriptiven, zur beschreibenden Statistik. Die nachfolgenden Möglichkeiten zur Beschreibung von Daten sind etwas anderer Natur. Es werden nun Kennzahlen dargestellt, die den Datensatz auf jeweils unterschiedliche Art zusammenfassend beschreiben. Derartige Kennzahlen zur Beschreibung von Stichproben oder Grundgesamtheiten werden auch als Statistiken bezeichnet.
Lage-Statistiken Der Mittelwert einer Grundgesamtheit wird in der statistischen Literatur mit dem griechischen Buchstaben μ oder zum Teil auch mit Ma gekennzeichnet.
μ (oder Ma ) = (13 + 13 + 15 + 15 + 15 + 16)/6 = (2 · 13 + 3 · 15 + 1 · 16)/6 = 87/6 = 14.5 . Der Mittelwert sagt etwas über die Lage der Daten aus. Wir erkennen, dass das durchschnittliche Alter bei 14.5 Jahren liegt. Mit den oben eingeführten Symbolen kann man das auch wie folgt notieren:
μ = (N1 · x1 + N2 · x2 + N3 · x3 )/N =
1 3 ∑ Ni xi . N i=1
Betrachten wir nun wieder den allgemeinen Fall, d.h. k statt 3 möglicher Werte:
μ=
1 k ∑ Ni xi . N i=1
Der Modalwert MM ist definiert als der am häufigsten vorkommende Wert. Für das obige Beispiel kommt das Alter 15 am häufigsten vor. Also ist der Modalwert MM = 15 . Auch der Modalwert sagt etwas über die Lage der Daten aus, da man den Wert mit der größten Häufigkeit erkennt. Es kann mehr als einen Modalwert geben, zum Beispiel in der folgenden Grundgesamtheit (dies ist nicht die ursprüngliche Grundgesamtheit): 13
13
15
15
15
16
16
16
Hier sind 15 und 16 die häufigsten Werte, also Modalwerte. Beide kommen dreimal vor. Der Modalwert ist folglich nicht eindeutig. Der Median (oder Zentralwert) MZ ist der Wert, der in der Mitte liegt, wenn alle Werte der Größe nach geordnet sind. Falls N eine gerade Zahl ist, berechnet man
50
2 Deskriptive Statistik
den Mittelwert von den zwei Werten, die in der Mitte liegen. Die geordneten Werte für das Kinderbeispiel sind: 13
13
15
15
15
16
Somit ergibt sich für den Median: MZ = (15 + 15)/2 = 15 . Für den Fall, dass N ungerade ist, gibt es genau einen Wert, der in der Mitte der geordneten Beobachtungen liegt. Dieser Wert ist dann der Median. Auch der Median dient zur Kennzeichnung der Lage. Dies wird deutlich, wenn man bedenkt, dass (etwa) 50% der Beobachtungen kleiner und 50% größer sind als der Median. Die drei Statistiken Mittelwert, Modalwert und Median haben alle mit dem Begriff typischer Wert (oder wie oben benannt der Lage) zu tun. Aber sie beschreiben unterschiedliche Aspekte des Begriffs. Der Mittelwert, der Median und der Modalwert sind Statistiken, die bestimmte Aspekte (die Lage) einer Population oder einer Stichprobe zusammenfassen. Nehmen wir an, wir hätten ein langes stabiles Lineal, das aber sehr leicht ist (idealtypisch hat es gar kein Gewicht). Da es zwei Kinder gibt, die 13 Jahre alt sind, legen wir zwei Gewichte, je ein Kilo schwer, auf die 13. Für die drei 15-Jährigen legen wir drei solche Gewichte auf die 15 und zum Schluss legen wir ein Gewicht auf die 16 für das 16-jährige Kind. Jetzt versuchen wir, das Lineal mit einer scharfen Kante in die Waage zu bringen. Wenn die scharfe Kante zu weit links ist, neigt sich das Lineal nach rechts. Wenn die Kante zu weit rechts ist, neigt es sich nach links. Aber irgendwo auf dem Lineal kann man eine Stelle erwischen, an der das Lineal nicht kippt. Es gibt genau eine solche Stelle, und diese liegt beim Mittelwert μ . Hier liegt sie also bei 14.5. Wir können den Mittelwert also als Schwerpunkt der Werte in der Grundgesamtheit oder Stichprobe interpretieren. Dieses Beispiel zeigt auch, dass der Mittelwert keiner der ursprünglichen Werte sein muss. Es gab kein Kind im Alter von 14.5 Jahren in den ursprünglichen Daten. Es mag auf den ersten Blick übertrieben erscheinen, drei verschiedene Kennzahlen zur Beschreibung der Lage einzusetzen. Die folgende Überlegung zeigt aber, dass es je nach den Umständen sinnvoll sein kann, alle Kennzahlen in die Untersuchung einzubeziehen. Der Median hat die Eigenschaft, dass er auf Ausreißer (ungewöhnlich extreme Werte) nicht empfindlich reagiert. Man nennt Statistiken mit dieser Eigenschaft robust. Wenn in unserer Grundgesamtheit beispielsweise Leon 49 Jahre (ein im Vergleich zu den übrigen Daten ungewöhnlich extremer Wert) statt 16 Jahre alt wäre, dann wäre der Mittelwert μ = 20 Jahre, aber der Median würde 15 Jahre bleiben. In manchen Anwendungen ist der Unterschied zwischen Mittelwert und Median sogar sehr informativ. Als Aufgabe kann man sich diesbezüglich einmal überlegen, was die folgenden zwei Statistiken über das jährliche Einkommen im Land The Kingdom of Utopia aussagen: Mittelwert: 2 050 $
Median: 125 $
2.2 Deskriptive Statistik für diskrete Merkmale
51
Zurück zu den 6 Kindern: Der Modalwert sagt einfach, welche Ausprägung am häufigsten vorkommt. Man kann ihn wie folgt interpretieren: Es wird ein Kind aus der Grundgesamtheit zufällig ausgewählt. Wir müssen im Voraus raten, wie alt das ausgewählte Kind ist. Obwohl wir den Begriff Wahrscheinlichkeit noch nicht definiert haben, sollte die folgende Aussage klar sein. Man hat die besten Chancen richtig zu tippen, wenn man den Modalwert zur Voraussage verwendet. Die besten Chancen, richtig zu raten, liegen hier also bei dem Wert 15.
Statistiken zur Beschreibung der Streuung (Streuungsparameter) Eine erste, sehr einfache Statistik zur Beschreibung der Streuung ist die Spannweite (oder auch einfach Spanne). Sie ist als Differenz zwischen dem größten und dem kleinsten Wert definiert: Spanne = max(xi ) − min(xi ) Sie gibt Informationen über die Breite der Verteilung des Merkmales in der Population oder Stichprobe. In unserem Beispiel ist die Spanne für das Merkmal Alter: Spanne = 16 − 13 = 3 Man kann dies so interpretieren: Keines der Kinder in der Population ist mehr als 3 Jahre älter (oder 3 Jahre jünger) als ein beliebiges anderes Kind. Einfacher vorzustellen ist, dass alle Beobachtungen in einem Intervall der Größe 3 liegen. Die Spanne hat allerdings einen großen Nachteil, sie ist nicht robust. Sie hängt nur von zwei Werten ab, dem größten und dem kleinsten. Nehmen wir nochmal an, dass Leon 49 statt 16 Jahre alt ist. Dann ergibt sich für die Spanne: Spanne = 49 − 13 = 36 Die Spanne hat sich durch diese Änderung enorm vergrößert. Nehmen wir an, dass wir die Daten nicht gesehen hätten und dass in einem kurzen Bericht über die Population nur die folgenden Statistiken gegeben wären (zum Mittelwert mit Ausreißer siehe oben):
μ = 20 Jahre
Spanne = 36 Jahre
Die Zahlen geben den Eindruck, dass die Mitglieder der Population viel älter sind, als dies tatsächlich der Fall ist. Ein einziger Wert, nämlich 49, verursacht diesen verzerrten Eindruck. Die Spanne liefert nützliche Informationen und wird oft in der Praxis verwendet. Sie kann aber täuschen, wenn es ungewöhnlich extreme Werte in der Population gibt. Die zweite Statistik, die überall verwendet wird, um die Streuung der Werte zu beschreiben, ist die Varianz. Um diese einzuführen, muss zunächst die Notation ein wenig erweitert werden. Wir werden den ersten beobachteten Wert des Merkmals
52
2 Deskriptive Statistik
mit z1 bezeichnen, den zweiten mit z2 , ..., und den letzten mit zN . In unserem Beipiel gab es N = 6 Beobachtungen, also ergibt sich z1 = 13 = x1 ,
z2 = 13 = x1
z3 = 15 = x2 ,
z4 = 15 = x2 ,
z5 = 15 = x2
z6 = 16 = x3 Es gibt nur 3 unterschiedliche Werte, 13, 15 und 16, die wir x1 , x2 , und x3 genannt haben. Es wurden aber insgesamt N = 6 Beobachtungen gemacht. Die nachfolgenden Überlegungen sind Schritte auf dem Weg zur Varianz. Denken wir noch einmal daran, dass wir mit der Varianz die Streuung der Werte beschreiben wollen. Zunächst kann man überlegen, dass die Abweichungen vom Mittelwert die Streuung der Daten charakterisieren: z1 − μ = 13 − 14.5 = −1.5 z2 − μ = 13 − 14.5 = −1.5 z3 − μ = 15 − 14.5 = 0.5 z4 − μ = 15 − 14.5 = 0.5 z5 − μ = 15 − 14.5 = 0.5 z6 − μ = 16 − 14.5 = 1.5 Wenn wir diese Abweichungen summieren, um die Streuung der Werte in einem Wert zusammenzufassen, ist die Summe gleich Null: 6
S = ∑ (zi − μ ) = 0 i=1
Es ist nicht schwierig zu beweisen, dass dies immer so ist. Man kann zur Übung die Allgemeingültigkeit des Resultats beweisen, indem man zunächst die entsprechende Formel für μ einsetzt und anschließend einige Umformungen durchführt. Die mittlere Abweichung S/N ist ebenfalls Null und hilft daher auch nicht bei der Beschreibung der Streuung weiter. Um dieses gegenseitige Aufrechnen zu vermeiden, werden die quadratischen Abweichungen betrachtet: (z1 − μ )2 = (13 − 14.5)2 = (−1.5)2 = 2.25 (z2 − μ )2 = (13 − 14.5)2 = (−1.5)2 = 2.25 (z3 − μ )2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z4 − μ )2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z5 − μ )2 = (15 − 14.5)2 = (0.5)2 = 0.25 (z6 − μ )2 = (16 − 14.5)2 = (1.5)2 = 2.25
2.2 Deskriptive Statistik für diskrete Merkmale
53
Die Summe der quadratischen Abweichungen (abgekürzt mit SQ) ist dann: 6
SQ = ∑ (zi − μ )2 = 7.5 i=1
Der Durchschnitt der quadratischen Abweichungen vom Mittelwert beträgt: SQ/N = 7.5/6 = 1.25 Diese Zahl nennen wir Varianz. Sie wird allgemein mit dem griechischen Buchstaben σ 2 dargestellt. Verwendet man dieses Symbol und schreibt die Formel in allgemeiner Form auf, so erhält man für die Varianz:
σ2 =
1 N ∑ (zi − μ )2 = 1.25 N i=1
Eine alternative Möglichkeit, dies darzustellen, ergibt sich aus der folgenden Überlegung. Wir sehen, dass in der Summe die 13 zweimal vorkommt, die 15 dreimal und die 16 einmal. Wir hätten die Summe daher auch wie folgt berechnen können:
σ2 =
1 2 · (13 − 14.5)2 + 3 · (15 − 14.5)2 + 1 · (16 − 14.5)2 = 1.25 6
Die 13, 15 und 16 sind die Werte, die wir mit x1 , x2 und x3 bezeichnet haben. Daher können wir Varianz auch so definieren:
σ2 =
1 3 ∑ Ni · (xi − μ )2 N i=1
Hat man k statt 3 unterschiedliche Werte, ist
σ2 =
1 k ∑ Ni · (xi − μ )2 . N i=1
Etwas einfacher ist die Berechnung der Varianz nach der folgenden Formel: 1 k 2 2 σ = ∑ Ni xi − μ 2 N i=1 Diese Formel liefert immer das gleiche Ergebnis wie die vorherige Formel. Man kann auch sagen, dass die Formeln mathematisch identisch sind. Da wir Quadrate berechnet haben, um die Varianz zu bestimmen, sind die Einheiten der Varianz Jahre2 . Wenn man mit den ursprünglichen Einheiten arbeiten will, kann man einfach die positive Quadratwurzel der Varianz verwenden. Diese Wurzel aus der Varianz bezeichnet man als Standardabweichung, mit Symbol σ : √ Standardabweichung = Varianz
54
2 Deskriptive Statistik
In unserem Beispiel ergibt sich somit √ √ σ = σ 2 = 1.25 (≈ 1.13) .
2.2.4 Besonderheiten für nominal- und ordinal-skalierte Merkmale Wir haben jetzt eine Reihe neuer Begriffe definiert, wie zum Beispiel kumulierte relative Häufigkeiten, Modalwert usw. Diese wurden alle anhand des quantitativen Merkmals Alter erläutert. Manche dieser Begriffe (aber nicht alle) können auch verwendet werden, um ordinal-skalierte Merkmale zu beschreiben. Manche Begriffe (aber noch weniger als bei den ordinal-skalierten Merkmalen) gelten darüber hinaus auch für nominal-skalierte Merkmale. Nun sollen die Möglichkeiten anhand unseres Beispiels etwas genauer erläutert werden. In dem Beispiel betrachten wir drei Merkmale. Das erste ist nominal-skaliert, das zweite ist ordinal-skaliert und das dritte ist quantitativ. Um darzustellen, welche Begriffe (also Häufigkeiten bzw. Statistiken) für welche Art von Merkmalen verwendet werden können, werden wir die Möglichkeiten in einer Tabelle gegenüber stellen. Die Spalten der Tabelle 2.4 zeigen die drei Arten von Merkmalen. Die Zeilen beziehen sich auf die Begriffe, die definiert wurden. Für das Merkmal Geschlecht (nominal) kann man die Häufigkeiten und die relativen Häufigkeiten berechnen. Tabelle 2.5 zeigt die entsprechenden Werte. Da man die absoluten und relativen Häufigkeiten berechnen kann, ist es auch möglich, diese mit einem Säulendiagramm grafisch darzustellen.
Tabelle 2.4 Gegenüberstellung von Merkmalsarten und deskriptiven Instrumenten Geschlecht Reaktion auf Fischgerichte Alter (nominal) (ordinal) (quantitativ) Häufigkeiten rel. Häufigkeiten Säulendiagramm
ja
ja
ja
kum. Häufigkeiten kum. rel. Häufigkeiten Treppenkurve
nein
ja
ja
Mittelwert
nein
nein
ja
Median
nein
ja
ja
ja
ja
ja
Spanne
nein
ja
ja
Varianz Standardabweichung
nein
nein
ja
Modalwert
2.2 Deskriptive Statistik für diskrete Merkmale
55
Tabelle 2.5 Häufigkeiten (absolut und relativ) für das Merkmal Geschlecht Ausprägung
Häufigkeit relative Häufigkeit
männlich weiblich
3 3
0.5 0.5
Man kann aber keine vernünftigen kumulierten Häufigkeiten berechnen, weil man den Ausprägungen keine natürliche Reihenfolge zuordnen kann. Hier hat man drei Mädchen und drei Jungen, und es spielt daher keine Rolle, welche Reihenfolge man verwendet. Wenn es 4 Mädchen und 2 Jungen gäbe, hätte man zwei Möglichkeiten, die Werte zu kumulieren. Es gibt allerdings keine Gründe, eine der Möglichkeiten vorzuziehen. Es gibt demnach keine eindeutige Definition für kumulierte Häufigkeiten bei nominal-skalierten Merkmalen. Da nominal-skalierte Merkmale nicht als Zahlen beschrieben sind, können wir auch keinen Mittelwert, keine Varianz oder Standardabweichung berechnen. Da man den Ausprägungen keine Zahlen zuordnen kann, haben sie auch keinen Median und keine Spanne. Aber sie haben einen (oder mehrere) Modalwerte. In diesem Beispiel kommen die zwei Möglichkeiten gleich oft vor. Also sind beide Ausprägungen männlich und weiblich Modalwerte. Betrachten wir jetzt das ordinal-skalierte Merkmal Reaktion auf Fischgerichte. Die Häufigkeiten und relativen Häufigkeiten sind in Tabelle 2.6 enthalten. Da die Ausprägungen des Merkmals geordnet werden können, kann man in diesem Fall die kumulierten Häufigkeiten und relativen kumulierten Häufigkeiten ebenfalls berechnen. Tabelle 2.6 Häufigkeiten für das Merkmal Reaktion auf Fischgerichte Ausprägung Häufigkeit kum. Häufigkeit rel. Häufigkeit kum. rel. Häufigk.
1
1
1/6
1/6
2
3
2/6
3/6
3
6
3/6
6/6
Neben einem Säulendiagramm zur Darstellung der Häufigkeiten (Abb. 2.3a) ist es hier auch möglich, eine Treppenkurve zu zeichnen. Letztere ist in Abb. 2.3b dargestellt. Auch ordinal-skalierte Merkmale haben, wie die nominalen Merkmale, keinen Mittelwert, keine Varianz und keine Standardabweichung, weil sie nicht mit Zahlen assoziiert sind. Allerdings lässt sich der Median von ordinal-skalierten Merkmalen
56
2 Deskriptive Statistik
a
b
Abb. 2.3 a Säulendiagramm und b Treppenkurve des Merkmals Reaktion auf Fischgerichte
bestimmen. Die 6 Beobachtungen können der Größe (bzw. Präferenz) nach geordnet werden: Hier liegt der Median zwischen den Ausprägungen und
Auch der Modalwert ist für die Reaktion auf Fischgerichte definiert. Er ist Es gibt mehr Kinder in der Gruppe als in jeder anderen. Bevor die bisher vorgestellten Instrumente der deskriptiven Statistik noch einmal an einem realistischeren Beispiel verdeutlicht werden, sollten noch kurz ein paar Worte zu dem Merkmal Schulnote gesagt werden. Vorher hatten wir dieses Merkmal den ordinal-skalierten Merkmalen zugeordnet, da es eigentlich keine festgelegten Abstände zwischen den Ausprägungen sehr gut, gut, befriedigend usw. gibt. Streng genommen wäre es daher auch nicht möglich oder sinnvoll, eine Durchschnittsnote (also einen Mittelwert) zu berechnen. In der Praxis jedoch werden den Noten in der Regel Zahlen zugeordnet und auch Zwischennoten vergeben (1.0, 1.3, 1.7, 2.0, ...), so dass es möglich und auch üblich ist, Durchschnittsnoten zu ermitteln. Damit wird
2.2 Deskriptive Statistik für diskrete Merkmale
57
das ursprünglich ordinal-skalierte Merkmal Schulnote wie ein quantitatives Merkmal behandelt. Ob dies immer gerechtfertigt ist, sollte kritisch hinterfragt werden. Beispiel 2.2. Anzahl gekaufter Müslipakete In diesem Beispiel betrachten wir die Anzahl der von 2 000 Konsumenten in einem Zeitraum von 13 Wochen gekauften Müslipakete.1 Wir haben also N = 2 000 Beobachtungen, die wir als Stichprobe aus einer Grundgesamtheit betrachten. Die Häufigkeiten für die verschiedenen Ausprägungen (hier verschiedene Anzahlen gekaufter Pakete) sind in Tabelle 2.7 dargestellt. Dort wird die relative Häufikeit in Prozent, statt als Anteil, angegeben, da dies einfacher zu überblicken ist. Es ist unter anderem zu erkennen, dass ca. 60% der Konsumenten kein Paket gekauft haben, etwa 10% ein Paket usw. Tabelle 2.7 Anzahl in 13 Wochen gekaufter Müslipakete Anzahl Häufigk. rel. Häufigk. (%) kum. Häufigk. kum. rel. Häufigk. (%) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 23 25 26 27 29 30 39 52
1 149 199 129 87 71 43 49 46 44 24 45 22 23 33 8 2 7 2 3 1 2 1 1 3 2 1 1 1 1
57.45 9.95 6.45 4.35 3.55 2.15 2.45 2.30 2.20 1.20 2.25 1.10 1.15 1.65 0.40 0.10 0.35 0.10 0.15 0.05 0.10 0.05 0.05 0.15 0.10 0.05 0.05 0.05 0.05
1 149 1 348 1 477 1 564 1 635 1 678 1 727 1 773 1 817 1 841 1 886 1 908 1 931 1 964 1 972 1 974 1 981 1 983 1 986 1 987 1 989 1 990 1 991 1 994 1 996 1 997 1 998 1 999 2 000
57.45 67.40 73,85 78.20 81.75 83.90 86.35 88.65 90.85 92.05 94.30 95.40 96.55 98.20 98.60 98.70 99.05 99.15 99.30 99.35 99.45 99.50 99.55 99.70 99.80 99.85 99.90 99.95 100.00
1 Dieses Beispiel ist aus dem Buch Barnett, V. and Lewis, T. (1984): Outliers in Statistical Data, Second Edition, Wiley, New York, übernommen und könnte die Ergebnisse einer typischen Marktforschungsstudie beschreiben, in der 2 000 Konsumenten unter anderem danach gefragt wurden, wie viele Pakete Müsli sie in einem Zeitraum von 13 Wochen gekauft hatten.
58
2 Deskriptive Statistik
Die unterschiedlichen beobachteten Werte reichen von 0 bis 52 Pakete. Das zugehörige Säulendiagramm veranschaulicht die Häufigkeiten grafisch (Abb. 2.4a).
Abb. 2.4 Säulendiagramme für die Anzahl gekaufter Müslipakete in 13 Wochen
Man erkennt, dass die Häufigkeit von Null Paketen viel größer ist als die anderen Häufigkeiten. Weil die Skala von der größten Häufigkeit stark beeinflusst wird, sind alle Werte nur mit Mühe abzulesen. Für solche Daten ist es sinnvoll, das Säulendiagramm zu modifizieren, indem die y-Skala verändert wird. Dies ist in Abb. 2.4b erfolgt. Dort geht die y-Achse nur noch bis 250, und es ist jetzt einfacher, die Häufigkeiten abzulesen. Der Pfeil auf der ersten Säule zeigt, dass die Häufigkeit von Null viel größer ist als man sie hier sieht. Über den Pfeil wurde die Häufigkeit (1 149) geschrieben. Ohne diesen Zusatz würde man nicht wissen, wie hoch diese Säule tatsächlich ist. Die Information aus dem Diagramm wäre dann nicht vollständig und würde einen falschen Eindruck vermitteln. In Abb. 2.4b ist auch die x-Skala auf 30 reduziert, da es zwei Werte (39 und 52) gibt, die relativ weit von den übrigen Beobachtungen entfernt liegen. Diese Werte können daher nicht mehr dargestellt werden und sind lediglich als Zusatzinformation angegeben. Abbildung 2.5 zeigt die Treppenkurve der kumulierten relativen Häufigkeiten. Auch hier wurden die Achsenskalierungen geändert, um die Abbildung übersichtlicher zu machen. Neben den Grafiken können auch einige Statistiken zur Untersuchung der Anzahl gekaufter Müslipakete herangezogen werden. Der Mittelwert beträgt circa 2.3, Median und Modalwert sind beide gleich 0. Mit Blick auf die Streuung der√Daten ergibt sich eine Varianz von 17.7 und folglich eine Standardabweichung von 17.7 ≈ 4.2.
2.3 Deskriptive Statistik für stetige Merkmale
59
Abb. 2.5 Treppenkurve für die Anzahl gekaufter Müslipakete in 13 Wochen
Anhand dieses Beispieles soll erklärt werden, warum man sich die Mühe macht, mehrere Konzepte zu verwenden, um die Daten zu charakterisieren. Angenommen, man wäre der Marketing-Manager der Firma, die dieses Müsli verkauft. Wenn man nur den Mittelwert hätte, wüsste man Folgendes: Im Durchschnitt kaufen Konsumenten 2.3 Pakete in 13 Wochen. Ohne weitere Information vermittelt diese Aussage den Eindruck, dass ein typischer Konsument zwischen 2 und 3 Pakete gekauft hat. Dieser Eindruck wäre aber falsch oder zumindest unvollständig. Man könnte sich beispielsweise fragen: Wie muss eine Werbestrategie aussehen, um den Mittelwert von 2.3 auf 3.5 zu erhöhen? Wenn wir das Säulendiagramm anschauen, den Median oder den Modalwert, sehen wir, dass der Mittelwert nicht den typischen Konsumenten charakterisiert. Vielmehr haben die meisten Konsumenten gar kein Müsli gekauft. Als Manager kann man sich dann fragen: Warum ist das so? Haben diese Leute von Müsli nie gehört? Hat mein Müsli (oder vielleicht Müsli allgemein) ein schlechtes Image? Sollte ich daher die Werbestrategie ändern, um den Bekanntheitsgrad zu erhöhen oder um das Image von Müsli zu verbessern? Oder man könnte sich sagen: Hier gibt es einen Konsumenten, der sehr gern und große Mengen von meinem Müsli kauft. Man möchte mehr solcher Kunden haben; die Konsumenten, die kein Müsli kaufen, interessieren einen nicht. Man sollte daher fragen, um was für einen Kunden es sich handelt. Ist es ein Student, ein Pferdeliebhaber, . . . ? Wenn man das wüsste, dann wüsste man, in welchem Kundensegment man besonders gut ist. Auf solche Überlegungen wäre man wahrscheinlich nicht gekommen, wenn man die Beobachtungen lediglich durch ihren Mittelwert beschrieben hätte.
2.3 Deskriptive Statistik für stetige Merkmale Die bislang betrachteten Merkmale waren alle diskret. Es werden nun stetige Merkmale betrachtet. Eine Differenzierung in nominale, ordinale sowie quantitative Merkmale ist nicht notwendig, da alle stetigen Merkmale quantitativ sind.
60
2 Deskriptive Statistik
2.3.1 Häufigkeiten und grafische Darstellungen Betrachten wir noch einmal das Beispiel der Glühbirnen, in dem das stetige Merkmal Brenndauer betrachtet wurde (Beispiel 1.12). Die Häufigkeiten, mit denen bestimmte Brenndauern in verschiedenen Intervallen beobachtet wurden, wurden in Tabelle 1.8 gegeben und als sogenanntes Histogramm in Abb. 1.16 dargestellt. Allgemein wird die grafische Darstellung der für Intervalle gegebenen Häufigkeiten als Histogramm bezeichnet. Das Histogramm in Abb. 1.16 ist bereits ein „Sonderfall“, da es an der y-Achse die relativen Häufigkeiten geteilt durch die Klassenbreite zeigt. Auf den ersten Blick erscheint diese Skalierung der y-Achse etwas ungewöhnlich, und es ist tatsächlich unnötig, die relativen Häufigkeiten zu verwenden und diese dann noch durch die Klassenbreite zu teilen, um einen unverzerrten grafischen Eindruck der Daten zu erhalten. Es gibt jedoch auch Fälle, in denen die Intervalle unterschiedlich breit sind, so dass diese Skalierung (Division durch die Klassenbreite) wichtig wird, wie die folgenden Beispiele noch zeigen werden. Zunächst werfen wir jedoch einen Blick auf ein „einfaches“ Histogramm. Im einfachsten Fall sieht ein Histogramm der Glühbirnen-Brenndauern so aus wie in Abb. 2.6.
Abb. 2.6 Histogramm für die Brenndauer von Glühbirnen mit absoluten Häufigkeiten
Zu diesem „einfachen“ Histogramm sind zwei Bemerkungen von Bedeutung. • Auf der y-Achse ist die absolute Häufigkeit abgetragen, die für die Intervalle der x-Achse beobachtet wurden. • Alle Intervalle besitzen die gleiche Breite. Dies ist die übliche Skalierung der y-Achse. Wenn alle Intervalle die gleiche Breite besitzen, ist die absolute Skalierung sinnvoll. Es gibt jedoch auch Fälle, in denen die Intervalle unterschiedlich breit sind. In solchen Fällen sollte eine andere Skalierung verwendet werden, um einen verzerrten Eindruck zu vermeiden. Wie ein Histogramm bei unterschiedlichen Intervallbreiten zu konstruieren ist, soll am folgenden Beispiel erläutert werden.
2.3 Deskriptive Statistik für stetige Merkmale
61
Beispiel 2.3. Anbaufläche landwirtschaftlicher Betriebe In diesem Beispiel werden 1565 landwirtschaftliche Betriebe im Landkreis Wesermarsch im nördlichen Niedersachsen betrachtet. Das interessierende Merkmal ist die Größe der Anbaufläche der Betriebe im Jahr 1995.2 Bei der Anbaufläche handelt es sich um ein stetiges Merkmal, da alle Werte größer Null realisiert werden können. Tabelle 2.8 zeigt Häufigkeiten für Anbauflächen in bestimmten Intervallen. Beispielsweise wurden 127 Betriebe beobachtet, deren Anbaufläche größer als 10 ha und Tabelle 2.8 Häufigkeiten für Anbauflächen bestimmter Größe Anbaufläche in ha xi 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 Summe
Absolute Relative Häufigkeit Häufigkeit Ni Ni /N 421 127 134 302 365 159 38 14 5
0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032
1 565
1.0000
maximal 20 ha groß ist. Die einzelnen Beobachtungen liegen nicht vor. Dies ist bei stetigen Daten häufiger der Fall, insbesondere, wenn sie von statistischen Ämtern zur Verfügung gestellt werden. Die einzelnen Werte werden aus Datenschutzgründen nicht veröffentlicht. Liegen die Daten wie hier in Intervallen vor, spricht man auch davon, dass die Daten in Klassen gruppiert sind. Abbildung 2.7 zeigt ein Säulendiagramm für die absoluten Häufigkeiten der Anbauflächen, wobei die einzelnen Säulen jeweils so breit sind wie das entsprechende Intervall der Anbauflächen. Diese Darstellungsweise entspricht damit im Grunde einem einfachen Histogramm mit den absoluten Häufigkeiten an der y-Achse. In diesem Fall gibt das Säulendiagramm (oder einfaches Histogramm) einen verfälschten Eindruck, da die Klassen unterschiedlich breit sind. Es ist hier notwendig, die y-Achse zu modifizieren, indem die absoluten Häufigkeiten der Klassen durch die entsprechenden Klassenbreiten dividiert werden. Dies ist in Abb. 2.9 für die absoluten Häufigkeiten (oben) bzw. die relativen Häufigkeiten (unten) erfolgt (standardmäßig verwendet man bei unterschiedlichen Klassenbreiten die relativen Häufigkeiten geteilt durch die Klassenbreite). Wenn dies gemacht wird, entspricht die 2
Die Daten stammen aus der Agrarberichterstattung 1995 des Niedersächsischen Landesamtes für Statistik und wurden 1996 (in einer etwas anderen Klasseneinteilung) in Heft 2 der Agrarberichterstattung 1995 des Niedersächsischen Landesamts für Statistik veröffentlicht.
62
2 Deskriptive Statistik
Abb. 2.7 Säulendiagramm für die Größe landwirtschaftlicher Anbauflächen
Fläche einer Säule der absoluten bzw. relativen Häufigkeit. Beispielsweise beträgt die Fläche der ersten Säule in Abb. 2.9a Fläche = Höhe · Breite = (421/10) · 10 = 421 und stimmt somit mit der entsprechenden Häufigkeit überein. Da man optisch die Fläche mit der Häufigkeit assoziiert und nicht die Säulenhöhe, ist der visuelle Eindruck nicht mehr verfälscht. Ein einfaches Beispiel verdeutlicht dies: Abbildung 2.8 zeigt zwei Säulendiagramme für die gleichen Daten. Im linken Diagramm besitzen die Klassen die gleiche Breite, rechts hingegen ist die rechte Klasse doppelt so breit, obwohl sie dadurch keine weiteren Beobachtungen enthält. Im linken Diagramm
a
b
Abb. 2.8 Zwei unterschiedliche Säulendiagramme für identische Daten
erscheint die rechte Säule doppelt so groß wie die linke. Dies ist ein unverzerrter Eindruck, da zu der rechten Säule auch doppelt so viele Beobachtungen gehören. Im rechten Säulendiagramm hingegen erscheint die rechte Säule viermal so groß wie die linke. Dies ist aber ein verzerrter Eindruck, da wie erwähnt nur doppelt so viele Beobachtungen zur rechten Säule gehören.
2.3 Deskriptive Statistik für stetige Merkmale
63
Um der Wahrnehmung gerecht zu werden, müssen also die Flächen der Säulen mit den beobachteten Häufigkeiten korrespondieren. Die entsprechende grafische Darstellung wird als Histogramm bezeichnet: Ein Histogramm ist eine flächenproportionale Darstellung der Häufigkeiten. Die Konstruktion eines Histogramms ergibt sich wie folgt: Höhe der Rechtecke = Häufigkeit/Klassenbreite Höhe des i-ten Rechtecks = Ni /bi
für i = 1, 2, . . . , k,
wobei bi die Breite der Klasse i darstellt. Die Höhe der Rechtecke kann dann als Dichte der Werte in den entsprechenden Klassen interpretiert werden. Sehr häufig sind die Klassenbreiten identisch (denken wir noch einmal an das Beispiel mit den Glühbirnen). In diesen Fällen ist eine Division durch die Klassenbreite nicht notwendig, da die Proportionalität der Flächen bereits gegeben ist. Tabelle 2.9 zeigt die zur Konstruktion des Histogramms für die Anbaufläche landwirtschaftlicher Betriebe notwendigen Berechnungen. Tabelle 2.9 Arbeitstabelle zur Konstruktion eines Histogramms für die Anbaufläche landwirtschaftlicher Betriebe xi
Ni
Ni /N
bi
Ni /bi (Ni /N)/bi
0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200
421 127 134 302 365 159 38 14 5
0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032
10 10 10 20 25 25 25 25 50
42.10 12.70 13.40 15.10 14.60 6.36 1.52 0.56 0.10
0.0269 0.0081 0.0086 0.0096 0.0093 0.0041 0.0010 0.0004 0.0001
Abbildung 2.9 zeigt die entsprechenden Histogramme für die Daten der Anbauflächen, zum einen mit absoluten Häufigkeiten (linke Grafik), zum anderen mit relativen Häufigkeiten (Abb. 2.9b), jeweils geteilt durch die Klassenbreite. Vergleicht man das Histogramm mit dem Säulendiagramm (Abb. 2.7), so wird der Vorteil des Histogramms deutlich. Betrachten wir die beiden Klassen (20, 30] und (30, 50]. Der Tabelle 2.9 ist zu entnehmen, dass ca. doppelt so viele Anbauflächen im Intervall (30, 50] liegen wie im Intervall (20, 30]. Dieses Verhältnis wird im Histogramm entsprechend wahrgenommen. Im Säulendiagramm hingegen erscheint es so, als ob im Intervall (30, 50] wesentlich mehr als doppelt so viele Beobachtungen vorliegen.
64
2 Deskriptive Statistik
a
b
Abb. 2.9 Histogramme der Anbauflächen mit a absoluten Häufigkeiten und b relativen Häufigkeiten, jeweils geteilt durch die Klassenbreite
Wie bereits erwähnt, werden in den Grafiken in Abb. 2.9 zwei verschiedene Skalierungen der y-Achse verwendet: • Abbildung 2.9a bezieht sich auf die absoluten Häufigkeiten (geteilt durch die Klassenbreite): Ni /bi . • Abbildung 2.9b bezieht sich auf die relativen Häufigkeiten (geteilt durch die Klassenbreite): (Ni /N)/bi . Je nach verwendeter Skalierung unterscheidet sich natürlich die Größe der Fläche des gesamten Histogramms. Verwendet man die absoluten Häufigkeiten, so ist die Fläche des Histogramms gleich N. Verwendet man hingegen die relativen Häufigkeiten, so beträgt die Gesamtfläche des Histogramms genau Eins. Die Skala aus Abb. 2.9a kann verwendet werden, um Häufigkeiten zu schätzen. Wir sprechen von schätzen, da nur gruppierte Daten (und nicht die Originalwerte) zur Verfügung stehen. Wir nehmen dabei an, dass die Beobachtungen innerhalb einer Klasse in etwa gleich verteilt sind. Wenn wir beispielsweise schätzen wollen, wie viele Anbauflächen zwischen 80 ha und 110 ha groß sind (ein Wert, der aus den ursprünglichen Daten nicht hervorgeht), können wir dies durch Bestimmung der Histogramm-Fläche über dem bestimmten Bereich tun. Somit ergibt sich für die geschätzte Anzahl (zur grafischen Veranschaulichung siehe Abb. 2.10a): 6.36 · 20 + 1.52 · 10 = 142.4 . Verwendet man die Skala aus Abb. 2.9b, die sich auf die relativen Häufigkeiten bezieht, erhält man den Anteil der Betriebe mit einer Anbaufläche zwischen 80 ha und 110 ha (zur grafischen Veranschaulichung siehe Abb. 2.10b):
2.3 Deskriptive Statistik für stetige Merkmale
65
a
b
Abb. 2.10 a Anzahl und b Anteil der Anbauflächen zwischen 80 und 110 ha
0.0041 · 20 + 0.0010 · 10 = 0.092 = 9.2% der Betriebe . Um die kumulierten Häufigkeiten darzustellen, wurde für diskrete Daten die Treppenkurve eingeführt. Das Pendant für stetige Daten wird als Summenkurve bezeichnet. Die Summenkurve kumuliert die Fläche unter dem Histogramm von links nach rechts. Zusammenfassend sind die grafischen Darstellungen in Tabelle 2.10 gegenübergestellt. Tabelle 2.10 Grafische Darstellung von Häufigkeiten für diskrete bzw. stetige Merkmale Diskrete Merkmale Stetige Merkmale Häufigkeiten kumulierte Häufigkeiten
Säulendiagramm Treppenkurve
Histogramm Summenkurve
Zur Konstruktion der Summenkurve für das Ackerflächen-Beispiel ist die Tabelle 2.11 erstellt worden. Abbildung 2.11b zeigt die Summenkurve für die Betriebe aus der Wesermarsch. Auf der x-Achse sind auch hier die Klassengrenzen abgetragen. Die y-Achse steht für die kumulierten bzw. wie hier kumulierten relativen Häufigkeiten der oberen Klassengrenze. Ferner sind die Punkte jeweils durch eine gerade Strecke (linear) miteinander verbunden. Da die kumulierten Häufigkeiten nicht kleiner werden können, handelt es sich um eine monoton steigende Funktion. Die Summenkurve ist in der Praxis sehr nützlich, da sie die folgende Eigenschaft kennzeichnet:
66
2 Deskriptive Statistik
Tabelle 2.11 Arbeitstabelle zur Konstruktion der Summenkurve für die Anbaufläche landwirtschaftlicher Betriebe xi
Ni
Ni /N
Ki
Ki /N
0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200
421 127 134 302 365 159 38 14 5
0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032
421 548 682 984 1 349 1 508 1 546 1 560 1 565
0.2690 0.3502 0.4358 0.6288 0.8620 0.9636 0.9879 0.9968 1.0000
Der Wert der Summenkurve an der Stelle x ist gleich der Fläche unter dem Histogramm im Bereich (−∞, x]. Wenn man beispielsweise wissen möchte, welcher Anteil der Betriebe kleiner oder gleich 40 ha groß ist, kann man dies einfach aus der Summenkurve an der Stelle x = 40 ablesen. Der zugehörige y-Wert ist 0.53, d.h. 53% der Betriebe haben eine Anbaufläche, die maximal 40 ha groß ist. Der Zusammenhang zwischen Histogrammfläche und y-Wert der Summenkurve wird in Abb. 2.11 verdeutlicht.
Abb. 2.11 Zusammenhang zwischen Histogramm und Summenkurve (Anteil der Betriebe mit maximal 40 ha Anbaufläche)
2.3 Deskriptive Statistik für stetige Merkmale
67
Weiter oben wurde der Anteil der Anbauflächen zwischen 80 ha und 110 ha bestimmt. Auch dieser kann mit der Summenkurve ermittelt werden, indem man zunächst den Anteil der Betriebe bestimmt, deren Anbaufläche kleiner/gleich 110 ha ist, und danach den Anteil der Betriebe kleiner/gleich 80 ha abzieht: Anteil der Betriebe zwischen 80 ha und 110 ha = Anteil der Betriebe ≤ 110ha − Anteil der Betriebe ≤ 80 ha = 0.97 − 0.88 = 0.09 = 9% der Betriebe. Eine grafische Veranschaulichung des Vorgehens findet sich in Abb. 2.12.
Abb. 2.12 Zusammenhang zwischen Histogramm und Summenkurve (Anteil der Betriebe mit einer Anbaufläche zwischen 80 und 110 ha)
2.3.2 Statistiken Der Modalwert wurde bei den diskreten Merkmalen als häufigster Wert definiert. Dieser kann für die stetigen Daten, die nur in Gruppen vorliegen, nicht bestimmt werden. Es kann aber eine Modal-Klasse bestimmt werden, d.h. die Klasse mit den meisten Beobachtungen je x-Einheit. Grafisch interpretiert ist die Modal-Klasse diejenige Klasse, die das höchste Rechteck des Histogramms besitzt, wobei bei unterschiedlichen Klassenbreiten die y-Achse so skaliert sein muss, dass durch die Klassenbreite dividiert wurde.
68
2 Deskriptive Statistik
Man kann auch den Median nicht exakt bestimmen, wenn die Ausgangsdaten nicht vorliegen. Man kann ihn aber mit der Summenkurve schätzen: Der Median ist der x-Wert, für den die Summenkurve den Wert 0.5 annimmt. Für das Beispiel ergibt sich ein Median von 36.65 ha, d.h. die Hälfte (50%) der Betriebe besitzt eine Anbaufläche kleiner/gleich 36.65 ha. Ebenfalls kann man die Anbaufläche bestimmen, für die gilt, dass 25% (ein Viertel) bzw. 75% (drei Viertel) der Betriebe kleiner sind als die zu bestimmenden Anbauflächen. Diese werden als erstes bzw. drittes Quartil bezeichnet: • Das 1. Quartil (Symbol Q1 ) ist der x-Wert, für den die Summenkurve den Wert 0.25 annimmt. • Das 3. Quartil (Symbol Q3 ) ist der x-Wert, für den die Summenkurve den Wert 0.75 annimmt. Abbildung 2.13 zeigt das Konzept für die Quartile und den Median. Da der Median dem zweiten Quartil entspricht, wird er gelegentlich auch mit Q2 notiert. Eng verbunden mit den Quartilen sind die sogenannten Boxplots, die bereits im ersten Kapitel verwendet wurden. Sie stellen eine weitere Möglichkeit zur Darstellung stetiger Daten dar. Um diese etwas genauer vorzustellen, betrachten wir noch einmal einige Daten aus Beispiel 1.2 (Dauer eines Linienfluges). In Abb. 1.3 wurde die Blockzeit (Zeit vom Losrollen am Startgate bis zum Andocken am Zielgate) der American Airlines Flüge von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) im Februar 2006 als Histogramm dargestellt. Die geplante Blockzeit betrug zwischen 180 und 189 Minuten. Für die beobachteten Blockzeiten ergeben sich die folgenden Werte als Quartile: Q1 = 174.0
Q2 = 183.0
Q3 = 191.0
Basierend auf diesen Quartilen kann nun ein Boxplot der Blockzeiten erstellt werden, wie er in Abb. 2.14 gezeigt wird. Der Boxplot in Abb. 2.14 verwendet das erste und dritte Quartil zur Abgrenzung der Box. Ferner ist der Median durch den horizontalen Strich in der Mitte der Box zu erkennen. Durch diese Darstellung werden die eben genannten Anteile in den Daten
Abb. 2.13 Ackerbaufläche und das Konzept der Quartile
2.3 Deskriptive Statistik für stetige Merkmale
69
Abb. 2.14 Boxplot der Blockzeiten auf der Strecke DFW–PHL
auf einen Blick verdeutlicht. Außerdem stellt der Plot das Maximum (233 Minuten, als Punkt) und das Minimum (153 Minuten, als horizontaler Strich) der Daten dar. Ausreißer werden in der Regel separat dargestellt, um nicht die Aussage der Darstellung zu verfälschen. Wir können selber bestimmen, welche Werte als Ausreißer zu betrachten sind. Tun wir dies nicht, so verwendet statistische Software eine Standardregel zur Bestimmung der Ausreißer. Für das Beispiel hat die Software Beobachtungen als Ausreißer festgelegt, die im Boxplot als einzelne Punkte bei extremen Verspätungen zu sehen sind. Wichtig bei der Interpretation des Boxplots (bzw. der zu Grunde liegenden Quartile) ist, dass je ein Viertel der Blockzeiten weniger als 174 Minuten, zwischen 174 und 183, zwischen 183 und 191 sowie mehr als 191 Minuten betrugen. Boxplots sind besonders nützlich, um zwei Datensätze (oder Verteilungen) miteinander zu vergleichen. Abbildung 2.15 zeigt zwei Boxplots nebeneinander. Der
Abb. 2.15 Boxplots der Blockzeiten auf den Strecken DFW–PHL und PHL–DFW
70
2 Deskriptive Statistik
linke Boxplot beschreibt die Blockzeiten von DFW nach PHL (wie der Boxplot in Abb. 2.14), der rechte die der Gegenrichtung, also von PHL nach DFW. Die geplanten Blockzeiten von Philadelphia nach Dallas / Fort Worth lagen je nach Flug zwischen 222 und 237 Minuten. Die deutlich längeren Zeiten ergeben sich durch die unterschiedlichen Windverhältnisse; Flüge von West nach Ost haben auf der Nordhalbkugel in der Regel Rückenwind, so dass sie deutlich kürzer sind als Flüge von Ost nach West, die gegen den Wind fliegen. Die unterschiedlichen Blockzeiten auf den entgegengesetzten Strecken sind beim Vergleich der beiden Boxplots sehr gut zu erkennen. Für die Strecke PHL–DFW ergeben sich die folgenden Quartile der Blockzeiten (in Klammern die Werte der Hinflüge zum Vergleich), die auch leicht aus dem Boxplot abgelesen werden können: Q1 = 220.0 (174.0)
Q2 = 229.0 (183.0)
Q3 = 247.0 (191.0)
Ein weiteres Beispiel für den Vergleich von Verteilungen ist in Abb. 2.16 zu finden. Dargestellt sind hier die Ankunftsverspätungen in Philadelphia für Flüge aus Dallas in Abhängigkeit vom Wochentag. Der Abbildung ist leicht zu entnehmen, dass die Verspätung freitags und samstags deutlich größer ist als an den anderen Wochentagen. Für gruppierte Daten lässt sich der Mittelwert nicht exakt angeben. Man kann ihn aber approximieren, d.h. ihn mit gewisser Ungenauigkeit angeben. Dazu stellt man sich vor, dass die Werte einer Klasse durch den Wert, der genau in der Mitte der Klasse liegt, gut vertreten werden. Wenn man diesen Wert mit xM i bezeichnet, gilt für den Mittelwert analog zum diskreten Fall: 1 k μ = ∑ Ni xM N i=1 i
Abb. 2.16 Boxplots der Ankunftsverspätung in PHL für die Strecke DFW–PHL in Abhängigkeit vom Wochentag
2.3 Deskriptive Statistik für stetige Merkmale
71
Kehren wir nun zurück zum Ackerbau-Beispiel (Beispiel 2.3), so ergibt sich als approximierter Mittelwert: 9 Ni M 1 9 M oder μ = ∑ xi μ = ∑ Ni xi N i=1 i=1 N =
1 (421 · 5 + 127 · 15 + . . .+ 14 · 137.5 + 5 · 175) ≈ 40.4ha 1565
Diese Rechnung lässt sich leicht mit Hilfe von Tabelle 2.12 nachvollziehen. Ein ähnliches Vorgehen verwendet man zur Bestimmung der Varianz bei gruppierten Daten. Diese berechnet sich durch:
σ2 =
2 1 k Ni xM ∑ i −μ N i=1
Ni M 2 xi − μ2 N i=1 k
σ2 = ∑
bzw.
Betrachtet man die Streuung in der Größe der Anbauflächen, ergibt sich
σ2 =
k
Ni M 2 xi − μ2
∑N
i=1
421 2 127 14 5 ·5 + · 152 + . . . + · 137.52 + · 1752 − 40.4092 1565 1565 1565 1565 = 2650.431 − 40.4092 ≈ 1017.5ha2 . =
Auch hier erfolgt die Berechnung am einfachsten mit Hilfe einer Arbeitstabelle (siehe Tabelle 2.13). Man berechnet die Standardabweichung als Wurzel aus der Varianz √ σ = 1017.5 ≈ 31.9 ha . Mit den bisherigen Ausführungen sind die wichtigsten Begriffe der deskriptiven Statistik abgedeckt. Es wurde eine Vielzahl von Konzepten vorgestellt, die in
Tabelle 2.12 Arbeitstabelle zur Berechnung des approximativen Mittelwertes der Anbaufläche xi
Ni /N
xM i
Ni /N · xM i
0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200
0.2690 0.0812 0.0856 0.1930 0.2332 0.1016 0.0243 0.0089 0.0032
5.0 15.0 25.0 40.0 62.5 87.5 112.5 137.5 175.0
1.3450 1.2173 2.1406 7.7188 14.5767 8.8898 2.7316 1.2300 0.5591
Summe
1.0000
—
40.4090
72
2 Deskriptive Statistik
Tabelle 2.13 Arbeitstabelle zur Berechnung der approximativen Varianz der Anbaufläche M 2 2 xi xi Ni /N xM Ni /N · xM i i 0 < x ≤ 10 10 < x ≤ 20 20 < x ≤ 30 30 < x ≤ 50 50 < x ≤ 75 75 < x ≤ 100 100 < x ≤ 125 125 < x ≤ 150 150 < x ≤ 200 Summe
0.2690 5.0 0.0812 15.0 0.0856 25.0 0.1930 40.0 0.2332 62.5 0.1016 87.5 0.0243 112.5 0.0089 137.5 0.0032 175.0 1.0000
25.00 225.00 625.00 1 600.00 3 906.25 7 656.25 12 656.25 18 906.25 30 625.00
—
—
6.7250 18.2588 53.5144 308.7540 911.0423 777.8554 307.3083 169.1294 97.8435 2 650.4310
der Praxis sehr nützlich und darüber hinaus einfach zu verstehen sind. Abschließend soll noch eine Bemerkung zur Notation folgen. Alle Methoden der deskriptiven Statistik gelten sowohl für Stichproben, als auch für Grundgesamtheiten. Die Notation allerdings wird bezüglich des betrachteten Sachverhalts unterschieden. So wird für den Mittelwert einer Grundgesamtheit das Symbol μ verwendet, in der Stichprobe hingegen wird μˆ oder x¯ zur Kennzeichnung eingesetzt. Ähnliches gilt für die Varianz: In der Grundgesamtheit verwendet man σ 2 und in der Stichprobe σˆ 2 oder s2 . Tabelle 2.14 fasst die unterschiedliche Notation noch einmal zusammen. Tabelle 2.14 Unterschiedliche Notation in Grundgesamtheit und Stichprobe Statistik Mittelwert Varianz
Grundgesamtheit
Stichprobe
μ σ2
μˆ oder x¯ σˆ 2 oder s2
Wichtigste Konzepte: • Merkmale: qualitativ, quantitativ, rangskaliert, diskret, stetig • Häufigkeiten: absolut und relativ, kumuliert • Statistiken: Lage- und Streuungsparameter, Mittelwert, Modalwert, Median, Spannweite, Varianz, Streuung • Säulendiagramm, Histogramm, Summenkurve, Boxplot • Modalklasse, Quartile
Kapitel 3
Den Zufall quantifizieren — Wahrscheinlichkeiten
In den ersten beiden Kapiteln haben wir Beispiele für deterministische und stochastische Phänomene betrachtet. Die wesentlichen Punkte waren: • Viele interessierende Phänomene sind eher stochastisch als deterministisch. Praktisch alle Phänomene, die menschliches Verhalten betreffen und auch die meisten wirtschaftswissenschaftlichen Phänomene, um nur zwei Bereiche zu nennen, sind eher stochastischer als deterministischer Art. • Bei stochastischen Phänomenen sind zufällige Variation und Ungewissheit, im Sinne des englischen Wortes uncertainty, beteiligt. Ihr Verhalten kann nicht durch deterministische Modelle beschrieben werden. Es gibt z.B. eine Formel über den Zusammenhang zwischen dem Radius und der Fläche eines Kreises. Es gibt jedoch keine solche exakte Formel für den Zusammenhang zwischen den Werbeausgaben und dem Umsatz eines Unternehmens. Es gibt also Phänomene, über die es sich lohnt, in einer besonderen Weise, d.h. stochastisch, nachzudenken. • Wir können stochastische Phänomene durch Wahrscheinlichkeiten beschreiben. Um objektive Entscheidungen über stochastische Phänomene treffen zu können, müssen wir den Begriff Wahrscheinlichkeit verstehen. Daher soll jetzt erläut werden, wie Wahrscheinlichkeit definiert ist, wie man sie bestimmt und interpretiert. Die Ausführungen werden wie folgt gegliedert sein: 1. 2. 3. 4. 5.
Zufallsexperimente, Ergebnisse, Ereignismenge, Ereignisse, Definition der Wahrscheinlichkeit, Berechnung von Wahrscheinlichkeiten, Interpretation von Wahrscheinlichkeiten, bedingte Wahrscheinlichkeit und Unabhängigkeit.
3.1 Zufallsexperimente, Ergebnisse, Ergebnismenge, Ereignisse Jeder hat seine eigene Vorstellung, was das Wort Wahrscheinlichkeit bedeutet. Wir alle wissen etwa, was mit den Äußerungen Es ist unwahrscheinlich, dass es morgen W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
73
74
3 Wahrscheinlichkeiten
regnet oder Er hat eine gute Chance, wieder gesund zu werden gemeint ist. Manchmal wird eine Vorstellung von Wahrscheinlichkeit auch impliziert, z.B. bei der folgenden Aussage: Es ist sicherer, mit einem Flugzeug als mit einem Auto zu reisen. Solche Äußerungen könnte man ebenfalls als Wahrscheinlichskeitsaussagen interpretieren, etwa so: Die Wahrscheinlichkeit, mit dem Auto einen tödlichen Unfall zu erleiden, ist größer als die Wahrscheinlichkeit, einen tödlichen Unfall zu erleiden, wenn man dieselbe Strecke mit dem Flugzeug zurücklegt. Die Information, auf der diese Aussage beruht, ist vermutlich von der folgenden Art: Pro Kilometer sind mehr Personen bei Autounfällen als bei Flugzeugunfällen ums Leben gekommen. Aber egal wie man am liebsten reisen will, der Ausgang ist ungewiss. Nehmen wir an, wir möchten mit dem Flugzeug von Frankfurt nach Rom fliegen. Im Moment des Abflugs haben wir das begonnen, was in der Statistik ein Zufallsexperiment genannt wird. Ein Zufallsexperiment ist ein Experiment, dessen Ausgang nicht mit Sicherheit vorausgesagt werden kann. Das Zufallsexperiment Flug nach Rom hat zwei Ausgänge, die für uns von Bedeutung sind. Entweder wir schaffen es bis Rom oder nicht. Etwas strukturierter ist die folgende Definition: Ein Zufallsexperiment ist ein gedachtes oder tatsächliches Experiment, dessen Ausgang nicht mit Sicherheit vorhergesagt werden kann. Ein anderes Zufallsexperiment ist beispielsweise der Wurf einer Münze. Es gibt zwei mögliche Ausgänge: Kopf oder Zahl. Wenn man auch die Möglichkeit betrachten möchte, dass die Münze genau auf der Kante landet, gäbe es drei Ausgänge. Die Menge aller möglichen Ausgänge eines Zufallsexperiments heißt Ergebnismenge und wird mit dem Symbol Ω bezeichnet. Wir werden jetzt die folgenden Beispiele für Zufallsexperimente betrachten: (a) (b) (c) (d) (e) (f)
Eine normale Münze mit zwei Ausgängen: Ω = {Kopf, Zahl} Ein normaler Würfel mit sechs Ausgängen: Ω = {1,2,3,4,5,6} Eine Münze, die so dick ist, dass sie auch auf der Kante landen kann: Ω = {Kopf, Zahl, Kante} Ein Flug nach Rom mit zwei Ausgängen: Ω = {Wir landen in Rom, wir landen nicht in Rom} Anzahl der Fahrraddiebstähle, die im Jahr 2009 in Göttingen begangen werden: Ω = {0,1,2,3,...} Die Brenndauer einer Glühbirne, die überabzählbar viele mögliche Ausgänge hat: Ω = {x|x ≥ 0}
Wir sind oft daran interessiert, ob ein Ergebnis aus einer gewissen Teilmenge der Ergebnismenge eintritt oder nicht. Zum Beispiel könnte es uns interessieren, ob eine bestimmte Glühbirne 500 Stunden oder länger brennt. Das ist eine Teilmenge der Ergebnismenge. Teilmengen werden mit großen lateinischen Buchstaben bezeichnet. Wir werden diese Teilmenge der Glühbirnen, die länger halten als 500 Stunden,
3.1 Zufallsexperimente, Ergebnisse, Ergebnismenge, Ereignisse
75
durch den Buchstaben B darstellen: B = {Die Brenndauer ist länger als 500 Stunden} = {x|x > 500} Beim Würfeln könnte man daran interessiert sein, ob das Ergebnis eine gerade Zahl ist. Diese Teilmenge der Ergebnismenge werden wir mit A bezeichnen: A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6} Oder man könnte daran interessiert sein, dass das Ergebnis eine 5 ist: F = {Die Augenzahl ist Fünf} = {5} Wir nennen Teilmengen der Ergebnismenge zufällige Ereignisse. Ω beschreibe ein Zufallsexperiment. Ein zufälliges Ereignis A ist eine Teilmenge von Ω , und man sagt, das Ereignis A sei eingetreten, wenn der Ausgang eines Zufallsexperiments einem Element der Teilmenge A entspricht. Wenn also beim Würfeln die 4 erscheint, tritt das Ereignis A ein, weil 4 ein Element von A ist. Das Ereignis F tritt nicht ein, weil 4 kein Element von F ist. Wir werden mit den einfachsten Ergebnismengen anfangen, nämlich denen, die nur eine endliche Anzahl von Ausgängen haben. Die möglichen Ausgänge werden mit kleinen Buchstaben bezeichnet, so dass man eine Ergebnismenge mit n (endlich vielen) Ausgängen wie folgt notieren kann:
Ω = {e1 , e2 , . . . , en } Die leere Menge 0/ und die Ergebnismenge Ω selbst sind auch Teilmengen der Ergebnismenge. Sie haben im Zusammenhang mit Zufallsexperimenten spezielle Namen: • 0/ heißt unmögliches Ereignis und • Ω heißt sicheres Ereignis. Egal wie das Zufallsexperiment ausgeht, das Ergebnis liegt stets in Ω aber nie in 0. / Eines der Ergebnisse e1 , e2 , ..., en muss eintreten, da wir Ω ja als die Menge aller möglichen Ergebnisse definiert haben. Zufällige Ereignisse, die nur aus einem Element bestehen, heißen Elementarereignisse: {e1 }, {e2 }, . . . , {en } Die Elementarereignisse für das Würfelbeispiel lauten beispielsweise: {1} {2} {3} {4} {5} {6} Für endliche Ergebnismengen sind alle Ereignisse Vereinigungen von Elementarereignissen. Um mit ihnen zu arbeiten, brauchen wir die üblichen Operationen der elementaren Mengentheorie. Im Rahmen der Wahrscheinlichkeitsrechnung ist die Terminologie anders, was man bereits an den oben genannten Begriffen erkennt:
76
• • • •
3 Wahrscheinlichkeiten
Statt von einer Menge spricht man von zufälligen Ereignissen. Statt leere Menge verwendet man unmögliches Ereignis. Statt Gesamtmenge sagt man sicheres Ereignis oder Ergebnismenge. Man bezeichnet ein Element als Ergebnis.
Wir werden die Operationen anhand des Würfel-Beispiels, Ω = {1, 2, 3, 4, 5, 6}, kennenlernen, wobei folgende Ereignisse der Veranschaulichung dienen: D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
G = {2, 4}
Es gibt 6 Definitionen, die für die nachfolgenden Ausführungen von Bedeutung sind: (1) Das komplementäre Ereignis A¯ eines Ereignisses A tritt genau dann ein, wenn A nicht eintritt: D¯ = {2, 4, 6}
F¯ = {1, 2, 3, 4}
usw.
In manchen Büchern wird Ac oder auch A statt A¯ geschrieben. (2) Wenn jedes a ∈ A auch in B liegt, schreibt man A ⊂ B und sagt, A ist eine Teilmenge von B oder auch A impliziert B: D impliziert E
F impliziert E
G impliziert D nicht
(3) Der Durchschnitt A ∩ B zweier Ereignisse tritt genau dann ein, wenn A und B gleichzeitig eintreten: D ∩ E = {1, 3, 5}
F ∩ D = {5}
F ∩ G = 0/
(4) Die Vereinigung A ∪ B zweier Ereignisse A und B tritt genau dann ein, wenn A oder B eintritt: F ∪ G = {2, 4, 5, 6}
E ∪G = Ω
(5) Die Differenz zweier Ereignisse A \ B = A ∩ B¯ tritt ein, wenn A aber nicht B eintritt: E \ D = {6} D \ E = 0/ F \ G = {5, 6} (6) Zwei Ereignisse heißen disjunkt, wenn ihr Durchschnitt leer ist, die Ereignisse sich also gegenseitig ausschließen: E und G sind disjunkt, F und G sind disjunkt, D und E sind nicht disjunkt.
3.2 Definition der Wahrscheinlichkeit Jetzt haben wir die „Zutaten“, die man braucht, um den Begriff der Wahrscheinlichkeit zu definieren.
3.2 Definition der Wahrscheinlichkeit
77
Eine Wahrscheinlichkeitsfunktion ist eine Funktion P, die allen Ereignissen aus Ω eine reelle Zahl zuordnet, und die drei folgenden Axiome erfüllen muss: A1 : 0 ≤ P(A) ≤ 1 A2 : P(Ω ) = 1 A3 : Wenn A ∩ B = 0/ (d.h. wenn A und B disjunkt sind), gilt P(A ∪ B) = P(A) + P(B) Diese Definition sagt nicht, wie die Wahrscheinlichkeiten für ein gegebenes Zufallsexperiment zu bestimmen sind. Sie sagt nur, welche Bedingungen die Funktion P erfüllen muss, bevor wir sie als Wahrscheinlichkeit bezeichnen dürfen. Die Axiome bestimmen die Rahmenbedingungen oder Regeln, sie bestimmen nicht das Detail. Betrachten wir das Münzen-Beispiel mit Ω = {Kopf, Zahl}. Um P zu definieren, müssen wir allen Ereignissen Werte zuordnen. Wir werden 5 Möglichkeiten (siehe Tabelle 3.1) betrachten und dann überprüfen, ob sie Wahrscheinlichkeiten sind. Fall 1: Alle Bedingungen sind erfüllt. (Die Münze ist auch fair.) Fall 2: Die Münze ist verzerrt, aber alle Bedingungen sind erfüllt, d.h. es handelt sich um eine Wahrscheinlichkeit. Fall 3: Die Münze landet immer auf dem Kopf, aber alle Bedingungen sind auch hier erfüllt. Fall 4: Diese Funktion ist keine Wahrscheinlichkeit, weil nicht alle Bedingungen erfüllt sind: Die Ereignisse {Kopf} und {Zahl} sind disjunkt und nach A3 soll P({Kop f } ∪ {Zahl}) = P({Kop f }) + P({Zahl}) = 0.5 + 0.6 = 1.1 gelten. Jedoch ist {Kop f } ∪ {Zahl} = Ω und nach A2 gilt P(Ω ) = 1.0 = 1.1 Fall 5: Diese Funktion ist keine Wahrscheinlichkeit, weil man aus den Axiomen beweisen kann, dass P(0) / immer gleich Null sein muß: Da 0/ und Ω disjunkt sind, folgt aus A3, dass P(Ω ∪ 0) / = P(Ω ) + P(0). / Aber Ω ∪ 0/ = Ω und somit P(Ω ) = P(Ω ) + P(0), / d.h. P(0) / = 0. Für das Würfel-Beispiel, Ω = {1,2,3,4,5,6}, existieren 64 Ereignisse: 0, / {1}, {2}, ..., {6}, {1,2}, {1,3}, ..., {5,6}, {1,2,3}, {1,2,4}, ..., {4,5,6}, {1,2,3,4}, {1,2,3,5}, ..., {3,4,5,6}, {1,2,3,4,5}, {1,2,3,4,6}, ..., {2,3,4,5,6}, Ω . Tabelle 3.1 Handelt es sich bei diesen Funktionen um Wahrscheinlichkeiten? Ereignis Wahrscheinlichkeit Fall 1 Fall 2 Fall 3 Fall 4 Fall 5
0/
{Kopf}
{Zahl}
Ω
P(0) / P({Kop f }) P({Zahl}) P(Ω ) 0.0 0.0 0.0 0.0 0.1
0.5 0.6 0.0 0.5 0.4
0.5 0.4 1.0 0.6 0.5
1.0 1.0 1.0 1.0 1.0
78
3 Wahrscheinlichkeiten
Tabelle 3.2 Beispiele für Ergebnismengen mit endlich vielen Elementen Beispiel Münze Würfel Dicke-Münze Flug nach Rom
Elemente
Ω
(n = 2) (n = 6) (n = 3) (n = 2)
{Kopf, Zahl} {1,2,3,4,5,6} {Kopf, Zahl, Kante} {Wir landen in Rom, Wir landen da nicht}
Zur Definition einer Wahrscheinlichkeit müssten allen 64 Ereignissen eine Zahl zugeordnet werden, und anschließend müsste man prüfen, ob sie zulässig sind, d.h. ob sie die Axiome erfüllen. Das wäre eine sehr mühsame Aufgabe. Glücklicherweise kann man sich diese Mühe sparen: Bei endlichen Ergebnismengen reicht es aus, wenn man die Wahrscheinlichkeiten für die Elementarereignisse hat. Alle anderen Wahrscheinlichkeiten kann man dann nach dem Axiom A3 berechnen. Nehmen wir an, Ω hat n (endlich viele) Elemente (einige Beispiele finden wir in Tabelle 3.2): Ω = {e1 , e2 , ..., en } Alles, was man in solchen Fällen überprüfen muss, ist (a1) 0 ≤ P({ei }) ≤ 1
für i = 1, 2, . . . , n
(a2) P({e1 }) + P({e2}) + ... + P({en}) = 1 Das macht es sehr leicht zu überprüfen, ob die Funktion, die wir verwenden wollen, eine zulässige Wahrscheinlichkeit bestimmt oder nicht. Betrachten wir das Würfelexperiment mit der Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}. Man könnte die Wahrscheinlichkeiten beispielsweise so bestimmen: Elementarereignisse
{1} {2} {3} {4} {5} {6}
Wahrscheinlichkeiten P
0.1 0.3 0.1 0.4 0.1 0.0
Das wäre sicherlich ein merkwürdiger Würfel, aber die zwei Bedingungen sind erfüllt und somit bestimmt die Funktion zulässige Wahrscheinlichkeiten. Wir können mit den Wahrscheinlichkeiten der Elementarereignisse die Wahrscheinlichkeiten aller anderen Ereignisse berechnen, z.B.: P({1, 2, 6}) = P({1}) + P({2}) + P({6}) = 0.1 + 0.3 + 0.0 = 0.4 Aus den Axiomen folgen einige nützliche Formeln. Wichtiger als die Beweise ist jedoch, dass man diese Formeln gut versteht und verwenden kann. Wir werden die Formeln deshalb anhand des Würfel-Beispiels verdeutlichen, wobei der betrachtete Würfel fair sein soll, d.h. jede Augenzahl besitzt die Wahrscheinlichkeit 1/6.
3.3 Berechnung von Wahrscheinlichkeiten
79
(1) ¯ = 1 − P(A). Beispiele: P(A) ¯ = 1 − P({2, 4, 6}) = 1 − 3/6 = 3/6. • Sei A = {2,4,6} dann gilt P(A) ¯ • Sei B = {2,3}; P(B) = 1 − P({2, 3}) = 1 − 2/6 = 4/6. ¯ = P(A)+ P(A). ¯ Da A∪ A¯ = Ω Beweis: Da A∩ A¯ = 0, / folgt (aus A3), dass P(A∪ A) ¯ = 1, d.h. P(A) ¯ = 1 − P(A). und P(Ω ) = 1 gilt, folgt: P(A) + P(A)
(2) Falls B ⊂ A, so gilt P(B) ≤ P(A). Beispiel: • A = {1,3,4}; B = {1,4} ⇒ P({1, 4}) ≤ P({1, 3, 4}) Da B ⊂ A, soll P(B) ≤ P(A). (Überprüfung: P(B) = 2/6 ≤ P(3) = 3/6).
(3) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Beispiel: A = {2,4,6} P(A) = 3/6 B = {1,2,3} P(B) = 3/6 A ∩ B = {2} P(A ∩ B) = 1/6 Nach der Formel gilt demnach P(A ∪ B) = 3/6 + 3/6 - 1/6 = 5/6. (Überprüfung: A ∪ B = {1,2,3,4,6}, d.h. P(A ∪ B) = 5/6).
3.3 Berechnung von Wahrscheinlichkeiten Ein Wahrscheinlichkeitsmaß ist eine Abbildung, die jedem zufälligen Ereignis A ⊂ Ω eine Wahrscheinlichkeit zuweist. Das Problem ist, die Bestimmung bzw. Schätzung der Wahrscheinlichkeit eines interessierenden Ereignisses. Dies ist keine so einfache Aufgabe, wie etwa den Logarithmus einer Zahl in einer Tabelle abzulesen. Es gibt keine Tabelle, aus der man die Wahrscheinlichkeit ablesen kann, dass es morgen einen Börsencrash geben wird. Es ist eine der Hauptaufgaben der Statistik, Möglichkeiten zur Berechnung oder Schätzung von Wahrscheinlichkeiten für Ereignisse zu entwickeln. Wir wollen uns nun näher mit der Frage befassen, wie man interessierenden Ereignissen Wahrscheinlichkeiten zuweisen kann. Es gibt zwei Möglichkeiten, zufälligen Ereignissen Wahrscheinlichkeiten zuzuordnen, und zwar auf der Grundlage • von Vermutungen (Annahmen und theoretische Überlegungen), • oder von Erfahrungen (Beobachtung).
80
3 Wahrscheinlichkeiten
Wir werden wieder den einfachsten Fall betrachten, nämlich den Fall, dass die Ergebnismenge nur endlich viele Elemente hat. Betrachten wir noch einmal die Beispiele (a) bis (e), die wir am Beginn dieses Kapitels genannt haben. Im Beispiel (a) ist man oft bereit anzunehmen, dass die Münze symmetrisch ist, d.h. P({Kopf}) = P({Zahl}). Wir wissen aus den Axiomen, dass P({Kopf}) + P({Zahl}) = 1 sein muss. Wir haben also 2 Wahrscheinlichkeiten, die sich auf Eins summieren und die gleich groß sind. Daraus folgt, dass P({Kopf}) = 0.5 und P({Zahl}) = 0.5. Wir haben diese Wahrscheinlichkeiten durch eine Annahme (Symmetrie) und theoretische Überlegungen (die Axiome) bestimmt. Mit dieser Vorgehensweise können wir auch für das Beispiel (b) die Wahrscheinlichkeiten bestimmen: • Symmetrieannahme: Alle 6 Augenzahlen sind gleich wahrscheinlich. • Theoretische Überlegung: Die Summe der zugehörigen sechs Wahrscheinlichkeiten muss Eins sein. Daraus folgt, dass die sechs Wahrscheinlichkeiten alle gleich 1/6 sein müssen: P({1}) = P({2}) = P({3}) = P({4}) = P({5}) = P({6}) = 1/6 Die Symmetrie-Annahme ist dagegen nicht plausibel für die Beispiele (c)–(e). In Beispiel (c) könnten wir annehmen, dass P({Kopf}) = P({Zahl}) gilt, aber wir wissen nicht, wie groß diese zwei gleichgroßen Wahrscheinlichkeiten im Vergleich zu P({Kante}) sind. Man könnte die Wahrscheinlichkeiten schätzen, wenn man die dicke Münze einige Male wirft. Das heißt, man muss experimentieren und beobachten (Fall (2)). Beispiel (d) ist noch problematischer, weil wir nicht experimentieren können. Auch wenn wir das könnten, hätten wir keine Lust dazu. In diesem Fall besteht die Möglichkeit, ähnliche Situationen zu betrachten. Zum Beispiel könnten wir uns informieren, welcher Anteil aller Flüge das Ziel ereicht oder welcher Anteil der Flüge zwischen Frankfurt und Rom das Ziel erreicht usw. Nehmen wir im Beispiel (e) an, jemand aus Göttingen möchte sein Fahrrad gegen Diebstahl versichern. Ob das Fahrrad gestohlen wird oder nicht, kann man nicht im Voraus sagen. Die Versicherungen müssen aber schätzen, wie hoch dieses Risiko ist, um den Beitrag zu bestimmen. Man könnte z.B. bestimmen, wie viele Fahrräder es in Göttingen gibt und wie viele im letzten Jahr gestohlen wurden. Die Beispiele (c)–(e) zeigen folgendes: Wenn man das Zufallsexperiment unter gleichen (oder ähnlichen) Bedingungen wiederholen kann, dann kann man beobachten, wie oft das interessierende Ereignis eintritt, und somit dessen Wahrscheinlichkeit schätzen. Genauso geht man auch in der Praxis vor. Wir haben gesehen, dass es für manche Zufallsexperimente plausibel ist anzunehmen, dass alle Elementarereignisse gleich wahrscheinlich sind. Ein Zufallsexperiment, das sich durch eine endliche Ergebnismenge beschreiben lässt, heißt symmetrisch, wenn alle Elementarereignisse dieselbe Wahrscheinlichkeit besitzen.
3.3 Berechnung von Wahrscheinlichkeiten
81
Beispiele sind Münzwurf, Würfel und Roulette. Beschreibe Ω = {e1 , e2 , ..., en } ein symmetrisches Zufallsexperiment, dann gilt P({ei }) = 1/n
i = 1, 2, . . . , n.
Betrachten wir ein weiteres Beispiel für ein symmetrisches Zufallsexperiment: Nehmen wir an, dass zwei Münzen gleichzeitig geworfen werden, ein Eurostück und ein altes Markstück. Die Ergebnismenge hat das folgende Aussehen:
Ω = {(K, K), (K, Z), (Z, K), (Z, Z)} Jedes Elementarereignis hat zwei Komponenten: Die erste zeigt an, wie der Euro fällt, die zweite, wie das Markstück fällt. Wenn wir überzeugt sind, dass die Münzen nicht verbogen oder anderweitig verfälscht sind, so können wir dies als symmetrisches Zufallsexperiment betrachten und jedem Elementarereignis die Wahrscheinlichkeit 1/4 zuordnen: P ({(K, K)}) = P ({(K, Z)}) = P ({(Z, K)}) = P ({(Z, Z)}) = 1/4 Mit Hilfe der Wahrscheinlichkeiten für die Elementarereignisse könnten wir dann z.B. die Wahrscheinlichkeit für das Ereignis A = {Mindestens eine der beiden Münzen zeigt Kopf } berechnen: P(A) = P({(K, K)}) + P({(K, Z)}) + P({(Z, K)}) = 1/4 + 1/4 + 1/4 = 3/4 Dieses Ergebnis verdeutlicht die folgende allgemeine Formel für symmetrische Zufallsexperimente: P(A) =
Anzahl der Elementarereignisse in A Anzahl der Elementarereignisse in Ω
Diese Formel gilt für alle symmetrischen Zufallsexperimente und ist leicht zu verstehen. Für symmetrische Zufallsexperimente lassen sich die Wahrscheinlichkeiten beliebiger Ereignisse also scheinbar leicht berechnen. Es gibt aber doch manchmal eine Schwierigkeit. Das Problem ist es nämlich herauszufinden, wieviele Elementarereignisse es in einer gegebenen Ergebnismenge bzw. in einem Ereignis gibt. Wahrscheinlichkeiten für Kartenspiele sind typische Beispiele, bei denen es zu derartigen Schwierigkeiten kommt. Hier ist ein Beispiel, dass wir allerdings nicht lösen werden: Wir mischen einen Stapel mit 52 Pokerkarten (also Ass, 2, 3, . . . , 10, Bube, Dame, König, jeweils mit Pik, Herz, Karo, Kreuz). Anschließend ziehen wir 4 Karten aus dem Stapel; die 4 Karten ergeben eine Hand. Es handelt sich um ein symmetrisches Zufallsexperiment mit sehr vielen Elementarereignissen. Ein beispielhaftes Elementarereignis ist: {(Pik 2, Pik 5, Karo 5, Kreuz Ass)}. Sei A das Ereignis {Alle 4 Karten sind Karo} (man verdeutliche sich, dass es viele Elementarereignisse gibt, für die A erfüllt ist). Die Wahrscheinlichkeit von A ist nach der einfachen Formel: P(A) =
Anzahl der Hände mit 4 Karo Anzahl der Hände mit 4 Karten
82
3 Wahrscheinlichkeiten
Das Problem ist aber zu berechnen, wie viele Elemente es in der Menge A gibt und wie viele in Ω . Wenn man viel Zeit und nichts besseres zu tun hat, könnte man versuchen, alle Elementarereignisse aufzuschreiben und zu zählen. Die Theorie, die entwickelt wurde, um solche Zählprobleme zu lösen, ist die Kombinatorik. Diese Theorie ist interessant, aber für das Grundverständnis von Statistik in den Wirtschafts- und Sozialwissenschaften weniger bedeutend. Aus diesem Grund gehen wir in diesem Kapitel nicht weiter darauf ein.
3.4 Interpretation von Wahrscheinlichkeiten Kommen wir jetzt zur Frage der Interpretation der Wahrscheinlichkeit. Es geht darum, wie man beispielsweise folgende Aussagen interpretieren kann: • Die Wahrscheinlichkeit, dass eine Münze Kopf zeigt, ist 0.53. • Die Wahrscheinlichkeit, dass ich heil nach Rom komme, ist 0.9998. Wir wollen uns die Interpretationsmöglichkeiten an einem Beispiel verdeutlichen. Nehmen wir an, dass uns ein Ereignis A interessiert und dass wir das zugehörige Zufallsexperiment n-mal wiederholen. Zunächst wird die Notation erweitert: Sachverhalt
Notation
Ω A n n(A) hn (A) = n(A)/n
Ergebnismenge Ereignis Anzahl der Wiederholungen Absolute Häufigkeit von A Relative Häufigkeit von A
Betrachten wir als Beispiel nun wieder einen Würfel mit der Ergebnismenge Ω = {1,2,3,4,5,6}. Die interessierenden Ereignisse seien: A = {2, 4, 6}
F = {5}
A ∪ F = {2, 4, 5, 6}
Nehmen wir an, wir hätten den Würfel 30-mal geworfen (n = 30 Wiederholungen) und dabei die folgenden Zahlen beobachtet: 624164134561411513141215652143 Die Häufigkeiten nach n = 30 Wiederholungen sind : n(A) = 13,
n(F) = 4
und
n(A ∪ F) = 17
und für die relativen Häufigkeiten ergibt sich: hn (A) = n(A)/n = 13/30 hn (F) = n(F)/n = 4/30 hn (A) = n(A ∪ F)/n = 17/30
3.4 Interpretation von Wahrscheinlichkeiten
Ferner ist
hn (Ω ) = 30/30 = 1
83
hn (0) / = 0/30 = 0
und
Wenn wir darüber nachdenken, werden wir sehen, dass die relativen Häufigkeiten immer die folgenden 3 Bedingungen erfüllen: a1) 0 ≤ hn (A) ≤ 1 a2) hn (Ω ) = 1 a3) hn (A ∪ B) = hn (A) + hn(B), wenn A ∩ B = 0 Mit anderen Worten erfüllen die relativen Häufigkeiten die weiter oben dargestellten Axiome der Wahrscheinlichkeit. Was passiert mit den relativen Häufigkeiten, wenn wir das Experiment nicht nur 30-mal, sondern 1000-mal oder 10 000-mal wiederholen? Die Frage, wie sich die relativen Häufigkeiten verhalten, wenn man n, die Anzahl der Wiederholungen des Experiments, immer größer werden lässt, hat Statistiker schon seit langem interessiert. Heute kann man solche Experimente in Sekunden mit einem Rechner simulieren. Für die obigen Würfelergebnisse wurde nach jedem Wurf die relative Häufigkeit für das Elementarereignis {6} berechnet. Die Ergebnisse sind in Tabelle 3.3 enthalten. Grafisch ist die Entwicklung der relativen Häufigkeit in Abb. 3.1 dargestellt. Auf der x-Achse wird die laufende Nummer des Würfelwurfs abgetragen, auf der yAchse die relative Häufigkeit des Elementarereignisses {6}. So erhält man einen Pfad der relativen Häufigkeiten. Man erkennt, dass sich die relative Häufigkeit recht schnell dem Wert 1/6 annähert. Ein ähnliches Beispiel wurde von J. F. Kerrich während des Krieges (1941) in einem dänischen Internierungslager durchgeführt. Er warf eine Münze 10 000-mal und berechnete den Anteil für {Kopf}. (Er wurde später Statistikprofessor.) Er beobachtete nach dem letzten Wurf eine relative Häufigkeit von 0.503. Die beiden Beispiele verdeutlichen, dass sich die relativen Häufigkeiten auf einen festen Wert einpendeln. Dieses Einpendeln ist auch als Gesetz der großen Zahlen bekannt: Der endgültige Wert der relativen Häufigkeiten eines Ereignisses A wird als
Tabelle 3.3 Entwicklung der relativen Häufigkeit des Elementarereignisses {6} bei zunehmender Anzahl von Wiederholungen
Ergebnis 6
2
4
1
6
4
1
3
4
5
6
1
4
1
1
n({6})
1
1
1
2
2
2
2
2
2
3
3
3
3
3
hn ({6}) 1/1
1/2
1/3
1/4
2/5
2/6
2/7
2/8
Ergebnis 5
1
3
1
4
1
2
1
5
6
5
2
1
4
3
n({6})
3
3
3
3
3
3
3
3
4
4
4
4
4
4
1
3
2/9 2/10 3/11 3/12 3/13 3/14 3/15
hn ({6}) 3/16 3/17 3/18 3/19 3/20 3/21 3/22 3/23 3/24 4/25 4/26 4/27 4/28 4/29 4/30
84
3 Wahrscheinlichkeiten
Abb. 3.1 Pfad der relativen Häufigkeiten des Ergebnisses Sechs
die Wahrscheinlichkeit von A interpretiert. Dies ist allerdings nur eine Interpretation des Begriffs Wahrscheinlichkeit. Man nennt sie die relative Häufigkeitsinterpretation oder Frequency Interpretation. Die Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist der Wert P(A), auf den sich die relative Häufigkeit hn (A) bei wachsender Anzahl der Versuchswiederholungen einpendelt. Diese Interpretation der Wahrscheinlichkeiten als Grenzwert relativer Häufigkeiten ist nicht unumstritten. Man argumentiert, dass gewisse Experimente nicht beliebig oft unter den gleichen Bedingungen wiederholt werden können. Denken wir an das Beispiel mit dem Flug nach Rom. Es ist nicht möglich, dieses Experiment viele Male unter den gleichen Bedingungen durchzuführen. Hier ist zu fragen, was unter gleichen Bedingungen zu verstehen ist. Identische Bedingungen lassen sich in diesem Fall nicht wiederholen. Vielleicht kann man annehmen, dass die bisherigen Flüge von Frankfurt nach Rom unter ähnlichen Bedingungen stattgefunden haben, und die Interpretation von Wahrscheinlichkeiten mittels relativer Häufigkeiten dennoch verwenden. Wenn die bisherigen Flüge ohne Schwierigkeiten verlaufen sind, können wir uns damit trösten. Wenn man die bisherigen Flüge aber nicht als ähnlich bezeichnen kann, nützt uns diese Interpretation von Wahrscheinlichkeit nicht. Es gibt weitere Situationen, in denen es nicht möglich ist, ein Experiment viele Male unter ähnlichen Bedingungen durchzuführen. Soll beispielsweise ein Kernkraftwerk gebaut werden, beginnt in dem Moment, in dem das Kernkraftwerk in Betrieb geht, das Zufallsexperiment. Die uns interessierende Ergebnismenge ist:
Ω = {Störfall, kein Störfall} Es wäre nicht möglich, dieses Zufallsexperiment sehr häufig zu wiederholen. Die zweite Interpretation von Wahrscheinlichkeiten kommt von den sogenannten Subjektivisten. Sie sind der Meinung, dass Wahrscheinlichkeiten nur subjektiv zu interpretieren sind. Wir wägen die Information, über die wir verfügen, ab. Eine
3.4 Interpretation von Wahrscheinlichkeiten
85
Wahrscheinlichkeit repräsentiert, in welchem Maß wir an das Eintreten eines bestimmten Ereignisses glauben oder nicht. Betrachten wir noch einmal das Beispiel des Münzwurfs und die Wahrscheinlichkeit für das Ereignis {Kopf}. Die Interpretation mittels relativer Häufigkeiten ist die folgende: Wenn wir diese Münze viele Millionen mal werfen würden, dann wäre der Anteil von Kopf ungefähr 1/2. Der Subjektivist würde die Wahrscheinlichkeit anders interpretieren. Zunächst würde er kritisieren: Niemand wird diese Münze viele Millionen mal werfen. Also, was soll dieser Unsinn? Er oder sie würde seine Interpretation als Wette ausdrücken: Wenn ich Ihnen 1 e gebe, falls Kopf erscheint, wäre die Wette fair, wenn Sie mir 1 e geben, falls Zahl erscheint. Ein Problem dieser Interpretation ist, dass zwei verschiedene Personen zwei verschiedene Wahrscheinlichkeiten für dasselbe Ereignis geben können. Das stört die Subjektivisten nicht, weil sie der Meinung sind, dass Wahrscheinlichkeit sowieso kein objektives Maß ist, wie etwa Länge, Temperatur oder Alter. Jeder kann Wahrscheinlichkeit nur für sich selbst abschätzen, anhand einer Mischung aus Intuition, Erfahrung, aber auch unter Berücksichtigung objektiver Fakten, die z.B. aus wissenschaftlichen Untersuchungen vorhanden sind. Für welche Interpretation man sich aber entscheidet, es herrscht Einigkeit über die Axiome der Wahrscheinlichkeitstheorie und auch alle Folgerungen aus diesen Axiomen. Es sollen hier noch zwei weiterführende Bemerkungen gemacht werden, die eigentlich zum ersten Teil des Kapitels gehören. Die erste Bemerkung bezieht sich auf die eingangs eingeführten Axiome. Wenn die Ergebnismenge unendlich viele Elemente besitzt, muss das Axiom A3 verallgemeinert werden. Hier sind zur Erinnerung zunächst noch einmal die ursprünglichen Axiome angegeben: Eine Wahrscheinlichkeit ist eine Funktion P, die allen Ereignissen aus Ω eine reelle Zahl zuordnet, wobei die Funktion die drei folgenden Axiome erfüllen muss: A1 : 0 ≤ P(A) ≤ 1 A2 : P(Ω ) = 1 A3 : Wenn A ∩ B = 0/ (d.h. wenn A und B disjunkt sind), gilt P(A ∪ B) = P(A) + P(B) Wenn es unendlich viele Ereignisse gibt, muss man A3 wie folgt verallgemeinern: A3 : Wenn A1 , A2 , A3 , ... alle disjunkt sind, d.h. Ai ∩ A j = 0/ für alle i, j, so gilt P(A1 ∪ A2 ∪ A3 ∪ . . .) = P(A1 ) + P(A2) + P(A3 ) + . . . Die zweite Bemerkung betrifft den Fall, dass die Ergebnismenge unendlich viele und darüber hinaus überabzählbar viele Elemente besitzt. Man verdeutliche sich, dass bei der ersten Bemerkung zwar von unendlich vielen Elementen die Rede war, diese jedoch abzählbar, also diskret sind. Beispiele, in denen die Elemente nicht abzählbar, also überabzählbar sind, sind: • Brenndauer von Glühbirnen mit Ω = [0, ∞).
86
3 Wahrscheinlichkeiten
• Prozentualer Gewinn einer Geldanlage in Aktien mit Ω = (−100, ∞). • Maximalgebot bei Online-Auktionen mit Ω = [0; ∞) Für solche Ergebnismengen gibt es auch überabzählbar viele mögliche Ereignisse. Um deren Wahrscheinlichkeiten bestimmen zu können, reicht es, wenn man in der Lage ist, die Wahrscheinlichkeiten für beliebige Teilintervalle der Ergebnismenge anzugeben. Wenn die Ereignisse aus Ω überabzählbar viele Elemente haben, kann man die Wahrscheinlichkeiten bestimmen, indem man eine Formel für die Wahrscheinlichkeiten von Teilintervallen aus Ω verwendet: P{x1 ≤ Ergebnis ≤ x2 }
für alle reellen Zahlen x1 und x2
Dies wird später ausführlicher erläutert.
3.5 Bedingte Wahrscheinlichkeit und Unabhängigkeit Wir kommen nun zu der wichtigen Definition der bedingten Wahrscheinlichkeit. Betrachten wir dazu noch einmal das Zufallsexperiment Wurf eines normalen Würfels. Nehmen wir an, dass wir die Wahrscheinlichkeit berechnen möchten, mit der eine gerade Augenzahl gewürfelt wird, d. h. eine 2, 4 oder 6. Nehmen wir weiterhin an, dass der Würfel fair ist, dann ist die Wahrscheinlichkeit einfach zu berechnen, unsere Einschätzung der Wahrscheinlichkeit wäre 3/6. Nun gehen wir davon aus, dass jemand anders den Würfel wirft, uns aber nicht die gewürfelte Augenzahl verrät, sondern uns nur berichtet, dass das Ergebnis nicht die 6 ist. Unsere neue Einschätzung ist jetzt, dass die Chance, eine gerade Augenzahl zu würfeln, nicht bei 3/6 liegt, sondern niedriger ist. Diese modifizierte Wahrscheinlichkeit nennt man eine bedingte Wahrscheinlichkeit. Zusammenfassend kann man die Abfolge, die zu einer bedingten Wahrscheinlichkeit führt, wie folgt darstellen: • Zufallsexperiment: Wurf eines Würfels. • Ereignis von Interesse: {Wir würfeln eine gerade Augenzahl}. • Erste Einschätzung: Die Chance, eine gerade Augenzahl zu würfeln, liegt bei 3/6 (bei einem Würfel ist die Hälfte der Augenzahlen gerade). • Zusatzinformationen: die gewürfelte Augenzahl ist nicht sechs. • Neue Einschätzung: Die Chance, eine gerade Augenzahl zu würfeln, liegt nicht bei 3/6, sondern niedriger. Um eine bedingte Wahrscheinlichkeit zu berechnen, verwendet man die folgende einfache Formel: Nehmen wir an, wir haben eine Ergebnismenge Ω und zwei zufällige Ereignisse A und B, wobei P(B) > 0 gelten soll. Die bedingte Wahrscheinlichkeit von A, gegeben B, ist definiert durch: P(A|B) =
P(A ∩ B) P(B)
mit P(B) > 0
3.5 Bedingte Wahrscheinlichkeit und Unabhängigkeit
87
Wir brauchen P(B) > 0, da für P(B) = 0 die bedingte Wahrscheinlichkeit nicht definiert wäre. Es ist auch logisch, dass P(B) nicht Null sein darf, da wir ja gesagt haben, dass B eingetreten ist, und das kann nicht passieren, wenn die Wahrscheinlichkeit von B Null ist. Betrachten wir nun ein Beispiel zur Anwendung der Formel. Wir nehmen noch einmal unseren fairen Würfel und betrachten die zwei Ereignisse A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6} B = {Die Augenzahl ist nicht 6} = {1, 2, 3, 4, 5} Für den fairen Würfel gelten die folgenden Wahrscheinlichkeiten: A = {2, 4, 6}
P(A) = 3/6
B = {1, 2, 3, 4, 5} P(B) = 5/6 A ∩ B = {2, 4} P(A ∩ B) = 2/6 Setzt man diese Wahrscheinlichkeiten in die Formel für die bedingte Wahrscheinlichkeit ein, so erhält man: P(A|B) =
P(A ∩ B) ( 26 ) 2 = 5 = P(B) (6) 5
Die Berechnung von bedingten Wahrscheinlichkeiten mit dieser Formel macht also keine Schwierigkeiten. Was bedeutet aber P(A|B)? Um dies zu erläutern, wollen wir die bedingte Wahrscheinlichkeit P(A|B) der Wahrscheinlichkeit P(A) gegenüberstellen. Den Unterschied zwischen P(A) und P(A|B) kann man anhand des Würfelbeispiels so erläutern: Man wirft einen Würfel, zeige uns aber nicht das Ergebnis und fragt uns: Wie groß ist die Wahrscheinlichkeit, dass A eingetreten ist? Wir werden antworten: P(A) = 3/6. Jetzt sagt man uns: Das Ergebnis ist keine 6, d.h. das Ergebnis ist aus der Menge B = {1, 2, 3, 4, 5} bzw. B ist eingetreten. Wir haben nun eine Zusatzinformation über das Ergebnis. Wir wissen, dass die Augenzahl keine 6 ist. Das ändert unsere Einschätzung über die Wahrscheinlichkeit der Augenzahl und wir können unsere Einschätzung über die Wahrscheinlichkeit von A korrigieren. Das Ergebnis liegt in B, bestehend aus 5 Elementarereignissen. Davon sind zwei Zahlen gerade. Demnach ist die korrigierte Wahrscheinlichkeit 2/5. Wir berechnen also zwei verschiedene Wahrscheinlichkeiten für das Ereignis A: • Ohne Zusatzinformation die Wahrscheinlichkeit von A: P(A) = 0.5 • Mit Zusatzinformation (nämlich dass B eingetreten ist) die Wahrscheinlichkeit von A gegeben B: P(A|B) = 0.4 Die bedingte Wahrscheinlichkeit von A gegeben B ist die Wahrscheinlichkeit, dass A eintritt, wenn wir wissen, dass B eingetreten ist. Die bedingte Wahrscheinlichkeit von A gegeben B ist also die renormierte Wahrscheinlichkeit von A, wenn wir die zusätzliche Information haben, dass B eingetreten ist. In dem Beipiel war die Zusatzinformation B = {1, 2, 3, 4, 5}.
88
3 Wahrscheinlichkeiten
Nehmen wir an, man hätte uns stattdessen die folgende Zusatzinformation gegeben: C = {Die Augenzahl ist kleiner gleich 3} = {1, 2, 3} Wir können mit der gegebenen Formel wieder die bedingte Wahrscheinlichkeit von A gegeben C berechnen. Es gilt: A = {2, 4, 6} C = {1, 2, 3} A ∩C = {2}
P(A) = 3/6 P(C) = 3/6 P(A ∩C) = 1/6
Und wir erhalten für die bedingte Wahrscheinlichkeit: P(A|C) = P(A ∩C)/P(C) = (1/6)/(3/6) = 1/3 Betrachten wir noch ein weiteres Beispiel. Wenn die Zusatzinformation D = {Die Augenzahl ist 2 oder 4} = {2, 4} lautet, so berechnet man mit Hilfe von A = {2, 4, 6} D = {2, 4} A ∩ D = {2, 4}
P(A) = 3/6 P(D) = 2/6 P(A ∩ D) = 2/6
für die bedingte Wahrscheinlichkeit: P(A|D) = P(A ∩ D)/P(D) = (2/6)/(2/6) = 1 Wenn wir also wissen, dass die geworfene Augenzahl eine 2 oder 4 ist, so können wir auch zu 100% sicher sein, dass das Ergebnis eine gerade Augenzahl ist. Noch ein letztes Beispiel zu den bedingten Wahrscheinlichkeiten. Sei die Zusatzinformation E = {Die Augenzahl ist ungerade} = {1, 3, 5}, dann erhält man mit A = {2, 4, 6}
P(A) = 3/6
E = {1, 3, 5} P(E) = 3/6 A ∩ E = 0/ P(A ∩ E) = 0 eine bedingte Wahrscheinlichkeit für A gegeben E: P(A|E) = P(A ∩ E)/P(E) = 0/(3/6) = 0 Das ist auch logisch, denn wenn wir wissen, dass die geworfene Augenzahl eine ungerade Zahl ist, dann kann sie keine gerade Zahl sein. Also sagt uns die Zusatzinformation, dass die bedingte Wahrscheinlichkeit von A Null sein muss.
3.5 Bedingte Wahrscheinlichkeit und Unabhängigkeit
89
Wir haben jetzt gesehen, dass die Wahrscheinlichkeit des Ereignisses A, je nach Zusatzinformation, unterschiedlich sein kann. Zusammenfassend sind die berechneten Werte für die bedingten Wahrscheinlichkeiten von A = {Das Ergebnis ist eine gerade Zahl} in Tabelle 3.4 dargestellt. Tabelle 3.4 Berechnete Werte für bedingten Wahrscheinlichkeiten bei unterschiedlichen Zusatzinformationen Zusatzinformation
P(A|Zusatzinformation)
Keine Zusatzinformation Das Ergebnis ist keine 6 Das Ergebnis ist kleiner gleich 3 Das Ergebnis ist 2 oder 4 Das Ergebnis ist eine ungerade Zahl
P(A) = 0.5 P(A|B) = 0.4 P(A|C) = 0.33 P(A|D) = 1.0 P(A|E) = 0.0
Die Formel zur Berechnung der bedingten Wahrscheinlichkeiten ist besonders einfach. Sie ist auch sehr wichtig, weil bedingte Wahrscheinlichkeiten in der Praxis eine große Rolle spielen. Dies soll an einem Beispiel erläutert werden, das von größerer Bedeutung ist als ein Würfelwurf: Nehmen wir an, dass A das Ereignis ist, dass eine Person das 65. Lebensjahr erreicht: A = {Die Person wird das 65. Lebensjahr erreichen} Das interessiert nicht nur die betroffene Person, sondern auch die Firma, die ihr eine Lebensversicherung verkaufen will. Es ist nicht besonders einfach, die Wahrscheinlichkeit eines solchen Ereignisses zu schätzen. Nehmen wir an, wir hätten es irgendwie geschafft, die folgende Wahrscheinlichkeit zu bestimmen: P(A) = 0.7 Überlegen wir uns jetzt, wie die folgenden zusätzlichen Informationen diese Wahrscheinlichkeit modifizieren könnten: 1. Die Person hat bereits das 20. Lebensjahr erreicht. 2. Die Person isst ungesund, raucht täglich 60 Zigaretten und praktiziert Bungeejumping. 3. Die Person ist weiblich. 4. Die Person ist deutsch. 5. Die Person hat schwere Herzprobleme. In jedem Fall würde man die zusätzliche Information nutzen, um eine neue Einschätzung der Wahrscheinlichkeit für das Ereignis A zu erhalten. Man benötigt dazu nur die oben beschriebene Formel. Dabei wird vorausgesetzt, dass die benötigten Wahrscheinlichkeiten zur Verfügung stehen. In der Praxis kann es allerdings sehr schwierig oder sehr teuer sein, die benötigten Wahrscheinlichkeiten zu schätzen.
90
3 Wahrscheinlichkeiten
Halten wir die Ergebnisse zu den bedingten Wahrscheinlichkeiten fest: • (Unbedingte) Wahrscheinlichkeit: P(A): Wahrscheinlichkeit für das Eintreten des Ereignisses A. • Bedingte Wahrscheinlichkeit: P(A|B) = P(A ∩ B)/P(B) Zusatzinformation B ist eingetreten; Wahrscheinlichkeit für das Eintreten des Ereignisses A gegeben, dass das Ereignis B eingetreten ist. Um ein weiteres neues Konzept einzuführen, stellen wir die Frage: Was passiert, wenn die Zusatzinformation gar nichts bringt? Betrachten wir dazu das ZweiMünzen-Beispiel: Wir werfen zwei Münzen, einen Euro und einen Cent, die fair sind. Die Ergebnismenge hat 4 Elemente und alle Elementarereignisse haben die Wahrscheinlichkeit 1/4. Wir möchten das Ereignis A = {Der Euro zeigt Kopf } untersuchen. Da A aus der Vereinigung von 2 der 4 (gleich wahrscheinlichen) Elementarereignisse besteht, ist P(A) = 2/4 = 0.5. Nehmen wir jetzt an, wir hätten die zusätzliche Information, dass B = {Der Cent zeigt Kopf } eingetreten ist. Wenn wir nun mit der Formel die bedingte Wahrscheinlichkeit von A gegeben B bestimmen, erhalten wir P(A|B) = 0.5. Die unbedingte Wahrscheinlichkeit ist ebenfalls P(A) = 0.5, d.h. die Zusatzinformation ermöglicht keine Korrektur der unbedingten Wahrscheinlichkeit. Schauen wir auf die Berechnungen, die zu diesen Ergebnissen führen: • Die Ergebnismenge ist Ω = {(K,K), (K,Z), (Z,K), (Z,Z)}, wobei der erste Buchstabe bezeichnet, wie der Euro gefallen ist, und der zweite, wie der Cent gefallen ist. • Das Ereignis von Interesse ist A = {Der Euro zeigt Kopf}= {(K,K), (K,Z)}. Somit erhalten wir P(A) = 2/4 = 0.5 • Die Zusatzinformation ist B = {Der Cent zeigt Kopf} = {(K,K), (Z,K)}. Daraus folgt P(B) = 2/4 = 0.5 • Die Schnittmenge der Ereignisse ist A ∩ B = {(K,K)}, so dass P(A ∩ B) = 1/4. • Die bedingte Wahrscheinlichkeit P(A|B) ist P(A ∩ B)/P(B) = (1/4)/(1/2) = 0.5 • Also erhalten wir letztlich P(A) = P(A|B) = 0.5 Die Zusatzinformation B hat die Wahrscheinlichkeit nicht verändert. Das bedeutet, dass die Information über das Eintreten von B keine zusätzlichen Hinweise zur Bestimmung von P(A) enthält, d.h. die Zusatzinformation ist nutzlos. Man sagt in diesem Fall A und B sind unabhängig. Der Begriff Unabhängigkeit wird wie folgt definiert:
3.5 Bedingte Wahrscheinlichkeit und Unabhängigkeit
91
Die Ereignisse A und B sind unabhängig, wenn P(A|B) = P(A) gilt. Aus der Formel für die bedingte Wahrscheinlichkeit wissen wir, dass P(A|B) = P(A ∩ B)/P(B) gilt. Durch Multiplikation beider Seiten mit P(B) und Vertauschen der Seiten erhält man P(A ∩ B) = P(A|B)P(B) Wenn A und B unabhängig sind, gilt nach der obigen Definition der Unabhängigkeit P(A|B) = P(A) und man erhält: P(A ∩ B) = P(A)P(B). Diese Gleichung wird als alternative Definition der Unabhängigkeit verwendet: Die Ereignisse A und B sind unabhängig, wenn P(A ∩ B) = P(A)P(B) gilt. Um zu überprüfen, ob zwei Ereignisse unabhängig sind, muss also nachgerechnet werden, ob diese Formel gilt. Wenn diese Formel gilt, sind die Ereignisse unabhängig, andernfalls sind sie abhängig. In der Praxis werden viele Studien durchgeführt, die sich mit der Frage beschäftigen, ob zwei gegebene Ereignisse unabhängig sind oder nicht. Hier sind einige Beispiele für Fragen, die als Problem der Unabhängigkeit von Ereignissen formuliert werden können: 1. Ist das Ereignis, dass ein Mensch einen Herzinfarkt erleidet, unabhängig davon, ob dieser Mensch einen hohen Cholesterinspiegel hat? 2. Ist die Menge verkaufter Güter unabhängig von dem Betrag, der für Werbung ausgegeben wird? 3. Ist die Chance, einen bestimmten Arbeitsplatz zu erhalten, unabhängig vom Geschlecht? Mit anderen Worten, sind die bedingten Wahrscheinlichkeiten, dass eine Person einen Arbeitsplatz erhält, gegeben, dass die Person eine Frau bzw. ein Mann ist, die gleichen? 4. Ist das Ereignis, an Krebs zu erkranken, unabhängig davon, ob sich in der Nähe ein Kernkraftwerk befindet? Eine letzte Bemerkung: Mit Hilfe der Definition von Unabhängigkeit sind die folgenden Aussagen nicht schwer zu beweisen. Wenn die Ereignisse A und B unabhängig sind, dann sind die Ereignisse A und ¯ A¯ und B, A¯ und B¯ auch unabhängig. B,
92
3 Wahrscheinlichkeiten
Wichtigste Konzepte: • • • • •
Zufallsexperiment, Ergebnismenge, Ereignismenge, zufällige Ereignisse Wahrscheinlichkeit (Definition, Axiome), Berechnung, Interpretation symmetrisches Zufallsexperiment bedingte Wahrscheinlichkeit / unbedingte Wahrscheinlichkeit Unabhängigkeit
Kapitel 4
Wieviel sind meine Aktien morgen wert — Verteilungen und ihre Eigenschaften
4.1 Einführung In den vorausgegangenen Kapiteln haben wir besprochen, dass Fragen über stochastische Phänomene nicht mit Sicherheit beantwortet werden können. Nehmen wir das Beispiel mit der Glühbirne (Beispiel 1.12). Wir haben die Frage nach der Brenndauer der Glühbirne gestellt und festgestellt, dass es zwei verschiedene Antworten auf diese Frage gibt. Bevor man die Glühbirne benutzt, gibt es einen ganzen Bereich von Möglichkeiten. Die Glühbirne kann in weniger als zwei Sekunden kaputtgehen, sie kann länger als 500 Stunden halten oder länger als 1 000 Stunden. Theoretisch kann sie auch für immer leuchten. Wir können die Wahrscheinlichkeiten für jede dieser Möglichkeiten aus einer Kurve erhalten, die wir Dichtefunktion genannt haben. Die Dichtefunktion für die Brenndauer der Glühbirne war in Abb. 1.20 zu sehen. Bei allen Dichtefunktionen ist die Fläche unter der Kurve Eins. Wir haben bisher nicht besprochen, wie man diese Kurve (Dichtefunktion) erhält, aber wir wissen, wie man sie benutzt. Um die Wahrscheinlichkeit eines Ereignisses zu berechnen, ermittelt man einfach die Größe der entsprechenden Fläche unterhalb der Dichtefunktion. Um beispielsweise die Wahrscheinlichkeit zu berechnen, dass die Brenndauer der Glühbirne größer als 800 Stunden ist, berechnen wir die Fläche unterhalb der Dichtefunktion rechts von 800. Diese Fläche beträgt 0.92 (siehe Abb. 1.22b). Das sagt uns, dass die Wahrscheinlichkeit für eine Brenndauer von mehr als 800 Stunden groß ist. Solche Informationen können einem bei der Entscheidung helfen, ob man die Glühbirne kaufen soll oder nicht. In stochastischen Situationen muss man seine Entscheidungen auf der Basis von Wahrscheinlichkeiten treffen, da es keine Sicherheit gibt. Sicherheit liegt erst dann vor, wenn die Glühbirne tatsächlich kaputtgegangen ist. In dem Moment wird aus der Antwort plötzlich eine ganz gewöhnliche Zahl, zum Beispiel 1 452 Stunden. Wir können dieses Problem durch Symbole beschreiben. Wir bezeichnen die Brenndauer mit X.
W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
93
94
4 Verteilungen und ihre Eigenschaften
X ist ein Beispiel für eine Zufallsvariable und besitzt folgende Eigenschaften: • X steht für eine Reihe von möglichen Werten. • Das Verhalten von X kann durch Wahrscheinlichkeiten beschrieben werden. Es gibt unzählige weiterer Fragen, deren Antwort durch Zufallsvariablen ausgedrückt werden kann, zum Beispiel: • Sei X die Anzahl der Krankenhausbetten, die im nächsten Monat in Göttingen benötigt werden. • Sei Y das Alter, in dem man sein Studium beenden wird oder eine Anstellung bekommt oder auch in Rente geht. • Sei Z die Menge Öl (Weizen, Papier, Waschmittel), die im nächsten Jahr in Deutschland verbraucht wird. • Sei W die Anzahl der Personen, die morgen bei einem Verkehrsunfall verletzt (getötet) werden. • Sei V der Gewinn (der Umsatz, die Steuer) eines Unternehmens im nächsten Jahr. • Sei T die Zeit, die es dauert, bis ein Auto produziert wird (geliefert wird). • Sei U die Anzahl der Autos (Tennisschläger, Atomkraftwerke), die im nächsten Jahr verkauft werden. Alle genannten Beispiele besitzen die Eigenschaft, dass man nicht im Voraus weiß, welchen Wert die Zufallsvariable annehmen wird. Irgendwann (später) wird man den Wert wissen, aber diese Information ist zu dem Zeitpunkt, an dem man Entscheidungen treffen muss, nicht vorhanden. Was die Statistik anbietet, sind Methoden, die es ermöglichen, Wahrscheinlichkeiten für mögliche Werte der Zufallsvariablen zu bestimmen oder zu schätzen. Sämtliche Beispiele beziehen sich auf Ereignisse, die in der Zukunft stattfinden werden. Es gibt aber auch Zufallsvariablen, die sich auf Ereignisse beziehen, die schon stattgefunden haben: • Sei V die Anzahl der Personen in Deutschland, die gestern ein bestimmtes Fernsehprogramm gesehen haben. Die Anzahl steht schon fest, aber wir kennen sie nicht. Es können 10 354 gewesen sein oder 76. Solche Zahlen interessieren die Sender, weil sie anhand der Einschaltquote ihre Gebühren für Werbespots bestimmen. Man könnte den Wert von V bestimmen, wenn man alle Personen in Deutschland fragen würde, ob sie das Programm gestern Abend gesehen haben oder nicht. Das wäre allerdings sehr aufwendig. Stattdessen wird folgendes gemacht: Anhand einer Stichprobe von Personen schätzt man die Wahrscheinlichkeiten für mögliche Werte von V . Zur Verdeutlichung noch einige Beispiele von Zufallsvariablen, die sich auf Ereignisse beziehen, die schon stattgefunden haben: • Sei X die Anzahl der Personen in Europa, die eine bestimmte Eigenschaft haben (z.B. Diabetes haben, AIDS haben, ein Fahrrad besitzen, gestern Müsli gegessen haben, einen Arzt besucht haben, ein Buch gelesen haben, usw.). • Sei Y der Anteil der Buchen in Niedersachsen, die durch sauren Regen geschädigt sind, die durch Rehe verbissen sind, die höher als 5 Meter sind, usw.
4.1 Einführung
95
• Sei Z die gesamte Arbeitszeit, die gestern in Deutschland durch Krankheit verlorengegangen ist. Wie im Fall der Einschaltquoten, steht auch in diesen Beispielen der Wert der Zufallsvariablen schon fest aber wir kennen ihn nicht. Im Prinzip könnten wir den Wert bestimmen, indem wir alle Mitglieder der Grundgesamtheit untersuchen. Da dies zu aufwendig ist, kann man anhand einer Stichprobe aus der Grundgesamtheit Aussagen über die Wahrscheinlichkeiten für mögliche Werte der Zufallsvariablen machen. Die interessierenden Merkmale werden also als Zufallsvariable interpretiert, obwohl es sich eigentlich um konkrete Werte handelt. Wie wir an den Beispielen gesehen haben, können Zufallsvariablen alle möglichen Dinge beschreiben. Man beachte, dass jedes dieser Beispiele auf ein Zufallsexperiment zurückgeführt werden kann: Das Ergebnis, an dem wir interessiert sind, kann im Voraus nicht vorhergesagt werden. Man beachte auch, dass das interessierende Ergebnis in jedem Fall ein numerischer Wert ist. Mathematisch können wir eine Zufallsvariable durch eine Funktion beschreiben, die jedem möglichen Ergebnis des zugehörigen Zufallsexperiments eine reelle Zahl zuordnet: Eine Zufallsvariable ist eine Funktion, die jedem möglichen Ergebnis eines Zufallsexperiments eine reelle Zahl zuordnet. Betrachten wir ein einfaches Beispiel. Nehmen wir an, wir spielen folgendes Spiel miteinander: Wir werden eine faire Münze einmal werfen. Wenn die Münze Kopf zeigt, zahle ich Ihnen 1 e, wenn sie Zahl zeigt, zahlen Sie mir 3 e. Angenommen, ich möchte meinen Gewinn in diesem Spiel beschreiben: Sei X mein Gewinn. Die Situation ist die folgende: Entweder werde ich 1 e verlieren oder 3 e gewinnen. Ich kann nicht im Voraus sagen, welches dieser Ergebnisse eintreten wird. Das Spiel ist in Tabelle 4.1 zusammengefasst. Tabelle 4.1 Spielsituation für ein einfaches Münzwurf-Spiel Ereignis Kopf Zahl
Gewinn
Wahrscheinlichkeit
X (Kopf) = −1 X (Zahl) = +3
0.5 0.5
Die Antwort auf die Frage nach meinem Gewinn muss mit Wahrscheinlichkeiten beantwortet werden: • −1 e mit Wahrscheinlichkeit 0.5 • +3 e mit Wahrscheinlichkeit 0.5 Die Ergebnismenge des zugehörigen Zufallsexperiments ist Ω = {Kopf, Zahl}. Die Elementarereignisse lauten also {Kopf} und {Zahl}, jeweils mit Wahrscheinlichkeit 0.5. Man beachte, dass die Zufallsvariable X jedem Ergebnis in der Ergeb-
96
4 Verteilungen und ihre Eigenschaften
Abb. 4.1 Wahrscheinlichkeitsfunktionen für das Münzwurf-Gewinnspiel. a Mein Gewinn. b Ihr Gewinn
nismenge einen numerischen Wert (hier −1 e bzw. 3 e) zuordnet, d.h. X ist eine Funktion. Diese lässt sich formal darstellen durch: X : Ω → IR Wir können die Antwort auf die Frage Wie hoch wird mein Gewinn sein? auch grafisch darstellen. Abbildung 4.1a verdeutlicht die Spielsituation. Die Abbildung ist analog zu Abb. 1.20, die zur Veranschaulichung des Glühbirnen-Beispiels diente. Bisher haben wir von meinem Gewinn gesprochen. Sie sind jedoch vermutlich eher an Ihrem Gewinn interessiert, der ebenfalls eine Zufallsvariable ist: Sei Y Ihr Gewinn. Ihre Frage wird sein: Wie hoch ist Ihr Gewinn? Wieder verwendet man Wahrscheinlichkeiten zur Beantwortung der Frage: • +1 e mit Wahrscheinlichkeit 0.5 • −3 e mit Wahrscheinlichkeit 0.5 Auch hier ist es natürlich möglich die Antwort auf die Frage Wie hoch wird Ihr Gewinn sein? grafisch darzustellen (Abb. 4.1b). Abbildung 4.1 zeigt die so genannten Wahrscheinlichkeitsfunktionen der Zufallsvariablen X (mein Gewinn) und Y (Ihr Gewinn). Die Wahrscheinlichkeitsfunktion gibt für jeden möglichen Wert der Zufallsvariablen die zugehörige Wahrscheinlichkeit an, d.h. die Wahrscheinlichkeit, mit der dieser Wert eintritt.
4.1 Einführung
97
Nehmen wir an, dass wir dieses Spiel tatsächlich durchführen und dass die Münze Kopf zeigt, d.h. Sie gewinnen. Nach dem Spiel ist die Antwort eine ganz andere. Die Antwort auf die Frage Wie groß ist Ihr Gewinn? wird zu einer gewöhnlichen Zahl. Dies gilt auch für meinen Gewinn. Nach dem Spiel gilt: • Mein Gewinn ist −1 e (X = −1 e) • Ihr Gewinn ist 1 e (Y = +1 e) Man verdeutliche sich, dass man hier eine ganz andere Funktion hat als in dem Glühbirnen-Beispiel. Um dies zu veranschaulichen sind beide Funktionen in Abb. 4.2 nebeneinander dargestellt. Der Unterschied liegt darin, dass im Münz-Beispiel eine diskrete Zufallsvariable vorliegt, während sie im Beispiel mit der Glühbirne stetig ist. Zur Erinnerung sei noch einmal gesagt, dass sich der Begriff diskret auf ein Merkmal bezieht, dessen mögliche Ausprägungen endlich oder abzählbar unendlich sind, während der Begriff stetig sich auf den Fall bezieht, in dem die Anzahl der möglichen Werte überabzählbar ist. Im Münz-Beispiel (Ihr Gewinn) gibt es nur zwei mögliche Ausprägungen, entweder Y = −3 oder Y = 1. Im Glühbirnen-Beispiel gibt es überabzählbar viele mögliche Ausprägungen. Die Glühbirne kann 500 Stunden halten, sie kann auch 500 Stunden, 1 Minute und 25.54533456732 Sekunden halten usw. Es gibt in diesem Beispiel überabzählbar viele Möglichkeiten. Wir müssen den diskreten und stetigen Fall unterscheiden, weil man unterschiedliche Konzepte benötigt, um die Situationen zu handhaben.
Abb. 4.2 Stochastische Modelle. a Wahrscheinlichkeitsfunktion für diskrete Daten. b Dichtefunktion für stetige Daten
98
4 Verteilungen und ihre Eigenschaften
4.2 Stetige Zufallsvariablen Für stetige Zufallsvariablen verwenden wir eine Dichtefunktion (probability density function), um Wahrscheinlichkeiten zu berechnen. Wir haben bereits gesehen, dass die Fläche unter der Dichtefunktion die Wahrscheinlichkeit des interessierenden Ereignisses angibt. Mathematisch kann die Fläche unterhalb der Dichtefunktion als Integral berechnet werden. Im Beispiel mit den Glühbirnen (Beispiel 1.12) war X die Brenndauer der Glühbirne. Für die Dichtefunktion der Zufallsvariablen schreiben wir f (x). Es wäre im Zusammenhang mit den Glühbirnen auch möglich, andere Zufallsvariablen zu betrachten, z.B. den Anschaffungspreis pro Brennstunde der Glühbirne. Sei W der Preis der Glühbirne Anschaffungspreis pro Brennstunde der Glühbirne: W = Brenndauer der Glühbirne Auch die Zufallsvariable W hat eine Dichtefunktion f (x). Allerdings hat diese ein anderes Aussehen als die von X. Wenn man unterscheiden will, welche Dichtefunktion zu welcher Zufallsvariable gehört, verwendet man einen Index zur Kennzeichnung der entsprechenden Funktion: • Dichtefunktion von X: fX (x) • Dichtefunktion von W : fW (x) Wenn es klar ist, welche Zufallsvariable wir betrachten, kann man den Index auch weglassen. Die Dichtefunktion f (x) für die Brenndauer der Glühbirne ist noch einmal in Abb. 4.3a dargestellt. In der Darstellung ist (wie in Abb. 1.21) zusätzlich der Bereich zwischen x = 1 000 und x = 1 500 markiert. Diese Fläche hat die Größe 0.65 und entspricht der Wahrscheinlichkeit, dass die Glühbirne zwischen 1 000 und 1 500 Stunden brennen wird. Rechnerisch kann man die Wahrscheinlichkeit mit Hilfe der Integralrechnung bestimmen: 1500
P(1 000 < X < 1 500) =
f (x)dx = 0.65
1 000
Ist man beispielsweise an der Wahrscheinlichkeit, dass die Glühbirne weniger als 1 200 Stunden brennt, interessiert, muss man P(0 < X < 1 200) =
1200
f (x)dx = 0.70
0
berechnen (siehe Abb. 4.3b). Allgemein gilt: Die Wahrscheinlichkeit, dass die Glühbirne zwischen x1 und x2 Stunden brennt, ist: P(x1 < X < x2 ) =
x2 x1
f (x)dx
4.2 Stetige Zufallsvariablen
99
a
b
Abb. 4.3 a Wahrscheinlichkeit einer Brenndauer zwischen 1 000 und 1 500 Stunden. b Wahrscheinlichkeit einer Brenndauer von weniger als 1 200 Stunden
Im Moment geht es nur darum, wie man die Dichtefunktion anwendet, wenn sie bereits zur Verfügung steht; wie man sie erhält, kommt später. Um eine Wahrscheinlichkeit für eine stetige Zufallsvariable auszurechnen, muss man also eine Fläche unter der Dichtefunktion berechnen. Wenn die Funktion leicht zu integrieren ist, dann kann man diese Fläche analytisch mit Hilfe der Integralrechnung ermitteln. In sehr vielen praktischen Anwendungen ist die Dichtefunktion allerdings sehr schwer oder gar nicht analytisch zu integrieren. Man muss dann für die gewünschte Fläche eine numerische Annäherung finden, entweder von Hand, mit Hilfe eines Computers oder spezieller Tabellen. Die Funktion, die wir für die Glühbirne verwendet haben, ist eine der komplizierteren. Man nennt sie die Gauß’sche Verteilung oder auch Normalverteilung. Die Formel der Normalverteilung für das Glühbirnenbeispiel ist: 1 exp{−(x − 1 092.9)2/(2 · 206.12)} f (x) = √ 2π · 206.1 Um die Wahrscheinlichkeit zu berechnen, dass die Brenndauer zwischen 1 000 und 1 500 liegt, ist das folgende Integral zu lösen: P(1 000 < X < 1 500) =
1500 1 000
1 √ exp{−(x − 1 092.9)2/(2 · 206.12)}dx 2π · 206.1
Die Funktion lässt sich nicht analytisch integrieren, aber numerisch.
100
4 Verteilungen und ihre Eigenschaften
Die Normalverteilung ist eine der wichtigsten Dichtefunktionen, die wir behandeln werden. Für die Normalverteilung braucht man nicht einmal einen Computer, wenn man Wahrscheinlichkeiten berechnen will. Es gibt Tabellen, die man stattdessen benutzt, siehe Anhang. Andererseits ist die Berechnung von Wahrscheinlichkeiten für die Normalverteilung in allen statistischen Softwarepaketen integriert und sogar in manchen Taschenrechnern. Im Moment ist jedoch folgendes wichtig: Für stetige Zufallsvariablen erhält man Wahrscheinlichkeiten, indem man Flächen unterhalb der Dichtefunktion berechnet. Die Möglichkeiten, die zur Bestimmung der Fläche zur Verfügung stehen, sind: • • • •
Integration (wenn f (x) eine „freundliche“ Funktion ist). Verwendung von Computerprogrammen (falls verfügbar). Verwendung spezieller Tabellen (falls verfügbar). Abzählen von Rechtecken (falls alles andere nicht geht).
Mit Rechnern, auch mit Taschenrechnern, ist es meistens sehr einfach, Zufallszahlen zu erzeugen, die gleichmäßig über das Intervall [0, 1] verteilt sind. Nehmen wir an, man würde drei solcher Zufallszahlen erzeugen und anschließend von diesen drei Zahlen das Maximum bestimmen. Sei X dieses Maximum. Dann hat X die folgende Dichtefunktion: 3x2 0 ≤ x ≤ 1 f (x) = 0 sonst Die Dichtefunktion ist in Abb. 4.4 dargestellt. Möchte man beispielsweise die Wahrscheinlichkeit bestimmen, dass X zwischen 0.1 und 0.5 liegt, ist die Fläche unter der Kurve zwischen 0.1 und 0.5 zu bestim-
Abb. 4.4 Dichtefunktion für das Maximum von drei Zufallszahlen aus dem Bereich [0, 1]
4.2 Stetige Zufallsvariablen
101
men. In diesem Beispiel können wir die Größe dieser Fläche durch Integration ermitteln: P(0.1 < X < 0.5) =
0.5
f (x)dx =
0.1
0.5
3x2 dx =
0.1
3 3 x 3
0.5 0.1
= 0.5 − 0.1 = 0.125 − 0.001 = 0.124 3
3
Analog ist die Wahrscheinlichkeit, dass X kleiner als 0.4 ist, durch die Fläche unter der Dichtefunktion von −∞ bis 0.4 gegeben: P(X < 0.4) =
0.4 −∞
0
f (x)dx =
0 dx +
−∞
3 = 0 + x3 3
0.4
3x2 dx
0
0.4
= 0.43 − 03 = 0.064 0
Betrachten wir nun den Fall, dass X zwischen 1.2 und 1.5 liegt. Die Fläche unter diesem Teil der Kurve ist Null: P(1.2 < X < 1.5) =
1.5 1.2
f (x)dx =
1.5
0 dx = 0
1.2
Dieses Ergebnis ist logisch, da das Maximum dreier Zufallszahlen aus dem Bereich [0, 1] nicht größer sein kann als Eins. Dichtefunktionen müssen zwei Eigenschaften haben: 1. f (x) ≥ 0 für alle x 2.
∞
−∞
f (x)dx = 1
Schauen wir auf ein weiteres Beispiel für die Dichtefunktion eines stetigen Merkmals. X sei die Dauer (in Sekunden) der Call-Center-Anrufe aus Beispiel 1.10, d.h. X ist die Antwort auf die Frage Wie lange wird ein beliebiger Anruf in dem CallCenter dauern? In Abb. 1.14b wurde ein Histogramm der Anrufdauer der im betrachteten Zeitraum beobachteten Call-Center-Anrufe zusammen mit einem angepassten stochastischen Modell gezeigt. Dieses stochastische Modell ist eine Dichtefunktion, die in Abb. 4.5 noch einmal ohne das zu Grunde liegende Histogramm dargestellt ist. Diese Dichtefunktion X ist durch die folgende Formel gegeben: 0.006e−0.006x x ≥ 0 f (x) = 0 sonst
102
4 Verteilungen und ihre Eigenschaften
Abb. 4.5 Dichtefunktion für die Dauer von Call-Center-Anrufen
Diese Dichtefunktion nennt man Exponentialverteilung. Sie ist eine jener Dichtefunktionen, die man analytisch integrieren kann. Wir können daher überprüfen, ob sie die beiden oben genannten Eigenschaften erfüllt. Aus dem Bild der Dichtefunktion (Abb. 4.5) können wir erkennen, dass f (x) nichtnegativ ist. Die Gesamtfläche unter der Dichtefunktion ist: ∞
f (x)dx =
−∞
0
0dx +
−∞
∞ 0
= [−e
−0.006·∞
0.006 −0.006x ∞ e 0.006e−0.006xdx = 0 + − 0.006 0
] − [−e−0.006·0] = (−0) − (−e0) = 0 − (−1) = 1
Wie zu erkennen ist, erfüllt die Dichtefunktion also beide Eigenschaften. Wir können f (x) verwenden, um Wahrscheinlichkeiten für X zu ermitteln. Die Wahrscheinlichkeit, dass die Anrufdauer X kleiner als 200 Sekunden sein wird, ist beispielsweise wie folgt zu berechnen: 200 −∞
f (x)dx =
0 −∞
0dx +
200
0.006e
−0.006x
0
0.006 −0.006x e dx = − 0.006
200 0
= [−e−0.006·200] − [−e−0.006·0] = [−e−1.2 ] − [−e0] = −0.301 − (−1) = 0.699 Nun wissen wir bereits, wie wir mit der gegebenen Dichtefunktion für die Dauer der Call-Center-Anrufe bestimmte Wahrscheinlichkeiten berechnen können. Wie aber die Dichtefunktion für die gegebenen Daten überhaupt ermittelt worden ist, werden wir erst in einem späteren Kapitel zeigen. Neben der Dichtefunktion, die wir bisher betrachtet haben, gibt es eine weitere Funktion, die geeignet ist, um das Verhalten einer Zufallsvariablen zu beschreiben.
4.2 Stetige Zufallsvariablen
103
Sie heißt Verteilungsfunktion, und wir werden sie mit dem Großbuchstaben F bezeichnen. Die Verteilungsfunktion ist folgendermaßen definiert: F(t) = P(X ≤ t) An der Stelle t besitzt die Verteilungsfunktion den Funktionswert, der der Fläche unterhalb der Dichtefunktion, links von t, entspricht. Abbildung 4.6 verdeutlicht diesen Zusammenhang der beiden Funktionen. Wenn wir an Histogramme und Summenkurven zurückdenken, bemerken wir, dass die Beziehung zwischen Dichte- und Verteilungsfunktion der Beziehung zwischen Histogramm und Summenkurve entspricht. Man betrachte zur Erinnerung noch einmal Abb. 2.11, in der der Zusammenhang zwischen Histogramm und Summenkurve dargestellt ist. Zusammengefasst: • Die Summenkurve an der Stelle t gibt die Fläche unterhalb der Histogramms links von t an. • Die Verteilungsfunktion an der Stelle t gibt die Fläche unterhalb der Dichtefunktion links von t an. Betrachten wir noch einmal eines der Beispiele, das bereits erwähnt wurde, die Dichtefunktion 3x2 0 ≤ x ≤ 1 f (x) = 0 sonst . Um die Verteilungsfunktion zu bestimmen, ist für jedes t die Fläche unter der Dichtefunktion links von t zu bestimmen. Für alle t ≤ 0 ist diese Fläche Null und
Abb. 4.6 Zusammenhang zwischen a Dichte- und b Verteilungsfunktion
104
4 Verteilungen und ihre Eigenschaften
damit auch F(t) = 0. Rechts vom Definitionsbereich der Dichtefunktion, d.h. für alle t ≥ 1, ist die Fläche links von t gleich der Gesamtfläche unterhalb der Dichtefunktion, d.h. gleich Eins. Es gilt also F(t) = 1 für t ≥ 1. Für jedes t zwischen 0 und 1 berechnen wir die Fläche durch das Integral: P(X ≤ t) =
t 0
3x2 dx =
3 3 x 3
t = t 3 − 03 = t 3 0
Fassen wir die Ergebnisse zusammen, erhalten wir für die Verteilungsfunktion: ⎧ ⎪ ⎨0 t < 0 F(t) = t 3 0 ≤ t ≤ 1 ⎪ ⎩ 1 t>1 Abbildung 4.7 zeigt diese Verteilungsfunktion neben ihrer Dichtefunktion. Bemerkenswert ist, dass wir alle Wahrscheinlichkeiten auch mit Hilfe der Verteilungsfunktion (anstatt mit der Dichtefunktion) berechnen können. Zum Beispiel ist die Wahrscheinlichkeit, dass X zwischen 0.5 und 0.7 liegt, gleich der Fläche zwischen 0.5 und 0.7 unter der Dichtefunktion. Der Gedankengang zur Berechnung der Wahrscheinlichkeit mit der Verteilungsfunktion ist der folgende: • Die Fläche unter f (x) links von 0.7 ist F(0.7) = 0.73 . • Die Fläche unter f (x) links von 0.5 ist F(0.5) = 0.53 .
Abb. 4.7 a Dichte- und b Verteilungsfunktion für das Maximum von drei Zufallszahlen aus dem Intervall [0, 1]
4.2 Stetige Zufallsvariablen
105
Um die Fläche zwischen 0.5 und 0.7 zu berechnen, subtrahiert man einfach die Fläche links von 0.5 von der Fläche, die links von 0.7 liegt. P(0.5 < X < 0.7) = F(0.7) − F(0.5) = 0.343 − 0.125 = 0.218 Weiter oben hatten wir bereits die Dichtefunktion einer Exponentialverteilung für die Dauer von Call-Center-Anrufen vorgestellt: 0.006e−0.006x 0 ≤ x f (x) = 0 sonst In Abb. 4.5 wurde die Dichtefunktion grafisch dargestellt. Dort ist zu erkennen, dass F(t) = 0 für t < 0 gilt. Für t ≥ 0 gilt: F(t) = P(X ≤ t) =
t
0.006e 0
−0.006x
0.006 −0.006x e dx = − 0.006
t 0
= [−e−0.006t ] − [−e−0] = −e−0.006t + 1 = 1 − e−0.006t Zusammenfassend erhalten wir somit für die Verteilungsfunktion: 0 t 0, so sagt man, die Wahrscheinlichkeitsfunktion sei rechtsschief. Ist α3 < 0, so sagt man, sie sei linksschief. Die drei Fälle werden in Abb. 4.20 dargestellt. Die Kurtosis ist definiert durch
α4 = wobei
E(X − μ )4 , σ4 n
E(X − μ )4 = ∑ (xi − μ )4 P(xi ) i=1
im Fall einer diskreten Zufallsvariablen und E(X − μ )4 =
∞
−∞
(x − μ )4 f (x)dx
im Fall einer stetigen Zufallsvariablen ist.
Abb. 4.20 Dichtefunktionen mit unterschiedlicher Schiefe
126
4 Verteilungen und ihre Eigenschaften
Die Kurtosis der Dichtefunktion einer beliebigen normalverteilten Zufallsvariablen ist 3. Ist die Kurtosis einer Zufallsvariablen kleiner 3, so ist ihre Dichtefunktion flacher als die einer Normalverteilung mit derselben Varianz (siehe Abb. 4.21). Ist α3 > 3, so ist die Dichtefunktion spitzer als die der Normalverteilung mit derselben Varianz. Aus diesem Grunde, mit der Normalverteilung als Referenz, wird die Kurtosis auch definiert durch α4N = α4 − 3.
Abb. 4.21 Die Kurtosis einer Dichtefunktion
Die Kurtosis ist für Wirtschaftswissenschaftler relevant, weil sie eine wesentliche Rolle bei der Beschreibung von Aktienmarkt-Risiken spielt. Häufig zeigt sich, dass die täglichen Renditen von Aktien eine relativ hohe Kurtosis besitzen. Abbildung 1.8 zeigt ein Histogramm der (kontinuierlichen) Tagesrenditen für die Aktie der Deutschen Bank aus Beispiel 1.6. Zusätzlich ist eine angepasste Normalverteilung eingezeichnet. Man erkennt, dass das Histogramm der beobachteten Renditen spitzer ist als die Normalverteilung. Außerdem ist von Bedeutung, dass das Histogramm an den äußeren Rändern der Verteilung höher ist, als man unter der angepassten Normalverteilung erwarten würde. Damit ist die Kurtosis der Renditen vermutlich höher als bei einer Normalverteilung. Dieses Verhalten beobachtet man bei fast allen Aktien und muss berücksichtigt werden, wenn man ein stochastisches Modell für die Renditen konstruieren will, um die zugehörigen Risiken zu quantifizieren. In vielen Fällen ist es sogar noch ausgeprägter als in diesem Beispiel. Im Prinzip ist es lediglich ein technisches Problem, die Kurtosis einer Wahrscheinlichkeits- bzw. Dichtefunktion zu bestimmen. Man muss nur die Summe bzw. das Integral gemäß der Definition bestimmen. Mit Ausnahme der besonders einfachen Fälle ist dies allerdings mühsam. Betrachten wir die Dichtefunktion f (x) =
3x2 für 0 ≤ x ≤ 1 0 sonst .
Weiter oben haben wir bereits den Erwartungswert und die Varianz der Dichtefunktion bestimmt. Die Ergebnisse waren μ = 3/4 und σ 2 = 3/80. Somit ergibt sich für die Schiefe E(X − μ )3 1 1 3 3 α3 = = 3 · 3x2 dx , x− σ3 σ 0 4
4.4 Kennzahlen (Momente) einer Zufallsvariablen
127
und für die Kurtosis E(X − μ )4 1 α4 = = 4 σ4 σ
1 0
3 x− 4
4 · 3x2 dx .
Insgesamt erhält man α3 ≈ −0.861 und α4 ≈ 3.095. Die Dichtefunktion ist also linksschief und besitzt eine größere Kurtosis als eine Normalverteilung. Wir bekommen bereits damit ein Gefühl dafür, dass Kennzahlen eine Verteilung beschreiben können. Dies ist in der Tat so. Man benötigt aber u.U. unendlich viele Momente, um eine Verteilung festlegen zu können. Ein weiterer Begriff, den wir bereits erwähnt haben, ist der Value at Risk, ein Maß mit großer Bedeutung in der betrieblichen Finanzwirtschaft. Erinnern wir uns noch einmal an das Beispiel der Aktienkursentwicklung (Beispiel 1.6). Betrachten wir ein Aktienpaket der Deutschen Bank, das am heutigen Tag einen Gesamtwert von 3 000 e hat. Man hat ein berechtigtes Interesse an der Beantwortung der Frage Wie groß ist der Wert des Aktienpaketes am Folgetag?. Die Beantwortung erfolgt mit Hilfe einer Dichtefunktion, da X, der Wert des Aktienpaketes am Folgetag, eine Zufallsvariable darstellt. Da sich der Wert des Aktienpaketes am Folgetag direkt aus der Tagesrendite des Folgetages ergibt, können wir zur Beantwortung der Frage die Verteilung der Tagesrenditen betrachten. Gehen wir in diesem Fall davon aus, dass die Normalverteilung aus Abb. 1.8 die Tagesrenditen der Deutsche Bank Aktie angemessen beschreibt, auch wenn wir schon gesehen haben, dass die Kurtosis der Renditen höher ist als die einer Normalverteilung. Dann können wir mit Hilfe der Dichtefunktion zum Beispiel berechnen, welche Tagesrendite mit einer Wahrscheinlichkeit von 95% nicht unterschritten wird. Die Antwort auf diese Frage ist in Abb. 4.22 zu sehen. Aus der Abbildung wird deutlich, dass 95% der Fläche unter der Dichtefunktion rechts von x = −2.27% liegt. Dies ist der prozentuale tägliche Verlust, der mit einer Wahrscheinlichkeit von 95% nicht unterschritten wird.
Abb. 4.22 Value at Risk der Tagesrendite der Deutsche Bank Aktie
128
4 Verteilungen und ihre Eigenschaften
Wir können diese Aussagen nun wieder auf den Wert des Aktienpaketes übertragen. Wenn der aktuelle Tageswert der Wertpapiere 3 000 e beträgt, kann man also die Aussage treffen, dass mit einer Wahrscheinlichkeit von 95% der Verlust am Folgetag geringer sein wird als 3 000 · 2.27% = 68.1 e, dem 95%-Value at Risk. In diesem Beispiel haben wir nur eine einzelne Aktie betrachtet. In der Regel berechnet man den Value at Risk aber für Wertpapier-Portfolios. Je nach Problemstellung kann dann beispielsweise auch ein 99%-Value at Risk berechnet werden. Es würde sich um den Verlust handeln, der mit einer Wahrscheinlichkeit von 99% nicht erreicht wird. Wir haben bislang die grundlegenden Definitionen und Begriffe im Zusammenhang mit Zufallsvariablen eingeführt. Dabei haben wir mehrfach darauf hingewiesen, dass Zufallsvariablen Antworten auf eine ganz bestimmte Art von Fragen sind. Charakteristisch an diesen Fragen ist: • Die Antwort kann nicht genau vorausgesagt werden. • Die Fragen betreffen irgendeine quantifizierbare Größe. • Typischerweise beginnen diese Fragen mit Wie groß? Wieviele? Wie lange? Wie schwer? Wie hoch? usw. Wir haben gesehen, dass solche Fragen mit Hilfe von Wahrscheinlichkeits- bzw. Dichtefunktionen auf eine spezielle Art und Weise beantwortet werden können. Wir • können den Bereich der möglichen Antworten angeben • und können die Wahrscheinlichkeitsstruktur bezüglich möglicher Werte in diesem Bereich beschreiben. Wir geben die Antwort in Form einer Wahrscheinlichkeitsverteilung. Im Falle diskreter Zufallsvariablen beschreiben wir diese Verteilung mit Hilfe einer Wahrscheinlichkeitsfunktion. Im Falle stetiger Zufallsvariablen beschreiben wir sie mit Hilfe einer Dichtefunktion. Auch haben wir die Beschreibung der Wahrscheinlichkeitsstruktur mit der Verteilungsfunktion dargestellt, die für stetige und diskrete Zufallsvariablen die gleiche Definition besitzt. (Abbildung 4.23 fasst die Funktionen zusammen.) Wir haben letztlich den Erwartungswert und die Varianz einer Zufallsvariablen definiert und sind kurz auf die Schiefe und die Kurtosis eingegangen. Als letzten Punkt werden wir kurz die Frage betrachten, wie man zu diesen Wahrscheinlichkeitsfunktionen oder Dichtefunktionen kommt. Im Allgemeinen gibt es drei verschiedene Wege, sie zu bestimmen, nämlich mit Hilfevon (1) Vermutungen, die man durch Überlegungen erhält bzw. durch (2) Erfahrungen, die auf Beobachtungen basieren, oder auch durch (3) eine Kombination aus (1) und (2). Für (1) haben wir schon einige Beispiele betrachtet, z.B. die Münzen-, Würfelund Lotto-Beispiele. Das Beispiel der Glühbirne ist ein Beispiel dafür, wie man eine Dichtefunktion nach Methode (2) erhält. Bei der Auswahl einer Stichprobe aus der Grundgesamtheit ähnlicher Glühbirnen musste man sorgfältig vorgehen. Die ausgewählten Glühbirnen mussten beobachtet werden, damit wir Erfahrungen über die Lebensdauer einer Glühbirne sammeln konnten.
4.4 Kennzahlen (Momente) einer Zufallsvariablen
129
Abb. 4.23 Funktionen zur Beschreibung einer Zufallsvariablen im Überblick
Wichtigste Konzepte: • • • •
Zufallsvariable (stetig und diskret) Wahrscheinlichkeitsfunktion Dichte(funktion), Verteilungsfunktion Kennzahlen und Momente: Erwartungswert, Varianz, Standardabweichung, Volatilität, Schiefe, Kurtosis • Gesetz der Großen Zahl
Kapitel 5
Eins, Zwei oder Drei — Diskrete Verteilungen
Nachdem wir gesehen haben, dass man das Verhalten von Zufallsvariablen mit Hilfe von Verteilungen beschreiben kann, sollen jetzt einige spezielle Verteilungen vorgestellt werden, die unter praktischen Gesichtspunkten von besonderem Interesse sind. In diesem Kapitel werden wir zunächst wichtige Verteilungstypen für diskrete Zufallsvariablen kennen lernen, konkret die Bernoulli-Verteilung, die Binomialverteilung, die Hypergeometrische Verteilung und die Poissonverteilung. Dabei werden wir für jede Verteilung die Wahrscheinlichkeitsfunktion angeben und anhand einiger Beispiele erläutern, welche Art von Fragen man mit der jeweiligen Verteilung beantworten kann.
5.1 Bernoulli-Verteilung Die Bernoulli-Verteilung ist eine der einfachsten Verteilungen. Eine Zufallsvariable X heißt Bernoulli-verteilt, wenn sie zwei mögliche Werte annehmen kann: X = 0 oder X = 1. Wir nennen X = 1 einen Erfolg und X = 0
einen Misserfolg.
Die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung ist durch ⎧ ⎪ für x = 1 ⎨π P(x) = 1 − π für x = 0 ⎪ ⎩ 0 sonst gegeben, wobei π eine Konstante aus dem Intervall [0, 1] ist. Der griechische Buchstabe π ist hier nicht 3.1415, d.h. π hat im Zusammenhang mit der Bernoulli-Verteilung nichts mit Kreisen zu tun. Hier ist π eine Konstante zwischen Null und Eins. Genauer formuliert ist π die Wahrscheinlichkeit, mit der X den Wert 1 annimmt. Da π die Wahrscheinlichkeit angibt, mit der die Variable W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
131
132
5 Diskrete Verteilungen
einen Erfolg realisiert, sprechen wir auch von der Erfolgswahrscheinlichkeit. Wir bezeichnen π auch als Parameter der Wahrscheinlichkeitsverteilung von X. Abbildung 5.1 zeigt die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung. Aus der Abbildung ist zu erkennen, dass der Parameter (bzw. die Erfolgswahrscheinlichkeit) π = 0.25 beträgt. Betrachten wir ein einfaches Zufallsexperiment, das zu einer Bernoulli-verteilten Zufallsvariablen führt. Wir werfen eine Münze einmal. Die Zufallsvariable X sei das Auftreten von Kopf. Entweder erhalten wir Kopf oder nicht Kopf. X ist also entweder 1 (Erfolg) oder 0 (Misserfolg). Ist die Münze fair, so ist π = 0.5. Abbildung 5.2 zeigt in der Mitte die zugehörige Wahrscheinlichkeitsfunktion. Ist die Münze nicht fair gewichtet, besitzt π irgendeinen anderen Wert, z.B. π = 0.62. Wenn die Wahrscheinlichkeiten für das Auftreten der beiden Seiten einer Münze unterschiedlich sind, bezeichnen wir die Münze als biased (verzerrt). In diesem Fall ist der Wert von π meistens unbekannt und muss durch Experimentieren mit der Münze geschätzt werden. Man könnte z.B. die interessierende Münze 100-mal werfen und π durch den Anteil der Würfe schätzen, in denen man Kopf erhalten hat. Die Konstante π bestimmt das Verhalten der Zufallsvariablen X. Jede Münze hat ihre eigene Erfolgswahrscheinlichkeit π . Abbildung 5.2 zeigt einige Beispiele für Wahrscheinlichkeitsfunktionen der Bernoulli-Verteilung. Es könnte sich beispielsweise um die Wahrscheinlichkeitsfunktionen unterschiedlicher (zum Teil extrem unfairer) Münzen handeln.
Abb. 5.1 Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit π = 0.25
Abb. 5.2 Beispiele für Wahrscheinlichkeitsfunktionen Bernoulli-verteilter Zufallsvariablen
5.2 Binomialverteilung
133
Abb. 5.3 a Wahrscheinlichkeits- und b Verteilungsfunktion einer Bernoulli-Verteilung mit π = 0.62
Wenn man darstellen möchte, dass die Zufallsvariable eine Bernoulli-Verteilung besitzt, kann man dies in der folgenden Form tun: X ∼ Be(π ) Diese Darstellung ist eine Kurzfassung des Satzes X sei Bernoulli-verteilt mit dem Parameter π . Beispielsweise heißt X ∼ Be(0.62), dass die Zufallsvariable X Bernoulli-verteilt ist mit Erfolgswahrscheinlichkeit π = 0.62. Die Verteilungsfunktion einer Bernoulli-verteilten Zufallsvariablen ist gegeben durch: ⎧ ⎪ t
0 und 0 ≤ x ≤ n. Der Binomialkoeffizient wird folgendermaßen geschrieben: nx (gesprochen: n über x). n n! = x x!(n − x)! Einige Beispiele zur Berechnung der Binomialkoeffizienten: 5 5! 5! 5·4·3·2·1 = = = = 10 2 2!(5 − 2)! 2!3! (2 · 1)(3 · 2 · 1) 4 4! 4·3·2·1 4! = = =1 = 4 4!(4 − 4)! 4!0! (4 · 3 · 2 · 1)1 52 52! 52! 52 · 51 · . . .· 2 · 1 = = = 20 20!(52 − 20)! 20!32! (20 · 19 · . . .· 1)(32 · 31 · . . .· 1) = 1.259 946 · 1014 In diesen Beispielen, sowie in vielen weiteren Fällen, kann man die Binomialkoeffizienten leicht berechnen. Probleme gibt es aber, wenn bei der Berechnung die
5.2 Binomialverteilung
135
Fakultäten großer Zahlen benötigt werden. Da die Fakultät einer Zahl mit zunehmender Größe der Zahl sehr schnell wächst, können z.B. die meisten Taschenrechner höchstens 69! berechnen; ab 70! erhält man dagegen eine Fehlermeldung. Daher ist es hilfreich, dass man bei der Berechnung der Binomialkoeffizienten immer kürzen kann, wie das folgende Beispiel zeigt: 100! 100 · 99 · . . .· 96 · 95 · . . .· 2 · 1 100 100! = = = 5!(100 − 5)! 5!95! 5!95! 5 100 · 99 · . . .· 96 · 95! 100 · 99 · . . .· 96 9 034 502 400 = = = 75 287 520 = 5!95! 5! 120 Den Umgang mit Binomialkoeffizienten werden wir zur Bestimmung von Wahrscheinlichkeitsfunktionen binomialverteilter Zufallsvariablen benötigen. Jetzt soll die Wahrscheinlichkeitsfunktion der Binomialverteilung erläutert und gezeigt werden, wie man mit dieser Funktion Wahrscheinlichkeiten berechnet. Anschließend zeigen wir, welche Zufallsvariablen binomialverteilt sind, d.h. wir überlegen uns, welche Fragen sich mit einer Binomialverteilung beantworten lassen. Für eine Bernoulli-verteilte Zufallsvariable haben wir die Bezeichnung X ∼ Be(π ) verwendet. Dabei bezeichnet die Konstante π eine Zahl zwischen Null und Eins (0 < π < 1). Dies ist die Wahrscheinlichkeit, dass X den Wert 1 annimmt. π ist der Parameter der Verteilung und charakterisiert das Verhalten der Zufallsvariablen X. Die Binomialverteilung besitzt zwei Parameter, d.h. wir müssen zwei Zahlen bestimmen um eine binomialverteilte Zufallsvariable zu charakterisieren bzw. deren Wahrscheinlichkeitsfunktion zu ermitteln. Den ersten Parameter bezeichnen wir mit n. Dieser Parameter wird als Anzahl der Versuche bezeichnet. Die Anzahl der Versuche ist eine positive ganze Zahl (größer als Null). Der zweite Parameter wird, wie bei der Bernoulli-Verteilung, Erfolgswahrscheinlichkeit genannt und ebenfalls mit π bezeichnet. Wie bei der Bernoulli-Verteilung liegt π zwischen Null und Eins. Für eine binomialverteilte Zufallsvariable schreiben wir: X ∼ b(n, π ) Die Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen X ist
n x n−x für x = 0, 1, 2, . . . , n x π (1 − π ) P(x) = 0 sonst . Jetzt wollen wir ein einfaches Beispiel für eine binomialverteilte Zufallsvariable betrachten: Wir werfen viermal einen fairen Würfel. Die interessierende Frage sei: Wie oft werden wir mit diesen vier Würfen eine 6 würfeln? Die Antwort auf diese Frage ist eine Zufallsvariable, die wir mit X bezeichnen. X kann die Werte 0, 1, 2, 3, 4 annehmen. X ist eine binomialverteilte Zufallsvariable.
136
5 Diskrete Verteilungen
Das Ergebnis 6 stellt in diesem Beispiel einen Erfolg dar, die anderen Ergebnisse sind Misserfolge. Die Parameter der Binomialverteilung in diesem speziellen Beispiel sind: n=4 (die Anzahl der Würfe) und π = 1/6 (die Wahrscheinlichkeit, eine 6 zu würfeln) Da wir die Parameter der Binomialverteilung für das Würfel-Beispiel kennen, können wir diese in die allgemeine Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen einsetzen, um die spezielle Wahrscheinlichkeitsfunktion für X zu bestimmen:
4 1 x für x = 0, 1, 2, 3, 4 ( ) (1 − 16 )4−x P(x) = x 6 0 sonst Mit Hilfe der Wahrscheinlichkeitsfunktion können jetzt die Wahrscheinlichkeiten für die möglichen Werte von X, d.h. für keine 6, eine 6 usw. bestimmt werden: P(0) = P(1) = P(2) = P(3) = P(4) =
4 0 4−0 5 5 4 1 = 1(1) = 0.482 253 0 6 6 6 1 4−1 3 4 1 1 5 5 =4 = 0.385 802 1 6 6 6 6 2 4−2 2 2 4 1 1 5 5 =6 = 0.115 741 2 6 6 6 6 3 1 3 4−3 5 5 1 4 1 =4 = 0.015 432 6 6 6 6 3 4 4−4 4 4 1 1 5 =1 (1) = 0.000 772 4 6 6 6
Abbildung 5.4 zeigt die grafische Darstellung der Wahrscheinlichkeitsfunktion. Jeder Ausprägung von X wird die entsprechende Wahrscheinlichkeit zugeordnet. Betrachten wir nun die allgemeinen Grundlagen, die erfüllt sind, wenn wir die Binomialverteilung zur Beschreibung stochastischer Phänomene verwenden. Wir können die Binomialverteilung verwenden, wenn wir ein Zufallsexperiment haben, das die folgenden Bedingungen erfüllt: (1) Das Zufallsexperiment besteht aus n unabhängigen Versuchen. (2) Jeder Versuch hat zwei mögliche Ausgänge. (3) Die Wahrscheinlichkeit für einen Erfolg ist in jedem Versuch die gleiche. Die allgemeine Frage, die mit einer Binomialverteilung beantwortet werden kann, ist: Wie viele Erfolge wird es in n Versuchen geben? Oder formal formuliert: Sei X die Anzahl der Erfolge in n Versuchen. Wenn (1)–(3) erfüllt sind, ist X ∼ b(n, π ).
5.2 Binomialverteilung
137
Abb. 5.4 Wahrscheinlichkeitsfunktion einer binomialverteilten Zufallsvariablen mit n = 4 und π = 1/6
Wir wollen die drei Bedingungen für das Würfel-Beispiel überprüfen. Beginnen wir mit Bedingung (1): In dem Würfel-Beispiel haben wir ein Zufallsexperiment, das aus n = 4 Versuchen (die vier Würfe) besteht. Wir übergehen zunächst die Bedingung der Unabhängigkeit und fahren mit Bedingung (2) fort. In dem Beispiel besitzt jeder Versuch des Zufallsexperiments zwei mögliche Ausgänge: • Erfolg ist hier das Ereignis, dass eine 6 gewürfelt wird. • Misserfolg ist das Ereignis, dass keine 6 gewürfelt wird. Damit besitzt jeder der vier Versuche einen Erfolg oder einen Misserfolg als Ausgang. Die Bedingung (2) ist also erfüllt. Wenden wir uns Punkt (3) zu. Wir haben unterstellt, der Würfel sei fair. Das bedeutet, dass unser Experiment ein symmetrisches Zufallsexperiment ist. Alle Elementarereignisse sind gleich wahrscheinlich. Die Wahrscheinlichkeit für jedes Elementarereignis ist 16 . Damit ist
π = P({Erfolg}) =
1 . 6
Diese Wahrscheinlichkeit gilt für alle Versuche, d.h. auch die dritte Bedingung ist erfüllt. Überlegen wir uns, was Unabhängigkeit in diesem Zusammenhang bedeutet: Wenn wir das erste Mal würfeln, erhalten wir entweder eine 6 oder wir erhalten keine 6. Wir werden also einen Erfolg oder einen Misserfolg haben. Die Frage nach Unabhängigkeit bedeutet hier: Gibt mir das Ergebnis des ersten Versuchs irgendeine Information über die Erfolgswahrscheinlichkeit im zweiten Versuch? Unter Verwendung von bedingten Wahrscheinlichkeiten ist die Frage wie folgt zu formulieren: Ist
P(Erfolg im 2. Versuch | Erfolg im 1. Versuch) = P(Erfolg im 2. Versuch | Misserfolg im 1. Versuch) ?
Wenn die Antwort ja ist, dann sind der erste und der zweite Versuch abhängig, d.h. wenn der Ausgang des ersten Versuchs zusätzliche Information über die
138
5 Diskrete Verteilungen
Erfolgswahrscheinlichkeit im zweiten Versuch liefert, sind die Versuche abhängig. Lautet die Antwort hingegen „nein“, so sind die Versuche unabhängig. Im Fall mehrfachen Würfelns scheint die Annahme vernünftig zu sein, dass die Versuche unabhängig sind, d.h. dass keiner der Versuche durch das Ergebnis eines anderen Versuchs beeinflusst wird. Damit haben wir die drei Bedingungen überprüft und können festhalten, dass X binomialverteilt ist. Um die Wahrscheinlichkeitsfunktion der Binomialverteilung in praktischen Situationen anzuwenden, muss die Gültigkeit der drei Bedingungen überprüft werden. Wenn die Versuche nicht unabhängig sind, dann ist die Zufallsvariable nicht binomialverteilt. Die Formel kann dann nicht angewendet werden. Für die Binomialverteilung gilt zusammenfassend: • Die Binomialverteilung hat zwei Parameter n und π . • Der Parameter n wird Anzahl der Versuche genannt, und π heißt Erfolgswahrscheinlichkeit. • Die interessierende Zufallsvariable X ist die Anzahl der Erfolge in n unabhängigen Versuchen. • Eine b(n, π )-verteilte Zufallsvariable kann die Werte 0, 1, 2, . . . , n annehmen. Zuerst erläutern wir die Bedeutung der Begriffe Erfolg und Misserfolg im Zusammenhang mit der Binomialverteilung. Die Worte Erfolg und Misserfolg bedeuten lediglich, dass wir das Ergebnis eines Versuchs in genau zwei mögliche Kategorien einordnen. Dabei ist es völlig beliebig, welche der beiden Kategorien wir Erfolg und welche wir Misserfolg nennen, denn es gilt das folgende Resultat. • Sei X die Anzahl der Erfolge und X ∼ b(n, π ). • Sei Y die Anzahl der Misserfolge (= n − Anzahl der Erfolge): Y = n − X. • Dann ist Y ∼ b(n, 1 − π ). Der zweite Parameter ändert sich. Anstelle der Erfolgswahrscheinlichkeit ist die Wahrscheinlichkeit eines Misserfolgs zu verwenden. Es hängt also nur davon ab, was man Erfolg bzw. Misserfolg nennt. Diese Ausführungen sollen verdeutlichen, dass der Begriff Erfolg dem Versuchsergebnis zugewiesen wird, das von Interesse ist. Das muss kein wünschenswertes oder gutes Ergebnis sein und auch kein Erfolg in der herkömmlichen Bedeutung des Wortes. Tabelle 5.1 zeigt einige Beispiele, wie die Begriffe Erfolg und Misserfolg im Zusammenhang mit der Binomialverteilung verwendet werden können. Wie wir Tabelle 5.1 entnehmen können, gibt es viele Situationen, in denen ein Versuchsergebnis in zwei Kategorien eingeordnet werden kann. Die Antwort auf die Frage: Wie viele Erfolge wird es in n Versuchen geben? ist jeweils eine Zufallsvariable, und wenn die Voraussetzungen einer Binomialverteilung erfüllt sind, dann kann die Wahrscheinlichkeit der möglichen Antworten auf diese Frage mit der Formel für die Binomialverteilung beantwortet werden. Beispiel 5.1. Anzahl funktionierender Mikroprozessoren Nehmen wir an, wir wüssten, dass 80% aller auf eine bestimmte Weise hergestellten Mikroprozessoren einwandfrei funktionieren und 20% defekt sind. Wir kaufen
5.2 Binomialverteilung
139
Tabelle 5.1 Beispiele für Erfolg bzw. Misserfolg im Zusammenhang mit der Binomialverteilung Erfolg
Misserfolg
Kauft das Produkt Patient wird geheilt Wählt Kandidat A TV-Werbung gesehen Kunde zufrieden
Kauft das Produkt nicht Patient wird nicht geheilt Wählt nicht Kandidat A TV-Werbung nicht gesehen Kunde unzufrieden
nun 5 Mikroprozessoren. Dann fragen wir, wieviele der 5 Mikroprozessoren, die wir gekauft haben, funktionieren werden. Wir haben 5 Versuche. Jeder Versuch besitzt zwei mögliche Ausgänge: • Der Mikroprozessor funktioniert (Erfolg). • Der Mikroprozessor ist defekt (Misserfolg). Wir wissen nicht, ob die Versuche unabhängig sind oder nicht. Das hängt davon ab, wie die Mikroprozessoren ausgewählt werden. Wir wollen im Moment aber annehmen, dass die Versuche unabhängig sind. Der Parameter π , also die Erfolgswahrscheinlichkeit, ist 0.8. Damit ist X binomialverteilt mit den Parametern n = 5 und π = 0.8. Mit Hilfe der Wahrscheinlichkeitsfunktion berechnet man die Wahrscheinlichkeiten für die einzelnen Ausgänge: 5 0.80 0.25 = 0.000 32 0 5 P(1) = 0.81 0.24 = 0.006 40 1 5 P(2) = 0.82 0.23 = 0.051 20 2 5 P(3) = 0.83 0.22 = 0.204 80 3 5 P(4) = 0.84 0.21 = 0.409 60 4 5 P(5) = 0.85 0.20 = 0.327 68 5 P(0) =
Abbildung 5.5 zeigt eine grafische Darstellung von P(x). Mit Hilfe der Wahrscheinlichkeitsfunktion sind wir in der Lage, verschiedene Fragen bezüglich der Werte von X zu beantworten, beispielsweise: • Wie groß ist die Wahrscheinlichkeit, dass mindestens 3 der 5 Mikroprozessoren funktionieren?
140
5 Diskrete Verteilungen
Abb. 5.5 Binomialverteilung mit n = 5 und π = 0.8 für die Anzahl funktionierender Prozessoren bei 5 Versuchen
P(X ≥ 3) = P(3) + P(4) + P(5) = 0.204 80 + 0.409 60 + 0.327 68 = 0.942 08 Diese Wahrscheinlichkeit ist recht groß, d.h. wir können ziemlich sicher sein, mindestens drei funktionierende Mikroprozessoren gekauft zu haben. • Wie groß ist die Wahrscheinlichkeit, dass mindestens einer der Mikroprozessoren funktioniert? P(X ≥ 1) = P(1) + P(2) + P(3) + P(4) + P(5) = 0.006 40 + 0.051 20 + 0.204 80 + 0.409 60 + 0.327 68 = 0.999 68 Diese ist so nahe bei 1, dass wir mit an Sicherheit grenzender Wahrscheinlichkeit mindestens einen funktionierenden Mikroprozessor gekauft haben. Die zweite Frage lässt sich auch auf eine einfachere Weise beantworten. Wir erinnern uns, dass die Summe aller Wahrscheinlichkeiten 1 ergibt. Somit ergibt sich für das hier betrachtete Beispiel: P(0) + P(1) + P(2) + P(3) + P(4) + P(5) = 1 Deshalb gilt: P(1) + P(2) + P(3) + P(4) + P(5) = 1 − P(0) und somit P(X ≥ 1) = 1 − P(0) = 1 − 0.000 32 = 0.999 68 . Dies ist nicht nur ein „Trick“, um die Rechnung einfacher zu machen. Wir müssen diese Methode anwenden, wenn die Zufallsvariable eine unendliche Anzahl von möglichen Werten hat. Wir werden später bei der Poissonverteilung einen solchen
5.2 Binomialverteilung
141
Fall untersuchen. Betrachten wir ein Beispiel, bei dem die Unabhängigkeit der Versuche nicht gegeben ist. Experiment A: Nehmen wir an, wir müssen aus 10 Mikroprozessoren auswählen, von denen 7 funktionieren und 3 defekt sind. Wir wissen nicht, welches die defekten und welches die funktionierenden Prozessoren sind, und ziehen eine einfache Zufallsstichprobe der Größe 2. Betrachten wir wieder die Frage, wie viele der ausgewählten Mikroprozessoren funktionieren. In diesem Beispiel kann man die Formel für die Binomialverteilung nicht anwenden, um die gesuchten Wahrscheinlichkeiten zu bestimmen. Warum nicht? Wir haben n = 2 Versuche. Jeder Versuch besitzt zwei mögliche Ausgänge: Entweder der Mikroprozessor funktioniert (Erfolg), oder der Mikroprozessor funktioniert nicht. Das Problem ist, dass die Erfolgswahrscheinlichkeit π nicht in beiden Versuchen gleich groß ist. Die Grundgesamtheit stellt sich beim ersten Versuch wie folgt dar:
Ω = {7 × O.K. und 3 × defekt} Im ersten Versuch ist die Wahrscheinlichkeit, dass der ausgewählte Mikroprozessor funktioniert, also 7/10. Wie groß ist diese Wahrscheinlichkeit im zweiten Versuch? Das hängt vom Ergebnis des ersten Versuchs ab. Nehmen wir an, im ersten Versuch hätten wir einen Erfolg gehabt. Dann gibt es noch sechs funktionierende und drei defekte Prozessoren, aus denen wir auswählen müssen:
Ω = {6 × O.K. und 3 × defekt} Die Erfolgswahrscheinlichkeit im zweiten Versuch ist also 6/9. Wenn wir im ersten Versuch aber einen defekten Mikroprozessor genommen hätten, gäbe es noch sieben funktionierende und zwei defekte Prozessoren:
Ω = {7 × O.K. und 2 × defekt} Dann wäre die Erfolgswahrscheinlichkeit im zweiten Versuch 7/9. Um es auf den Punkt zu bringen: Hier hängt die Wahrscheinlichkeit eines Erfolgs im zweiten Versuch vom Ausgang des ersten Versuchs ab. Bei Erfolg im ersten Versuch beträgt die Wahrscheinlichkeit für einen Erfolg im zweiten Versuch etwa 0.667 und bei Misserfolg im ersten Versuch beträgt sie etwa 0.778. Es gilt also P(Erfolg im 2. Versuch | Erfolg im 1. Versuch) = P(Erfolg im 2. Versuch | Misserfolg im 1. Versuch). Die Versuche sind also nicht unabhängig, weil die Erfolgswahrscheinlichkeit π nicht konstant ist. Also dürfen wir die Formel für die Binomialverteilung nicht verwenden, um die Wahrscheinlichkeiten für X zu bestimmen. Demnach kann auch in diesem Beispiel die Wahrscheinlichkeitsfunktion von X bestimmt werden, wie wir später sehen werden. Es sollte nur gezeigt werden, dass X nicht binomialverteilt ist.
142
5 Diskrete Verteilungen
Fassen wir das Experiment A noch einmal zusammen und stellen es dem Experiment B gegenüber: Experiment A: Allgemeine Bedingungen: • • •
Gegeben sind 10 Mikroprozessoren: 7 o.k. und 3 defekt. Experiment: 2 Mikroprozessoren zufällig auswählen. Zufallsvariable: X = Anzahl der ausgewählten, funktionierenden Prozessoren.
Wahrscheinlichkeiten in den Versuchen: • • •
P{Erfolg im 1. Versuch} = 7/10 = 0.7 P{Erfolg im 2. Versuch| Erfolg im 1. Versuch} = 6/9 = 0.6667 P{Erfolg im 2. Versuch| Misserfolg im 1. Versuch} = 7/9 = 0.7778
Ergebnis: Die Teilexperimente sind nicht unabhängig. X ist nicht binomialverteilt.
X wäre binomialverteilt, wenn wir eine Box mit sehr vielen Mikroprozessoren hätten. Warum? Stellen wir uns nun einen anderen Versuchsaufbau vor, den wir Experiment B nennen wollen. In diesem Experiment B enthält die Box 10 000 Prozessoren, von denen 7 000 funktionieren und 3 000 nicht. Die Daten des Experiments B stellen sich wie folgt dar: Experiment B: Allgemeine Bedingungen: • • •
Gegeben sind 10 000 Mikroprozessoren: 7 000 o.k. und 3 000 defekt. Experiment: 2 Mikroprozessoren zufällig auswählen. Zufallsvariable: X = Anzahl der ausgewählten, funktionierenden Prozessoren.
Wahrscheinlichkeiten in den Versuchen: Ergebnis des 1. Versuchs Inhalt der Box vor dem 2. Versuch Erfolg Misserfolg • • •
6 999 o.k. und 3 000 defekt 7 000 o.k. und 2 999 defekt
P{Erfolg im 1. Versuch} = 7 000/10 000 = 0.7 P{Erfolg im 2. Versuch| Erfolg im 1. Versuch} = 6 999/9 999 = 0.699 97 P{Erfolg im 2. Versuch| Misserfolg im 1. Versuch} = 7 000/9 999 = 0.700 07
Die Erfolgswahrscheinlichkeit im zweiten Versuch hängt auch bei Experiment B vom Ausgang des ersten Experiments ab, aber nur noch in sehr geringem Ausmaß. Die zwei Versuche sind in Experiment B fast unabhängig. Tabelle 5.2 enthält die exakten Wahrscheinlichkeitsfunktionen für die Experimente A und B und die mit Hilfe der Binomialverteilung berechneten Wahrscheinlichkeiten. Dabei haben wir n = 2 und π = 7 000/10 000 = 0.7 verwendet. Man sieht, dass für das Experiment B die mit der Binomialverteilung berechneten Wahrscheinlichkeiten fast mit den exakten Wahrscheinlichkeiten identisch sind. In Abb. 5.6 sind diese Wahrscheinlichkeiten grafisch gegenübergestellt. Auch hier wird deutlich, dass die Binomialverteilung gut geeignet ist, um das Experiment B zu beschreiben.
5.2 Binomialverteilung
143
Tabelle 5.2 Wahrscheinlichkeiten in den Experimenten A und B sowie Wahrscheinlichkeiten der Binomialverteilung Experiment (A) Experiment (B) P(0)
0.066 667
0.089 979
P(1)
0.466 667
0.420 042
P(2)
0.466 667
0.489 979
Binomialverteilung 2
(0.7)0 (0.3)2 = 0.09 02
(0.7)1 (0.3)1 = 0.42 12
2 0 2 (0.7) (0.3) = 0.49
Abb. 5.6 Gegenüberstellung der Wahrscheinlichkeiten der Binomialverteilung und der exakten Wahrscheinlichkeiten für die Mikroprozessor-Experimente
Allgemein lässt sich festhalten: Wenn wir eine kleine Anzahl aus einer großen Gesamtheit von Elementen auswählen, dann ist die Anzahl der Erfolge annähernd binomialverteilt. Noch eine letzte Bemerkung zu diesem Beispiel: Die Binomialverteilung galt in diesem Beispiel nicht, weil wir ohne Zurücklegen aus der Grundgesamtheit gezogen haben. Ohne Zurücklegen bedeutet, dass wir das ausgewählte Stück nicht wieder in die Box zurückgelegt haben, so dass wir es beim zweiten Versuch nicht noch einmal auswählen können. Es gibt auch Anwendungen, in denen man Stichproben mit Zurücklegen zieht. In solchen Fällen ist X binomialverteilt. Betrachten wir die Gemeinsamkeiten und Unterschiede des Ziehens mit bzw. ohne Zurücklegen. In beiden Fällen gelten die folgenden Voraussetzungen: • Wir haben eine Grundgesamtheit von Individuen (Personen, Gegenständen), die nach Erfolg bzw. Misserfolg klassifizierbar sind. • Es gibt Ne Erfolge und Nm Misserfolge in der Grundgesamtheit. • Wir ziehen eine zufällige Stichprobe der Größe n aus der Grundgesamtheit. • X bezeichnet die Anzahl der Erfolge in der Stichprobe. Wird die Stichprobe • mit Zurücklegen gezogen, so gilt X ∼ b(n, π ) mit π =
Ne Ne +Nm .
144
5 Diskrete Verteilungen
• ohne Zurücklegen gezogen, so ist X nicht binomialverteilt. X ist dann hypergeometrisch verteilt: X ∼ h(Ne , Nm , n) Die hypergeometrische Verteilung ist die nächste diskrete Wahrscheinlichkeitsfunktion, die wir kennenlernen werden.
5.2.1 Erwartungswert und Varianz der Binomialverteilung Zur Erinnerung: Für eine diskrete Zufallsvariable X mit den möglichen Werten x1 , x2 , x3 , . . . gilt: E(X) = ∑ xi P(xi ) i
Var(X) = ∑(xi − E(X))2 P(xi ) i
Für eine Bernoulli-Verteilung lassen sich E(X) und Var(X) sehr einfach berechnen. X kann nur zwei Werte annehmen, nämlich 0 und 1. Die Wahrscheinlichkeitsfunktion ist: ⎧ ⎪ x=1 ⎨π P(x) = 1 − π x = 0 ⎪ ⎩ 0 sonst Der Erwartungswert ist also: E(X) = 0 · P(0) + 1 · P(1) = 0 · (1 − π ) + 1 · π = π Die Varianz ist: Var(X) = (0 − E(X))2 P(0) + (1 − E(X))2P(1) = (0 − π )2(1 − π ) + (1 − π )2π = π 2 (1 − π ) + (1 − π )2π = π (1 − π )[π + 1 − π ] = π (1 − π ) Wir wissen bereits, dass diese beiden Größen sinnvoll zu interpretieren sind: Der Erwartungswert beschreibt die Lage der Wahrscheinlichkeitsfunktion. Var(X) beschreibt die Breite dieser Funktion. Betrachten wir nun die Binomialverteilung. Die möglichen Werte sind: 0, 1, 2, . . . , n. Die Wahrscheinlichkeitsfunktion P(x) ist gegeben durch:
n x π (1 − π )n−x P(x) = x 0
für x = 0, 1, 2, . . . , n sonst
5.2 Binomialverteilung
145
Daher bestimmt sich E(X) als: E(X) = 0 · P(0) + 1 · P(1) + 2 · P(2) + . . .+ n · P(n) n n n x = ∑ x · P(x) = ∑ x π (1 − π )n−x x x=0 x=0 = nπ Analog gilt für die Varianz einer binomialverteilten Zufallsvariablen: Var(X) = =
n
∑ (x − E(X))2P(x)
x=0 n
∑ (x − nπ )2
x=0
n x π (1 − π )n−x x
= nπ (1 − π ) Betrachten wir wieder das Würfel-Beispiel. X beschrieb die Anzahl der gewürfelten Sechsen, wenn ein fairer Würfel viermal geworfen wird. Die Anzahl der Versuche war n = 4, und die Erfolgswahrscheinlichkeit war π = 1/6. Der Erwartungswert ist demnach: E(X) = 4 · (1/6) = 4/6. Für die Varianz erhält man nach dem Einsetzen der Werte von n bzw. π : Var(X) = 4 · (1/6) · (1 − 1/6) =
20 = 0.5556 36
Wir werden nun die Graphen einiger Wahrscheinlichkeitsfunktionen für verschiedene Binomialverteilungen betrachten, um zu sehen, welche Wirkung der Erwartungswert und die Varianz auf die Wahrscheinlichkeitsstruktur besitzen. Man beachte, dass E(X) die Lage der Verteilung bestimmt, während die Varianz ein Maß für die Breite der Verteilung ist. Im oberen Bild der Abb. 5.7 ist E(X) = 1, im mittleren E(X) = 5 und im unteren E(X) = 9. Die Varianz ist im oberen und unteren Bild gleich, nämlich 0.9. Das untere und obere Bild sind Spiegelbilder. Der Grund ist der, dass π = 0.1 bzw. 0.9 ist, so dass der eine Graph als Verteilung der Anzahl der Erfolge, der andere als Verteilung der Anzahl der Misserfolge aufgefasst werden kann: Die Wahrscheinlichkeit für 0, 1, 2 usw. Erfolge entspricht der Wahrscheinlichkeit für 10, 9, 8 usw. Misserfolge. Der mittlere Graph ist etwas breiter. Die Varianz der mittleren Wahrscheinlichkeitsfunktion beträgt 2.5. Abbildung 5.8 zeigt drei weitere Wahrscheinlichkeitsfunktionen für verschiedene Binomialverteilungen. Hier sind die Unterschiede stärker ausgeprägt als in Abb. 5.7. Die Erwartungswerte sind 5, 25 bzw. 50, die Varianzen 2.5, 12.5 und 25. Der Parameter π ist in allen Fällen gleich 0.5, während n ansteigt. Dadurch wird die Wahrscheinlichkeitsfunktion breiter und flacher. Kommen wir nun zur hypergeometrischen Verteilung, die wir bereits im Zusammenhang mit den Mikroprozessor-Experimenten (Beispiel 5.1) erwähnt haben.
146
5 Diskrete Verteilungen
Abb. 5.7 Einige Beispiele für Wahrscheinlichkeitsfunktionen binomialverteilter Zufallsvariablen
Abb. 5.8 Weitere Beispiele für Wahrscheinlichkeitsfunktionen binomialverteilter Zufallsvariablen
5.3 Hypergeometrische Verteilung
147
5.3 Hypergeometrische Verteilung Die hypergeometrische Verteilung besitzt 3 Parameter, die wie folgt definiert sind: • Ne : die Anzahl der Erfolge in der Grundgesamtheit. • Nm : die Anzahl der Misserfolge in der Grundgesamtheit. • n: die Anzahl der Versuche. Außerdem gilt: • N = Ne + Nm : die Anzahl der Individuen (Personen, Gegenstände) in der Grundgesamtheit. Sei X die Anzahl der Erfolge, wenn man eine zufällige Stichprobe der Größe n ohne Zurücklegen aus einer Grundgesamtheit zieht. Dann ist X hypergeometrisch verteilt und wir schreiben X ∼ h(Ne , Nm , n) . Die Wahrscheinlichkeitsfunktion einer hypergeometrischen Verteilung ist durch ⎧ Ne Nm ⎨ ( x )(n−x) für x = 0, 1, . . . , n, (wenn n ≤ min(N , N ) ) e M (Nn ) P(x) = ⎩0 sonst gegeben. Wir haben die möglichen Werte als x = 0, 1, . . . , n gegeben. Das gilt allerdings nur, wenn n ≤ min(Ne , Nm ). Es ist etwas kompliziert, die möglichen Werte einer hypergeometrischen Verteilung zu bestimmen. X ist ein Anteil von n Elementen einer Stichprobe, die aus einer Grundgesamtheit stammt, welche aus Ne Erfolgen und Nm Misserfolgen besteht. Da die Stichprobe n Elemente hat, kann man nicht weniger als Null Erfolge haben, d.h. (a) 0 ≤ X und nicht mehr als n Erfolge, d.h. (b) X ≤ n Da es insgesamt Ne Erfolge in der Grundgesamtheit gibt, kann die Anzahl der Erfolge in der Stichprobe nicht größer als Ne sein, d.h. (c) X ≤ Ne Da es insgesamt Nm Misserfolge in der Grundgesamtheit gibt, kann die Anzahl der Misserfolge in der Stichprobe nicht größer als Nm sein, d.h. n − X ≤ Nm , oder (d) n − Nm ≤ X Aus (a) und (d) folgt, dass X größer oder gleich dem Maximum aus 0 und (n − Nm ) sein muss. Ferner folgt aus (b) und (c), dass X kleiner oder gleich dem Minimum aus n und Ne sein muss. Für die möglichen Werte von X gilt also: max(0, n − Nm ) ≤ X ≤ min(n, Ne )
148
5 Diskrete Verteilungen
Kehren wir zum Experiment A des Mikroprozessor-Beispiels zurück (Beispiel 5.1). Die Grundgesamtheit bestand aus 10 Mikroprozessoren, die Ne = 7 funktionierende und Nm = 3 defekte Elemente enthielt. Aus dieser Grundgesamtheit ziehen wir eine zufällige Stichprobe der Größe n ohne Zurücklegen. Wir werden 4 Fälle unterscheiden, um die Bestimmung der möglichen Werte zu verdeutlichen. Fall 1: n = 2 Der kleinstmögliche Wert von X ist max{0, (n − Nm )} = max{0, 2 − 3} = max{0, −1} = 0, und der größtmögliche Wert von X gleich min{n, Ne } = min{2, 7} = 2. Die möglichen Werte von X sind also 0, 1 und 2. Die Wahrscheinlichkeitsfunktion kann damit vollständig angegeben werden: ⎧ 7 3 10
⎪ 0 2−0 / 2 = 0.06667 für x = 0 ⎪ ⎪ ⎨ 7 3 / 10 = 0.46667 für x = 1 2 P(x) = 17 2−1 3 10
⎪ / ⎪ 2 = 0.46667 für x = 2 ⎪ ⎩ 2 2−2 0 sonst Fall 2: n = 4 Der kleinstmögliche Wert von X ist max(0, (n−Nm )) = max (0, 4−3) = max (0, 1) = 1. In Worten ist dies wie folgt zu verstehen: Da es insgesamt nur drei defekte Mikroprozessoren in der Grundgesamtheit gibt und wir n = 4 Mikroprozessoren auswählen, muss es mindestens einen funktionierenden Mikroprozessor in der Stichprobe geben, d.h. X muss mindestens 1 sein. Der größtmögliche Wert von X ist gleich min (n, Ne ) = min (4, 7) = 4. Die möglichen Werte von X sind also 1, 2, 3 und 4, und die Wahrscheinlichkeitsfunktion lautet: ⎧
7 3 ⎪ / 10 ⎪ 4 = 0.03333 für x = 1 ⎪ 17 4−1
10 ⎪ 3 ⎪ ⎪ / ⎨ 2 4−2 4 = 0.30000 für x = 2 7 3 P(x) = / 10 4 = 0.50000 für x = 3 ⎪ 37 4−3
10 ⎪ 3 ⎪ ⎪ 4 4−4 / 4 = 0.16667 für x = 4 ⎪ ⎪ ⎩0 sonst Fall 3: n = 8 Der kleinstmögliche Wert von X ist max (0, n − Nm ) = max (0, 8 − 3) = max(0, 5) = 5, d.h., da es insgesamt nur drei defekte Mikroprozessoren in der Grundgesamtheit gibt und wir n = 8 Mikroprozessoren auswählen, muss es mindestens fünf funktionierende Mikroprozessoren in der Stichprobe geben, d.h. X muss mindestens 5 sein. Der größtmögliche Wert von X ist gleich min (n, Ne ) = min (8, 7) = 7. Es
5.3 Hypergeometrische Verteilung
149
gibt insgesamt nur sieben funktionierende Mikroprozessoren in der Stichprobe, d.h. X kann höchstens 7 sein. Die möglichen Werte von X sind also 5, 6, 7. Man erhält daher für die Wahrscheinlichkeitsfunktion: ⎧ 7 3 10
⎪ 5 8−5 / 4 = 0.46667 für x = 5 ⎪ ⎪ ⎨ 7 3 / 10 = 0.46667 für x = 6 4
10 P(x) = 67 8−6 3 ⎪ / ⎪ 6 8−7 4 = 0.06667 für x = 7 ⎪ ⎩ 0 sonst Fall 4: n = 10 Der kleinstmögliche Wert von X ist max (0, (n − Nm )) = max (0, 10 − 3) = max (0, 7) = 7, und der größte mögliche Wert von X ist gleich min (n, Ne ) = min (10, 7) = 7. Da wir alle zehn Mikroprozessoren in der Grundgesamtheit auswählen, und da sieben davon funktionieren, müssen alle sieben in der Stichprobe sein. Weil Mindest- und Höchstwert von X übereinstimmen, gibt es nur einen möglichen Wert, nämlich 7, und die Wahrscheinlichkeitsfunktion reduziert sich auf: 7 3 10
/ = 1 für x = 7 P(x) = 7 10−7 10 0 sonst In allen vier Fällen ist die Summe der Wahrscheinlichkeiten aller möglichen Werte von X gleich 1 (abgesehen von Rundungsfehlern). Die vier Wahrscheinlichkeitsfunktionen der betrachteten Fälle sind in Abb. 5.9 grafisch dargestellt. Schauen wir uns eine weitere Fragestellung an, in der man die hypergeometrische Verteilung verwenden kann. In einem vorangegangenen Kapitel haben wir das Lotto 6 aus 49 diskutiert: Man wählt 6 Zahlen aus einer Grundgesamtheit von 49 Zahlen und kreuzt diese an. Eine Maschine wählt eine zufällige Stichprobe von 6 Zahlen, ohne Zurücklegen, aus der Grundgesamtheit. Der Anzahl der Richtigen ist einfach die Anzahl der ausgewählten Zahlen, die in der Stichprobe enthalten sind. Die Antwort auf die Frage Wieviele meiner Zahlen werden richtig sein? ist eine Zufallsvariable, die wir hier X nennen werden. Die möglichen Werte von X sind 0, 1, . . . , 6. Die Wahrscheinlichkeitfunktion von X kann man wie folgt berechnen. Die 49 Zahlen in der Grundgesamtheit kann man in zwei Gruppen teilen; die Gruppe aus den 6 Zahlen, die man gewählt hat, und die Gruppe der 43 Zahlen, die man nicht gewählt hat. Die Zahlen in der 1. Gruppe nennen wir Erfolge und die in der 2. Gruppe Misserfolge. Es gibt also Ne = 6 Erfolge und Nm = 43 Misserfolge mit N = Ne + Nm = 49. Die Maschine zieht eine zufällige Stichprobe von n = 6 Zahlen aus der Grundgesamtheit, und X ist die Anzahl der Erfolge in der Stichprobe. Unter diesen Bedingungen ist X hypergeometrisch verteilt mit den Parametern Ne = 6, Nm = 43 und n = 6:
6 43 49 für x = 0, 1, 2, 3, 4, 5, 6 x 6−x / 6 P(x) = 0 sonst
150
5 Diskrete Verteilungen
Abb. 5.9 Wahrscheinlichkeitsfunktionen für verschiedene hypergeometrisch-verteilte Zufallsvariablen
So ist die Wahrscheinlichkeit, dass wir genau zwei Richtige bekommen: P(2) =
6 43 49 / = 0.132378029 ≈ 13% 2 6−2 6
Die vollständige Tabelle der Wahrscheinlichkeitsfunktion ist bereits in Tabelle 4.2 gegeben worden. Nun wollen wir noch betrachten, unter welchen Bedingungen man die Binomialverteilung an Stelle der hypergeometrischen Verteilung verwenden kann.
5.3.1 Die Binomialverteilung als Approximation für die hypergeometrische Verteilung Wenn wir eine zufällige Stichprobe der Größe n aus einer Grundgesamtheit ziehen, die aus Ne Erfolgen und Nm Misserfolgen besteht, ist die Anzahl der Erfolge in der Stichprobe eine Zufallsvariable X. Wenn wir die Stichprobe ohne Zurücklegen ziehen, dann ist X exakt hypergeometrisch X ∼ h(Ne , Nm , n), wobei N = Ne + Nm ist. Wie wir bereits gesehen haben, ist X gleichzeitig annähernd binomialverteilt, wenn Ne und Nm groß sind im Vergleich zu n, d.h. dann gilt ungefähr X ∼ b(n, π ) mit π = Ne /N (siehe Experiment B im Mikroprozessor-Beispiel (Beispiel 5.1)).
5.3 Hypergeometrische Verteilung
151
Wie groß ist groß bzw. was bedeutet hier groß? Dazu gibt es mehrere Faustregeln: • n sollte kleiner als 5% des Minimums von Ne und Nm sein. Diese Regel ist etwas konservativer, d.h. restriktiver als die folgende: • n sollte kleiner als 5% von Ne + Nm sein. In der Literatur findet man weitere Regeln, die gewährleisten sollen, dass die Approximation nur verwendet wird, wenn diese hinreichend genau ist (siehe z.B. das Buch Rinne, H. und Mittag, H.-J. (1995): Statistische Methoden der Qualitätssicherung, 3. Auflage, Hanser Verlag, München). Im Rahmen der Qualitätssicherung findet die hypergeometrische Verteilung häufig Anwendung, da bei der Warenausgangs- oder Wareneingangskontrolle Stichproben ohne Zurücklegen gezogen werden, um den Anteil der fehlerhaften Einheiten zu bestimmen. Ist dieser Anteil zu hoch, wird die Ware zurückbehalten bzw. zurückgewiesen. Betrachten wir zwei Beispiele zur Anwendung solcher Regeln für n = 10: (1) Wenn Ne = 200, Nm = 300 und somit N = 500 ist, ist n gleich 5% des Minimums von Ne und Nm . Abbildung 5.10a vergleicht die exakte hypergeometrische Verteilung und die Binomialverteilung als Approximation. Der Abbildung ist zu entnehmen, dass die Abweichungen zwischen den Verteilungen sehr gering sind, d.h. die Approximation ziemlich genau ist. (2) Betrachten wir Ne = 20, Nm = 30 und N = 50. Hier ist n gleich 50% des Minimums von Ne und Nm . Abbildung 5.10b zeigt, dass die Annäherung der hypergeometrischen Verteilung durch die Binomialverteilung ungenau ist. Dies war zu erwarten, da die oben genannte Faustregel nicht erfüllt ist.
Abb. 5.10 Exakte hypergeometrische Verteilung und Binomialapproximation bei a gültiger und b nicht gültiger Faustregel
152
5 Diskrete Verteilungen
Man kann sich fragen, warum man die hypergeometrische Verteilung überhaupt approximieren will, statt sie einfach direkt zu verwenden. Ein Grund ist, dass die Wahrscheinlichkeitsfunktion für die Binomialverteilung viel leichter zu berechnen ist als die der hypergeometrischen Verteilung. Das war besonders wichtig, als es noch keine Rechner gab, die diese Aufgabe mittlerweile übernommen haben. Man versuche beispielsweise P(x) für eine h(5 000, 5 000, 20)-Verteilung zu bestimmen und dann für eine Binomialapproximation b(20, 1/2).
5.4 Poissonverteilung Die Poissonverteilung besitzt einen Parameter, der allgemein mit dem griechischen Buchstaben λ (Lambda) bezeichnet wird. Der Parameter λ wird gewöhnlich die erwartete Rate oder die mittlere Rate von X genannt. Für den Parameter λ muss gelten: λ > 0. Die Wahrscheinlichkeitsfunktion einer poissonverteilten Zufallsvariablen lautet: x λ −λ e für x = 0, 1, 2, . . . P(x) = x! 0 sonst Dabei ist e = 2.71828 die Eulersche Zahl. Man beachte, dass eine poissonverteilte Zufallsvariable alle ganzen Zahlen, die größer oder gleich Null sind, annehmen kann. Zur Kennzeichnung, dass eine Zufallsvariable poissonverteilt ist mit λ , verwenden wir X ∼ Po(λ ) . Betrachten wir nun ein Beispiel für eine poissonverteilte Zufallsvariable. Im Rahmen des Erdbeben-Beispiels (Beispiel 1.7) wurde in Abb. 1.11 den tatsächlich beobachteten Häufigkeiten der monatlichen Anzahl starker Erdbeben ein stochastisches Modell gegenüber gestellt. Dieses Modell resultiert aus einer Poissonverteilung. Sei die Zufallsvariable X die Anzahl starker Erdbeben (d.h. Erdbeben der Stärke 7.0 oder größer), die sich im nächsten Monat ereignen werden. Nehmen wir an, wir hätten auf irgendeine Weise herausgefunden, dass X poissonverteilt ist mit Parameter λ = 1.2. Dann ist die Wahrscheinlichkeitsfunktion von X: x 1.2 −1.2 e für x = 0, 1, 2, . . . P(x) = x! 0 sonst Diese Formel erlaubt uns, die Wahrscheinlichkeiten für alle möglichen Werte von X zu berechnen. Beispielsweise ist die Wahrscheinlichkeit, dass sich im nächsten Monat kein starkes Erdbeben ereignet: P(0) =
1.20 −1.2 e = e−1.2 ≈ (2.71828)−1.2 = 0.3012 0!
5.4 Poissonverteilung
153
Wir brauchen den Wert von e−1.2 . Dieser ist aus Tabellen abzulesen oder einfach mit dem Taschenrechner zu bestimmen. Die Wahrscheinlichkeit, dass im nächsten Monat genau ein starkes Erdbeben auftritt, ist: P(1) =
1.21 −1.2 e = 1.2e−1.2 = 1.2 · 0.3012 = 0.3614 1!
Die Wahrscheinlichkeit, dass sich im nächsten Monat acht starke Erdbeben ereignen, ist ziemlich gering, sie ist P(8) = 0.00003. Für praktische Zwecke könnten wir bei der Wahrscheinlichkeit, dass sich 8 Erdbeben ereignen werden, aufhören und die Wahrscheinlichkeit, dass es noch mehr als 8 Erdbeben geben wird, vernachlässigen. Tabelle 5.3 enthält die entsprechenden Wahrscheinlichkeiten (Achtung: Es können Rundungsdifferenzen auftreten). Abbildung 5.11 zeigt den Graphen der Wahrscheinlichkeitsfunktion. Auch in der Abbildung ist zu erkennen, dass die Wahrscheinlichkeiten für größer werdende Werte von X gegen Null konvergieren.
Tabelle 5.3 Wahrscheinlichkeiten für eine Poissonverteilung mit Parameter λ = 1.2 P(0) = P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = P(7) = P(8) = .. .
1.20 −1.2 0! e 1.21 −1.2 1! e 1.22 −1.2 2! e 1.23 −1.2 3! e 1.24 −1.2 4! e 1.25 −1.2 5! e 1.26 −1.2 6! e 1.27 −1.2 7! e 1.28 −1.2 8! e
= e−1.2
≈ (2.71828)−1.2 = 0.3012
= 1.2e−1.2
= 1.2 · 0.3012 = 0.3614
= = = = = = =
(1.2)2 −1.2 2 e (1.2)3 −1.2 6 e (1.2)4 −1.2 24 e (1.2)5 −1.2 120 e (1.2)6 −1.2 720 e (1.2)7 −1.2 5040 e (1.2)8 −1.2 40320 e
= = = = = = =
1.2 2 1.2 3 1.2 4 1.2 5 1.2 6 1.2 7 1.2 8
· 0.3614 = 0.2169 · 0.2169 = 0.0867 · 0.0867 = 0.0260 · 0.0260 = 0.0062 · 0.0062 = 0.0012 · 0.0012 = 0.0002 · 0.0002 = 0.0000
Abb. 5.11 Wahrscheinlichkeitsfunktion für die monatliche Anzahl starker Erdbeben
154
5 Diskrete Verteilungen
Wir können diese Wahrscheinlichkeiten benutzen, um verschiedene Fragen zu beantworten. Beispielsweise: • Wie groß ist die Wahrscheinlichkeit, dass sich im nächsten Monat höchstens ein starkes Erdbeben ereignen wird? P(X ≤ 1) = P(0) + P(1) = 0.3012 + 0.3614 = 0.6626 • Was ist die Wahrscheinlichkeit, dass zwei oder mehr starke Erdbeben auftreten? P(2) + P(3) + P(4) + . . . = P(X ≥ 2) P(0) + P(1) + P(2) + P(3) + P(4) + P(5) + . . . = 1 P(X ≥ 2) = 1 − (P(0) + P(1)) = 1 − (0.3012 + 0.3614) = 0.3374 Ebenso wie für die Bernoulli-Verteilung und die Binomialverteilung werden jetzt Erwartungswert und Varianz der Poissonverteilung betrachtet.
5.4.1 Erwartungswert und Varianz einer Poissonverteilung Die möglichen Werte einer poissonverteilten Zufallsvariablen sind: 0, 1, 2, . . . und die Wahrscheinlichkeitsfunktion ist: x λ −λ e für x = 0, 1, 2, . . . P(x) = x! 0 sonst Damit berechnet sich der Erwartungswert wie folgt: E(X) =
∞
∞
x=0
x=0
λx
∑ xP(x) = ∑ x x! e−λ = λ
Man kann zeigen, dass die letzte Summe gleich λ ist. Die Varianz ist nach folgender Formel zu berechnen: Var(X) =
∞
∞
x=0
x=0
λx
∑ (x − E(X))2P(x) = ∑ (x − λ )2 x! e−λ = λ
Abbildung 5.12 zeigt einige Wahrscheinlichkeitsfunktionen der Poissonverteilung für verschiedene Werte des Parameters: λ = 2, 10, 20. Man beachte, dass sich die Wahrscheinlichkeitsfunktion bei steigendem Wert für λ • weiter nach rechts verschiebt und • breiter sowie flacher wird. Im Zusammenhang mit der Binomialverteilung haben wir drei Bedingungen kennengelernt, die erfüllt sein müssen, damit eine Zufallsvariable binomialverteilt ist.
5.4 Poissonverteilung
155
Abb. 5.12 Einige Beispiele für Wahrscheinlichkeitsfunktionen poissonverteilter Zufallsvariablen
Mit Hilfe dieser Bedingungen ist es nicht schwer zu überprüfen, ob eine Zufallsvariable binomialverteilt ist oder nicht. Es gibt ebenso Bedingungen für die Poissonverteilung. Es ist einfach, sie in mathematischer Form aufzuschreiben, aber weniger einfach, sie so aufzuschreiben, dass man sie leicht interpretieren kann. Es ist außerdem schwierig zu überprüfen, ob die Bedingungen in praktischen Situationen erfüllt sind. Wir werden diese Frage zurückstellen, bis wir im nächsten Kapitel eine verwandte Verteilung besprechen, die Exponentialverteilung. Abschließend werden wir zeigen, dass es eine Beziehung zwischen der Poissonverteilung und der Binomialverteilung gibt.
5.4.2 Poisson-Approximation der Binomialverteilung Der Zusammenhang zwischen einer Poissonverteilung und einer Binomialverteilung ist der folgende: Wenn die Zufallsvariable X binomialverteilt ist (X ∼ b(n, π )) und wenn n groß und π klein ist, dann ist X annähernd poissonverteilt mit dem Parameter λ = n · π (X ∼ Po(λ )). In dem ersten Beispiel ist n nicht sehr groß und π nicht sehr klein. Daher ist die Approximation nicht sehr gut, sie ist aber auch nicht besonders schlecht. Sei X binomialverteilt mit den Parametern n = 10 und π = 0.2. Die exakte Verteilung ist also b(10, 0.2). Die angenäherte Verteilung ist die Poissonverteilung mit λ = n · π = 10 · 0.2 = 2. In der folgenden Tabelle 5.4 sind die Werte der Wahrschein-
156
5 Diskrete Verteilungen
Tabelle 5.4 Wahrscheinlichkeiten einer Binomialverteilung b(n = 10, π = 0.2) und deren PoissonApproximation Po(λ = 2)
x
Binomial Poisson P(x) (exakte Verteilung) (angenäherte Verteilung) b(10, 0.2) Po(2)
0 1 2 3 4 5 6 7
P(0) P(1) P(2) P(3) P(4) P(5) P(6) P(7)
0.11 0.27 0.30 0.20 0.09 0.03 0.01 0.00
0.14 0.27 0.27 0.18 0.09 0.04 0.01 0.00
lichkeitsfunktion für die exakte b(10, 0.2)-Verteilung und die angenäherte Po(2)Verteilung berechnet worden. Abbildung 5.13 zeigt die beiden Verteilungen im Vergleich. Der Tabelle 5.4 und der Abb. 5.13 ist zu entnehmen, dass es zu moderaten Abweichungen zwischen der Binomialverteilung und deren Approximation kommt. Im zweiten Beispiel haben wir n von 10 auf 20 erhöht und π von 0.2 auf 0.05 verkleinert. Der Parameter der angenäherten Poissonverteilung ist daher λ = 20·0.05 = 1. Tabelle 5.5 zeigt wieder die Wahrscheinlichkeiten der exakten und der approximativen Verteilung. Man beachte, dass diese Approximation hier viel genauer ist als im vorangegangenen Beispiel. Dies war zu erwarten, da die Approximation für großes n und kleines π besser wird. Abbildung 5.14a stellt die beiden Wahrscheinlichkeitsfunktionen grafisch dar. Die Höhe der Säulen unterscheidet sich kaum. In den beiden Tabellen 5.4 und 5.5 addieren sich nicht alle Wahrscheinlichkeiten zu Eins auf. Der Grund dafür sind Rundungsfehler. Abbildung 5.14b zeigt als weiteres Beispiel die Approximation für einen abermals vergrößerten Wert von n bzw.
Abb. 5.13 Approximation einer b(10; 0.2)-Verteilung durch die Poissonverteilung
5.4 Poissonverteilung
157
Tabelle 5.5 Wahrscheinlichkeiten einer Binomialverteilung b(n = 20, π = 0.05) und deren Poisson-Approximation Po(1)
x
Binomial Poisson P(x) (exakte Verteilung) (angenäherte Verteilung) b(20, 0.05) Po(1)
0 1 2 3 4 5
P(0) P(1) P(2) P(3) P(4) P(5)
0.36 0.38 0.19 0.06 0.01 0.00
0.37 0.37 0.18 0.06 0.02 0.00
Abb. 5.14 a Approximation einer b(20 0.05)-Verteilung durch die Poissonverteilung. b Approximation einer b(200; 0.005)-Verteilung durch die Poissonverteilung
verkleinerten Wert von π . Die Approximation ist hier noch besser, Unterschiede zwischen den Funktionen sind praktisch nicht mehr zu erkennen. Um eine Richtlinie zu haben, in welchen Fällen eine Approximation hinreichend genaue Ergebnisse liefert, gibt es auch hier eine Faustregel: Die Poissonapproximation der Binomialverteilung liefert eine hinreichend genaue Approximation für n ≥ 30
und
π ≤ 0.1 .
Diese Approximation war sehr wichtig, bevor Computer weit verbreitet waren, da es komplizierter ist, Wahrscheinlichkeiten mit der Binomialverteilung zu berechnen als mit der Poissonverteilung. Um das beurteilen zu können, kann man versuchen, die Wahrscheinlichkeit P(X = 19)
für
b(200, 0.1)
158
5 Diskrete Verteilungen
von Hand oder mit einem Taschenrechner zu bestimmen. Man benutze zunächst die exakte Formel und dann die Approximation. Wenn man das getan hat, wird man verstehen, warum die Approximation so wichtig war. Wir behandeln die Poissonverteilung aber nicht nur aus historischen Gründen. Das werden wir im nächsten Kapitel sehen, wenn wir die Voraussetzungen diskutieren, unter denen eine Zufallsvariable poissonverteilt ist, d.h. wenn wir uns überlegen, welche Fragen sich mit einer Poissonverteilung beantworten lassen.
5.5 Exkurs: Ursprung der Binomialkoeffizienten Um ein wenig Hintergrundinformationen zu den Binomialkoeffizienten kennenzulernen, soll hier kurz erläutert werden, woher die Binomialkoeffizienten stammen. Wenn wir (a + b)2 ausrechnen wollen, können wir das unter Verwendung der ersten binomischen Formel umschreiben zu (man beachte, dass a0 = b0 = 1 gilt): (a + b)2 = a2 + 2ab + b2 = b2 + 2ab + a2 = 1a0 b2 + 2a1b1 + 1a2b0 2 0 2 2 1 1 2 2 0 a b + a b + a b = 0 1 2 Eine ähnliche Formel steht für die Berechnung von (a + b)3 zur Verfügung: 1a0 b3 + 3a1b2 + 3a2b1 + 1a3b0 Die Koeffizienten sind hier: 1, 3, 3, 1. Sie können auch wie folgt geschrieben werden: 3 3 3 3 0 1 2 3 Wenn man (a + b)5 auf die gleiche Weise schreibt, erhält man: 5 0 5 5 1 4 5 2 3 5 3 2 5 4 1 5 5 0 (a + b)5 = a b + a b + a b + a b + a b + a b 0 1 2 3 4 5 Man kann auch ganz allgemein die folgende Formel für (a + b)n herleiten: n 0 n n 1 n−1 n 2 n−2 n n 0 n (a + b) = a b + a b + a b + ...+ a b 0 1 2 n Der x-te Term in dieser Entwicklung ist gerade n x n−x ab x = 0, 1, 2, . . . , n . x
5.5 Exkurs: Ursprung der Binomialkoeffizienten
159
Wenn einem das Konzept der Binomialkoeffizienten noch nicht vertraut ist, sollte man es üben, Binomialkoeffizienten auszurechnen. Eine einfache Möglichkeit zur Berechnung von Binomialkoeffizienten stellt die Verwendung des Pascalschen Dreiecks dar. Dieses sieht man in der folgenden Darstellung. Das eigentliche Dreieck besteht aus dem durch Einsen eingegrenzten Bereich. Die kursiven Zahlen dienen lediglich zur Nummerierung der Zeilen bzw. Diagonalen. n
x
0 1 2 3 4 5
1
0
61 .. .
1 1 1 1 1 6
2 3
4 5
2 1
3 6
10 15
1 1
4 10
20
3 1
4 1
5 15
5 1
6
6 1
..
.
Um beispielsweise 42 zu bestimmen, ist das Element zu identifizieren, das in der vierten Zeile des Dreiecks (Nummerierung auf der linken Vertikalen) und in der zweiten Diagonalen (Nummerierung auf der Diagonalen von oben nach rechts
unten) liegt. Es ergibt sich also 42 = 6. Die Konstruktion des Dreiecks ist sehr einfach. Man muss lediglich die beiden diagonalen Kanten von oben nach links bzw. rechts unten mit Einsen füllen und anschließend das Dreieck ausfüllen, wobei jedes Element des Dreiecks die Summe der beiden darüberliegenden Werte ist, d.h. n+1 n n = + . x+1 x x+1 Man beachte auch die Symmetrie im Dreieck, d.h. es gilt: n n = x n−x Sie hilft bei der Berechnung von Binomialkoeffizienten, wenn man die folgende äquivalente Definition verwendet: n n(n − 1) . . .(n − x + 1) n(n − 1) . . .(n − x + 1) = = x x! 1 · 2 · . . .· · · x Zähler und Nenner sind jeweils das Produkt von x Faktoren, im Zähler sind es die natürlichen Zahlen von nabsteigend bis n − x + 1, im Nenner aufsteigend von 1 16 16 16 · 15 bis x. Es ist also z.B. = = = 120. 14 2 1·2
160
5 Diskrete Verteilungen
Wichtigste Konzepte: • • • • •
Parameter der Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsfunktion Binomialkoeffizienten Bernoulli-, Binomial-, Hypergeometrische- und Poissonverteilung Binomialverteilung als Approximation der Hypergeometrischen Verteilung • Poisson-Approximation der Binomialverteilung
Kapitel 6
Gaußglocke und andere Kurven – Stetige Verteilungen
Nachdem wir uns im letzten Kapitel mit einigen wichtigen Verteilungen für diskrete Zufallsvariablen befasst haben, kommen wir nun zu den stetigen Verteilungen. Wir werden folgende Verteilungen ausführlicher betrachten: • Rechteckverteilung (oder auch Gleichverteilung) • Exponentialverteilung • Normalverteilung und ihre Derivate Diese Verteilungen stellen nur eine kleine Auswahl aus den stetigen Verteilungen dar.
6.1 Rechteckverteilung Die Rechteckverteilung hat eine besonders einfache Struktur. Sie hat zwei Parameter, die üblicherweise mit den Buchstaben a und b bezeichnet werden. Wenn wir eine Zufallsvariable als rechteckverteilt mit den Parametern a und b (wobei a < b) kennzeichnen wollen, so schreiben wir: X ∼ U(a, b) Der Buchstabe U in dieser Bezeichnung kommt von dem englischen Wort uniform, denn im Englischen spricht man von uniform distribution. Im Deutschen bevorzugt man die Bezeichnung Rechteckverteilung, weil der Begriff Gleichverteilung später leicht mit gleicher Verteilung verwechselt werden kann (womit gemeint ist, dass mehrere Zufallsvariablen dieselbe Verteilung haben). Die Dichtefunktion einer Rechteckverteilung ist gegeben durch: f (x) =
1 b−a
0
a≤x≤b sonst
W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
161
162
6 Stetige Verteilungen
Abb. 6.1 Allgemeine Darstellung der Dichtefunktion einer Rechteckverteilung
Abb. 6.2 Einige Beispiele für Dichtefunktionen der Rechteckverteilung
Abbildung 6.1 zeigt eine grafische Darstellung der Dichtefunktion. Man beachte, dass die Fläche unter der Dichtefunktion als Fläche des Rechtecks bestimmt werden kann: 1 (b − a) · =1 b−a Damit ist auch der Nachweis erbracht, dass es sich um eine Dichtefunktion handelt, denn es ist zu erkennen, dass f (x) ≥ 0 gilt. Abbildung 6.2 zeigt einige Beispiele für Dichtefunktionen der Rechteckverteilung für verschiedene Parameter-Kombinationen. Es ist zu erkennen, dass die Parameter den Definitionsbereich und die Höhe des Rechtecks determinieren. Die Verteilungsfunktion einer U(a, b)-verteilten Zufallsvariablen lässt sich besonders einfach ausrechnen. Wie wir bereits wissen, ist F(t) definiert als Fläche unter der Dichtefunktion von −∞ bis t, also als Fläche unter der Dichtefunktion links von t. Für Werte von t, die kleiner als a sind, ist F(t) gleich Null. Für Werte von t, die größer als a, aber kleiner als b sind, ist F(t) gleich der Fläche des Rechtecks unter der Dichte von a bis t, also (t − a) ·
t −a 1 = . b−a b−a
6.1 Rechteckverteilung
163
Abb. 6.3 Dichte- und Verteilungsfunktion einer U(−1,2)-verteilten Zufallsvariablen
Für Werte von t, die größer als b sind, ist F(t) gleich 1. Zusammenfassend gilt also für die Verteilungsfunktion einer rechteckverteilten Zufallsvariablen: ⎧ ⎪ 0 t 1.7) mit Hilfe der Verteilungsfunktion der Standardnormalverteilung
176
6 Stetige Verteilungen
Abb. 6.14 Dichtefunktion für die Blockzeit der American Airlines Flüge von DFW nach PHL und P(180 ≤ X ≤ 190)
die Blockzeiten der American Airlines Flüge von Dallas / Fort Worth nach Philadelphia aus Beispiel 1.2. In Abb. 1.3 ist das Histogramm der Blockzeiten im Februar 2006 zusammen mit einer an die Daten angepassten glatten Kurve dargestellt. Diese glatte Kurve ist die Dichtefunktion einer Normalverteilung mit den (gerundeten) Parametern μ = 183 und σ 2 = 142 = 196. Auf Grundlage dieser Normalverteilung soll nun die Wahrscheinlichkeit berechnet werden, dass die Blockzeit eines beliebigen Fluges zwischen 180 und 190 Minuten beträgt. Diese Wahrscheinlichkeit ist in Abb. 6.14 dargestellt. Wir können die gesuchte Wahrscheinlichkeit wieder als Differenz der Werte der Verteilungsfunktion schreiben: P(180 ≤ X ≤ 190) = F(190) − F(180) Dabei ist jetzt aber zu beachten, dass F die Verteilungsfunktion einer Normalverteilung mit μ = 183 und σ 2 = 142 = 196 ist. Die Tabelle gilt jedoch nur für standardnormalverteilte Zufallsvariablen, d.h. μ = 0 und σ 2 = 1. Man muss in diesem Fall zur Berechnung von Wahrscheinlichkeiten das folgende Resultat verwenden: Ist X ∼ N(μ , σ 2 ), so ist
X −μ ∼ N(0, 1) σ
X −μ Die sogenannte standardisierte Zufallsvariable besitzt also eine Standardσ normalverteilung. Um das Resultat anzuwenden, muss man folgende Überlegung anstellen. Weil μ und σ 2 als Parameter gewöhnliche Zahlen darstellen, gilt die folgende Identität: {X < t} =
X −μ t−μ < σ σ
Die beiden Ereignisse sind also gleich. Daher besitzen die Ereignisse auch die gleiche Wahrscheinlichkeit. Weil die Wahrscheinlichkeit für das rechte Ereignis
6.3 Normalverteilung
177
der Gleichung mit Hilfe der Standardnormalverteilung berechnet werden kann, gilt also: F(t) = Φ
t−μ σ
Kehren wir jetzt zum Beispiel zurück und berechnen mit Hilfe dieser Formel die Wahrscheinlichkeit, dass die Blockzeit zwischen 180 und 190 Minuten liegt: P(180 ≤ X ≤ 190) = F(190) − F(180) 190 − 183 180 − 183 =Φ −Φ 14 14 = Φ (0.5) − Φ (−0.21) = 0.691 − 0.417 = 0.274 Abschließend wollen wir noch die Wahrscheinlichkeit berechnen, dass die Blockzeit sehr lang ist, z.B. größer als 200 Minuten: P(X > 200) = 1 − P(X ≤ 200) = 1 − F(200) 200 − 183 = 1−Φ = 1 − Φ (1.21) = 1 − 0.887 = 0.113 14 Es sei erwähnt, dass die Bedeutung solcher Tabellen im Zeitalter der Rechner abgenommen hat. Moderne Software ist in der Lage, Wahrscheinlichkeiten für normalund andersverteilte Zufallsvariablen auszurechnen. Man muss dann wissen, wie solche Ergebnisse zu interpretieren sind. Man sollte trotzdem mit den Tabellen der Normalverteilung umgehen können. Die Normalverteilung ist nicht nur deshalb so wichtig, weil sich viele Phänomene durch sie beschreiben lassen. Beispielsweise haben wir die Brenndauer der Glühbirne aus Beispiel 1.12, die vor allem in den Kapiteln 1 und 4 eine große Rolle gespielt hat, durch eine Normalverteilung beschrieben (es ist vielleicht schon aufgefallen, dass die Dichtefunktion der Brenndauer die typische Glockenform der Normalverteilung hat). Die Normalverteilung kann auch in vielen Fällen zur Approximation anderer stetiger oder diskreter Verteilungen verwendet werden. Im folgenden Abschnitt wird gezeigt, wie man eine Binomialverteilung unter bestimmten Bedingungen durch die Normalverteilung approximieren kann.
6.3.1 Normalapproximation der Binomialverteilung In Kapitel 5 haben wir die Binomialverteilung durch die Poissonverteilung approximiert. Der folgende Satz fasst die Approximation zur Erinnerung noch einmal
178
6 Stetige Verteilungen
zusammen: Wenn die Zufallsvariable X binomialverteilt ist und wenn n groß und π klein ist, dann ist X annähernd Poisson-verteilt mit Parameter λ = n π . Es gibt eine weitere Möglichkeit, eine Binomialverteilung zu approximieren: Sei X ∼ b(n, π ). Wenn n groß und π nicht zu nah bei 0 oder 1 liegt, dann gilt approximativ: X ∼ N(μ , σ 2 )
mit
μ = nπ
und
σ 2 = nπ (1 − π )
Die Binomialverteilung ist ein Modell für diskrete Zufallsvariablen. Wahrscheinlichkeiten werden durch eine Wahrscheinlichkeitsfunktion beschrieben. Normalverteilte Zufallsvariablen sind hingegen stetig und ihre Wahrscheinlichkeiten werden mit einer Dichtefunktion bestimmt. Es erscheint zunächst widersprüchlich, eine diskrete Zufallsvariale durch eine stetige zu approximieren. Wir werden jedoch im Folgenden sehen, dass ein solches Vorgehen durchaus Sinn ergibt. Wir leiten mit zwei Beispielen ein, in denen die Approximation durchgeführt wird. Betrachten wir als erstes eine Binomialverteilung mit Parametern n = 30 und π = 0.4 Die Parameter der Approximation, also der Normalverteilung, sind dann:
μ = nπ = (30)(0.4) = 12 und 2 σ = nπ (1 − π ) = (30)(0.4)(0.6) = 7.2
Abb. 6.15 a Exakte Verteilungsfunktion einer Binomialverteilung (n = 30, π = 0.4) und angenäherte Verteilungsfunktion der Normalverteilung (μ = 12, σ 2 = 7.2) im Vergleich. b Exakte Verteilungsfunktion einer Binomialverteilung (n = 200, π = 0.56) und angenäherte Verteilungsfunktion der Normalverteilung (μ = 112, σ 2 = 49.28) im Vergleich.
6.3 Normalverteilung
179
Abbildung 6.15a zeigt die Verteilungsfunktionen der beiden Verteilungen im Vergleich. Die exakte Verteilungsfunktion der Binomialverteilung ist eine Treppenfunktion. Es ist zu erkennen, dass die stetige Verteilungsfunktion der Normalverteilung eine brauchbare Annäherung gibt, d.h. die Funktionswerte der Verteilungsfunktionen sind ähnlich. Da die Wahrscheinlichkeiten für die Normalverteilung einfacher zu bestimmen sind (siehe beispielsweise die Verteilungstabellen im Anhang), wenn man keinen Computer zur Verfügung hat, macht diese Approximation in bestimmten Fällen Sinn. Betrachten wir ein Beispiel aus dem Bereich der Meinungsforschung. Bei der äußerst knappen und umstrittenen US-Präsidentenwahl im Jahr 2000 erhielt Al Gore im Bundesstaat New Jersey rund 56% der Stimmen (vergleiche Beispiel 7.7). Dies war also sein wahrer Anteil in der Wählerschaft. Nehmen wir nun an, einige Tage vor der Wahl seien in einer Meinungsumfrage 200 zufällig ausgewählte Wähler befragt worden, ob sie die Absicht haben, Al Gore zu wählen. Sei X die Anzahl der Befragten, die angeben, Al Gore wählen zu wollen, und betrachten wir die Frage nach der Wahrscheinlichkeit, dass X kleiner oder gleich 100 ist. Es geht also um den Fall, in dem die Stichprobe den falschen Eindruck vermittelt, dass Al Gore nicht die Mehrheit der Stimmen erhält. X ist binomialverteilt mit den Parametern n = 200 und π = 0.56. Die exakte Wahrscheinlichkeit, dass höchstens 99 Personen angeben, Al Gore zu wählen, berechnet sich daher wie folgt: 200 (0.56)i (0.44)200−i = 0.038 i i=0 99
P(X ≤ 99) = ∑
Berechnen wir jetzt die Wahrscheinlichkeit mit Hilfe der Normalapproximation. Die angenäherte Normalverteilung besitzt die Parameter:
μ = (200)(0.56) = 112 und σ 2 = (200)(0.56)(0.44) = 49.28 Somit erhalten wir als approximative Wahrscheinlichkeit:
99 − μ 99 − 112 =Φ √ σ 49.28 = Φ (−1.85) = 0.032
P(X ≤ 99) = Φ
Grafisch verdeutlicht Abb. 6.15b, dass die Unterschiede zwischen der exakten und der angenäherten Verteilung sehr gering sind, d.h. die Funktionswerte der Verteilungsfunktionen weichen kaum voneinander ab. In diesem Beispiel sind wir davon ausgegangen, dass die befragten Wähler ihre wahre Präferenz kennen und diese auch wahrheitsgemäß in der Meinungsumfra-
180
6 Stetige Verteilungen
ge angeben. In einem späteren Kapitel werden wir die Ergebnisse einer tatsächlich durchgeführten Umfrage betrachten. Man kann die Annäherung der Binomialverteilung durch die Normalverteilung auch mit Hilfe der Verteilungsfunktionen zusammenfassen: Sei X ∼ b(n, π ). Wenn n groß und π nicht zu nah bei 0 oder 1 liegt, dann gilt: P(X ≤ t) ≈ Φ
t−μ σ
mit
μ = nπ
und
σ 2 = n π (1 − π )
Die genauesten Ergebnisse liefert die Approximation für π = 0.5, da die Binomialverteilung in diesem Fall, genau wie die Normalverteilung, symmetrisch ist. Die Approximation ist aber auch für beliebige andere Werte von π in Ordnung, wenn n hinreichend groß ist. Es gilt jedoch: je weiter π von 0.5 entfernt ist, desto größer muss n sein, damit die Approximation gut ist. Das folgende Beispiel zeigt einen Fall, bei dem die Approximation, wegen eines kleinen Wertes von n, schlecht ist. Wie wir anschließend sehen werden, gibt es aber auch für solche Situationen eine Möglichkeit, die Approximation zu verbessern. Sei X ∼ b(4, 0.6), dann besitzt die Normalapproximation die Parameter
μ = nπ = 4 · 0.6 = 2.4 und 2 σ = nπ (1 − π ) = 4 · 0.6 · 0.4 = 0.96 . Die Approximation lautet also X ∼ N(2.4, 0.96). Die Binomialverteilung besitzt fünf mögliche Ausprägungen; die exakten Wahrscheinlichkeiten sind in Tabelle 6.1 gegeben.
Tabelle 6.1 Exakte Wahrscheinlichkeiten einer Binomialverteilung mit n = 4 und π = 0.6 Wahrscheinlichkeitsfunktion b(4, 0.6) x
P(x)
0
P(0) =
1
P(1) =
2
P(2) =
3
P(3) =
4
P(4) =
4 0 4 0.6 0.4 04 1 3 0.6 0.4 14 2 2 0.6 0.4 24 3 1 0.6 0.4 34 4 0 4 0.6 0.4
= 0.0256 = 0.1536 = 0.3456 = 0.3456 = 0.1296
6.3 Normalverteilung
181
Abb. 6.16 Verbesserung der Approximation durch eine Stetigkeitskorrektur
Betrachten wir beispielsweise die Wahrscheinlichkeit, dass X einen Wert kleiner oder gleich Zwei annimmt. Die exakte Wahrscheinlichkeit kann mit Hilfe der Tabelle leicht bestimmt werden: P(X ≤ 2) = P(0) + P(1) + P(2) = 0.5248 Mit der Approximation durch die Normalverteilung erhält man für die Wahrscheinlichkeit einen anderen Wert: P(X ≤ 2) = Φ
2 − 2.4 0.980
= Φ (−0.41) = 0.341
Es wurde bereits eingangs erwähnt, dass die Approximation in diesem Fall nicht sehr genau ist, da n sehr klein ist. Dies wird durch den recht großen Unterschied zwischen den soeben bestimmten Wahrscheinlichkeiten verdeutlicht. Ebenfalls wurde darauf hingewiesen, dass es eine Möglichkeit gibt, die Approximation zu verbessern. Mit Hilfe einer sogenannten Stetigkeitskorrektur erzielt man bei einer Annäherung der Binomialverteilung durch die Normalverteilung wesentlich bessere Ergebnisse, wenn n klein ist. Das Vorgehen bei der Stetigkeitskorrektur ist in Abb. 6.16 dargestellt. Für die x-Werte, die von Interesse sind (nämlich x = 0, 1, 2, 3, 4), ist die Approximation besser, wenn wir die Verteilungsfunktion der Normalverteilung um 0.5 Einheiten nach links schieben. Während also die rechte Kurve die Approximation ohne Stetigkeitskorrektur darstellt, zeigt die nach links verschobene Verteilungsfunktion die Approximation mit Stetigkeitskorrektur. Es ist zu erkennen, dass letztere an den Stellen x = 0, 1, 2, 3, 4 nahezu identische Funktionswerte annimmt wie die Funktion der Binomialverteilung. Um die Korrektur rechnerisch durchzuführen, ist die Verteilungsfunktion an der Stelle x + 0.5 zu bestimmen anstatt an der Stelle x, da dies einer Linksverschiebung um 0.5 Einheiten entspricht. Es gilt somit zusammenfassend:
182
6 Stetige Verteilungen
Ursprüngliche Approximation: P(X ≤ x) ≈ Φ
x−μ σ
Approximation mit Stetigkeitskorrektur: P(X ≤ x) ≈ Φ
x + 0.5 − μ σ
In beiden Fällen verwendet man:
μ = nπ
und
σ 2 = nπ (1 − π )
Kehren wir wieder zu dem Beispiel zurück, in dem wir eine Approximation für kleines n = 4 durchgeführt haben. Wir haben bereits gesehen, dass die Approximation ohne Stetigkeitskorrektur ein schlechtes Ergebnis liefert. Der exakte Wert für diese Wahrscheinlichkeit war 0.5248, die Approximation ohne Korrektur 0.341. Mit Stetigkeitskorrektur erhalten wir: P(X ≤ 2) ≈ Φ
2 + 0.5 − 2.4 0.980
= Φ (0.10) = 0.540
Der korrigierte Wert ist also viel näher am exakten Wert als der ohne Korrektur. Mit Hilfe der Normalapproximation der Binomialverteilung lassen sich auch Wahrscheinlichkeiten für die einzelnen Ausprägungen der Binomialverteilung annähern. Betrachten wir wieder eine Binomialverteilung mit den Parametern n = 4 und π = 0.6 und schauen uns beispielhaft die Wahrscheinlichkeit an, dass X genau den Wert Zwei annimmt: P(X = 2) = P(X ≤ 2) − P(X ≤ 1) = F(2) − F(1) Die approximativen Wahrscheinlichkeiten für x = 2 sind: • Ohne Stetigkeitskorrektur: F(2) ≈ Φ 2−σ μ = Φ (−0.41) = 0.341 F(1) ≈ Φ 1−σ μ = Φ (−1.43) = 0.076 P(X = 2) ≈ 0.341 − 0.076 = 0.265
• Mit Stetigkeitskorrektur ist: μ Φ (−0.10) = 0.540 F(2) ≈ Φ 2.5− = σ μ = Φ (−0.92) = 0.179 F(1) ≈ Φ 1.5− σ P(X = 2) ≈ 0.540 − 0.179 = 0.361
6.3 Normalverteilung
183
Abb. 6.17 Approximation von P(X = 2) a ohne und b mit Stetigkeitskorrektur
Der exakte Wert ist P(X = 2) = 0.3456, wie der oben angegebenen Tabelle zu entnehmen ist. Abbildung 6.17 stellt das Vorgehen dar. Während zur Approximation der Wahrscheinlichkeit ohne Stetigkeitskorrektur die Fläche unter der Dichte zwischen Eins und Zwei bestimmt wird, verwendet man mit Stetigkeitskorrektur die Fläche zwischen 1.5 und 2.5. Tabelle 6.2 zeigt die exakten Wahrscheinlichkeiten für alle möglichen Werte von X und stellt sie den approximativen Wahrscheinlichkeiten ohne und mit Stetigkeitskorrektur gegenüber. Der Tabelle ist zu entnehmen, dass die Stetigkeitskorrektur für alle Werte von X eine verbesserte Approximation liefert. Die Abb. 6.18 verdeutlicht noch einmal grafisch, wie die Wahrscheinlichkeiten einer Binomialverteilung mit der Dichtefunktion einer Normalverteilung approximiert werden. Die linke Seite zeigt das Vorgehen ohne Stetigkeitskorrektur, die rechte Seite mit Stetigkeitskorrektur.
Tabelle 6.2 Wahrscheinlichkeiten einer b(4; 0.6)-Verteilung und Normalapproximation ohne und mit Stetigkeitskorrektur x P(x)
exakt
0 1 2 3 4
0.0256 0.1536 0.3456 0.3456 0.1296
P(0) P(1) P(2) P(3) P(4)
ohne Korrektur mit Korrektur 0.007 0.069 0.265 0.388 0.219
0.025 0.153 0.361 0.329 0.115
184
6 Stetige Verteilungen
Abb. 6.18 Approximation von P(x). a Ohne Stetigkeitskorrektur. b Mit Stetigkeitskorrektur
Die Normalapproximation der Binomialverteilung ist ein Beispiel für die Anwendung des sogenannten Zentralen Grenzwert-Satzes. Wir werden in einem späteren Kapitel weitere Beispiele dieses sehr bedeutenden Satzes kennenlernen.
6.4 Weitere stetige Verteilungen Wir haben vier Verteilungen für diskrete Zufallsvariablen kennengelernt, die Bernoulli-, die Binomial- und die Poissonverteilung sowie die hypergeometrische Verteilung. Auch für stetige Zufallsvariablen haben wir drei Verteilungen besprochen: Die Rechteckverteilung, die Exponentialverteilung und die Normalverteilung. Zusätzlich zu den ausführlichen Darstellungen werden jetzt einige weitere stetige Verteilungen kurz behandelt, die wir in späteren Kapiteln noch benötigen werden. Es gibt eine Vielzahl weiterer Verteilungen zur Beschreibung von Zufallsvariablen. Einige sind eng verwandt mit hier betrachteten Verteilungen. Andere sind aus ihnen abgeleitet.
6.4 Weitere stetige Verteilungen
185
6.4.1 χ 2 -Verteilung Die χ 2 -Verteilung hat einen Parameter, der mit dem griechischen Buchstaben ν (ausgesprochen: nü) bezeichnet und Freiheitsgrade genannt wird. Wir kennzeichnen eine solche Zufallsvariable durch: X ∼ χ 2 (ν ) Die Dichtefunktion einer χ 2 -verteilten Zufallsvariablen ist: f (x) =
xν /2−1 e−x/2 2ν /2 Γ (ν /2)
x≥0
0
sonst
Wir haben die Gammafunktion, die in der Definition der Dichtefunktion der χ 2 -Verteilung auftaucht, noch nicht kennengelernt. Sie wird mit dem großen griechischen Gamma (Γ ) bezeichnet. Es ist für unsere Zwecke nicht wichtig zu wissen, wie diese Funktion definiert ist. Wir betrachten diese Funktion als eine, deren Werte in einer Tabelle gegeben sind, genauso wie die Logarithmusfunktion, die Exponentialfunktion, die Cosinusfunktion usw. Auch die Dichtefunktion der χ 2 -Verteilung ist nicht zu integrieren. Ebenso wie für die Normalverteilung existieren daher Tabellen, aus denen die Wahrscheinlichkeiten abgelesen werden können. Erwartungswert und Varianz sind: E(X) = ν
Var(X) = 2ν
Abbildung 6.19 zeigt einige Beispiele für die Dichtefunktion der χ 2 -Verteilung. Mit steigender Anzahl der Freiheitsgrade ν nähert sich die χ 2 -Verteilung der Normalverteilung, wie man ansatzweise bei ν = 10 schon erkennen kann. Ein interessanter Zusammenhang zwischen der Standardnormal- und der χ 2 -Verteilung ist, wenn X1 , X2 , ..., Xν unabhängig N(0, 1)-verteilt sind. Dann ist Y = ∑νi=1 Xi2 ∼ χν2 .
Abb. 6.19 Einige Beispiele für Dichtefunktionen einer χ 2 -verteilten Zufallsvariablen
186
6 Stetige Verteilungen
6.4.2 F-Verteilung Die F-Verteilung besitzt zwei Parameter, die mit ν1 und ν2 und wiederum als Freiheitsgrade bezeichnet werden. Die Kennzeichnung einer F-verteilten Zufallsvariablen erfolgt durch X ∼ F(ν1 , ν2 ) und die Dichtefunktion lautet: ⎧ ν +ν ν /2−1 1 2 1 ⎪ ν1 x −(ν1 +ν2 )/2 ⎨ Γ 2 ν1 ν1 /2−1 x 1 + f (x) = Γ ν21 Γ ν22 ν2 ν2 ⎪ ⎩ 0
x>0 sonst
Abbildung 6.20 zeigt einige Beispiele für Dichtefunktionen F-verteilter Zufallsvariablen für unterschiedliche Parameterkonstellationen. Auch gibt es einen wichtigen Zusammenhang zwischen der χν2 - und der F-Verteilung: Sind X1 ∼ χν21 und X2 ∼ χν22 unabhängig, so gilt Y = νν21 XX12 ∼ Fν1 ,ν2 .
Abb. 6.20 Einige Beispiele für Dichtefunktionen F-verteilter Zufallsvariablen
6.4.3 t-Verteilung Die t-Verteilung hat einen Parameter, der wie bei der χ 2 -Verteilung mit ν bezeichnet und Freiheitsgrad genannt wird. Die Kurzdarstellung für eine t-verteilte Zufallsvariable ist gegeben durch X ∼ t(ν ) . Die Dichtefunktion einer t-Verteilung ist f (x) =
Γ
ν +1
2
(1 + x2/ν )−(ν +1)/2 √ νπΓ (ν /2)
−∞ < x < ∞ .
6.4 Weitere stetige Verteilungen
187
Abb. 6.21 Einige Beispiele für Dichtefunktionen t-verteilter Zufallsvariablen
Der Erwartungswert einer t-Verteilung ist Null. Dies galt auch für die Standardnormalverteilung. Die t-Verteilung ist neben dem identischen Erwartungswert auch in der Gestalt mit der Standardnormalverteilung verwandt. Für größer werdenden Parameter nu nähert sich die t-Verteilung immer weiter an die Standardnormalverteilung an. Dies ist auch in Abb. 6.21 zu erkennen, die einige Beispiele für Dichtefunktionen t-verteilter Zufallsvariablen zeigt und diese der Dichte für die Standardnormalverteilung gegenüberstellt. Dies ist auch schnell√einzusehen, wenn man weiß, dass für X1 ∼ N(0, 1), X2 ∼ χν2 unabhängig gilt: Y = √νXX1 ∼ tν . 2
6.4.4 Lognormalverteilung Viele stetige Merkmale verhalten sich so, dass ihr Logarithmus normalverteilt ist. Für eine Zufallsvariable X mit positiven Werten (z.B. Gewicht, Länge, Einkommen, Produktionsmengen usw.) nehmen wir häufig an, dass ihr Logarithmus Y = log(X) normalverteilt ist: Y = log(X) ∼ N(μ , σ 2 ) Wenn diese Annahme erfüllt ist, besitzt X eine Lognormalverteilung mit Dichte f (x) =
2 2 √1 e−(log(x)−μ ) /2σ x 2πσ 2
0
x>0 sonst .
Abbildung 6.22 zeigt ein Beispiel für die Dichtefunktionen dieser Verteilung. Sie besitzt, wie die Normalverteilung, zwei Parameter, die mit μ und σ 2 bezeichnet werden. Im Gegensatz zur symmetrischen Normalverteilung kann die Lognormalverteilung sehr schief sein, wie der Abbildung zu entnehmen ist. Typische Realisationen einer lognormalverteilten Zufallsvariablen sind viele kleine und wenige große Werte. Einkommensverteilungen versucht man z.B. durch eine Lognormalverteilung zu beschreiben. Es sei noch gesagt, dass wir hier nur einen kleinen Bruchteil aller Verteilungen angesprochen haben, die in der Praxis Verwendung finden. Häufig ist eine bestimm-
188
6 Stetige Verteilungen
Abb. 6.22 Beispiel für die Dichtefunktion einer lognormalverteilten Zufallsvariablen
te Verteilung für ganz bestimmte Anwendungen geeignet. Zum Beispiel wird die Extremwertverteilung verwendet, um die Festigkeit von Materialien zu beschreiben. Der Ingenieur benutzt diese Verteilung bei der Konstruktion tragender Elemente, z.B. der Tragflächen eines Flugzeugs. Er fragt sich: Wie stark kann ich denn die Tragfläche belasten, bevor sie bricht? Ingenieure verwenden diese Verteilung auch, um die Belastbarkeit von Gebäuden zu bestimmen, die Reißfestigkeit von Aufzugkabeln, die Tragfähigkeit von Brücken, die Belastbarkeit von Staudämmen usw. Eine andere Gruppe von Verteilungen, die stabilen Verteilungen, werden verwendet, um das Verhalten von Aktienkursen zu beschreiben. Bei derartigen Anwendungen geht es immer um die Frage Wie reich werde ich?. Wenn man das Prinzip verstanden hat, wie man mit Wahrscheinlichkeitsverteilungen umgeht, dann wird man keine Schwierigkeiten mehr haben, mit beliebigen Verteilungen zu arbeiten. Wichtigste Konzepte: • • • • • • • •
Rechteck- oder Gleich- oder Uniforme Verteilung Exponentialverteilung, Poissonprozess Normalverteilung, Standardnormalverteilung χ 2 -, F- und t-Verteilung als Derivate der Standardnormalverteilung Lognormalverteilung Normalverteilung als Approximation (speziell der Binomialverteilung) Wahrscheinlichkeitstabellen Standardisierung von Zufallsvariablen
Kapitel 7
Ein Modell für meine Daten — Modellanpassung und Parameterschätzung
Wir haben gesehen, dass stochastische Phänomene durch Zufallsvariablen beschrieben werden. In diesem Zusammenhang haben wir diskrete und stetige Zufallsvariablen unterschieden. Das Verhalten diskreter Zufallsvariablen haben wir durch eine Wahrscheinlichkeitsfunktion beschrieben, das einer stetigen Zufallsvariablen durch eine Dichtefunktion. Wir haben bisher die Wahrscheinlichkeitsfunktion oder Dichtefunktion immer als gegeben betrachtet. Wir werden jetzt besprechen, wie man die Wahrscheinlichkeitsfunktion oder die Dichtefunktion bestimmt. Dabei werden wir in zwei Schritten vorgehen: (a) (b)
Welche Familie von Modellen sollen wir wählen? (Normal, Exponential usw.) Wie bestimmt man den oder die Parameter des Modells?
7.1 Histogramme als Schätzer für Dichtefunktionen In einigen Fällen können wir die Frage nach einer Modellfamilie durch theoretische Überlegungen beantworten. Wir haben diese Möglichkeit sogar schon behandelt. Wir wissen zum Beispiel, dass eine Zufallsvariable unter bestimmten Bedingungen binomialverteilt ist. Wir haben auch über Bedingungen für die Poisson- und Exponentialverteilung gesprochen. Nun soll erklärt werden, wie man ein Modell anpasst, wenn man sich noch nicht für eine Familie entschieden hat, zu der das Modell gehören soll. Um dies zu veranschaulichen, betrachten wir das folgende Beispiel. Beispiel 7.1. Benzinverbrauch eines Autos Man möchte den Benzinverbrauch eines Autos schätzen. Die Frage, die man damit beantworten möchte, ist: Wie hoch ist der Benzinverbrauch des Autos (in Litern pro 100 km)? Eine mögliche Antwort wäre: Er variiert von Zeit zu Zeit. Der Benzinverbrauch ist eine Zufallsvariable. Das Verhalten der Zufallsvariablen wird durch eine Dichtefunktion beschrieben. Man steht also vor der Frage: Welche Dichtefunktion beschreibt das Verhalten dieser Zufallsvariablen? W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
189
190
7 Modellanpassung und Parameterschätzung
Man kann auch folgendermaßen vorgehen: Man beobachtet einige Zeit lang den Benzinverbrauch des Autos und versucht, aus diesen Informationen einen Hinweis auf die Dichtefunktion zu bekommen. Angenommen, man hat nach 10-maligem Tanken folgende Verbrauchsdaten festgestellt: 8.7 8.4 8.3 8.8 8.8 7.8 9.2 8.2 9.1 7.9 Wir wollen die Daten in einem Histogramm mit den Intervallen (7.5 − 8.0] (8.0 − 8.5] (8.5 − 9.0] (9.0 − 9.5] darstellen. Um die Häufigkeiten für diese Intervalle auszuzählen, ordnen wir die Daten zunächst der Größe nach: 7.8 7.9 8.2 8.3 8.4 8.7 8.8 8.8 9.1 9.2 Aus den geordneten Werten lassen sich die Häufigkeiten für die Intervalle ablesen: Tabelle 7.1 Benzinverbrauch: Häufigkeiten für die Intervalle Intervall Häufigkeit
(7.5 − 8.0] (8.0 − 8.5] (8.5 − 9.0] (9.0 − 9.5] 2
3
3
2
Abbildung 7.1 zeigt das Histogramm, wobei die Skalierung der y-Achse so gewählt wurde, dass die Gesamtfläche unterhalb des Histogramms gleich Eins ist. Dazu sind die relativen Häufigkeiten (das sind die absoluten Häufigkeiten geteilt durch die Gesamtanzahl der Daten) durch die Klassenbreiten geteilt worden. Man kann sich leicht überlegen, dass ein Histogramm (wenn es wie in Abb. 7.1 normiert wurde) alle Eigenschaften einer Dichtefunktion besitzt: • Ein normiertes Histogramm ist nichtnegativ. • Die Fläche unter der Kurve ist gleich Eins.
Abb. 7.1 Histogramm des Benzinverbrauchs
7.1 Histogramme als Schätzer für Dichtefunktionen
191
Tabelle 7.2 Benzinverbrauch: Häufigkeiten und relative Häufigkeiten für die Intervalle (7.5 − 8.0] (8.0 − 8.5] (8.5 − 9.0] (9.0 − 9.5]
Intervall Häufigkeit rel. Häufigkeit rel. Häuf./Klassenbreite
2 0.2 0.4
3 0.3 0.6
3 0.3 0.6
2 0.2 0.4
Wir können daher das Histogramm als Näherung oder auch Schätzung für die Dichtefunktion des Benzinverbrauchs verwenden. Um anzudeuten, dass das Histogramm nur eine Schätzung der Dichtefunktion von X ist, schreiben wir ein Dach über das f : fˆ, d.h. die geschätzte Dichtefunktion ist: ⎧ 0.4 ⎪ ⎪ ⎪ ⎪ 0.6 ⎨ fˆ(x) = 0.6 ⎪ ⎪ ⎪ 0.4 ⎪ ⎩ 0
7.5 < x ≤ 8.0 8.0 < x ≤ 8.5 8.5 < x ≤ 9.0 9.0 < x ≤ 9.5 sonst
Mit Hilfe dieser geschätzten Dichtefunktion können wir Fragen über den Benzinverbrauch beantworten, beispielsweise: Mit welcher Wahrscheinlichkeit wird X zwischen 8.8 und 9.2 (l/100km) liegen? Die Antwort ist durch die dunklere Fläche in Abb. 7.2 gegeben. Die Größe der Fläche lässt sich leicht bestimmen: P(8.8 < X < 9.2) = (0.2 · 0.6) + (0.2 · 0.4) = 0.12 + 0.08 = 0.20 An diesem Beispiel sieht man, dass ein normiertes Histogramm auch eine Dichtefunktion ist.
Abb. 7.2 Geschätzte Wahrscheinlichkeit für einen Verbrauch zwischen 8.8 und 9.2 Litern je 100 Kilometer
192
7 Modellanpassung und Parameterschätzung
Genau wie die Dichtefunktion hat auch ein Histogramm Parameter, auch wenn dies nicht so offensichtlich ist. Die Parameter sind die Zahlen, die wir bestimmen müssen, um die Dichtefunktion zu spezifizieren. In diesem Beispiel sind die Parameter die Höhen der einzelnen Rechtecke des Histogramms, also 0.4 0.6 0.6 0.4 Die Anzahl der sogenannten freien Parameter eines Histogramms ist gleich der Anzahl der Klassen minus Eins. Jetzt soll erklärt werden, was mit dem Begriff freie Parameter gemeint ist. Wir können unser Histogramm so beschreiben: ⎧ θ1 7.5 < x ≤ 8.0 ⎪ ⎪ ⎪ ⎪ ⎨ θ2 8.0 < x ≤ 8.5 f (x) = θ3 8.5 < x ≤ 9.0 ⎪ ⎪ ⎪ θ4 9.0 < x ≤ 9.5 ⎪ ⎩ 0 sonst Es erscheint zunächst so, als ob es vier Parameter gäbe. In der Tat sind es nur drei, weil die Fläche unter dem Histogramm gleich Eins sein muss, d.h. aus θ1 , θ2 und θ3 ergibt sich zwangsläufig ein bestimmter Wert für θ4 . Also sind nur drei der vier Parameter freie Parameter. Angenommen, wir hätten für das Histogramm nur zwei und nicht vier Klassen gewählt. Wenn wir dann die Höhe des ersten Balkens festlegen, ist auch die Höhe des zweiten Balkens fest, da die Gesamtfläche unter dem Histogramm gleich Eins sein muss. Abbildung 7.3 verdeutlicht die Parameter der Histogramme. Die Anzahl
Abb. 7.3 Parameter von Histogrammen
7.1 Histogramme als Schätzer für Dichtefunktionen
193
der Parameter entspricht der Anzahl der Klassen. Für die Anzahl der freien Parameter gilt: Ein normiertes Histogramm mit K Klassen hat K − 1 freie Parameter. Auch wäre es möglich gewesen, 8 Klassen zu verwenden. Die Anzahl der freien Parameter wäre dann 8 − 1 = 7. Wir sehen, dass die geschätzte Dichtefunktion (also das Histogramm) von der Zahl der verwendeten Parameter abhängt. Betrachten wir erneut die Frage, mit welcher Wahrscheinlichkeit X einen Wert zwischen 8.8 und 9.2 (l/100km) annimmt und beantworten die Frage mit unterschiedlichen Histogrammen: Tabelle 7.3 Benzinverbrauch: P(8.8 < X < 9.2) für verschiedene Histogramm-Einteilungen 2 Klassen
0.5 · 0.4
= 0.20
4 Klassen
0.6 · 0.2 + 0.4 · 0.2 = 0.20
8 Klassen
0.8 · 0.2 + 0.8 · 0.2 = 0.32
Abbildung 7.4 zeigt die verschiedenen Histogramme und die jeweiligen Flächen unterhalb der Histogramme zwischen 8.8 und 9.2. Wie man erkennt, kann man verschiedene Ergebnisse erhalten, d.h. die Antwort kann von der Anzahl der Klassen abhängen. Welche Antwort ist die richtige? Die korrekte Antwort wäre: Keine ist exakt. Sie sind alle Schätzungen. Alle Antworten sind nur Näherungen. Alle beruhen nur auf 10 Beobachtungen. Es gibt einige Faustregeln, die bei der Bestimmung einer geeigneten Klassenzahl hilfreich sind. Aber zuvor soll noch kurz eine andere Vorgehensweise dargestellt werden. Wir können die Form des Histogramms betrachten, um zu sehen, welcher Dichtefunktion es ähnlich sieht. Abbildung 7.5 zeigt ein weiteres Histogramm für die Daten des Benzinverbrauchs. In diesem Fall sind drei Klassen verwendet worden. Das Histogramm ist
Abb. 7.4 Histogramme mit unterschiedlich vielen Parametern für die Benzinverbrauchsdaten
194
7 Modellanpassung und Parameterschätzung
Abb. 7.5 Histogramm und angepasste Normalverteilung für die Benzinverbrauchsdaten
fast symmetrisch und in etwa glockenförmig. Die Normalverteilung ist ebenfalls symmetrisch und glockenförmig. Daher wurde in Abb. 7.5 zusätzlich eine angepasste Normalverteilung eingezeichnet. Zusammenfassend können wir zwei Möglichkeiten festhalten, um eine Dichtefunktion zu schätzen: 1. Verwende das normierte Histogramm als Schätzer für die Dichtefunktion. (Es bleibt das Problem: Wie viele Klassen (Parameter) soll man wählen?) 2. Betrachte die Form des Histogramms und wähle ein Modell, z.B. eine Normalverteilung, Exponentialverteilung oder Rechteckverteilung, das etwa die gleiche Form hat. (Es bleibt zu klären, wie man die Parameter schätzt.) Kommen wir zurück zu der Frage, wie viele Klassen bzw. Parameter wir für ein Histogramm verwenden sollten. Wie bereits erwähnt, gibt es keine eindeutige Antwort auf diese Frage. Es gibt nur einige Faustregeln, wie z.B. diese: Man wähle für die Anzahl der Klassen die ganze Zahl, die am nächsten an L · n1/3 3.49 · S liegt, wobei L die Länge eines geeigneten Intervalls ist, das alle Beobachtungen enthält, in unserem Beispiel also das Intervall (7.5, 9.5]. Somit ergibt sich L = 2. n ist die Anzahl √ der Beobachtungen und S ist die Standardabweichung der Beobachtungen: S = S2 , wobei 1 n S2 = ∑ (xi − x) ¯2 n i=1 ist. Dabei wiederum ist x¯ der Mittelwert der Beobachtungen: x¯ =
1 n ∑ xi n i=1
7.1 Histogramme als Schätzer für Dichtefunktionen
195
Für unser Beispiel ergibt sich zusammenfassend L = 2, n = 10, S2 = 0.2056 und S = 0.45. Damit ergibt sich L · n1/3 = 2.74 ≈ 3, 3.49 · S d.h. nach der Faustregel sollte man 3 Klassen verwenden. Das entsprechende Histogramm wurde bereits in Abb. 7.5 dargestellt. Es gibt auch noch andere Faustregeln. Derartige Regeln sind allerdings nicht bindend, d.h. sie liefern keinen einzig korrekten Wert, sondern geben lediglich einen groben Hinweis auf die Anzahl der Klassen, die man verwenden sollte. Jetzt wollen wir anhand eines weiteren Beispiels noch einige neue Begriffe im Zusammenhang mit Histogrammen als Schätzer einführen. Beispiel 7.2. Altersverteilung der Bevölkerung in Göttingen Abbildung 7.6 zeigt die Dichtefunktion der Altersverteilung der Wohnbevölkerung Göttingens aus dem Jahre 2007.1 Die Dichtefunktion ist etwas kompliziert. Sie lässt aber vieles erkennen. Man erkennt beispielsweise, dass es viele Einwohner gibt, die zwischen 20 und 30 Jahre alt sind. Dies erklärt sich durch den hohen Anteil der Studenten an der Göttinger Bevölkerung. Diese Dichte repräsentiert eine Grundgesamtheit. Jede Person, die an einem bestimmten Stichtag im Jahr 2007 in Göttingen gemeldet war, ist darin eingeschlossen. Sie ist die wahre Dichtefunktion der Altersverteilung. Wir bezeichnen sie auch als Grundmodell. Wir wollen die Dichte der Altersverteilung durch ein Histogramm so gut wie möglich approximieren. Abbildung 7.7 zeigt vier Histogramme mit verschiedenen Intervalllängen. Beispielsweise ist die Intervallbreite oben links zwei Jahre. Man beachte, dass für diese Histogramme das Alter aller Bewohner Göttingens verwendet wurde. Es handelt sich also um Totalerhebungen.
Abb. 7.6 Dichtefunktion für die Altersverteilung in Göttingen (2007) 1
Die Daten der Göttinger Bevölkerung, die der Abbildung zu Grunde liegen, wurden aus dem Statistischen Informationssystem der Stadt Göttingen unter http://goesis.goettingen.de entnommen (Stand 29.04.2008).
196
7 Modellanpassung und Parameterschätzung
Abb. 7.7 Verschiedene Histogramme für die Altersverteilung in Göttingen zur Illustration des Approximationsfehlers
Wir sehen, dass die Approximation durch ein Histogramm mit 50 Klassen (d.h. 49 freien Parametern) viel näheram Grundmodell ist als die mit 10 Klassen (d.h. 9 freien Parametern). Natürlich können wir die wahre Dichte umso besser approximieren, je mehr Parameter wir verwenden. Es gilt allgemein: Je größer die Anzahl der Parameter ist, desto kleiner wird der Fehler durch Approximation. Nehmen wir an, wir würden nicht die vollständige Altersverteilung kennen und nehmen wir weiter an, wir hätten nur das Alter von 100 zufällig ausgewählten Personen zur Verfügung. Dann könnten wir die wahre Dichte nur schätzen, da wir nur Informationen über 100 Personen zur Verfügung hätten. Wir schätzen also die wahre Altersverteilung durch das Histogramm der Stichprobe. Dabei schätzen wir genau genommen das Histogramm der Totalerhebung durch das Histogramm der Stichprobe mit der gleichen Klassenanzahl. Weiter oben wurde gesagt, dass ein Histogramm Parameter hat. Es sind die Höhen der einzelnen Rechtecke. Ausnahmsweise sind hier die Parameter des Histogramms (für die Totalerhebung) bekannt. Wären sie nicht bekannt, müssten wir sie schätzen durch die Höhen des Histogramms einer Stichprobe.
7.1 Histogramme als Schätzer für Dichtefunktionen
197
Schätzungen unterliegen Ungenauigkeiten, die man als Fehler durch Schätzung bezeichnet. Der Unterschied zwischen dem Fehler durch Schätzung und dem Fehler durch Approximation ist der folgende: • Fehler durch Approximation entstehen, weil wir unpräzise Verfahren benutzen. In unserem Beispiel approximieren wir eine Kurve durch einige gerade Linien. • Fehler durch Schätzung entstehen, weil wir nur unvollständige Information zur Verfügung haben. In unserem Beispiel kennen wir nur das Alter von 100 Personen aus einer Grundgesamtheit, die ca. 130 Tausend Personen umfasst. Nehmen wir an, wir haben die in Tabelle 7.4 stehenden Altersangaben aus einer Stichprobe von 100 Einwohnern. Das Histogramm für diese Stichprobe sieht ganz anders aus als das der Grundgesamtheit. Abbildung 7.8 stellt die Histogramme der Stichprobe bzw. der Grundgesamtheit für verschiedene Klassenbreiten gegenüber. Die eingezeichneten Linien (Histogramm der Grundgesamtheit) weichen mehr oder weniger deutlich von den Histogrammen der Stichprobe ab. Die Abweichung zwischen dem Histogramm der Stichprobe und dem Histogramm der Totalerhebung ist der Fehler durch Schätzung. Der Fehler durch Schätzung hängt natürlich von der Stichprobe ab. Aussagen über den Fehler durch Schätzung gelten daher nur im Durchschnitt. Vergleichen wir nun die Histogramme der Stichprobe mit der wahren Dichtefunktion (siehe Abb. 7.9), so sieht man, dass das Histogramm mit 10 Klassen wesentlich genauer ist als das mit 50 Klassen. Der wesentliche Punkt ist hier, dass wir nur über Information aus einer kleinen Stichprobe verfügen. Wir können nicht erwarten, Details einer Population zu schätzen, wenn wir nur die wenigen Informationen aus einer kleinen Stichprobe zur Verfügung haben. Der Fehler durch Schätzung wird hier groß. Je größer die Anzahl der Parameter, desto größer wird, im Durchschnitt, der Fehler durch Schätzung. Allgemein gilt: Je größer die Anzahl der Parameter, • desto kleiner wird der Fehler durch Approximation, • desto größer kann der Fehler durch Schätzung werden (genau genommen steigt die Varianz bzw. Unsicherheit).
Tabelle 7.4 Alter von 100 zufällig ausgewählten Personen 24 22 76 36 63 35 72 27 32 23
28 20 22 44 47 67 25 65 52 8
42 50 47 36 58 32 34 27 30 46
72 29 17 21 40 23 26 26 26 68
22 57 24 63 39 9 47 35 56 58
71 37 29 48 59 13 24 70 22 60
78 52 1 59 3 26 35 67 52 34
48 89 29 14 35 38 57 29 16 30
46 29 68 53 54 48 11 58 23 61
8 58 27 30 50 30 68 81 18 44
198
7 Modellanpassung und Parameterschätzung
Abb. 7.8 Histogramme der Stichprobe und der Grundgesamtheit im Vergleich (Illustration des Schätzfehlers)
Abb. 7.9 Histogramme der Stichprobe und Dichtefunktion im Vergleich (Illustration des Gesamtfehlers)
7.1 Histogramme als Schätzer für Dichtefunktionen
199
Der gesamte Fehler, der beim Schätzen aus einer Stichprobe entsteht, besteht also aus zwei Komponenten, dem Fehler durch Approximation, sichtbar als Abweichung des Histogramms der Grundgesamtheit vom Grundmodell, also der Dichtefunktion, und dem Fehler durch Schätzung, sichtbar als Abweichung des Histogramms der Stichprobe vom Histogramm der Grundgesamtheit. Man muss die beiden Fehlerkomponenten ausbalancieren, um den Gesamtfehler zu minimieren. Die optimale Anzahl der Parameter hängt von der Menge der verfügbaren Informationen ab, also von der Größe der verfügbaren Stichprobe. Abbildungen 7.10 und 7.11 zeigen weitere Histogramme von Stichproben. In Abb. 7.10 ist eine Stichprobe der Größe n = 200 und in Abb. 7.11 eine Stichprobe der Größe n = 1000 verwendet worden. Das Histogramm mit 50 Klassen, d.h. 49 freien Parametern ist jetzt näher an der wahren Dichtefunktion als in dem Fall, in dem die Stichprobe nur aus 100 Personen bestand. Die Antwort auf die Frage, wie viele Parameter man verwenden sollte, ist also: Nicht zu viele und nicht zu wenige! Man braucht etwas Übung, um abhängig von der Situation eine geeignete Anzahl von Parametern zu bestimmen. Der Einfluss des Stichprobenumfangs n sowie der Anzahl der Parameter auf den Approximations-, Schätz- und Gesamtfehler ist in Tabelle 7.5 zusammengefasst. Wir haben im ersten Teil des Kapitels gesehen, dass man aus der Gestalt eines Histogramms auf eine geeignete Verteilung schließen kann. Als Beispiel haben wir das Histogramm für den Benzinverbrauch eines Autos betrachtet. Das Histogramm war symmetrisch und glockenförmig. Beides sind typische Eigenschaften einer Nor-
Abb. 7.10 Histogramme einer Stichprobe der Größe n = 200 mit unterschiedlicher Klassenbreite
200
7 Modellanpassung und Parameterschätzung
Abb. 7.11 Histogramme einer Stichprobe der Größe n = 1000 mit unterschiedlicher Klassenbreite
malverteilung. Daher liegt es nahe, eine Normalverteilung an die Daten anzupassen. Es ist aber noch die Frage offen, wie die Parameter der Normalverteilung, also μ und σ 2 zu bestimmen sind, d.h. Wie schätzt man die Parameter μ und σ 2 ? Im Allgemeinen gibt es verschiedene Möglichkeiten, die Parameter einer Verteilung zu schätzen. Wir werden zwei allgemeine Methoden zur Schätzung von Parametern einer Wahrscheinlichkeitsverteilung kennen lernen. Es sind die • Methode der Momente und die • Maximum-Likelihood-Methode, wobei erstere sich tatsächlich auf die in Kapitel 4 definierten Momente bezieht und zweitere auf Deutsch übersetzt schlicht Methode der maximalen Wahrscheinlichkeit meint.
Tabelle 7.5 Approximations-, Schätz- und Gesamtfehler in Abhängigkeit von Stichprobenumfang und Parameteranzahl Approximationsfehler Schätzfehler Gesamtfehler Stichprobengröße n ↑
keine Wirkung
↓
↓
Anzahl Parameter p ↑
↓
↑
?
7.2 Schätzung von Parametern mit der Methode der Momente
201
7.2 Schätzung von Parametern mit der Methode der Momente Bevor wir die Methode der Momente vorstellen, soll das allgemeine Problem noch einmal formuliert werden: Wir suchen die Parameter der Dichtefunktion einer Zufallsvariablen. Wir können diese Funktion nicht genau angeben, weil wir nur partielle Informationen zur Verfügung haben. Wir haben nur die Informationen aus einer Stichprobe und nicht aus der ganzen Grundgesamtheit zur Verfügung. Die wahre Dichtefunktion, nach der wir suchen, ist unbekannt. In dem Beispiel mit der Altersverteilung war das anders. Das Alter jeder einzelnen Person, die im Jahr 2005 in Göttingen wohnte, wird vom Statistischen Bundesamt dokumentiert und im Statistischen Jahrbuch veröffentlicht. Deshalb kennen wir die exakte Verteilung. In den meisten Fällen (in der Praxis) kennen wir jedoch nur die Werte einer Stichprobe. Ein Histogramm dieser Werte kann uns einen Hinweis auf die Form der unbekannten Dichtefunktion geben. In dem Beispiel mit dem Benzinverbrauch erschien eine Normalverteilung eine vernünftige Näherung zu sein. Bei der Normalverteilung sind zwei Parameter zu schätzen. Beispiel 7.3. Ausgaben in einem Supermarkt Nehmen wir an, wir wollen mit Hilfe einer Verteilung die Geldmenge beschreiben, die Kunden in einem bestimmten Supermarkt ausgeben. Tabelle 7.6 enthält eine Stichprobe der Ausgaben in US$ von zehn Kunden in einem bestimmten Supermarkt in Sioux Falls (SD) im Sommer 1986.2 Angenommen, wir möchten ein Modell für die Ausgaben X in dem Supermarkt schätzen. Es ist klar, dass X eine Zufallsvariable ist. Wir möchten also die Dichtefunktion von X schätzen. Dazu verwenden wir die Informationen aus der Stichprobe. Wir wollen zunächst ein Histogramm der Beobachtungen mit den Klassen [0 − 20], (20, 40], (40, 60], (60, 80] und (80, 100] zeichnen, siehe Abb. 7.12. Tabelle 7.6 Stichprobe von Ausgaben in einem Supermarkt (in US $) 30.21 10.57 25.99 84.22 11.16 55.49
9.39 29.58
3.01
0.58
Man erkennt die Ähnlichkeit des Histogramms mit der Dichtefunktion einer Exponentialverteilung. Die Dichtefunktion der Exponentialverteilung ist: f (x) =
2
λ e− λ x 0
für sonst
x≥0
Die Stichprobe stammt aus einem Datensatz, der die Gesamtausgaben von 484 Testhaushalten bei ihren Einkäufen in einem bestimmten Supermarkt in Sioux Falls (SD) im Zeitraum Juni bis August 1986 enthält. Die Daten stellen einen kleinen Ausschnitt der Scanner-Daten dar, die in der ERIM Database des Kilts Center for Marketing der Graduate School of Business der University of Chicago auf der Internetseite http://research.chicagogsb.edu/marketing/databases/index.aspx zur Verfügung gestellt werden (Stand 29.08.2008).
202
7 Modellanpassung und Parameterschätzung
Abb. 7.12 Histogramm der Ausgaben in einem Supermarkt mit angepasster Exponentialverteilung
Der Erwartungswert ist E(X) = 1/λ . Wir müssen den Parameter λ aus den Daten schätzen, um die Dichtefunktion eindeutig zu bestimmen. Den Schätzer von λ bezeichnen wir mit λˆ . Die Methode der Momente für einparametrige Verteilungen funktioniert wie folgt: (1) Schreibe den Erwartungswert als Funktion des Parameters. Für die Exponentialverteilung heißt das: E(X) = 1/λ (2) Schreibe die gleiche Funktion für den Mittelwert x¯ in der Stichprobe und den Schätzer des Parameters. Für die Exponentialverteilung heißt das: x¯ = 1/λˆ (3) Löse die Gleichung aus (2) nach dem Parameterschätzer auf. Für die Exponentialverteilung heißt das: λˆ = 1/x¯ In unserem Beispiel mit den Ausgaben im Supermarkt erhalten wir x¯ = (30.21 + 10.57 + 25.99 + 84.22 + 11.16 + 55.49 + 9.39 + 29.58 + 3.01 + 0.58)/10 = 26.02 und damit
λˆ = 1/x¯ = 1/26.02 ≈ 0.0384
Die geschätzte Dichtefunktion (mit diesem Parameter) ist in Abb. 7.12 über das normierte Histogramm gezeichnet worden. Wir können jetzt diese geschätzte Dichtefunktion benutzen, um Fragen über die Höhe der Ausgaben in einem Supermarkt zu beantworten. Die hier für die Exponentialverteilung beschriebene Methode der Momente kann für jede beliebige Verteilung mit einem Parameter angewendet werden. Was haben
7.2 Schätzung von Parametern mit der Methode der Momente
203
Tabelle 7.7 Stichprobe von Anrufen pro 5-Minuten-Intervall in einem Call-Center 4
6
6
5
7 14
wir also im Grunde getan? Es wurde der gesuchte Parameter in Form des ersten Momentes (hier dem Erwartungswert) aufgeschrieben und dieses Moment durch sein Stichprobenanalogon (hier dem Mittelwert) ersetzt. Wir wissen dank des Gesetzes der Großen Zahl (siehe Kapitel 4), dass das Stichprobenanalogon ein konsistenter Schätzer für das Moment der Grundgesamtheit (bzw. der Verteilung) ist. Die Poissonverteilung z.B. hat ebenfalls einen Parameter, der λ heißt. Die Wahrscheinlichkeitsfunktion der Poissonverteilung ist: P(x) =
λx x!
e− λ
0
für x = 0, 1, 2, . . . sonst
Für den Erwartungswert der Poissonverteilung gilt E(X) = λ . Die Methode der Momente schätzt daher den Parameter λ der Poissonverteilung einfach durch den Mittelwert der Stichprobe: λˆ = x¯ Wenn wir uns kurz an das Gesetz der Großen Zahl aus Kapitel 4 erinnern, so ist dieses Ergebnis auch sehr einleuchtend: Wenn λ der Erwartungswert der Poissonverteilung ist, und das GGZ besagt, dass der Stichprobenmittelwert gegen den Erwartungswert konvergiert, so sollte der Stichprobenmittelwert zumindest ein gültiger Schätzer des Erwartungswertes sein. Betrachten wir als kleines Beispiel noch einmal die Anrufe in einem Call-Center aus Beispiel 1.10 und nehmen wir an, wir hätten als kleine Stichprobe nur die Anrufe zwischen 11.00 Uhr und 11:30 Uhr beobachtet. Die Anzahl der Anrufe pro 5-Minuten-Intervall in diesem Zeitraum ist in Tabelle 7.7 gegeben. Wenn wir diese Daten mit einer Poissonverteilung beschreiben möchten, ist der Schätzer von λ einfach der Mittelwert in der Stichprobe. In diesem Fall ist also:
λˆ = x¯ = (4 + 6 + 6 + 5 + 7 + 14)/6 = 42/6 = 7 und die geschätzte Wahrscheinlichkeitsfunktion ist somit ˆ = P(x)
7x
x! e
0
−7
für x = 0, 1, 2, . . . sonst .
Wenn man den Parameter der Verteilung geschätzt hat, kann man die Wahrscheinlichkeit für jedes beliebige Ereignis schätzen, indem man wie gewohnt mit der geschätzten Wahrscheinlichkeitsfunktion rechnet. Dabei muss man natürlich sicher stellen, dass die Stichprobe repräsentativ für die täglichen Anrufe in dem CallCenter ist (für den gesamten Betrachtungszeitraum von 10 bis 17 Uhr erhält man übrigens λˆ = x¯ ≈ 8.5).
204
7 Modellanpassung und Parameterschätzung
Was bisher gezeigt wurde, funktioniert für Verteilungen mit einem Parameter. Es funktioniert auch für die Binomialverteilung, obwohl diese zwei Parameter hat. Normalerweise kennt man nämlich den Parameter n der Binomialverteilung, so dass nur ein Parameter geschätzt werden muss. Wir brauchen also nur einen Schätzer für den Parameter π , die Erfolgswahrscheinlichkeit. Die Wahrscheinlichkeitsfunktion einer Binomialverteilung ist: n x n−x x π (1 − π ) P(x) = 0 und der Erwartungswert ist
für x = 0, 1, 2, . . . , n sonst
E(X) = nπ
Nach der Methode der Momente müssen wir jetzt dieselbe Gleichung für den Mittelwert in der Stichprobe x¯ und den Schätzer πˆ aufschreiben: x¯ = nπˆ und diese Gleichung nach πˆ auflösen, d.h.
πˆ = x/n ¯ Häufig ist es bei der Binomialverteilung so, dass man nur einen einzigen Wert x zur Verfügung hat, d.h. x¯ = x und πˆ = x/n. Damit ist πˆ gleich dem Anteil der Erfolge unter n Versuchen. Diese n Versuche können wir auch als n Wiederholungen eines Bernoulli-Experiments mit Erfolgswahrscheinlichkeit π auffassen. Damit wird der Parameter der Bernoulli-Verteilung geschätzt durch den Anteil der Erfolge. Beispiel 7.4. Reservierung von Sitzplätzen in Flugzeugen Wir werden ein weiteres Beispiel ausführlicher betrachten: Es geht in diesem Beispiel um die Reservierung von Sitzplätzen in Flugzeugen. In der Regel werden nicht alle Personen, die einen Flug gebucht haben, tatsächlich fliegen. Deshalb verkaufen Fluggesellschaften mehr Tickets als sie Sitzplätze zur Verfügung haben. Das Risiko dabei ist, dass unter Umständen doch mehr Leute zum Flug erscheinen als Sitzplätze vorhanden sind, d.h. dass die Leute, die nicht mitfliegen können, verärgert werden. Andererseits wären mehr Sitzplätze leer, wenn die Gesellschaften dieses Risiko nicht eingingen. Die Entscheidung, wie viele Tickets verkauft werden sollen, muss auf der Grundlage von Wahrscheinlichkeiten getroffen werden, wobei π sich aus Daten von früheren Flügen schätzen lässt. Alle Flüge zusammen ergeben eine große Stichprobe. Angenommen, bei 40 000 Reservierungen wären nur 37 560 Passagiere geflogen. Dann können wir die Erfolgswahrscheinlichkeit schätzen, wobei ein Erfolg gleichbedeutend ist mit Passagier kommt zum Flug, während Misserfolg Passagier kommt
7.2 Schätzung von Parametern mit der Methode der Momente
205
nicht zum Flug bedeutet. Da wir nur einen einzigen Wert zur Verfügung haben, ist hier der Mittelwert einfach: x¯ = 37 560. Daher ist πˆ = 37 560/40 000 = 0.939. Mit dem geschätzten π können wir nun die Frage beantworten, die uns interessiert. Das werden wir jetzt tun, auch wenn es nichts mehr mit der Methode der Momente zu tun hat. Mit der geschätzten Erfolgswahrscheinlichkeit können wir die Wahrscheinlichkeit von Überbuchungen bestimmen. Angenommen, das Flugzeug habe 300 Plätze und die Fluggesellschaft verkauft 320 Tickets. Interessant ist dann die Frage, wie viele von den 320 möglichen Passagieren zum Flug kommen. Wir betrachten dazu ein neues Zufallsexperiment: Sei X die Anzahl der Passagiere, die ihre Reservierung in Anspruch nimmt. Es werden n = 320 Versuche gemacht mit einer Erfolgswahrscheinlichkeit von 0.939, d.h. X ist binomialverteilt: X ∼ b(320; 0.939). Die geschätzte Wahrscheinlichkeitsfunktion von X ist ˆ = P(x)
320
x
0
0.939x(1 − 0.939)320−x
für x = 0, 1, 2, . . . , 320 sonst .
Die Fluggesellschaft interessiert sich für die Wahrscheinlichkeit, dass mehr Fluggäste erscheinen als es Plätze gibt. Mit anderen Worten: Wie groß ist die Wahrscheinlichkeit, dass X größer als 300 wird? Man berechnet: ˆ > 300) = P(301) ˆ ˆ ˆ P(X + P(302) + . . . + P(320) ≈ 0.5119 Die geschätzte Wahrscheinlichkeit ist also ungefähr 0.5119. Wir können die gleiche Wahrscheinlichkeit auch für andere Werte von n berechnen, also für andere Mengen verkaufter Tickets. Wenn die Fluggesellschaft z.B. nur n = 305 Tickets verkauft, dann ist die Wahrscheinlichkeit, nicht alle Passagiere mitnehmen zu können, fast Null. Für n = 310 ist sie noch kleiner als 1/100 usw. Abbildung 7.13 zeigt eine grafische Gegenüberstellung der Anzahl verkaufter Tickets und der Wahrscheinlichkeit, dass nicht alle tatsächlich erscheinenden Personen auch mitfliegen können.
Abb. 7.13 Anzahl verkaufter Tickets und Wahrscheinlichkeit, dass mehr als 300 Personen erscheinen
206
7 Modellanpassung und Parameterschätzung
Tabellen wie Tabelle 7.8 werden von fast allen großen Fluggesellschaften verwendet: Wir haben bisher die Methode der Momente für Verteilungen mit einem Parameter kennengelernt. Dabei wurde die Beziehung zwischen dem Erwartungswert einer Zufallsvariablen und dem Parameter übertragen auf den Mittelwert in einer Stichprobe und den geschätzten Parameter. Auch den Parameter π der Binomialverteilung können wir auf diese Weise schätzen. Dieser wird genauso wie der Parameter einer Bernoulliverteilung geschätzt. In diesem Fall wird π einfach als Anzahl der Erfolge geteilt durch die Anzahl der Versuche geschätzt, d.h. πˆ ist der Anteil der Erfolge unter allen Versuchen. Jetzt kommen wir zu der Methode der Momente für Verteilungen mit zwei Parametern. Wir benötigen jetzt zwei Gleichungen, um die Parameter zu schätzen. Die erste Gleichung ist wie im Falle eines Parameters zu bestimmen, d.h. wir schreiben den Erwartungswert als Funktion der Parameter und ersetzen dann E(X) durch x. ¯ Die zweite Gleichung erhalten wir, indem wir die Varianz als Funktion der Parameter schreiben und dann die Varianz durch S2 =
1 n ∑ (xi − x)¯ 2 = x¯2 − x¯2 n i=1
ersetzen. Beide Gleichungen zusammen sind dann nach den Parametern aufzulösen, um die Schätzer zu erhalten. Im Falle der Normalverteilung ist das sehr einfach, denn es gilt: E(X) = μ Daraus folgt sofort:
Var(X) = σ 2
μˆ = x¯ und σˆ 2 = S2
Im Beispiel des Benzinverbrauchs (siehe oben) ergeben sich: x¯ = 8.52
S2 = 0.2056
S=
√ 0.2056 = 0.4534
Die geschätzte Dichtefunktion ist somit: (x−8.52)2 1 e− 2·0.2056 f (x) = √ 2π 0.4534
für
−∞ < x < ∞
Tabelle 7.8 Wahrscheinlichkeit, dass die Anzahl der erscheinenden Passagiere größer ist als die Anzahl der Sitzplätze in Abhängigkeit von der Anzahl verkaufter Tickets n ˆ > 300) P(X
305 310 315 320 325 0.0000 0.0078 0.1318 0.5119 0.8599
7.2 Schätzung von Parametern mit der Methode der Momente
207
Abb. 7.14 Mit der angepassten Normalverteilung geschätzte Wahrscheinlichkeit für einen Benzinverbrauch zwischen 8.8 und 9.2 Litern
Genau diese Dichtefunktion ist in Abb. 7.5 schon über das Histogramm gezeichnet worden. Damit ist die von uns angepasste (geschätzte) Verteilung für X: X ∼ N(8.52; 0.2056) Wir betrachten noch einmal die Frage, die wir bereits mit den normierten Histogrammen beantwortet hatten: Wie groß ist die Wahrscheinlichkeit, dass der Benzinverbrauch bei der nächsten Beobachtung zwischen 8.8 und 9.2 liegen wird? Wir können diese Wahrscheinlichkeit jetzt mit Hilfe der geschätzten Dichtefunktion schätzen: 9.2 − μˆ 8.8 − μˆ ˆ −Φ P(8.8 < X < 9.2) = Φ σˆ σˆ = Φ (1.50) − Φ (0.62) = 0.933 − 0.732 = 0.201 Abbildung 7.14 zeigt die geschätzte Wahrscheinlichkeit als Fläche unter der geschätzten Dichtefunktion. Die Methode der Momente kann auch bei Verteilungen mit mehr als zwei Parametern angewendet werden. Die nachfolgende Tabelle fasst noch einmal alle Schätzer zusammen, die wir nach der Methode der Momente erhalten haben:
Tabelle 7.9 Schätzer nach der Methode der Momente Zwei Parameter:
Ein Parameter: Exp(λ ) E(X) = 1/λ
λˆ = 1/x¯
Po(λ )
E(X) = λ
λˆ = x¯
Be(π )
E(X) = π
πˆ = x¯ (Anteil der Erfolge)
b(n, π )
E(X) = nπ
πˆ = Anteil der Erfolge
N(μ , σ 2 )
E(X) = μ μˆ = x¯ Var(X) = σ 2 σˆ 2 = s2
208
7 Modellanpassung und Parameterschätzung
7.3 Schätzung von Parametern mit der Maximum-Likelihood-Methode Die zweite allgemeine Methode zur Schätzung von Parametern, die hier vorgestellt werden soll, ist die Maximum-Likelihood-Methode. Diese Methode ist sehr bedeutend. Deshalb werden wir sie ausführlich behandeln. Wir wollen mit einem einfachen Beispiel anfangen. Angenommen, wir haben eine Münze, die verdächtig asymmetrisch aussieht und wir möchten die Wahrscheinlichkeit für Kopf schätzen, d.h. wir möchten wissen: Wie groß ist π , die Erfolgswahrscheinlichkeit für Kopf? Zu diesem Zweck werfen wir die Münze 10 mal und definieren dabei Kopf als Erfolg und Zahl als Misserfolg. Nehmen wir an, wir haben die folgenden 10 Beobachtungen in unserem Experiment erhalten (1 = Erfolg; 0 = Misserfolg): 1 0 1 1 0 1 1 0 0 1 Wir haben also sechs mal Kopf und vier mal Zahl erhalten. Die Wahrscheinlichkeit für dieses Ergebnis kann durch eine Binomialverteilung bestimmt werden: 10 6 π (1 − π )10−6 P(6) = 6 Die Wahrscheinlichkeit für unsere Beobachtung, P(6), ist eine Funktion des unbekannten Parameters π . Das ist eine andere Situation als die, die wir früher behandelt haben, wenn wir mit der Binomialverteilung gerechnet haben. Damals kannten wir π und wollten die Wahrscheinlichkeit eines Ereignisses bestimmen. Jetzt kennen wir das Ergebnis, wir haben es beobachtet: sechs mal Kopf bzw. sechs Erfolge. Jetzt interessiert uns der Wert von π , der zu diesem Ergebnis geführt haben könnte. Mit anderen Worten: Wir wollen π , die Erfolgswahrscheinlichkeit, schätzen. Um zu betonen, dass wir die Wahrscheinlichkeit als Funktion von π betrachten, verwenden wir eine andere Notation: 10 6 π (1 − π )10−6 L(π ) = 6 Diese Funktion L heißt Likelihoodfunktion. Im Englischen gibt es zwei synonyme Worte für Wahrscheinlichkeit: probability und likelihood, was verdeutlicht, dass die Likelihoodfunktion, genau wie Dichte- bzw. Wahrscheinlichkeitsfunktion, Wahrscheinlichkeiten angibt, nur eben in Abhängigkeit vom Parameter und nicht in Abhängigkeit von der Zufallsvariablen: In unserem Beispiel ist L(π ) nichts anderes als die Wahrscheinlichkeit P(6). Aber wir betrachten sie aus einem anderen Blickwinkel. Um noch deutlicher zu werden, schreibt man manchmal L(π ; x = 6, n = 10) , um zu verdeutlichen, dass unter den zehn Versuchen sechs Erfolge waren.
7.3 Schätzung von Parametern mit der Maximum-Likelihood-Methode
209
Wir können die Likelihood für verschiedene Werte von π bestimmen. Tabelle 7.10 enthält die Likelihood für einige Werte von π . Zum Beispiel erhalten wir für π = 0.1 den Wert L(0.1) = 0.0001. Mit anderen Worten heißt das: Es ist sehr unwahrscheinlich, dass die wahre Erfolgswahrscheinlichkeit π = 0.1 ist. Das schließt man daraus, dass es sehr unwahrscheinlich wäre, sechs mal Kopf zu erhalten, wenn π = 0.1 wäre. Für π = 0.2 erhalten wir L(0.2) = 0.0055, d.h. die Wahrscheinlichkeit, bei 10 Würfen sechs mal Kopf zu werfen, ist mit 0.0055 immer noch sehr klein. Also halten wir π = 0.2 ebenfalls für unwahrscheinlich. Tabelle 7.10 Likelihood für verschiedene Werte von π bei sechs Erfolgen
π 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
L(π ) 10
6
10 6
10 6
10 6
10 6
10 6
10 6
10 6
10 6
(0.1)6 (1 − 0.1)4 = 0.0001 (0.2)6 (1 − 0.2)4 = 0.0055 (0.3)6 (1 − 0.3)4 = 0.0368 (0.4)6 (1 − 0.4)4 = 0.1115 (0.5)6 (1 − 0.5)4 = 0.2051 (0.6)6 (1 − 0.6)4 = 0.2508 (0.7)6 (1 − 0.7)4 = 0.2001 (0.8)6 (1 − 0.8)4 = 0.0881 (0.9)6 (1 − 0.9)4 = 0.0112
Die Likelihoodfunktion ist in Abb. 7.15a dargestellt. Wir sehen, dass die Likelihoodfunktion ein Maximum an der Stelle π = 0.6 hat. Diese Erfolgswahrscheinlichkeit passt insofern am besten zu den sechs beobachteten Erfolgen, da sie den Beobachtungen die größte Wahrscheinlichkeit zuordnet. Deshalb heißt der so erhaltene Schätzer Maximum-Likelihood-Schätzer: Der Maximum-Likelihood-Schätzer von π ist der Wert von π , der den Beobachtungen die größte Wahrscheinlichkeit zuordnet. Wie bereits bei der Methode der Momente, bezeichnen wir den Schätzer mit πˆ und es ergibt sich somit πˆ = 0.6. Das Maximum der Funktion L(π ) haben wir grafisch gefunden. Häufig kann man πˆ auch durch Differenzieren (Ableiten) finden: Wir können das Maximum von L(π ) finden, indem wir L(π ) nach π differenzieren, die Ableitung gleich Null setzen und nach π auflösen. Es ist jedoch einfacher, den Logarithmus von L(π ) abzuleiten als L(π ) selbst. Dieses Vorgehen führt zu dem gleichen Ergebnis: πˆ maximiert L(π ) genau dann, wenn es log(L(π )) maximiert. In unserem Fall ist 10 + 6 log(π ) + 4 log(1 − π ) . log(L(π )) = log 6
210
7 Modellanpassung und Parameterschätzung
Abb. 7.15 a Likelihoodfunktion und b Log-Likelihoodfunktion für sechs Erfolge bei 10 Würfen einer Münze
Abbildung 7.15b zeigt eine Darstellung von log(L(π )). Wie zu sehen ist, besitzt log(L(π )) das Maximum auch an der Stelle π = 0.6. Bestimmen wir nun das Maximum rechnerisch. Die Ableitung von log(L(π )) bezüglich π ergibt: d log(L(π )) 1 −1 6 4 = 0+6 +4 = − dπ π 1−π π 1−π Setzt man die Ableitung gleich Null, erhält man πˆ : 6 4 − =0 πˆ 1 − πˆ
=⇒
(1 − πˆ )6 = 4πˆ
=⇒ πˆ =
6 = 0.6 10
Damit haben wir analytisch gezeigt, dass πˆ = 0.6 ist. Nun wird es nicht schwerfallen, die allgemeine Formel für den Maximum-Likelihood-Schätzer des Parameters π der Binomialverteilung herzuleiten: Sei x allgemein die Anzahl der beobachteten Erfolge. Die Likelihoodfunktion ist dann L(π ) =
n x π (1 − π )n−x , x
und für die Log-Likelihoodfunktion ergibt sich log(L(π )) = log
n + x log (π ) + (n − x) log(1 − π ). x
7.3 Schätzung von Parametern mit der Maximum-Likelihood-Methode
211
Für die Ableitung von log(L(π )) nach π erhält man d log(L(π )) 1 −1 x n−x = 0 + x + (n − x) = − , dπ π 1−π π 1−π und Nullsetzen der Ableitung führt zu: x (n − x) − =0 πˆ 1 − πˆ
(1 − πˆ )x = (n − x)πˆ
=⇒
=⇒ πˆ =
x n
Der Maximum-Likelihood-Schätzer von π ist also πˆ = x/n, d.h. gleich der Anzahl der Erfolge dividiert durch die Anzahl der Versuche bzw. dem Anteil der Erfolge bei n Versuchen. Damit haben wir mit der Maximum-Likelihood-Methode denselben Schätzer für π erhalten wie mit der Methode der Momente. Schauen wir uns nun die Likelihoodfunktion noch an einigen weiteren Beispielen an. Nehmen wir an, wir hätten Beobachtungen x1 , x2 , x3 , . . . , xn , an die wir ein Modell anpassen wollen. Nehmen wir ferner an, die Beobachtungen seien unabhängig. Wir unterscheiden zwischen dem diskreten und dem stetigen Fall. Im diskreten Fall nehmen wir an, wir wollen eine Wahrscheinlichkeitsfunktion P(x) anpassen. Die Likelihoodfunktion ist dann: L(Parameter; x1, x2 , . . . , xn ) = P(x1 ) · P(x2 ) · . . . · P(xn ) Beispielhaft wird eine Poissonverteilung betrachtet: P(x) =
λx x!
0
e− λ
für x = 0, 1, 2, . . . sonst
Die Likelihoodfunktion ist dann: L(λ ; x1 , x2 , . . . , xn ) =
λ x1 −λ λ x2 −λ λ xn −λ λ x1 +x2 +...+xn (e−λ )n e e ... e = x1 ! x2 ! xn ! x1 ! · x2 ! · . . . · xn !
Daraus wiederum ergibt sich für die Log-Likelihoodfunktion: n
log(L(λ ; x1 , x2 , . . . , xn )) = (x1 + x2 + . . . + xn ) · log(λ ) − λ n − ∑ log xi ! i=1
Diese Funktion kann jetzt einfach abgeleitet und anschließend gleich Null gesetzt werden. Man beachte, dass in dem Moment ein Dach über das λ gesetzt wird, in dem das Nullsetzen erfolgt, da die Lösung dieser Gleichung den Schätzer darstellt. Die Ableitung ist: d log(L(λ )) ∑ni=1 xi = −n dλ λ
212
7 Modellanpassung und Parameterschätzung
Nullsetzen ergibt: ∑ni=1 xi −n = 0 λˆ
=⇒
∑n xi λˆ = i=1 = x¯ n
Somit haben wir unter Verwendung der Maximum-Likelihood-Methode als Schätzer für den Parameter λ einer Poissonverteilung den Stichprobenmittelwert bestimmt. Im stetigen Fall wollen wir eine Dichtefunktion f (x) anpassen. Die Likelihoodfunktion ist dann: L(Parameter; x1, x2 , . . . , xn ) = f (x1 ) · f (x2 ) · . . . · f (xn ) Beispielsweise ist die Dichtefunktion einer Exponentialverteilung: f (x) =
λ e− λ x 0
für sonst
x≥0
Die Likelihoodfunktion ist somit: L(λ ; x1 , x2 , . . . , xn ) = λ e−λ x1 λ e−λ x2 . . . λ e−λ xn = λ n e−λ (x1 +x2 +...+xn ) = λ n e−λ ∑i=1 xi n
In beiden Fällen gilt: Der Maximum-Likelihood-Schätzer des Parameters ist der Wert des Parameters, der die Likelihood-Funktion maximiert. Wenn es zwei oder mehr Parameter gibt, dann sind die Maximum-Likelihood-Schätzer der Parameter diejenigen Werte der Parameter, die die Likelihood-Funktion maximieren. Verdeutlichen wir diese Definitionen noch einmal an den Ausgaben im Supermarkt (Beispiel 7.3), für die wir bereits den Parameter λ einer Exponentialverteilung mit der Methode der Momente geschätzt haben. Die Daten der Stichprobe waren bereits in Tabelle 7.6 gegeben. Die Likelihoodfunktion ist: L(λ ) = λ 1 0e−λ ·260.2 Diese Funktion ist in Abb. 7.16a dargestellt. Sie besitzt ihr Maximum an der Stelle 0.0384. Der ML-Schätzer für λ ist derjenige Wert von λ , der L(λ ) maximiert. Äquivalent dazu ist das folgende Problem: Finde den Wert für λ , der log(L(λ )) maximiert. Das ist genau der Wert, der auch die Likelihood-Funktion maximiert. Der Logarithmus der Likelihood-Funktion ist gegeben durch: log(L(λ )) = 10 · log(λ ) − λ · 260.2 Die Log-Likelihoodfunktion ist in Abb. 7.16b dargestellt. Wie zu erkennen ist, besitzt sie wie die Likelihoodfunktion ihr Maximum an der Stelle λˆ = 0.0384. Wir
7.3 Schätzung von Parametern mit der Maximum-Likelihood-Methode
213
Abb. 7.16 a Likelihoodfunktion und b Log-Likelihoodfunktion der Exponentialverteilung für zehn Beobachtungen der Ausgaben
finden das Maximum analytisch, indem wir diese Funktion nach λ differenzieren und die Ableitung gleich Null setzen. Wir erhalten: d log(L(λ )) 10 = − 260.2 dλ λ Und durch Nullsetzen der Ableitung ergibt sich: 10 = 260.2 λˆ
λˆ ≈ 0.0384
1 = 1x¯ ist, ein Resultat, das allgemein für den Man beachte hierbei, dass 260.2/10 Parameterschätzer der Exponentialverteilung gilt:
1 λˆ = x¯ In unserem Beispiel ist die angepasste Dichtefunktion: 0.0384e−0.0384x für f (x) = 0 sonst
x≥0
Wir erhalten damit genau dasselbe Ergebnis wie weiter oben mit der Methode der Momente. Daher entspricht die mit der Maximum-Likelihood-Methode angepasste Exponentialverteilung gerade derjenigen, die bereits in Abb. 7.12 über das Histogramm der Ausgaben gezeichnet war.
214
7 Modellanpassung und Parameterschätzung
Es ist jedoch nicht immer so, dass man mit beiden Schätzmethoden zu demselben Ergebnis kommt. Wenn dies so wäre, bräuchten wir keine Zeit darauf zu verschwenden, beide Methoden kennenzulernen. Es ist jedoch für die wenigen Verteilungen, die wir in diesem Buch bisher betrachtet haben, der Fall. Insbesondere gilt das auch für die Normalverteilung, für die die Schätzer nach der MaximumLikelihood-Methode allerdings etwas komplizierter herzuleiten sind (eine interessante Übung). Daher halten wir als Ergebnis lediglich fest, dass die MaximumLikelihood-Schätzer der Normalverteilung gegeben sind durch
μˆ = x¯
σˆ 2 = S2 .
Abschließend soll eine Bemerkung zur Annahme der Unabhängigkeit der Beobachtungen erfolgen, die in der Definition der Likelihood-Funktion als Voraussetzung gefordert wird. Wir haben bereits im zweiten Kapitel am Beispiel von Populationen und Stichproben über diese Annahme gesprochen. Wir müssen uns vergewissern, dass die Werte in der Stichprobe in keiner Weise systematisch voneinander abhängen, wenn wir den Maximum-Likelihood-Schätzer bestimmen wollen. Wir haben erfahren, dass diese Bedingung erfüllt werden kann, indem einfach eine zufällige Stichprobe (mit Zurücklegen) aus der Population gezogen wird.
7.4 Eigenschaften von Schätzern Nun soll auf die Eigenschaften der Schätzer eingegangen werden. Von den vielen Eigenschaften der Schätzer, die man in der Literatur findet, werden wir hier nur die wichtigsten besprechen. Eine grundlegende Eigenschaft von Schätzern ist: Ein Schätzer ist eine Zufallsvariable Etwas spezieller sind die folgenden Definitionen, die im Anschluss genauer erläutert werden: • Der Standardfehler eines Schätzers • Der Bias eines Schätzers • Der mittlere quadratische Fehler eines Schätzers Bevor wir auf diese Eigenschaften eingehen, sollte man sich davon überzeugen, dass Schätzer tatsächlich Zufallsvariablen darstellen. Dazu kommen wir noch einmal auf Beispiel 7.3 zurück, in dem wir die Ausgaben von zehn Supermarktkunden betrachtet haben. Wir haben die Beobachtungen, die in Tabelle 7.6 gegeben waren, benutzt, um den Parameter λ einer Exponentialverteilung für die Ausgaben im Supermarkt zu schätzen. Der Stichprobenmittelwert war 26.02, was zu λˆ = 1/26.02 ≈ 0.0384 führte. Wenn wir eine zweite Stichprobe (ebenfalls der Größe zehn) ziehen würden, bekämen wir zehn andere Kunden und somit zehn neue Beobachtungen. Tabelle
7.4 Eigenschaften von Schätzern
215
7.11 zeigt die zehn Beobachtungen einer zweiten Stichprobe. Wir erhalten dann x¯ = 33.82 und damit λˆ = 1/33.82 = 0.0296. Eine grafische Darstellung der beiden Stichproben in Form von Histogrammen ist in Abb. 7.17 zu sehen. Ferner ist neben den Histogrammen jeweils die angepasste Exponentialverteilung zu sehen. Wenn wir eine dritte Stichprobe ziehen würden, bekämen wir wieder einen anderen Wert für λˆ , vielleicht λˆ = 0.0819. Zur Verdeutlichung zeigt Tabelle 7.12 die ersten fünf und die letzten drei von insgesamt 1000 Stichproben aus dem OriginalDatensatz sowie die zugehörigen Stichprobenmittelwerte und Parameterschätzer. Abbildung 7.18a zeigt ein Histogramm der Parameterschätzer der 1000 Stichproben. Die Abbildung dient wiederum zur Verdeutlichung, dass der Parameterschätzer eine Zufallsvariable ist. Es ist also nicht möglich, im Voraus zu sagen, welchen Wert der Schätzer annehmen wird. Mit anderen Worten: λˆ ist eine Zufallsvariable. Demnach besitzt λˆ • eine Dichtefunktion, • einen Erwartungswert E(λˆ ) und • eine Varianz Var(λˆ ).
Tabelle 7.11 2. Stichprobe von Ausgaben in einem Supermarkt (in US $) 3.37 53.95
1.88 11.16 34.89 27.04 10.89 12.85
9.68 18.91
Abb. 7.17 Histogramme und angepasste Exponentialverteilung für zwei Stichproben
216
7 Modellanpassung und Parameterschätzung
Tabelle 7.12 Ausgaben von zehn Kunden in einem Supermarkt (1000 Stichproben) Stichprobe 1 2 3 4 5 .. . 998 999 1 000
30.21 3.37 7.94 22.17 7.17
Mittelwert x¯ Schätzer λˆ
Beobachtungen 10.57 53.95 4.90 3.06 5.95
25.99 1.88 3.55 6.86 42.99
84.22 11.16 23.26 5.58 16.69
11.16 34.89 5.69 9.28 3.30
55.49 27.04 12.14 8.04 18.51
9.39 10.89 4.93 5.81 6.95
29.58 12.85 7.38 5.57 12.84
3.01 9.68 49.86 45.75 13.91
0.58 18.91 2.42 3.57 12.57
26.02 18.46 12.21 11.57 14.09
0.0384 0.0542 0.0819 0.0864 0.0710
74.23 13.15 40.66 49.36 5.78 30.99 6.86 62.90 26.49 40.67 27.44 15.23 1.33 29.17 17.71 33.61 12.91 47.64 2.68 8.03 35.54 6.95 28.76 34.20 16.50 6.86 13.80 75.56 15.15 1.85
35.11 19.57 23.52
0.0285 0.0511 0.0425
Abb. 7.18 Histogramme von 1000 Schätzern aus Stichproben der Größe n = 10 bzw. n = 25
Die wichtigsten Punkte, an die man denken sollte, wenn man einen Parameter schätzt, sind daher: • Der exakte Wert eines Parameters kann nur bestimmt werden, wenn alle Werte der Population bekannt sind. • Wenn nur eine Stichprobe aus der Population bekannt ist, kann nur ein Schätzer des Parameters bestimmt werden. • Verschiedene Stichproben führen zu verschiedenen Schätzern. • Bevor man die Stichprobe zieht, kann man nicht sagen, welchen Wert des Schätzers man erhalten wird.
7.4 Eigenschaften von Schätzern
217
Richten wir nun den Blick auf die Varianz des Schätzers. Bisher haben wir die Wurzel aus der Varianz als Standardabweichung bezeichnet. Im Zusammenhang mit Schätzern verwendet man jedoch einen anderen Begriff: Die Wurzel aus der Varianz eines Schätzers wird als Standardfehler des Schätzers bezeichnet: Standardfehler(θˆ ) = Var(θˆ ) = SE(θˆ ) Die Symbolisierung des Standardfehlers durch SE(θˆ ) ist auf den im Englischen verwendeten Begriff standard error zurückzuführen. Der Standardfehler eines Schätzers ist in der Regel unbekannt. Zwar besitzt man häufig eine Formel für den Standardfehler, diese hängt jedoch meist vom unbekannten Parameter selbst oder von anderen unbekannten Größen ab. Als Beispiel wird der Standardfehler des Schätzers λˆ einer Exponentialverteilung betrachtet. Für diesen gilt: SE(λˆ ) =
1 √ λ n
Der Stichprobenumfang n ist bekannt. Dennoch können wir den Standardfehler nicht exakt bestimmen, weil der Parameter λ unbekannt ist. Die Möglichkeit, die wir haben ist allerdings, den Standardfehler zu schätzen, indem wir den Parameter durch seinen Schätzer ersetzen: λˆ ) = SE(
x¯ 1 1 = 1√ = √ ˆλ √n n x¯ n
Mit dieser Formel kann man nun beispielsweise den Standardfehler des Schätzers für die erste Stichprobe der Supermarkt-Ausgaben schätzen. Dabei ist n = 10. Der Mittelwert der Stichprobe war x¯ = (30.21 + 10.57 + 25.99 + 84.22 + 11.16 + 55.49 + 9.39 + 29.58 + 3.01 + 0.58)/10 = 26.02 und als Standardfehler erhält man mit der obigen Formel: λˆ ) = √x¯ = 26.02 √ SE( ≈ 8.23 n 10 Auch für andere Verteilungen gibt es Formeln für den Standardfehler eines Parameters. Tabelle 7.13 zeigt entsprechende Formeln für die wichtigsten der im Rahmen dieser Veranstaltung besprochenen Verteilungen. Zu sehen sind die Parameter, deren Schätzer sowie die Standardfehler der Schätzer und deren Schätzer. Wie bereits gesagt, ist die Standardabweichung ein Maß für die Breite der Verteilung einer Zufallsvariablen. Ebenso stellt der Standardfehler eines Schätzers ein Maß für die Breite der Verteilung eines Schätzers dar: • Wenn der Standardfehler groß ist, ist die Verteilung des Schätzers breit. • Wenn der Standardfehler klein ist, ist die Verteilung des Schätzers schmal.
218
7 Modellanpassung und Parameterschätzung
Tabelle 7.13 Parameterschätzer sowie deren Erwartungswert, Standardfehler und Schätzer der Standardfehler Verteilung
θ
θˆ
Normal
μ
x¯
σ2 S2 Exponential μ = 1/λ x¯ π x/n Binomial Poisson λ x¯ μ = E(X) x¯ Beliebig
E(θˆ )
μ n−1 2 n σ
μ π λ μ
θˆ ) SE( √ S/ n
2(n − 1)/n2 S2 2(n − 1)/n2 √ √ μ/ n x/ ¯ n π (1 − π )/n πˆ (1 − πˆ )/n λ /n x/n ¯ √ √ σ/ n S/ n
σ2
SE(θˆ ) √ σ/ n
Um das zu verdeutlichen, soll nochmal das Beispiel des Schätzers λˆ einer Exponentialverteilung für die Ausgaben in einem Supermarkt betrachtet werden. In Abb. 7.18a war ein Histogramm der Schätzer von 1000 Stichproben mit jeweils zehn Supermarkt-Kunden dargestellt. Abbildung 7.18b zeigt ein Histogramm der Schätzer, die man erhält, wenn man 1000 Stichproben der Größe 25 zieht. Wie zu erkennen ist, ist die Verteilung im unteren Histogramm schmaler. Mit anderen Worten ist die Schätzung bei größerem Stichprobenumfang in diesem Sinn sicherer: Mit steigender Stichprobengröße schrumpft der Standardfehler des Schätzers. Die nächste Eigenschaft von Schätzern, die erklärt werden soll, ist der Bias. Der Schätzfehler eines Schätzers θˆ ist gegeben durch die Differenz
θˆ − θ . Der Bias oder die Verzerrung des Schätzers θˆ ist dann definiert als Bias(θˆ ) = E(θˆ − θ ) = E(θˆ ) − θ , also als erwartete Abweichung des Schätzers vom zu schätzenden Parameter beziehungsweise als erwarteter Schätzfehler. Wenn wir uns noch einmal die Interpretation des Erwartungswertes als Mittelwert sehr vieler Realisationen einer Zufallsvariablen in Erinnerung rufen, wird deutlich, dass der Bias aussagt, ob ein Schätzer den Parameter im Durchschnitt über- bzw. unterschätzt. Ist der Bias Null, so wird der Parameter im Mittel weder über- noch unterschätzt. In diesem Fall wird der Schätzer als erwartungstreu oder unbiased bezeichnet. Um das Konzept des Bias zu erläutern (und den Standardfehler zu vertiefen), betrachten wir ein Beispiel, in dem zwei verschiedene Schätzer für den Parameter λ einer Poissonverteilung bestimmt werden. Tabelle 7.14 zeigt 30 Beobachtungen einer poissonverteilten Zufallsvariablen mit Parameter λ = 2.5.
7.4 Eigenschaften von Schätzern
219
Tabelle 7.14 Realisationen einer Poissonverteilung mit λ = 2.5 2 2 3 2 0 4 1 0 1 3 3 7 2 1 7 2 2 3 0 2 3 4 3 2 2 5 2 3 3 4
Obwohl wir den wahren Wert kennen (λ = 2.5), wollen wir davon ausgehen, dass wir nur die Stichprobe zur Verfügung hätten, um den Parameter zu schätzen. Die beiden Schätzer, die wir zur Schätzung von λ verwenden werden, sind: • λˆ A = x¯ = 2.63 • λˆ B = Durchschnitt von Maximum und Minimum der Stichprobe, (0+7)/2 = 3.5 Die beiden Schätzer liefern unterschiedliche Werte und es stellt sich daher die Frage, welcher der beiden verwendet werden sollte. Um diese Frage zu beantworten, wurden die Eigenschaften der Schätzer untersucht, indem für 1000 simulierte Stichproben der Größe n = 30 beide Schätzer bestimmt wurden. Abbildung 7.19 zeigt die entsprechenden Ergebnisse. Man erkennt, dass das obere Histogramm schmaler ist, d.h. der Standardfehler von λˆ A ist kleiner als der von λˆ B . Ferner ist zu erkennen, dass λˆ A im Gegensatz zu λˆ B unverzerrt ist: Bias(λˆ A ) = E(λˆ A ) − λ = 2.5 − 2.5 = 0 Bias(λˆ B ) = E(λˆ B ) − λ = 3.1 − 2.5 = 0.6
Abb. 7.19 Histogramme von 1000 simulierten Schätzern. a λˆ A und b λˆ B
220
7 Modellanpassung und Parameterschätzung
Der Bias sagt aus, dass λˆ B den Parameter im Durchschnitt um 0.6 überschätzt. Die eingangs gestellte Frage lässt sich also eindeutig beantworten: Wir sollten λˆ A zur Schätzung verwenden, da er einen geringeren Standardfehler besitzt und zudem unverzerrt ist. Beide Maße (Standardfehler und Bias) sagen also etwas über die Güte eines Schätzers aus. Wünschenswert wäre demnach ein erwartungstreuer Schätzer mit möglichst kleinem Standardfehler. Er schätzt den Parameter im Mittel richtig und schwankt nur wenig um den wahren Wert des Parameters. Wenn von zwei alternativen Schätzern der eine einen geringeren Bias und der andere einen geringeren Standardfehler besitzt, ist es nützlich, beide Maße in einem einzigen Maß zusammenzufassen. Damit sind wir bei der dritten Eigenschaft eines Schätzers angekommen. Es handelt sich um den mittleren quadratischen Fehler eines Schätzers, der mit MQF(θˆ ) oder MSE(θˆ ) (mean squared error) bezeichnet wird. Wie bereits angedeutet, berechnet sich der mittlere quadratische Fehler aus dem Bias und dem Standardfehler (bzw. der Varianz) eines Schätzers: MQF(θˆ ) = E (θˆ − θ )2 = Bias(θˆ )2 + Var(θˆ ) = Bias(θˆ )2 + SE(θˆ )2 Es ist zu erkennen, dass der mittlere quadratische Fehler für einen erwartungstreuen Schätzer mit dessen Varianz übereinstimmt. Betrachten wir noch einmal die Simulationsstudie, die wir zur Beurteilung der Schätzer λˆ A und λˆ B durchgeführt haben. Wir können jetzt die mittleren quadratischen Fehler der beiden Schätzer angeben (die Standardfehler wurden oben nicht explizit berechnet): MQF(λˆ A ) = (0.00)2 + (0.29)2 = 0.08 MQF(λˆ B ) = (0.64)2 + (0.57)2 = 0.73 Bevor wir mit neuen Inhalten fortfahren, soll noch ein kurzer Überblick über das allgemeine Problem gegeben werden, das wir im Moment betrachten. Man kann die Situation wie folgt beschreiben: Unser Ziel ist es, die Verteilung eines Merkmals in einer Grundgesamtheit zu beschreiben. Zum Beispiel könnten wir an einer Antwort auf die Frage interessiert sein, wieviel Geld jede Familie in Deutschland pro Woche für Lebensmittel ausgibt. Um das Problem eindeutig zu formulieren, sollten wir eine bestimmte Woche festlegen, z.B. die letzte. Wenn wir jede einzelne Familie in Deutschland fragen könnten, wieviel sie in der letzten Woche für Lebensmittel ausgegeben hat, dann hätten wir genau die Information, nach der wir suchen. Wir könnten diese Information in einer Dichtefunktion zusammenfassen. Es wäre allerdings zu aufwendig, eine Totalerhebung durchzuführen, so dass wir gezwungen sind, f (x) mit Hilfe einer Stichprobe zu schätzen. Wir können ein Histogramm der Werte aus der Stichprobe zeichnen und dieses Histogramm als Schätzer der Dichtefunktion benutzen. Eine zweite (alternative) Möglichkeit ist, f (x) zu schätzen, indem man ein Modell benutzt, wie z.B. die Normalverteilung oder vielleicht ein noch komplizierteres Modell.
7.5 Der zentrale Grenzwertsatz
221
Verfährt man nach der zweiten Alternative, muss man zunächst eine Familie von Modellen finden, die in etwa die gleiche Gestalt hat wie das Histogramm. Nehmen wir beispielsweise an, dass eine Normalverteilung auf Grund der Gestalt des Histogramms plausibel erscheint. Dies ist wichtig, da nicht alle stochastischen Probleme mit den wenigen Verteilungen behandelt werden, die wir in diesem Buch kennengelernt haben. Im nächsten Schritt müssen die Parameter des Modells geschätzt werden. Im Fall der Normalverteilung müssen wir zwei Parameter schätzen, nämlich μ und σ 2 . Wir haben zwei allgemeine Methoden kennengelernt, um dies zu tun, nämlich die Methode der Momente und die Maximum-Likelihood-Methode. Im Falle der Normalverteilung führten beide zu denselben Schätzern:
μˆ = x¯
σˆ 2 = S2
Wir haben außerdem Eigenschaften von Schätzern betrachtet. Als erstes haben wir festgestellt, dass ein Schätzer eine Zufallsvariable ist und demnach eine Verteilung hat. Weiter haben wir die folgenden Begriffe definiert: • Standardfehler • Bias • Mittlerer quadratischer Fehler
7.5 Der zentrale Grenzwertsatz Zunächst wollen wir den Sachverhalt durch ein Beispiel motivieren: Nehmen wir an, wir möchten den Gesamtwert des Holzes in einem Wald mit 1276 Bäumen schätzen. Wenn wir den durchschnittlichen Wert der Bäume kennen würden, wäre es unproblematisch, den Gesamtwert des Waldbestandes exakt zu bestimmen: Gesamtwert = 1276 · μ e Wir haben gesehen, dass μ durch x, ¯ den Stichprobenmittelwert, geschätzt werden kann. Da wir nicht alle Bäume untersuchen können, ziehen wir eine Stichprobe, beispielsweise der Größe n = 10. Nehmen wir nun an, dass wir als Stichprobenmittelwert x¯ = 94 e erhalten, dann ist der geschätzte Gesamtwert des Holzes: Geschätzter Gesamtwert = 1276 · 94 = 119 944 e Nun ist man daran interessiert, wie genau die Schätzung ist, zum Beispiel ob der Schätzfehler 1000 e oder 10 000 e beträgt. Um diese Frage zu beantworten, müssen wir die Eigenschaften des Schätzers betrachten. In diesem Zusammenhang sind die nachfolgenden Ausführungen zu sehen. Sie beziehen sich auf die Güte der Schätzung. Wir werden zwei Fälle unterscheiden. Zum einen betrachten wir Schätzer, die aus Stichproben einer normalverteilten Grundgesamtheit berechnet werden und im zweiten Fall werden andere Verteilungen der Grundgesamtheit zusammengefasst.
222
7 Modellanpassung und Parameterschätzung
7.5.1 Resultate für eine normalverteilte Grundgesamtheit Wenn eine Stichprobe aus n unabhängigen Beobachtungen einer normalverteilten Grundgesamtheit besteht, dann ist μˆ = x¯ ebenfalls normalverteilt mit den Parametern μ und σ 2 /n. Betrachten wir zum Beispiel Stichproben aus einer N(15, 25)-verteilten Grundgesamtheit, so gilt für: • 10 Beobachtungen: • 50 Beobachtungen:
x¯ ∼ N(15, 25/10) = N(15, 2.5) x¯ ∼ N(15, 25/50) = N(15, 0.5)
Abbildung 7.20 zeigt die Dichtefunktion der Grundgesamtheit und die Dichten von x¯ für n = 10 und n = 50. Man entnimmt der Abbildung, dass mit wachsendem Stichprobenumfang die Verteilung von x¯ schmaler wird und somit die mit unserem Schätzer verbundene Unsicherheit reduziert wird. Zusammenfassend können wir für den Schätzer μˆ = x¯ festhalten: • • • •
E(x) ¯ =μ Bias(x) ¯ = E(μˆ ) − μ = μ√− μ = 0 Standardfehler(x) ¯ = σ/ n MQF(x) ¯ = Bias2 + Standardfehler2 = σ 2 /n
Der Stichprobenmittelwert ist also ein erwartungstreuer Schätzer des Erwartungswertes, d.h. des Mittelwerts in der Grundgesamtheit μ . Die Varianz einer N(μ ; σ 2 )-Verteilung ist bekanntlich σ 2 und der Schätzer für die Varianz nach der Methode der Momente und der Maximum-LikelihoodMethode war: σˆ 2 = S2 S2 ist wie jeder Schätzer eine Zufallsvariable. Für den Erwartungswert gilt: E(S2 ) =
n−1 2 σ n
Abb. 7.20 Dichtefunktion einer N(15; 25)-Verteilung und Verteilung von x¯ für 10 und 50 Beobachtungen
7.5 Der zentrale Grenzwertsatz
223
Damit ist E(S2 ) = σ 2 und somit ist S2 kein erwartungstreuer Schätzer für σ 2 , d.h. der Schätzer besitzt einen Bias ungleich Null für n < ∞. Der Wert des Bias berechnet sich wie folgt: n−1 2 1 σ − σ2 = − σ2 Bias(S2 ) = n n Der folgende Schätzer für σ 2 ist dagegen erwartungstreu: S∗2 =
1 n n ∑ (Xi − x)¯ 2 = n − 1 S2 n − 1 i=1
Jedoch kann man zeigen, dass der Standardfehler von S2 kleiner ist als der von Damit ist S∗2 bezüglich der Erwartungstreue zwar besser als S2 . Betrachtet man jedoch den Standardfehler, so ist S∗2 schlechter als S2 . Der mittlere quadratische Fehler vereint beide Gütekriterien. Man kann zeigen, dass: S∗2 .
MQF(S2 ) < MQF(S∗2 ) Der kleinere mittlere quadratische Fehler von S2 ist der Grund dafür, dass häufig der nicht erwartungstreue Schätzer S2 dem erwartungstreuen Schätzer S∗2 vorgezogen wird.
7.5.2 Resultate für andere Verteilungen der Grundgesamtheit Die obigen Eigenschaften für eine normalverteilte Grundgesamtheit gelten zum Teil auch für andere Verteilungen. Bevor wir genauer darauf eingehen, soll noch eine Bemerkung zur Notation gemacht werden. Wir haben die Symbole μ und σ 2 für die Parameter der Normalverteilung benutzt. Dieselben Symbole werden häufig auch für den Erwartungswert und die Varianz jeder anderen Verteilung benutzt: E(X) = μ ,
Var(X) = σ 2
Tabelle 7.15 enthält die Erwartungswerte und Varianzen nach dieser Notation für die wichtigsten der hier besprochenen Verteilungen. Wenn eine Stichprobe aus n unabhängigen Beobachtungen einer beliebig verteilten Grundgesamtheit besteht, dann gilt für den Stichprobenmittelwert: • E(x) ¯ = μ. • Var(x) ¯ = σ 2 /n • x¯ ist asymptotisch normalverteilt. Der Stichprobenmittelwert √ ist also ein erwartungstreuer Schätzer für μ und besitzt den Standardfehler σ / n. Bemerkenswert ist insbesondere die asymptotische Normalverteilung von x. ¯ Das bedeutet, dass x¯ normalverteilt ist, wenn der Stichpro-
224
7 Modellanpassung und Parameterschätzung
Tabelle 7.15 Erwartungswerte und Varianzen einiger Verteilungen Verteilung
Abkürzung Erwartungswert Varianz mit Parametern E(X) Var(X)
Normal Poisson Binomial Exponential
X X X X
∼ N(μ , σ 2 ) ∼ Po(λ ) ∼ b(n, π ) ∼ Exp(λ )
μ μ =λ μ = nπ μ = 1/λ
σ2 σ2 = λ σ 2 = nπ (1 − π ) σ 2 = 1/λ 2
benumfang sehr groß wird (bzw. streng genommen gegen unendlich strebt). Dieses Resultat wird als Zentraler Grenzwertsatz bezeichnet. Die Bedeutung des zentralen Grenzwertsatzes wird deutlich, wenn man bedenkt, dass der Stichprobenmittelwert immer asymptotisch normalverteilt ist, und zwar vollkommen unabhängig von der Verteilung der Grundgesamtheit. Darüber hinaus ist die Annäherung an die Normalverteilung häufig auch für einen kleineren Stichprobenumfang recht gut. Zur Verdeutlichung des zentralen Grenzwertsatzes betrachten wir noch zwei Beispiele. Betrachten wir zunächst einen fairen Würfel. Die Zufallsvariable X sei einfach die geworfene Augenzahl in einem Versuch. Die Wahrscheinlichkeitsfunktion von X ist dann: 1/6 x = 1, 2, 3, 4, 5, 6 P(x) = 0 sonst Abbildung 7.21 stellt die entsprechende Wahrscheinlichkeitsfunktion grafisch dar. Die Gestalt dieser Grundgesamtheit weckt noch nicht die Vermutung, dass der Mittelwert von Stichproben normalverteilt sein könnte. Für den Erwartungswert und die Varianz gilt: E(X) = 3.5 Var(X) = 2.92
Abb. 7.21 Wahrscheinlichkeitsfunktion für die Augenzahl eines fairen Würfels
7.5 Der zentrale Grenzwertsatz
225
Angenommen der Würfel wird n mal geworfen, d.h. wir erzeugen eine Stichprobe der Größe n, dann gilt für den Stichprobenmittelwert: • E(x) ¯ = 3.5 • SE(x) ¯ = 2.92/n • x¯ ist asymptotisch normalverteilt: x¯ ∼ N(3.5; 2.92/n) Betrachten wir nun die konkrete Stichprobengröße n = 5. Tabelle 7.16 zeigt die ersten zwei und die letzte von insgesamt 1000 mit dem Computer simulierten Stichproben. Aus der letzten Spalte ist bereits zu erkennen, dass x¯ eine Zufallsvariable ist, da verschiedene Werte realisiert werden. Abbildung 7.22 zeigt in der oberen Grafik die 1000 Stichprobenmittelwerte in einem Histogramm gemeinsam mit der asymptotischen Normalverteilung. Es ist beachtenswert, wie gut die Normalverteilung und das Histogramm übereinstimmen, insbesondere wenn man bedenkt, wie klein die Stichprobe ist. Abbildung 7.22b zeigt, was passiert, wenn man den Stichprobenumfang vergrößert auf n = 20. Man erkennt nicht nur die gute Anpassung der Normalverteilung, sondern alle oben betrachteten Resultate für das Würfelbeispiel: Tabelle 7.16 1000 Stichproben der Größe n = 5 für die Augenzahl eines fairen Würfels Stichprobe 1 2 5 4 2 6 x¯ = 3.8 Stichprobe 2 3 1 3 6 1 x¯ = 2.8 ... ... ... Stichprobe 1 000 1 3 2 3 5 x¯ = 2.8
Abb. 7.22 Histogramme von 1000 Stichprobenmittelwerten aus den Augenzahlen (n = 5, 20) eines fairen Würfels und asymptotische Normalverteilung
226
7 Modellanpassung und Parameterschätzung
• Der Erwartungswert für die Augenzahl beim fairen Würfel ist μ = 3.5. Die Histogramme der Stichprobenmittelwerte haben ihren Schwerpunkt etwa an der Stelle 3.5. • Wenn wir den Stichprobenumfang vergrößern, wird das Histogramm schmaler und höher. Die Streuung der Stichprobenmittelwerte nimmt mit wachsendem Stichprobenumfang ab. • Die Histogramme haben eine glockenförmige Gestalt, und je größer der Stichprobenumfang ist, desto besser ist die Approximation durch die Normalverteilung. Das Bemerkenswerte an dem zentralen Grenzwertsatz ist, dass wir mit einer diskreten, flachen Verteilung beginnen (siehe Abb. 7.21) und trotzdem als Verteilung der Mittelwerte schon für relativ kleine Stichprobengrößen angenähert eine Normalverteilung (stetig und glockenförmig) erhalten. Dasselbe gilt auch, wenn wir den Stichprobenmittelwert aus Stichproben einer Exponentialverteilung, Binomialverteilung oder fast jeder anderen Verteilung berechnen. Betrachten wir noch einmal das Beispiel für die Altersverteilung der Einwohner Göttingens (Beispiel 7.2). Abbildung 7.6 zeigte die Dichtefunktion, die eingangs diskutiert wurde. Auch hier zeigen die Stichprobenmittelwerte die Änhnlichkeit mit einer Normalverteilung. Wie in Abb. 7.23 zu sehen, ist die Annäherung der Normalverteilung an die Histogramme recht gut, obwohl die Stichprobengrößen eher klein sind und die Dichtefunktion kompliziert ist. In allen Fällen, die wir betrachtet haben, und fast allen anderen Fällen ist der Mittelwert von Stichproben annähernd normalverteilt. Es gibt jedoch einige wenige Verteilungen der Grundgesamtheit, für die dieses Resultat nicht gilt. Diese Ausnah-
Abb. 7.23 Histogramme von 1000 Stichprobenmittelwerten aus der Göttinger Altersverteilung (n = 5, 10) und asymptotische Normalverteilung
7.6 Konfidenzintervalle
227
men sind jedoch von geringerer praktischer Bedeutung. Wir haben an einigen Beispielen gesehen, was der zentrale Grenzwertsatz aussagt. Dieser Satz ist der Grund, weshalb die Normalverteilung eine so große Bedeutung hat.
7.6 Konfidenzintervalle 7.6.1 Einführung Wir haben uns bereits mit der Modellanpassung und der Parameterschätzung befasst. Wichtig war vor allem, dass Parameterschätzer Zufallsvariablen darstellen. Daraufhin haben wir Eigenschaften dieser Zufallsvariablen benutzt, um Gütekriterien für die Schätzer zu bestimmen. So gelangten wir zu den Begriffen des Standardfehlers, des Bias und des mittleren quadratischen Fehlers von Schätzern. Eine weitere Möglichkeit, die Güte von Schätzungen zu beurteilen, stellen Konfidenzintervalle dar. Wie bereits aus dem Begriff deutlich wird, handelt es sich um einen Vertrauensbereich; genauer formuliert um einen Bereich, der den zu schätzenden Parameter mit einer gegebenen Wahrscheinlichkeit enthält. In der Praxis wird für diese Wahrscheinlichkeit häufig 0.9, 0.95 oder 0.99 verwendet. Wie ein solches Konfidenzintervall konstruiert werden kann, wird anhand der folgenden Überlegungen deutlich. Im vorangegangen Abschnitt wurde dargestellt, dass x¯ bei normalverteilter Grundgesamtheit ebenfalls normalverteilt ist und den Erwartungswert μ sowie die Varianz σ 2 /n besitzt. Daraus folgt (siehe Kapitel zur Normalverteilung), dass x¯ − μ √ ∼ N(0, 1) σ/ n gilt. Bei der Standardnormalverteilung liegt ca. 90% der Fläche zwischen −1.64 und 1.64, d.h. es gilt: x¯ − μ √ < 1.64 = 0.90 P −1.64 < σ/ n Wenn man nun diese Gleichung umformt, wird die Interpretation eines Konfidenzintervalls deutlich: x¯ − μ √ < 1.64 = 0.90 P −1.64 < σ/ n √ √
P −1.64 · σ / n < x¯ − μ < 1.64 · σ / n = 0.90
√ √ P −1.64 · σ / n − x¯ < −μ < 1.64 · σ / n − x¯ = 0.90
228
7 Modellanpassung und Parameterschätzung
Zur Vereinfachung werden jetzt die beiden Ungleichungen innerhalb der Klammer getrennt betrachtet. Zunächst erhält man für die linke Seite: √ −1.64 · σ / n − x¯ < −μ √ μ < x¯ + 1.64 · σ / n Und für die rechte Seite erhält man: √ −μ < 1.64 · σ / n − x¯ √ x¯ − 1.64 · σ / n < μ Fasst man die Ergebnisse zusammen, so ergibt sich: √ √
P x¯ − 1.64 · σ / n < μ < x¯ + 1.64 · σ / n = 0.90 Um die Aussage des Ausdrucks noch deutlicher zu machen, definieren wir: √ C− = x¯ − 1.64 · σ / n √ C+ = x¯ + 1.64 · σ / n Mit dieser Definition erhält man also:
P C− < μ < C+ = 0.90 Man kann folglich (wenn σ 2 bekannt ist) den Bereich (C− ,C+ ) bestimmen, der den wahren Parameter μ mit einer Wahrscheinlichkeit von 0.9 enthält. Allgemein wird die Wahrscheinlichkeit 0.9 auch als Niveau des Konfidenzintervalls bezeichnet und mit 1 − α notiert. Im Beispiel hatten wir somit 1 − α = 0.9. Bedenkt man, dass (C− ,C+ ) ein zufälliges Intervall ist, können wir festhalten: Ein Konfidenzintervall zum Niveau 1 − α enthält den wahren Parameter mit einer Wahrscheinlichkeit von 1 − α . Die Herleitung des Konfidenzintervalls war nur möglich, weil der Stichprobenmittelwert bei normalverteilter Grundgesamtheit ebenfalls normalverteilt ist. Aber auch in anderen Situationen sind Schätzer häufig approximativ normalverteilt. Man denke zum Beispiel an den zentralen Grenzwertsatz, der besagt, dass der Stichprobenmittelwert bei beliebiger Verteilung der Grundgesamtheit asymptotisch normalverteilt ist. Auch πˆ (im Grunde genommen auch ein Stichprobenmittelwert) ist annähernd normalverteilt.
7.6 Konfidenzintervalle
229
7.6.2 Konfidenzintervalle für μ bei unbekannter Varianz Wir betrachten jetzt die Situation, in der wir ein Konfidenzintervall für den Erwartungswert μ aus einer Zufallsstichprobe bestimmen wollen. Dabei gehen wir im Unterschied zum letzten Abschnitt davon aus, dass die Varianz der Grundgesamtheit unbekannt ist. Die Formeln für die Intervallgrenzen sind in diesem Fall durch √ C− = x¯ − tn−1, α /2 · S∗ / n √ C+ = x¯ + tn−1, α /2 · S∗ / n gegeben. Um die Grenzen berechnen zu können, werden also x, ¯ S∗ , n und tn−1, α /2 benötigt. Während wir bereits wissen, wie man den Stichprobenmittelwert und S∗2 , den erwartungstreuen Schätzer der Varianz, berechnet, muss die Bestimmung von tn−1, α /2 noch erläutert werden. Zunächst sei erwähnt, dass es sich um einen Wert auf der x-Achse der Dichtefunktion einer t-Verteilung mit Parameter ν = n − 1 handelt. Allgemein gilt für einen Wert tn−1, α (man beachte, dass im Index jetzt α statt α /2 verwendet wurde): P(X > tn−1, α ) = α Dabei folgt X einer t-Verteilung mit Parameter ν = n − 1 (zur Erinnerung: der Parameter einer t-Verteilung entspricht der Anzahl der Freiheitsgrade). Abbildung 7.24 zeigt die grafische Interpretation beispielhaft für eine t-Verteilung mit 29 Freiheitsgraden. Die Fläche unter der t-Verteilung rechts von t29, α beträgt genau α . Durch eine Umformung der Gleichung erkennt man, wie der Wert bestimmt wird: P(X > tn−1, α ) = α P(X ≤ tn−1, α ) = 1 − α F(tn−1, α ) = 1 − α tn−1, α = F −1 (1 − α )
Abb. 7.24 Bestimmung von t29, α
230
7 Modellanpassung und Parameterschätzung
Abb. 7.25 Histogramm der Brenndauer von 30 Glühbirnen und Konfidenzintervalle für die mittlere Brenndauer
Benötigt man nun beispielsweise tn−1, α /2 für n = 30 und α = 0.1, so erhält man den gewünschten Wert, indem man F −1 (1 − 0.05) = F −1 (0.95) für die entsprechende t-Verteilung bestimmt. Man kann den Wert tn−1, α /2 = t29, 0.05 aus der im Anhang gegebenen Tabelle ablesen. Man suche die Zeile, die 29 Freiheitsgrade anzeigt und wähle die Spalte mit dem Wert 0.05. Das Kreuzelement der Tabelle ist 1.70. Alternativ gibt einem jede Standard-Software diesen Wert. Betrachten wir als konkretes Beispiel zur Berechnung eines Konfidenzintervalls bei unbekannter Varianz noch einmal die Stichprobe der Brenndauern von 30 Glühbirnen, die schon im ersten Kapitel vorgestellt wurde (Beispiel 1.12). Die Brenndauern der 30 Glühbirnen sind in Tabelle 1.7 gegeben. Das Histogramm der Daten ist noch einmal in Abb. 7.25 zu sehen. Die Verteilung ist fast symmetrisch und glockenförmig, so dass die Annahme einer normalverteilten Grundgesamtheit hier nicht abwegig erscheint. Für den Stichprobenmittelwert und die Stichprobenvarianz erhält man: x¯ = 1 092.9
S∗2 = 42 484
S∗ = 206.12
Zur Konstruktion des 90%-Konfidenzintervalls fehlt noch der Wert von tn−1, 0.05 = t29, 0.05 . Es wurde bereits oben erläutert, dass man dafür den Wert 1.70 erhält. Unter Verwendung dieser Werte ergibt sich für die Grenzen des Konfidenzintervalls: √ C− = 1 092.9 − 1.70 · 206.12/ 30 = 1 028.9 √ C+ = 1 092.9 + 1.70 · 206.12/ 30 = 1 156.9 Somit erhalten wir als Konfidenzintervall (1 028.9; 1 156.8). Selbstverständlich ist es möglich, das Konfidenzniveau und folglich die Sicherheit, dass der Parameter innerhalb des Intervalls liegt, zu erhöhen. Damit sind jedoch weiter auseinanderliegende Intervallgrenzen verbunden, so dass das Konfidenzintervall weniger präzise ist. Um dies zu verdeutlichen, berechnen wir ein Konfidenzintervall zum Niveau 0.99. In diesem Fall ist 1 − α = 0.99, also α /2 = 0.005. Aus der
7.6 Konfidenzintervalle
231
Tabelle erhalten wir t29, 0.005 = 2.76. Somit ergibt sich für das Intervall: √ C− = 1 092.9 − 2.76 · 206.12/ 30 = 989.0 √ C+ = 1 092.9 + 2.76 · 206.12/ 30 = 1 196.8 Zur Verdeutlichung sind die beiden berechneten Konfidenzintervalle in Abb. 7.25 über das Histogramm gezeichnet. Wie wir sehen, ist das Intervall beim Übergang von 90% auf 99% breiter geworden. Dafür hat sich aber die Wahrscheinlichkeit erhöht, mit der μ in dieses Intervall fällt. Bei dem Beispiel der Glühbirnen-Daten in Kapitel 1 wurde erwähnt, dass von den ursprünglich 417 vorliegenden Beobachtungen eine Stichprobe von 30 Glühbirnen ausgewählt wurde. Wenn wir die 417 Glühbirnen als Grundgesamtheit betrachten, ist in diesem Fall — im Gegensatz zu den meisten anderen Fällen — der wahre Mittelwert ausnahmsweise bekannt. Er beträgt 1045.4 Stunden. Beide Konfidenzintervalle enthalten also den wahren Parameter. Zieht man jedoch mehrere Stichproben (der Größe 30) und berechnet jeweils ein 90%-Konfidenzintervall, so erwartet man für 10% der Intervalle, dass sie den wahren Parameter nicht enthalten. Verdeutlicht wird dies in Abb. 7.26, die 20 Konfidenzintervalle aus verschiedenen Stichproben zum Niveau 0.9 zeigt. Wie zu erkennen ist, enthalten in diesem Fall 2 der 20 Konfidenzintervalle (also tatsächlich 10 %) den wahren Parameter nicht. Für andere Stichproben hätte es aber beispielsweise auch passieren können, dass alle Konfidenzintervalle den wahren Parameter enthalten oder dass 1, 3 oder mehr Konfidenzintervalle den wahren Parameter nicht überdecken. Im (äußerst unwahrscheinlichen) Extremfall hätte es sogar sein können, dass alle 20 Konfidenzintervalle den wahren Parameter nicht enthalten. Man kann also nicht sagen, dass jedes zehnte 90%-Konfidenzintervall den wahren Parameter nicht enthält; wenn man aber sehr viele 90%-Konfidenzintervalle berechnet (z.B. 1 000 oder 10 000), dann werden im Durchschnitt 10% der Konfi-
Abb. 7.26 20 Konfidenzintervalle zum Niveau 0.9 für den Mittelwert der Brenndauer von Glühbirnen in der Grundgesamtheit
232
7 Modellanpassung und Parameterschätzung
denzintervalle den wahren Parameter nicht abdecken. Analoge Aussagen kann man für 95%- oder 99%-Konfidenzintervalle treffen. Wie für die Brenndauer können wir auch für andere bereits vorgestellte Beispiele Konfidenzintervalle für den Mittelwert der Grundgesamtheit berechnen. Beispielsweise ergibt sich als 95%-Konfidenzintervall für die Blockzeit der American Airlines Flüge von Dallas / Fort Worth nach Philadelphia (Beispiel 1.2) mit n = 174
x¯ = 183.3
S∗ = 13.84
t173, 0.025 = 1.97
das Intervall (181.2; 185.4). Das heißt, mit einer Wahrscheinlichkeit von 0.95 enthält dieses Intervall die durchschnittliche Blockzeit auf dieser Strecke. Als 90%-Konfidenzintervall für die Tagesrendite der Deutsche Bank Aktie (Beispiel 1.6) erhält man mit n = 506
x¯ = 0.02
S∗ = 1.39
t505, 0.05 = 1.65
das Intervall (−0.08; 0.12). Dieses Ergebnis bedeutet, dass wir bei diesem Konfidenzniveau nicht ausschließen können, dass die tatsächliche durchschnittliche Tagesrendite der Deutsche Bank Aktie negativ ist.
7.6.3 Konfidenzintervalle für μ bei bekannter Varianz Im letzten Abschnitt sind wir davon ausgegangen, dass die Varianz der Grundgesamtheit unbekannt ist (obwohl wir später gesagt haben, dass wir die Grundgesamtheit der Glühbirnen und damit auch die Varianz kennen). Gelegentlich, wenn auch selten, kommt es jedoch vor, dass man die Varianz kennt, während der Mittelwert (weiterhin) unbekannt ist. Diese Situation wurde bereits in der Einführung abstrakt erläutert. Betrachten wir dazu ein weiteres Beispiel. Beispiel 7.5. Füllmenge von Grießpackungen Lebensmittelpackungen werden normalerweise durch Maschinen abgefüllt, bei denen die Soll-Füllmenge eingestellt werden kann. Die Menge, die tatsächlich abgefüllt wird, wird allerdings in der Regel ein wenig variieren, d.h. es handelt sich um eine Zufallsvariable. Da die tatsächlichen Füllmengen aus Verbraucherschutzgründen nicht zu stark von der Soll-Füllmenge abweichen dürfen, führen die staatlichen Eichämter Kontrollen anhand von zufälligen Stichproben durch. Hier betrachten wir Messungen der tatsächlichen Füllmenge von 80 Grießpackungen des Herstellers Rauch-Mühle (Soll-Füllmenge 1 000 Gramm), die vom Eichamt Innsbruck vorgenommen wurden.3 Abbildung 7.27 zeigt ein Histogramm der Messergebnisse zusammen mit einer angepassten Normalverteilung. 3
Die Daten werden vom Arbeitskreis Moderner Mathematik Unterricht (AMMU) des österreichischen Ministeriums für Bildung, Wissenschaft und Kultur auf der Internetseite http://www.ammu.at/archiv/15/15_1.htm zur Verfügung gestellt [Stand 25.04.2008].
7.6 Konfidenzintervalle
233
Abb. 7.27 Histogramm und Dichtefunktion der Füllmenge von 80 Grießpackungen
Die Einhaltung der Soll-Füllmenge bei der Abfüllung der Grießpackungen soll nun durch die Schätzung des Mittelwertes inklusive der Berechnung eines Konfidenzintervalls überprüft werden. Dazu wollen wir jetzt annehmen, dass die Varianz der Füllmenge aus früheren Untersuchungen der Füllmenge bekannt ist und den Wert σ 2 = 8.0 hat. Da die Varianz bekannt ist, verwenden wir jetzt eine andere Formel zur Konstruktion des Konfidenzintervalls für den Mittelwert: √ C− = x¯ − zα /2 · σ / n √ C+ = x¯ + zα /2 · σ / n Wir wollen ein Konfidenzintervall zum Niveau 1 − α = 0.90 bestimmen. Dazu benötigen wir den Wert z0.05 (aus der Verteilungstabelle). Ferner wird der Stichprobenmittelwert benötigt, der für die Stichprobe der 80 Grießpackungen x¯ = 1001.6 beträgt. Damit stehen alle Werte zur Berechnung des Konfidenzintervalls zur Verfügung: x¯ = 1001.6
σ=
√ 8.0 = 2.83
n = 80
z0.05 = 1.64
und wir erhalten für die Grenzen des Konfidenzintervalls: √ C− = 1001.6 − 1.64 · 2.83/ 80 = 1 001.08 √ C+ = 1001.6 + 1.64 · 2.83/ 80 = 1 002.12 Wir haben damit das Intervall (1 001.08; 1 002.12) als den Bereich identifiziert, der die wahre durchschnittliche Füllmenge mit einer Wahrscheinlichkeit von 0.9 enthält. Mit großer Wahrscheinlichkeit liegt also die tatsächliche durchschnittliche Füllmenge oberhalb der Füllmenge von 1 000 Gramm. Der Hersteller könnte also prüfen, ob sich durch eine leiche Veränderung der Einstellung der Füllmaschine die durchschnittliche Füllmenge auf die gewünschten 1 000 Gramm senken ließe, ohne dass die gesetzlichen Vorschriften übertreten werden.
234
7 Modellanpassung und Parameterschätzung
7.6.4 Konfidenzintervalle für den Anteilswert π Wir betrachten jetzt eine Situation, in der wir den Anteil von Mitgliedern einer Grundgesamtheit schätzen wollen, die eine bestimmte Eigenschaft aufweisen, beispielsweise • • • •
den Kauf eines bestimmten Produkts, die Erkrankung an Diabetes, das Sehen einer bestimmten Fernsehsendung oder die Bestellung eines bestimmten Produkts über das Internet.
In den meisten Fällen ist es nicht möglich, den wahren Anteilswert zu bestimmen, da es zu aufwändig wäre, alle Mitglieder der Grundgesamtheit zu untersuchen. Man muss also versuchen, die Problemstellung mit den Informationen aus der Stichprobe zu lösen. Beispiel 7.6. Anteil potenzieller Käufer Ein Verlag möchte abschätzen, wieviele Bestellungen er entgegennehmen kann, wenn er ein Angebot an eine bestimmte Personengruppe (beispielsweise aus der Kundendatenbank des Unternehmens) versendet. Die Gesamtheit der in Frage kommenden Personen stellt die Grundgesamtheit dar, aus der zunächst eine Zufallsstichprobe gezogen wird. Angenommen, man hätte bei einer Stichprobe von n = 200 Personen, denen ein Angebot zugesandt wurde, 17 Bestellungen zurückbekommen. Der Schätzer für den Anteil der Erfolge ist dann:
πˆ = 17/200 = 0.085 = 8.5% Natürlich ist die Güte der Schätzung von Interesse, d.h. man möchte wissen, wie zuverlässig der Schätzer ist, bevor die Druckmaschinen angeworfen werden. Eine Möglichkeit, die Güte der Schätzung zu beschreiben, ist die Angabe eines Konfidenzintervalls für den Parameter π der Grundgesamtheit. Allgemein berechnet sich ein Konfidenzintervall zum Niveau (1 − α ) für einen Anteilswert durch C− = πˆ − zα /2 · πˆ (1 − πˆ )/n C+ = πˆ + zα /2 · πˆ (1 − πˆ )/n Verwendet man diese Formeln, um das 90%-Konfidenzintervall des Beispiels zu berechnen, erhält man mit 1 − α = 0.90 ⇒ zα /2 = 1.64: C− = 0.085 − 1.64 0.085 · (1 − 0.085)/200) = 0.053 C+ = 0.085 + 1.64 0.085 · (1 − 0.085)/200) = 0.117 Das Konfidenzintervall für den Anteil der Bestellungen lautet also (0.053; 0.117). Schauen wir uns die Konstruktion eines Konfidenzintervalls für den Anteilswert noch an einem weiteren realen Beispiel an.
7.6 Konfidenzintervalle
235
Beispiel 7.7. Anteil der Wähler von Al Gore in New Jersey im Jahr 2000 In Kapitel 6 haben wir bereits kurz die US-Präsidentenwahl im Jahr 2000 angesprochen. Jetzt wollen wir die Ergebnisse einer echten Umfrage aus dem USBundesstaat New Jersey betrachten, die im Oktober 2000 (also kurz vor der Wahl) vom Eagleton Institute of Politics der Rutgers State University of New Jersey durchgeführt wurde.4 Gefragt wurden die 432 zufällig ausgewählten Personen unter anderem danach, welchem der Kandidaten sie bei der Wahl ihre Stimme geben würden. Hier betrachten wir nur die 383 Befragten, die sich für einen der möglichen Kandidaten entschieden und nicht angegeben haben, dass sie noch unentschlossen sind. Das Ergebnis ist in Tabelle 7.17 enthalten. Tabelle 7.17 Wahlumfrage zur US-Präsidentenwahl im Jahr 2000 in New Jersey Bush
Gore
Andere
Gesamt
146
210
27
383
38 %
55 %
7%
100 %
George Bush erhielt in dieser Umfrage rund 38% der Stimmen. Konfidenzintervalle können nun genutzt werden, um eine Aussage über den möglichen Bereich des wahren Stimmenanteils von George Bush in New Jersey zu machen. Das 90%Konfidenzintervall für den Anteilswert in der Grundgesamtheit lässt sich beispielsweise über folgende Rechnung bestimmten: C− = 0.38 − 1.64 0.38 · (1 − 0.38)/383 = 0.339 C+ = 0.38 + 1.64 0.38 · (1 − 0.38)/383 = 0.421 Das 90%-Konfidenzintervall ist (0.339; 0.421) und gibt den Bereich an, in dem der wahre Anteil (in New Jersey) bei der US-Präsidentenwahl mit einer Wahrscheinlichkeit von 90% liegt; für George Bush bedeutet dies ein Ergebnis zwischen 33.9 und 42.1%. Verändert man das Niveau des Konfidenzintervalls beispielsweise auf 95%, wird das Intervall breiter. Die größere Sicherheit geht also mit einer größeren Bandbreite möglicher Werte einher. Für das Beispiel ergibt sich als 95%-Konfidenzintervall: C− = 0.38 − 1.96 0.38 · (1 − 0.38)/383 = 0.331 C+ = 0.38 + 1.96 0.38 · (1 − 0.38)/383 = 0.429
4 Die Daten stehen als Umfrage 129 auf der Internetseite http://www.scc.rutgers.edu/eagleton/ index.cfm des Eagleton Instituts zur Verfügung (Stand: 25.04.2008).
236
7 Modellanpassung und Parameterschätzung
Ferner hängt die Breite des Konfidenzintervalls vom Stichprobenumfang ab. Je größer die Stichprobe ist, desto schmaler wird das Intervall. Man kann mit den detaillierteren Informationen einer größeren Stichprobe also den geschätzten Bereich, in dem der wahre Parameter liegt, verkleinern. Nehmen wir an, wir hätten den Anteil πˆ = 0.38 aus einer Stichprobe der Größe n = 3 830 erhalten, dann ergäbe sich als 90%-Konfidenzintervall mit C− = 0.38 − 1.64 0.38 · (1 − 0.38)/3830 = 0.372 C+ = 0.38 + 1.64 0.38 · (1 − 0.38)/3830 = 0.388 das Intervall (0.372; 0.388). Tabelle 7.18 präsentiert das wahre Ergebnis der US-Präsidentenwahl 2000 im Bundesstaat New Jersey.5 George Bush erhielt bei der Wahl tatsächlich 40.3% der abgegebenen Stimmen. Tabelle 7.18 Wahlergebnis der US-Präsidentenwahl im Jahr 2000 im US-Bundesstaat New Jersey Bush
Gore
Andere
Gesamt
40.3 %
56.1 %
3.6 %
100 %
In diesem Fall enthielten die aus der Stichprobe der Größe n = 383 berechneten 90%- und 95%-Konfidenzintervalle auch den tatsächlichen Parameter. Dies muss nicht immer so sein, denn es gibt auch unter den getroffenen Annahmen immerhin noch eine Wahrscheinlichkeit von 10% bzw. 5%, dass der echte Anteil außerhalb des Intervalls liegt. Das Konfidenzintervall für die hypothetische Stichprobengröße n = 3 830 enthält den tatsächlichen Anteil dagegen nicht. Natürlich kann man nicht so einfach unterstellen, dass man bei dieser Stichprobengröße genau dieselben Anteile erhält; vermutlich hätte man stattdessen einen anderen Anteil für George Bush und damit auch ein anderes Konfidenzintervall erhalten. Es wird aber häufig beobachtet, dass es bei Wahlprognosen und Umfragen Unterschiede zwischen den Angaben bei der Umfrage und dem späteren Verhalten bei der Wahl gibt. Außerdem wurden in diesem Beispiel nur diejenigen Personen betrachtet, die sich bei der Umfrage schon für einen Kandidaten entschieden haben. In der Praxis müsste man auch überlegen, was mit denjenigen Befragten passiert, die sich noch nicht festgelegt haben. Möglicherweise verteilen sich diese Personen bei der Wahl anders auf die Kandidaten als die anderen Befragten; es kann aber auch sein, dass die Unentschlossenen gar nicht zur Wahl gehen. Analog zu den Wahlprognosen in diesem Beispiel werden übrigens auch TV-Einschaltquoten ermittelt. Für eine gewisse Anzahl repräsentativer Haushalte wird der
5
Das Ergebnis kann auf der Internetseite http://www.fec.gov/pubrec/2000presgeresults.htm der Federal Election Commission abgerufen werden (Stand: 28.04.2008).
7.6 Konfidenzintervalle
237
Stichprobenanteil einer Fernsehsendung ermittelt und dann mit statistischen Methoden auf die Grundgesamtheit der deutschen Haushalte hochgerechnet.
7.6.5 Konfidenzintervalle für die Varianz Die Varianz ist eine wichtige Eigenschaft zur Beschreibung des Verhaltens von Zufallsvariablen. Es handelt sich um ein Maß für die Streuung von Zufallsvariablen, und es wurde bereits in einem vorangegangenen Kapitel dargestellt, dass die Varianz als Qualitätsmerkmal interpretiert werden kann. Es wurde erwähnt, dass Produkte, die in ihren Eigenschaften stark variieren, von geringerer Qualität sind. Es ist demnach eine wichtige Aufgabe des Qualitätsmanagements, die Varianz in diesem Sinn zu reduzieren, um die Qualität eines Produkts zu erhöhen. Wenn die Varianz einer Grundgesamtheit aus einer Stichprobe geschätzt wird, ist es sinnvoll (neben der Angabe anderer Gütekriterien), ein Konfidenzintervall für die Varianz anzugeben, um die Güte der Schätzung besser beurteilen zu können. Wir kennen zwei alternative Schätzer für die Varianz: S2
und
S∗2
Zur Konstruktion eines Konfidenzintervalls werden wir hier S2 verwenden, es wäre jedoch auch möglich eine Formel mit S∗2 herzuleiten. Exakte Konfidenzintervalle lassen sich nur für eine begrenzte Anzahl von Fällen bestimmen. Einen solchen Fall stellt ein Konfidenzintervall für die Varianz einer normalverteilten Grundgesamtheit dar. Für diesen Fall berechnet sich ein Konfidenzintervall zum Niveau 1 − α aus einer Stichprobe der Größe n durch: 2 C− = n S2 /χn−1, α /2 2 C+ = n S2 /χn−1, 1−α /2
Diese Formel ergibt sich daraus, dass die Summe der quadrierten Abweichungen n
∑ (xi − x)¯ 2 = n S2 = (n − 1) S∗2
i=1
für eine normalverteilte Grundgesamtheit χ 2 -verteilt ist mit n − 1 Freiheitsgraden. In der Praxis wird diese Formel auch verwendet, wenn die Grundgesamtheit nicht normalverteilt ist. Man erhält dann allerdings kein exaktes Konfidenzintervall. Weiter unten wird erklärt, wie dies zu verstehen ist. 2 Um die Formel anzuwenden, benötigt man die χα2 /2 - und χ1− α /2 -Werte einer 2 χ -Verteilung mit n − 1 Freiheitsgraden. Abbildung 7.28 verdeutlicht, wie man diese Werte erhält, wenn man 80 Beobachtungen hat bzw. die Verteilung 80 − 1 = 79 Freiheitsgrade besitzt (auch wenn die Dichtefunktion hier schon sehr einer Normalverteilung ähnelt, handelt es sich um eine χ 2 -Verteilung).
238
7 Modellanpassung und Parameterschätzung
Abb. 7.28 Bestimmung von χn−1, α /2 und χn−1,1−α /2
Allgemein erhält man die Werte wie folgt: 2 P(X > χn−1, α) = α 2 P(X ≤ χn−1, α) = 1 − α 2 F(χn−1, α) = 1 − α 2 −1 χn−1, α = F (1 − α )
Man muss also α /2 bzw. 1 − α /2 von Eins abziehen und das Ergebnis in die Um2 -Verteilung) einsetzen, um die gekehrfunktion der Verteilungsfunktion (einer χn−1 wünschten Zahlen zu bestimmen. Aus der im Anhang gegebenen Tabelle liest man die Ergebnisse dieser Berechnungen leicht ab. Kommen wir noch einmal zur Füllmenge von Grießpackungen (Beispiel 7.5) zurück. Für die 80 Beobachtungen war die Varianz als bekannt (σ 2 = 8.0) betrachtet worden. Nehmen wir jetzt an, wir würden die Varianz nicht kennen und daher ein Konfidenzintervall für die Varianz bestimmen wollen. Betrachten wir ein 90%Konfidenzintervall, dann gilt 1− α = 0.9, α /2 = 0.05 und 1 − α /2 = 0.95. Die zwei 2 -Verteilung sind dann: relevanten Werte der χn−1 2 2 −1 χ79, α /2 = χ79, 0.05 = F (0.95) = 100.75 2 2 −1 χ79, 1−α /2 = χ79, 0.95 = F (0.05) = 59.52
Da die im Anhang aufgeführte Tabelle der χ 2 -Verteilung nur die Werte bis maximal 30 Freiheitsgrade angibt (für größere Freiheitsgrade nähert sich die χ 2 (ν )Verteilung bereits einer N(ν , 2ν )-Verteilung an), müssen diese Werte mit einer Statistik-Software berechnet werden. Ferner ergibt sich aus den Beobachtungen der Varianzschätzer S2 = 7.95. Somit erhält man durch das Einsetzen der Werte in die oben gegebene allgemeine Formel: C− = 80 · 7.95/100.75 = 6.31 C+ = 80 · 7.95/59.52 = 10.69
7.6 Konfidenzintervalle
239
Der wahre Wert der Varianz liegt also mit einer Wahrscheinlichkeit von 90% innerhalb des Intervalls (6.31; 10.69). Wie oben bereits angedeutet, ist dieses Konfidenzintervall nur exakt, wenn die Füllmengen einer exakten Normalverteilung folgen; wenn die Füllmengen dagegen nur angenähert einer Normalverteilung folgen, ist auch das Konfidenzintervall nur approximativ. Kehren wir uns kurz dieser Problematik zur und erläutern, was unter einem exakten bzw. approximativen Konfidenzintervall zu verstehen ist. Dazu rufen wir uns noch einmal die Interpretation eines Konfidenzintervalls in Erinnerung. Ein Konfidenzintervall zum Niveau 1 − α enthält den wahren Parameter mit einer Wahrscheinlichkeit von 1 − α . Angenommen, wir würden 1000 Stichproben aus einer Grundgesamtheit ziehen und mit Hilfe jeder Stichprobe ein 90%-Konfidenzintervall bestimmen, dann würden wir erwarten, dass 900 der Intervalle den wahren Parameter enthalten. Dies gilt für exakte Konfidenzintervalle. Bei angenäherten Konfidenzintervallen unterscheidet sich die tatsächliche Überdeckungswahrscheinlichkeit vom Wert 1 − α , d.h. bei approximativen Konfidenzintervallen weicht die Wahrscheinlichkeit, mit der das Intervall den wahren Parameter enthält, von 0.9 ab, sie liegt aber (je nach Situation) nah bei 0.9 und beträgt vielleicht 0.87 oder 0.91. Wichtigste Konzepte: • • • • • • •
Histogramme als Dichteschätzer Schätzfehler Fehler durch Approximation Momentenmethode Maximum-Likelihood-Methode Schätzer als Zufallsvariablen Eigenschaften von Schätzern: Standardfehler (SE), Mittlerer quadratischer Fehler (MSE) und Bias • Zentraler Grenzwertsatz • Interpretation und Konstruktion von Konfidenzintervallen • Konfidenzniveau
Kapitel 8
Richtig oder falsch — Hypothesentests
Im letzten Kapitel haben wir Konfidenzintervalle kennengelernt. Mit Konfidenzintervallen machen wir eine Aussage über die Grundgesamtheit, obwohl wir nur Informationen über eine Stichprobe aus der Grundgesamtheit haben. Konfidenzintervalle sind eine Möglichkeit, unsere Unsicherheit, die wir bezüglich einer Eigenschaft der Grundgesamtheit (das kann der Mittelwert, die Varianz oder ein Anteilswert in der Grundgesamtheit sein) haben, zu quantifizieren. In diesem Kapitel zeigen wir ein anderes statistisches Konzept, das die Entscheidungsfindung in Situationen erleichtern wird, in denen nur unvollständige Informationen vorhanden sind.
8.1 Einführung in den klassischen Signifikanztest Es gibt Situationen, in denen wir Hypothesen über eine Grundgesamtheit überprüfen möchten. Zum Beispiel könnten wir die folgenden Behauptungen überprüfen: • • • • •
Die meisten Konsumenten ziehen ein neues Produkt einem altbekannten vor. Das Auftreten einer Krankheit hat zugenommen. Das Klima hat sich in den letzten 10 Jahren geändert. Der Marktanteil eines Produkts hat sich vergrößert. Ein neues Medikament vermindert das Risiko eines Herzinfarktes.
Diese Aussagen sind Hypothesen über eine Grundgesamtheit von Menschen oder Sachen. Jede einzelne ist entweder wahr oder falsch. In den meisten Fällen ist es unmöglich, mit Sicherheit herauszufinden, ob die entsprechende Hypothese wahr oder falsch ist. Im ersten Fall zum Beispiel wäre es zu teuer, jeden potenziellen Konsumenten zu fragen, ob er das neue Produkt dem alten vorzieht. Wenn man also die Entscheidung vorbereitet, ob ein neues Produkt eingeführt werden soll oder nicht, dann wird man diese Entscheidung auf der Grundlage unvollständiger Informationen treffen müssen. Man kann jedoch zur Entscheidungsunterstützung eine Stichprobe der potenziellen Konsumenten befragen und auf Grundlage der Antworten die Hypothese W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
241
242
8 Hypothesentests
überprüfen. Diese Methode, das heißt die Überprüfung einer Hypothese über die Grundgesamtheit mit Hilfe einer Stichprobe, nennt man Hypothesentest. Es ist wohl klar, dass man auf Grundlage einer Stichprobe nicht immer die richtige Entscheidung treffen kann. Es kann also vorkommen, dass die Mehrheit der Konsumenten in der Stichprobe das neue Produkt bevorzugt, in der Grundgesamtheit als Ganzes jedoch das Gegenteil der Fall ist. Andererseits ist es möglich, dass die Mehrheit in der Stichprobe das alte Produkt vorzieht, während die Mehrheit in der Grundgesamtheit das neue Produkt bevorzugt. Mit anderen Worten: Es ist möglich, die Hypothese auf Basis einer Stichprobe zu verwerfen, obwohl sie wahr ist, oder auch sie zu akzeptieren, obwohl sie falsch ist. Diese beiden Fehler können bei Hypothesentests auftreten und zu einer falschen Entscheidung führen. Im Folgenden werden wir sehen, wie man Hypothesentests durchführt und für welche Fragestellungen Hypothesentests verwendet werden können. Da Hypothesentests auf Stichproben, also auf Teilinformationen, basieren, wird es nicht möglich sein, Fehlentscheidungen auszuschließen. Wir werden aber zeigen, dass es möglich ist, die sogenannte Irrtumswahrscheinlichkeit, das heißt die Wahrscheinlichkeit einer Fehlentscheidung, zu quantifizieren. Beginnen wir mit einem sehr einfachen Beispiel, um die wesentlichen Punkte zu veranschaulichen, die beim Überprüfen von Hypothesen eine Rolle spielen. Betrachten wir noch einmal die US-Präsidentenwahl im Jahr 2000, die bereits in Beispiel 7.7 thematisiert wurde, und nehmen wir nun an, George Bush hätte vor der Wahl (und vor Durchführung der Umfrage) behauptet, er habe die Unterstützung von mindestens 50% der Stimmberechtigten im Bundesstaat New Jersey. Wenn wir den Anteil der Wähler, die George Bush unterstützen, mit π bezeichnen, können wir die Behauptung wie folgt als Hypothese formulieren: Nullhypothese H0 : π ≥ 0.5
(allgemein π ≥ π0 )
Die zu überprüfende Hypothese wird üblicherweise Nullhypothese genannt und mit H0 gekennzeichnet. Außerdem wird der in der Nullhypothese genannte Anteil mit π0 bezeichnet. Das Gegenteil zur Nullhypothese ist die sogenannte Alternativhypothese, die mit H1 bezeichnet wird. In unserem Beispiel lautet sie: Alternativhypothese H1 : π < 0.5
(allgemein π < π0 )
Die Alternativhypothese ist also genau dann richtig, wenn die Nullhypothese falsch ist, und umgekehrt. Nehmen wir nun an, dass wir zur Überprüfung der Nullhypothese eine zufällige Stichprobe von 9 Wählern befragen, ob sie George Bush unterstützen oder nicht. Eine Stichprobe dieser Größe ist natürlich unrealistisch klein für diese Fragestellung. Sie dient nur zur Illustration der Probleme und Fragen, denen man gegenübersteht, wenn man Hypothesen anhand von Stichproben überprüfen möchte. Da wir uns für den Anteil der Wähler von George Bush interessieren, wollen wir die Anzahl der Anhänger von George Bush in der Stichprobe genauer betrachten: Sei X die Anzahl der Wähler in der Stichprobe, die George Bush unterstützen. Diese Anzahl X ist in unserem Beispiel die sogenannte Prüfgröße, mit der wir die
8.1 Einführung in den klassischen Signifikanztest
243
Nullhypothese überprüfen wollen. Vor Durchführung der Befragung ist X eine Zufallsvariable, die alle ganzen Zahlen zwischen 0 und 9 annehmen kann. Für eine große Grundgesamtheit ist X approximativ binomialverteilt. Erfolg steht in diesem Beispiel für das Ereignis, dass ein Wähler George Bush unterstützt, und Misserfolg dafür, dass er es nicht tut. Die Erfolgswahrscheinlichkeit π ist der wahre Anteil der Wähler in der Grundgesamtheit, die George Bush unterstützen. Die Anzahl der Versuchswiederholungen ist n = 9, und somit gilt X ∼ b(9, π ) . Die Wahrscheinlichkeitsfunktion von X ist gegeben durch: 9 x 9−x für x = 0, 1, 2, . . ., 9 x π (1 − π ) P(x) = 0 sonst Wäre uns der wahre Anteil der Wähler von George Bush π bekannt, könnten wir mit Hilfe dieser Wahrscheinlichkeitsfunktion die Wahrscheinlichkeiten für verschiedene mögliche Realisationen von X berechnen. Nach Durchführung der Befragung kennen wir die tatsächliche Realisation von X. Es könnte zum Beispiel sein, dass 6 der 9 Befragten George Bush unterstützen; es wäre aber auch denkbar, dass beispielsweise nur 4 der befragten Personen George Bush wählen würden. Die Frage ist nun, wie wir die Information der Stichprobe nutzen können, um die Nullhypothese zu überprüfen. Können wir die Nullhypothese als richtig betrachten, wenn tatsächlich 6 der 9 befragten Personen George Bush unterstützen? Oder ist die Nullhypothese falsch, wenn nur 4 der Befragten George Bush wählen würden? Wir benötigen also eine Entscheidungsregel, die uns sagt, wie wir in Abhängigkeit von X, also der Anzahl der Befürworter Bushs in der Stichprobe, über die Nullhypothese urteilen können. Dabei sind grundsätzlich viele verschiedene Entscheidungsregeln denkbar. In der Statistik wird allerdings in der Regel die folgende Entscheidungsregel des klassischen Signifikanztests verwendet:
Wir verwerfen die Nullhypothese nur, wenn wir es für sehr unwahrscheinlich halten, dass sie wahr ist. In unserem Beispiel werden wir die Nullhypothese dann für sehr unwahrscheinlich halten, wenn X, die Anzahl der Bush-Wähler in der Stichprobe, sehr klein ist. Man argumentiert wie folgt:
Wenn die Nullhypothese wahr ist, ist es unwahrscheinlich, dass X sehr klein ist. Falls ein solcher Wert von X vorkommt, werden wir daher die Nullhypothese verwerfen.
244
8 Hypothesentests
Man kann selbst entscheiden, was (bzw. welche Wahrscheinlichkeit) man als sehr unwahrscheinlich bezeichnen möchte. Zum Beispiel könnten wir sagen, dass wir für X = 0, 1, 2 die Nullhypothese für so unwahrscheinlich halten, dass wir sie verwerfen. Diesen Bereich möglicher Werte unserer Prüfgröße X, in dem die Nullhypothese verworfen wird, nennt man Verwerfungsbereich oder auch Ablehnungsbereich (wir werden im Folgenden immer den Begriff Ablehnungsbereich verwenden und diesen mit A kennzeichnen). Warum wir uns hier für den Ablehnungsbereich A = 0, 1, 2 entschieden haben, werden wir später noch sehen. Zunächst betrachten wir jedoch die Fehler, die bei einem Hypothesentest auftreten können, etwas näher. Wie bereits erwähnt, können beim Überprüfen einer Hypothese zwei Arten von Fehlern begangen werden:
α -Fehler: Die Nullhypothese wird verworfen, obwohl sie wahr ist. β -Fehler: Die Nullhypothese wird nicht verworfen, obwohl sie falsch ist. Der α -Fehler wird auch Fehler 1. Art genannt, der β -Fehler Fehler 2. Art. Tabelle 8.1 stellt die Entscheidungssituation mit den beiden möglichen Fehlern dar.
Tabelle 8.1 Fehlerarten beim Hypothesentest Entscheidung Nullhypothese wahr falsch
verwerfen nicht verwerfen
α −
− β
Diese Fehler können bei jeder denkbaren Entscheidungsregel auftreten, wir betrachten aber weiterhin nur den klassischen Signifikanztest. Die Größe der Fehler hängt dann vom tatsächlichen Anteil der Bush-Wähler π ab. Da wir den wahren Anteil nicht kennen, können wir nur mit Hilfe von Annahmen versuchen, eine Aussage über die Wahrscheinlichkeit der Fehler zu treffen. Dazu wollen wir zunächst den Fall betrachten, in dem der Anteil der Bush-Wähler genau 50% beträgt und somit die Nullhypothese (π ≥ 0.5) gerade noch erfüllt ist. Dann ist π = π0 = 0.5, und es ergibt sich die Wahrscheinlichkeitsfunktion P(x) =
9
x
0.5x (1 − 0.5)9−x 0
für x = 0, 1, 2, . . . , 9 sonst ,
mit der man die Wahrscheinlichkeiten für alle möglichen Realisationen von X berechnen kann. Die Wahrscheinlichkeiten sind in Tabelle 8.2 zusammengefasst. Eine grafische Darstellung finden wir in Abb. 8.1. Mit Hilfe dieser Wahrscheinlichkeiten können wir nun für den gewählten Ablehnungsbereich A = 0, 1, 2 die Wahrscheinlichkeit berechnen, dass wir die Nullhypo-
8.1 Einführung in den klassischen Signifikanztest
245
Tabelle 8.2 Wahrscheinlichkeitsfunktion für X, die Anzahl der Bush-Befürworter in der Stichprobe, für π = π0 = 0.5 (d.h. für eine b(9, 0.5)-Verteilung) x P(x)
0
1
2
3
4
5
6
7
8
9
0.002 0.018 0.070 0.164 0.246 0.246 0.164 0.070 0.018 0.002
Abb. 8.1 Wahrscheinlichkeitsfunktion für X, die Anzahl der Bush-Befürworter in der Stichprobe, für π = π = 0.5 (d.h. für eine b(9, 0.5)-Verteilung)
these verwerfen bzw. nicht verwerfen: P(H0 verwerfen) = P(0) + P(1) + P(2) = 0.09 P(H0 nicht verwerfen) = P(3) + P(4) + P(5) + P(6) + P(7) + P(8) + P(9) = 0.91 Diese Entscheidungssituation ist zusammen mit der zu Grunde liegenden b(9, 0.5)Verteilung in Abb. 8.2 dargestellt. Da mit unserer Annahme π = π0 = 0.5 die Nullhypothese wahr ist, treffen wir also mit einer Wahrscheinlichkeit von 0.91 die
Abb. 8.2 b(9, 0.5)-Verteilung für X, die Anzahl der Bush-Befürworter in der Stichprobe, und klassischer Signifikanztest für den Ablehnungsbereich A = 0, 1, 2
246
8 Hypothesentests
richtige Entscheidung, die Nullhypothese nicht zu verwerfen, und mit einer Wahrscheinlichkeit von 0.09 die falsche Entscheidung, sie zu verwerfen. Damit beträgt die Wahrscheinlichkeit eines α -Fehlers in dieser Situation gerade 0.09. Wenn wir den β -Fehler betrachten wollen, müssen wir einen wahren Anteil π unterstellen, bei dem die Nullhypothese nicht erfüllt ist. Dabei wollen wir zunächst annehmen, dass der wahre Anteil der Bush-Wähler 49.99% beträgt (π = 0.4999), die Nullhypothese also gerade nicht wahr ist. Wir erhalten dann eine b(9, 0.4999)Verteilung, deren Wahrscheinlichkeitsfunktion auf drei Nachkommastellen gerundet identisch ist mit der in Tabelle 8.2 und Abb. 8.1 gegebenen Wahrscheinlichkeitsfunktion der b(9, 0.5)-Verteilung. Damit ist die Entscheidungssituation nahezu identisch mit der in Abb. 8.2 dargestellten Entscheidungssituation. Allerdings treffen wir jetzt eine richtige Entscheidung, wenn wir die Nullhypothese verwerfen. Die Wahrscheinlichkeit hierfür beträgt nur 0.09. Andererseits treffen wir mit Wahrscheinlichkeit 0.91 die falsche Entscheidung, die Nullhypothese nicht zu verwerfen. Die Wahrscheinlichkeit eines β -Fehlers beträgt also in dieser Situation 0.91. Bisher haben wir angenommen, dass der wahre Anteil π nahe bei 0.5 liegt, also an der Grenze zwischen Nullhypothese und Alternativhypothese. Wir wollen jetzt einmal näher untersuchen, was mit der Wahrscheinlichkeit von α - und β -Fehler (für den gewählten Ablehnungsbereich A = 0, 1, 2) passiert, wenn wir für den wahren Anteil π andere Werte als 0.5 annehmen. Im Grunde können wir das Ergebnis ableiten, ohne weitere Berechnungen durchzuführen. Wenn π ausgehend von 0.5 steigt, schiebt sich die in Abb. 8.2 dargestellte Binomialverteilung nach rechts und die Wahrscheinlichkeit, die Nullhypothese zu verwerfen, obwohl sie wahr ist (α -Fehler), sinkt. Auf der anderen Seite verschiebt sich die Binomialverteilung nach links, wenn π ausgehend von 0.4999 sinkt, so dass die Wahrscheinlichkeit, die falsche Nullhypothese nicht zu verwerfen (β -Fehler), ebenfalls sinkt. Dieses Verhalten wollen wir noch einmal anhand konkreter Berechnungen nachvollziehen. Tabelle 8.3 zeigt die Wahrscheinlichkeit, die Nullhypothese zu verwerfen bzw. nicht zu verwerfen, in Abhängigkeit vom wahren Anteil π . Abbildung 8.3 zeigt denselben Zusammenhang, nämlich die Veränderung der Wahrscheinlichkeit, die Nullhypothese zu verwerfen bzw. nicht zu verwerfen, wenn man π in sehr kleinen Schritten von 0 bis 1 laufen lässt. Wir können aus dieser Abbildung leicht die Wahrscheinlichkeit einer Fehlentscheidung in Abhängigkeit vom wahren Anteil π ablesen. Für π < 0.5 ist die Nullhypothese falsch, und die Fehlentscheidung besteht darin, sie dennoch nicht zu verwerfen. Diesen Fehler haben wir als β -Fehler bezeichnet. Für π ≥ 0.5 ist die Nullhypothese richtig, und die mögliche Fehlentscheidung besteht darin, sie dennoch zu verwerfen. Diesen Fehler haben wir α -Fehler genannt. Die Wahrscheinlichkeit einer Fehlentscheidung (β -Fehler für π < 0.5 und α -Fehler für π ≥ 0.5) in Abhängigkeit von π ist noch einmal explizit in Abb. 8.4 dargestellt. Dort können wir die maximale Wahrscheinlichkeit von α -Fehler und β -Fehler in unserem Beispiel ablesen. Die Wahrscheinlichkeit eines α -Fehlers ist für π = 0.5 am größten; sie beträgt dann also wie oben berechnet 0.09. Die Wahrscheinlichkeit für
8.1 Einführung in den klassischen Signifikanztest
247
Tabelle 8.3 Wahrscheinlichkeit, die Nullhypothese zu verwerfen bzw. nicht zu verwerfen, in Abhängigkeit vom wahren Anteil π
π
H0 wahr/falsch
P(H0 verwerfen)
P(H0 nicht verwerfen)
0.1 0.2 0.3 0.4 0.4999
falsch falsch falsch falsch falsch
0.95 0.74 0.46 0.23 0.09
0.05 0.26 0.54 0.77 0.91
0.5 0.6 0.7 0.8 0.9
richtig richtig richtig richtig richtig
0.09 0.03 0.004 0.0003 0.0000
0.91 0.97 0.996 0.9997 1.0000
einen β -Fehler wird dann maximal, wenn π ganz nahe bei 0.5, aber kleiner als 0.5 ist (z.B. π = 0.4999 wie in unserer obigen Berechnung); sie beträgt dann ungefähr 0.91. Diese Situation, das heißt kleine maximale Wahrscheinlichkeit für einen α Fehler und große maximale Wahrscheinlichkeit für einen β -Fehler, ist typisch für den klassischen Signifikanztest. Die Idee des klassischen Signifikanztests besteht nämlich gerade darin, die Wahrscheinlichkeit eines α -Fehlers klein zu halten und dabei gleichzeitig den Nachteil einer großen Wahrscheinlichkeit eines β -Fehlers in Kauf zu nehmen oder umgekehrt. Es ist nicht möglich, beide Wahrscheinlichkeiten gleichzeitig klein zu halten, auch nicht mit anderen Entscheidungsregeln. Man wählt also beim klassischen Signifikanztest die maximale Wahrscheinlichkeit eines α -Fehlers, also die Wahrscheinlichkeit, eine wahre Nullhypothese fälschlicherweise zu verwerfen. Die gewählte Wahrscheinlichkeit heißt Signifikanzni-
Abb. 8.3 Wahrscheinlichkeit, die Behauptung zu verwerfen bzw. nicht zu verwerfen, in Abhängigkeit vom wahren Anteil π für n = 9 und Ablehnungsbereich A = 0, 1, 2
248
8 Hypothesentests
Abb. 8.4 Wahrscheinlichkeit einer Fehlentscheidung (α - oder β -Fehler) in Abhängigkeit vom wahren Anteil π für n = 9 und Ablehnungsbereich A = 0, 1, 2
veau des Tests und wird (genau wie der entsprechende Fehler) mit dem griechischen Buchstaben α bezeichnet. Im Allgemeinen wählt man: ⎧ ⎨ 0.01 (1%) Gebräuchliche Signifikanzniveaus: α = 0.05 (5%) ⎩ 0.10 (10%) Die Wahl des Ablehnungsbereichs erfolgt dann in Abhängigkeit vom gewählten Signifikanzniveau: Man wählt das gewünschte Signifikanzniveau α und legt den Ablehnungsbereich dann so fest, dass das Signifikanzniveau eingehalten wird. Bei der Festlegung des Ablehnungsbereichs A = {0, 1, 2} in unserem Beispiel haben wir genau das getan. Wir haben das Signifikanzniveau α = 0.1 gewählt und dann den Ablehnungsbereich so gewählt, dass die Wahrscheinlichkeit, eine richtige Hypothese fälschlicherweise zu verwerfen, diesen Wert nicht überschreitet. Dabei gilt allgemein, dass die Wahrscheinlichkeit eines α -Fehlers dann am größten ist, wenn die Nullhypothese gerade noch erfüllt ist, also hier für π = π0 = 0.5 (siehe auch Abb. 8.4). Man kann dann mit Hilfe der b(9, 0.5)-Verteilung (also den in Tabelle 8.2 gegebenen Wahrscheinlichkeiten) den Ablehnungsbereich ermitteln: A = {0}
:
P(X ≤ 0) = P(0) = 0.002
A = {0, 1} A = {0, 1, 2}
: :
P(X ≤ 1) = P(0) + P(1) = 0.02 P(X ≤ 2) = P(0) + P(1) + P(2) = 0.09
A = {0, 1, 2, 3} :
P(X ≤ 3) = P(0) + P(1) + P(2) + P(3) = 0.25
Wir haben hier also den Ablehnungsbereich A = {0, 1, 2} gewählt, weil dies der größtmögliche Ablehnungsbereich ist, bei dem das Signifikanzniveau α = 0.1 gerade noch eingehalten wird. Bei einem Signifikanzniveau von α = 0.05 hätten wir dagegen den Ablehnungsbereich A = {0, 1} wählen müssen. Der Ablehnungsbereich hängt natürlich nicht nur vom gewählten Signifikanzniveau α ab, sondern auch von der Größe der Stichprobe n und von dem Wert π0 , bei
8.1 Einführung in den klassischen Signifikanztest
249
dem die Nullhypothese gerade noch wahr ist. Dies wollen wir weiterhin mit dem Beispiel der Umfrage zur US-Präsidentenwahl verdeutlichen. In Tabelle 7.17 ist das Ergebnis der im Oktober 2000 in New Jersey durchgeführten Umfrage zur US-Präsidentenwahl für diejenigen Befragten gegeben, die sich für einen Kandidaten entschieden haben und nicht unentschlossen waren. Dies waren insgesamt n = 383 Personen. Dass wir die unentschlossenen Befragten ignorieren, dient hier zur Vereinfachung; in der Praxis müsste man überlegen, wie man diese Personen bei der Überprüfung der Hypothese berücksichtigen kann. Wir betrachten weiterhin die Nullhypothese, dass mindestens 50 % der Wähler in New Jersey George Bush unterstützen. Diese Hypothese ist für π = π0 = 0.5 gerade noch wahr. Wir können dann den Ablehnungsbereich für ein Signifikanzniveau von α = 0.1 mit Hilfe der b(383, 0.5)-Verteilung ermitteln. Der Ablehnungsbereich ist A = {0, 1, . . . , 178}, denn 383 0.5x (1 − 0.5)383−x ≈ 0.09 , P(X ≤ 178) = ∑ x x=0 179 383 P(X ≤ 179) = ∑ 0.5x (1 − 0.5)383−x ≈ 0.11 . x x=0 178
Abbildung 8.5 zeigt die Entscheidungssituation für π = π0 = 0.5 (links) und den Verlauf von α - und β -Fehler in Abhängigkeit vom wahren Anteil π (rechts) für diesen Ablehnungsbereich. Man sieht, dass bei diesem Ablehnungsbereich das Signifikanzniveau α = 0.1 tatsächlich eingehalten wird. Außerdem fällt im Vergleich zu Abb. 8.4 auf, dass bei n = 383 die Wahrscheinlichkeit sowohl eines α - als auch eines β -Fehlers deutlich schneller sinkt als bei n = 9, wenn man sich von π = π0 = 0.5 entfernt. Der Bereich von π , in dem wir mit einer großen Wahrscheinlichkeit eines β -Fehler rechnen müssen, nimmt also mit steigender Stichprobengröße ab. Allerdings ist die Wahrscheinlichkeit eines β -Fehlers auch hier an der Grenze zwischen Nullhypothese und Alternativhypothese sehr groß. Schauen wir uns nun noch an, wie sich die Situation ändert, wenn wir in der Nullhypothese behaupten, dass der Anteil der Bush-Wähler mindestens 40 % beträgt. Jetzt ist die Nullhypothese für π = π0 = 0.4 gerade noch erfüllt, so dass wir den Ablehnungsbereich mit Hilfe einer b(383, 0.4)-Verteilung ermitteln müssen. Da 383 ∑ x 0.4x (1 − 0.4)383−x ≈ 0.09 , x=0 141 383 P(X ≤ 141) = ∑ 0.4x (1 − 0.4)383−x ≈ 0.11 , x x=0
P(X ≤ 140) =
140
erhalten wir hier für α = 0.1 den Ablehnungsbereich A = {0, 1, 2, . . ., 140}. Die Entscheidungssituation für π = π0 = 0.4 und der Verlauf von α - und β -Fehler in Abhängigkeit vom wahren Anteil π sind für diesen Ablehnungsbereich in Abb. 8.6 dargestellt. Auch der Verlauf der Wahrscheinlichkeit von α - und β -Fehler, der sich dann ergibt, ist in Abb. 8.6 dargestellt.
250
8 Hypothesentests
Abb. 8.5 a Entscheidungssituation für π = π0 = 0.5 und b Wahrscheinlichkeit einer Fehlentscheidung (α - oder β -Fehler) in Abhängigkeit vom wahren Anteil π für n = 383 und Ablehnungsbereich X = 0, 1, . . ., 178
Im Vergleich zu Abb. 8.5 hat sich die Kurve der Wahrscheinlichkeit einer Fehlentscheidung einfach nach links verschoben. Entscheidend ist aber auch hier, dass das Signifikanzniveau α = 0.1 eingehalten wird, während die Wahrscheinlichkeit für einen β -Fehler im Grenzbereich sehr groß wird. Da die Wahrscheinlichkeit eines β -Fehlers, also die Wahrscheinlichkeit, eine falsche Hypothese nicht zu verwerfen, beim klassischen Signifikanztest sehr groß werden kann (zumindest im ungünstigsten Fall), werden wir nie sagen, dass wir die Nullhypothese akzeptieren. Stattdessen heisst es: Wenn die Anzahl der Bush-Wähler in der Stichprobe in den Ablehnungsbereich fällt, können wir die Nullhypothese verwerfen. Wenn die Anzahl der Bush-Wähler in der Stichprobe nicht in den Ablehnungsbereich fällt, können wir die Nullhypothese nicht verwerfen. Diese sprachlichen Feinheiten sind hier sehr wichtig, denn wir können uns in keinem der beiden Fälle absolut sicher sein. Wenn wir die Nullhypothese verwerfen, besteht immer die Möglichkeit, dass wir eine falsche Entscheidung treffen. Allerdings ist die Wahrscheinlichkeit einer Fehlentscheidung relativ klein. Sie entspricht maximal dem gewählten Signifikanzniveau. Wir können daher relativ sicher sein, dass die Nullhypothese tatsächlich falsch ist und somit die Alternativhypothese gilt. Wenn wir die Nullhypothese nicht verwerfen, kann die Wahrscheinlichkeit, dass wir eine falsche Entscheidung treffen, sehr groß werden, wie wir gerade gesehen ha-
8.1 Einführung in den klassischen Signifikanztest
251
Abb. 8.6 a Entscheidungssituation für π = π0 = 0.4 und b Wahrscheinlichkeit einer Fehlentscheidung (α - oder β -Fehler) in Abhängigkeit vom wahren Anteil π für n = 383 und Ablehnungsbereich X = 0, 1, . . ., 140
ben. Daher können wir nicht sicher sein, dass die Nullhypothese tatsächlich richtig ist; wir können sie nur nicht verwerfen. Dies sind also die beiden möglichen Ergebnisse des klassischen Signifikanztests. Schauen wir uns nun an, zu welchem Ergebnis wir in unserem Beispiel kommen. Tabelle 7.17 können wir entnehmen, dass 146 der 383 berücksichtigten Befragten George Bush unterstützen. Die Anzahl 146 ist also in diesem Fall die Prüfgröße. Wir können daher sagen: • Unter der Nullhypothese H0 : π ≥ 0.5 fällt die Prüfgröße 146 bei einem Signifikanzniveau α = 0.1 in den Ablehnungsbereich A = {0, 1, . . . , 178}. Wir können H0 also verwerfen, wobei die sogenannte Irrtumswahrscheinlichkeit, d.h. die maximale Wahrscheinlichkeit, dass diese Entscheidung falsch ist, α = 0.1 beträgt. • Unter der Nullhypothese H0 : π ≥ 0.4 fällt die Prüfgröße 146 bei einem Signifikanzniveau α = 0.1 nicht in den Ablehnungsbereich A = {0, 1, . . . , 140}. Wir können H0 also nicht verwerfen. Da die Wahrscheinlichkeit, dass diese Entscheidung falsch ist, aber bis zu 1 − α = 0.9 betragen kann, können wir daraus nicht schließen, dass H0 richtig ist. An diesem Beispiel haben wir den klassischen Signifikanztest erläutert. Die Vorgehensweise in einem klassischen Signifikanztest lässt sich verallgemeinert folgendermaßen darstellen: 1. Aufstellen einer Nullhypothese H0 und der zugehörigen Alternativhypothese H1 .
252
8 Hypothesentests
2. Wahl eines Signifikanzniveaus α sowie einer Prüfgröße PG und Festlegung eines Ablehnungsbereich A dergestalt, dass die Wahrscheinlichkeit, dass PG zu A gehört, wenn H0 wahr ist, nicht höher als das Signifikanzniveau ist. 3. Ziehung einer Stichprobe, Berechnung von PG und Entscheidungsregel: i) Wenn PG zu A gehört, wird H0 verworfen. Die Alternativhypothese H1 gilt dann als statistisch abgesichert. ii) Wenn PG nicht zu A gehört, kann H0 nicht verworfen werden. Dieses Schema gilt für alle Hypothesentests, die als klassischer Signifikanztest durchgeführt werden. Dabei können die Details der einzelnen Schritte durchaus kompliziert sein, wie wir später noch sehen werden. Bevor wir jedoch weitere Beispiele für klassische Signifikanztests kennenlernen, sollten wir noch den Unterschied zwischen einseitigen Tests und zweiseitigen Tests klären. Der Hypothesentest in dem gerade betrachteten Wahlumfrage-Beispiel war ein einseitiger Test. Die Nullhypothese lautete H0 : π ≥ 0.5, und der entsprechende Ablehnungsbereich A = {0, 1, . . ., 165} lag auf der linken Seite des Bereichs möglicher Werte der Prüfgröße X. Auf Grund dieses einseitigen Ablehnungsbereichs spricht man von einem einseitigen Test. Hätten wir stattdessen beispielsweise die Nullhypothese H0 : π < 0.4 betrachtet, dann hätten wir H0 gerade für große Werte von X verworfen, also einen einseitigen Ablehnungsbereich auf der rechten Seite möglicher Werte von X erhalten und somit ebenfalls einen einseitigen Test durchgeführt. Im Gegensatz zu den einseitigen Tests ist ein zweiseitiger Test dadurch gekennzeichnet, dass sich der Ablehungsbereich auf beiden Seiten des Bereichs möglicher Werte der Prüfgröße befindet. Dies soll am folgenden Beispiel demonstriert werden, das sich wieder mit den Flugdaten aus Beispiel 1.2 beschäftigt. In Abb. 2.16 haben wir die Ankunftsverspätung der American Airlines Flüge von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) im Februar 2006 in Abhängigkeit vom Wochentag dargestellt. Da es im Luftverkehr häufig zu nicht vorhersehbaren Störungen kommt und sich kleinere Abweichungen vom Flugplan daher kaum vermeiden lassen, gilt ein Flug nach internationalen Maßstäben dann als pünktlich, wenn er spätestens 15 Minuten nach der geplanten Ankunftszeit tatsächlich sein Ziel erreicht hat. Wir wollen jetzt die Behauptung überprüfen, dass auf dieser Basis die allgemeine Pünktlichkeitsquote (d.h. über alle Wochentage betrachtet) der American Airlines Flüge von DFW nach PHL 80 % beträgt. Die Nullhypothese lautet also: H0 :
π = 0.8 .
Dementsprechend erhalten wir als Alternativhypothese: H1 :
π = 0.8 .
Zur Überprüfung der Nullhypothese betrachten wir wieder die American Airlines Flüge von DFW nach PHL im Februar 2006 (Beispiel 1.2). Es liegen Daten über die Ankunftsverspätung für insgesamt 174 Flüge vor. Wir werden die Nullhypothe-
8.1 Einführung in den klassischen Signifikanztest
253
se einerseits verwerfen, wenn nur wenige dieser 174 Flüge pünktlich waren. Andererseits werden wir die Nullhypothese aber auch dann verwerfen, wenn extrem viele der 174 Flüge pünktlich waren, z.B. 170. Es wäre zwar positiv für die Fluggesellschaft, wenn nahezu alle Flüge im Februar 2006 pünktlich waren; dennoch widerspräche dies der Nullhypothese. Wir müssen daher einen zweiseitigen Ablehnungsbereich festlegen. Zu diesem Zweck treffen wir wieder einige Annahmen. Wie beim einseitigen Test betrachten wir zur Konstruktion wieder den Grenzfall zwischen Nullhypothese und Alternativhypothese, hier also π0 = 0.8. Außerdem wollen wir davon ausgehen, dass die Flüge völlig unabhängig voneinander sind und alle die Pünktlichkeitswahrscheinlichkeit π0 haben (was in der Praxis vielleicht nicht immer so ist). Dann ist die Anzahl der pünktlichen Flüge in der Stichprobe b(174, 0.8)-verteilt mit der Wahrscheinlichkeitsfunktion 174 x 174−x für x = 0, 1, 2, . . . , 174 x 0.8 (1 − 0.8) P(x) = 0 sonst . Diese Wahrscheinlichkeitsfunktion können wir wieder nutzen, um den Ablehnungsbereich zu bestimmen. Dazu wählen wir wieder ein Signifikanzniveau von α = 0.1, teilen dies aber auf, da sich der Ablehnungsbereich aus zwei Teilen zusammen setzen soll. Der Ablehnungsbereich wird dann für α = 0.1 so bestimmt, dass die Prüfgröße unter der angenommenen b(174, 0.8)-Verteilung mit einer Wahrscheinlichkeit von α /2 = 0.05 in den linken Teil des Ablehnungsbereichs fällt (also sehr klein ist), und mit einer Wahrscheinlichkeit von α /2 = 0.05 in den rechten Teil des Ablehnungsbereichs fällt (also sehr groß ist). Hier erhalten wir den Ablehnungsbereich A = {0, 1, . . . , 130, 148, 149, . . ., 174}, da 130
174 P(X ≤ 130) = ∑ 0.8i (1 − 0.8)174−i ≈ 0.05 , i i=0 174 174 P(X ≥ 148) = ∑ 0.8i (1 − 0.8)174−i ≈ 0.05 , i i=148 wobei wir beide Wahrscheinlichkeiten leicht abgerundet haben (d.h. streng genommen hätten der linke Ablehnungsbereich nur bis 129 gehen und der rechte Ablehnungsbereich erst bei 149 beginnen dürfen, wenn α = 0.1 in keinem Fall überschritten werden darf; dann hätten wir allerdings effektiv nur ein Signifikanzniveau von circa 0.07 verwendet). Die Entscheidungssituation für diesen Ablehnungsbereich und die unterstellte b(174, 0.8)-Verteilung ist in Abb. 8.7 dargestellt. Die tatsächliche Anzahl pünktlicher Flüge beträgt X = 131. Damit fällt die Prüfgröße nicht in den Ablehnungsbereich, und wir können die Nullhypothese nicht verwerfen. Es soll aber noch einmal betont werden, dass wir damit nicht bewiesen haben, dass die Nullhypothese richtig ist! Bisher haben wir nur den Hypothesentest für den Anteilswert π einer Grundgesamtheit kennen gelernt. Da dieser Test auf der Binomialverteilung basiert, spricht
254
8 Hypothesentests
Abb. 8.7 Entscheidungssituation für den zweiseitigen Test über die Pünktlichkeitsquote der American Airlines Flüge von DFW nach PHL
man auch vom Binomialtest. Da es relativ lästig ist, den Ablehnungsbereich mit Hilfe einer Binomialverteilung zu bestimmen, wird im nächsten Abschnitt gezeigt, dass man in den meisten Fällen Hypothesentests für den Anteilswert π auch mit Hilfe einer Normalverteilung durchführen kann. Anschließend werden noch Hypothesentests für den Mittelwert μ und die Varianz σ 2 einer Grundgesamtheit vorgestellt.
8.2 Hypothesen über den Anteil π einer Population Wir haben den Binomialtest für Hypothesen über den Anteil π einer Grundgesamtheit betrachtet. Dabei haben wir die Binomialverteilung zur Ermittlung des Ablehnungsbereichs verwendet, was sehr aufwändig sein kann. Nun werden wir untersuchen, wie wir uns das Prüfen von Hypothesen über π etwas leichter machen können. In Kapitel 6 haben wir gesehen, dass wir die Binomialverteilung durch eine Normalverteilung approximieren können, wenn die Stichprobengröße n groß (und π nicht zu nahe bei 0 oder 1) ist. Außerdem haben wir besprochen, dass man jede Normalverteilung in die Standardnormalverteilung überführen kann. Diese beiden Resultate werden hier noch einmal kurz wiederholt: (1) Wenn X ∼ b(n, π ) und n groß ist, dann ist X annähernd N(μ ; σ 2 ) mit μ = nπ und σ 2 = nπ (1 − π ). (2) Wenn X ∼ N(μ , σ 2 ), dann ist Z = (X − μ )/σ ∼ N(0, 1). Aus (1) und (2) folgt, dass bei einer ausreichend großen Stichprobe (X − nπ ) Z= nπ (1 − π ) annähernd N(0, 1)-verteilt ist. Man nennt in diesem Fall X die Prüfgröße und Z die standardisierte Prüfgröße. Wir können nun die Wahrscheinlichkeiten für die
8.2 Hypothesen über den Anteil π einer Population
255
Binomialverteilung mit Hilfe der standardisierten Prüfgröße und der Standardnormalverteilung berechnen: P(X ≤ x) = Φ
x − nπ
nπ (1 − π )
Es gibt dann zwei Möglichkeiten, den Hypothesentest durchzuführen: (1) Man berechnet den Ablehnungsbereich AZ für die standardisierte Prüfgröße Z und prüft, ob Z in den Ablehnungsbereich AZ fällt. (2) Man berechnet den Ablehnungsbereich für die standardisierte Prüfgröße AZ , transformiert diesen in den Ablehnungsbereich A für die Prüfgröße X und prüft dann, ob X in den Ablehnungsbereich A fällt. Im Allgemeinen wird der Ablehnungsbereich einfach mit A gekennzeichnet, auch wenn die standardisierte Prüfgröße verwendet wird. Wir verwenden hier und im Folgenden jedoch zusätzlich die Notation AZ , um die beiden Ablehnungsbereiche zu unterscheiden. Wir wollen jetzt die beiden Möglichkeiten des Hypothesentests für den Anteil π einer Grundgesamtheit an dem bereits betrachteten Beispiel der Pünktlichkeit der American Airlines Flüge von DFW nach PHL verdeutlichen. Die Nullhypothese dieses Beispiels war H0 : π = 0.8 , und die Prüfgröße X, die Anzahl pünktlicher Flüge im Februar 2006, war unter der Nullhypothese binomialverteilt mit n = 174 und π0 = 0.8, d.h. X ∼ b(174, 0.8) . Da n hier groß genug ist, können wir statt der exakten Binomialverteilung auch die approximierende Normalverteilung verwenden: X ∼ N(nπ , nπ (1 − π )) = N(174 · 0.8, 174 · 0.8 · 0.2) = N(139.2, 27.84) Abbildung 8.8 zeigt die exakte Binomialverteilung zusammen mit der approximierenden Normalverteilung, wobei wieder gekennzeichnet ist, in welchen Bereichen die Nullhypothese bei einem Signifikanzniveau von α = 0.1 verworfen wird. Man sieht sehr gut, dass die approximierende Normalverteilung kaum von der zu Grunde liegenden Binomialverteilung abweicht und die eingezeichneten Ablehnungsbereiche der Normalverteilung nahezu mit den Ablehnungsbereichen der Binomialverteilung übereinstimmen. Die beiden Ablehnungsbereiche enthalten jeweils exakt 5% der Fläche unter der Normalverteilung. Sie werden durch die in Abb. 8.8 gekennzeichneten Werte a1 und a2 begrenzt. D.h. jeweils 5% der Fläche liegen links von a1 und rechts von a2 , die restlichen 90% zwischen a1 und a2 . Zum Bestimmen der beiden Werte a1
256
8 Hypothesentests
Abb. 8.8 Entscheidungssituation für den zweiseitigen Test über die Pünktlichkeitsquote der American Airlines Flüge von DFW nach PHL mit approximierender Normalverteilung
und a2 betrachten wir zunächst die standardisierte Prüfgröße: (X − nπ ) X −μ X − 139.2 Z= = . = √ σ 27.84 nπ (1 − π ) Die standardisierte Prüfgröße Z ist unter der Nullhypothese standardnormalverteilt. Wir können daher die beiden Punkte z1 und z2 , die jeweils die äußeren 5% unter der Fläche der Standardnormalverteilung begrenzen, aus der Tabelle der Standardnormalverteilung ablesen (siehe Anhang): z1 = −1.64 z2 = 1.64
da Φ (−1.64) ≈ 0.05 da Φ (1.64) ≈ 0.95
Man bemerke, dass hierbei z j definiert wurde durch F(z j ) = p j mit F als kumulierte Verteilungsfunktion und p1 = 0.05, p2 = 0.95. Daher werden diese z j auch Quantile genannt und das α -Quantil (z.B α = 0.05) mit zα bezeichnet. So ist das 50%-Quantil z50 gerade der Median. Alternativ findet man auch die Bezeichnung Perzentile, meint damit aber schlicht die Prozentzahl (0 bis 100) statt den Prozentanteil (0 bis 1). Ansonsten handelt es sich um exakt dieselbe Definition. Unser Vorgehen wird noch einmal in Abb. 8.9 verdeutlicht. Der Ablehnungsbereich für die standardisierte Prüfgröße Z ist also AZ = (−∞; −1.64] ∪ [1.64; ∞) . Da die Standardnormalverteilung für alle reellen Zahlen definiert ist, müssen wir den Ablehnungsbereich links und rechts mit −∞ und ∞ begrenzen, auch wenn die Wahrscheinlichkeit links von −4 und rechts von 4 nahezu 0 ist. Wir können nun den Ablehnungsbereich der standardisierten Prüfgröße Z in den Ablehnungsbereich der Prüfgröße X umrechnen, indem wir die Standardisierung
8.2 Hypothesen über den Anteil π einer Population
257
Abb. 8.9 Bestimmung des Ablehnungsbereichs für die N(0, 1)-verteilte standardisierte Prüfgröße
der Prüfgröße rückgängig machen. Der Zusammenhang zwischen X und Z ist X − 139.2 Z= √ 27.84 Derselbe Zusammenhang gilt auch für die Grenzen der Ablehnungsbereiche: a1 − 139.2 z1 = √ 27.84
a2 − 139.2 und z2 = √ . 27.84
Mit z1 = −1.64 und z2 = 1.64 gilt demnach √ √ a1 = −1.64 · 27.84 + 139.2 ≈ 130.5 und a2 = 1.64 · 27.84 + 139.2 ≈ 147.9 . Dies sind genau die Werte, die in Abb. 8.8 die Ablehnungsbereiche der approximierenden Normalverteilung begrenzen. Da die Prüfgröße X nur ganze Zahlen zwischen 0 und 174 annehmen kann, schreiben wir für den Ablehungsbereich: A = [0; 130] ∪ [148; 174] . Das ist genau der Ablehnungsbereich, den wir im vorigen Abschnitt bei Verwendung der Binomialverteilung erhalten haben. Wir können jetzt wieder die Prüfgröße X mit dem Ablehnungsbereich vergleichen. Wie bereits erwähnt, waren X = 131 der Flüge pünktlich. Damit fällt die Prüfgröße nicht in den Ablehnungsbereich, und wir können die Nullhypothese nicht verwerfen. Alternativ können wir auch die standardisierte Prüfgröße X − 139.2 131 − 139.2 = √ ≈ −1.55 Z= √ 27.84 27.84
258
8 Hypothesentests
berechnen und diese mit dem Ablehnungsbereich AZ vergleichen. Dabei kommen wir notwendigerweise zu demselben Ergebnis, dass die Nullhypothese nicht verworfen werden kann. Da wir hier den Hypothesentest mit Hilfe der Normalapproximation der Binomialverteilung durchgeführt haben, spricht man (im Gegensatz zum exakten Binomialtest) auch vom approximativen Binomialtest. Der approximative Binomialtest kann natürlich auch bei einseitigen Tests verwendet werden. Dies wollen wir noch einmal mit Hilfe des Wahlumfrage-Beispiels verdeutlichen, das wir bereits im vorangegangenen Abschnitt betrachtet haben (vgl. Beispiel 7.7). Die Nullhypothese in diesem Beispiel lautet π ≥ 0.5. Außerdem ist bekannt, dass insgesamt n = 383 Personen betrachtet werden. Damit ist die Prüfgröße X, die Anzahl der Personen, die George Bush unterstützen, unter der Annahme, dass die Nullhypothese gerade erfüllt ist, b(383, 0.5)-verteilt. Da n groß genug ist, können wir auch hier die Normalapproximation verwenden und erhalten dann die N(0, 1)verteilte standardisierte Prüfgröße X − 191.5 X − 383 · 0.5 = √ . Z= 95.75 383 · 0.5 · (1 − 0.5) Mit X = 146 Bush-Wählern in der Stichprobe ist Z ≈ −4.65. Da es sich hier um einen einseitigen Test mit Ablehnungsbereich auf der linken Seite handelt, wird der Ablehnungsbereich für die standardisierte Prüfgröße bei einem Signifikanzniveau von α = 0.1 durch den Wert z so begrenzt, dass 10% der Fläche der Standardnormalverteilung links von z liegen. Wir erhalten diesen Wert wieder aus der Tabelle der Standardnormalverteilung: z = −1.28
da Φ (−1.28) = 0.10
Damit ist der Ablehnungsbereich AZ = (−∞; −1.28], und die Nullhypothese kann verworfen werden, da Z ≈ −4.65 in AZ liegt. Zu demselben Ergebnis kommen wir wieder, wenn wir den Ablehnungsbereich für die nicht-standardisierte Prüfgröße X = 146 wie folgt berechnen: z = −1.28
⇒
√ a = −1.28 · 95.75 + 191.5 ≈ 179
⇒
A = [0; 179]
Dieser Ablehnungsbereich weicht leicht von dem Bereich ab, den wir im vorigen Abschnitt unter Verwendung der Binomialverteilung erhalten haben; dieser war A = [0; 178]. Dies liegt aber daran, dass die echte 10%-Grenze bei der Binomialverteilung zwischen 178 und 179 liegt und wir hier auf 179 aufrunden mussten. Bisher haben wir nur Beispiele von Signifikanztests für den Anteil π einer Population behandelt. Im den nächsten Abschnitten wird gezeigt, wie mit der gleichen Idee Hypothesen über den Mittelwert μ einer Population oder über die Varianz σ 2 der Population getestet werden können.
8.3 Hypothesen über den Mittelwert μ einer Population
259
8.3 Hypothesen über den Mittelwert μ einer Population Mit der Vorgehensweise des klassischen Signifikanztests, die wir anhand der Überprüfung von Hypothesen über den Anteil π einer Grundgesamtheit eingeführt haben, können wir auch Hypothesen über den Mittelwert μ einer Grundgesamtheit testen. Wir werden dabei im Folgenden nur die standardisierte Prüfgröße betrachten, möchten aber darauf hinweisen, dass man auch hier den Ablehnungsbereich der standardisierten Prüfgröße in den Ablehnungsbereich für die nicht-standardisierte Prüfgröße umrechnen kann. Um die möglichen Hypothesentests für den Mittelwert μ einer Grundgesamtheit vorzustellen, betrachten wir wieder das Beispiel der Brenndauer von Glühbirnen (Beispiel 1.12). Uns interessiert die unbekannte durchschnittliche Brenndauer μ in der Grundgesamtheit aller entsprechenden Glühbirnen. Wir können drei verschiedene Arten von Hypothesentests durchführen: (a) Einseitiger Hypothesentest (linksseitig), z.B.: H0 : μ ≥ 1 150
H1 : μ < 1 150
(b) Einseitiger Hypothesentest (rechtsseitig), z.B.: H0 : μ ≤ 1 150
H1 : μ > 1 150
(c) Zweiseitiger Hypothesentest, z.B.: H0 : μ = 1 150
H1 : μ = 1 150
Den Wert μ0 = 1 150 haben wir hier ausgesucht, weil er mit Blick auf die Daten plausibel erscheinen könnte. Man kann natürlich die Hypothesentests auch für beliebige andere (und unterschiedliche) Werte durchführen. Die drei vorgestellten Hypothesen können wir nun anhand unserer Stichprobe von n = 30 Glühbirnen überprüfen. Die entsprechenden Brenndauern sind z.B. in Tabelle 1.7 gegeben. Wir betrachten die mittlere Brenndauer x¯ in der Stichprobe als Prüfgröße und verwerfen die oben formulierten Nullhypothesen, wenn (a) x¯ viel kleiner ist als μ0 = 1 150 (linksseitiger Ablehnungsbereich), (b) x¯ viel größer ist als μ0 = 1 150 (rechtsseitiger Ablehnungsbereich), (c) x¯ viel größer oder viel kleiner ist als μ0 (zweiseitiger Ablehnungsbereich). Welchen der Fälle (a) bis (c) man verwenden will, hängt davon ab, was man überprüfen bzw. beweisen will. Dadurch werden die Nullhypothese und der entsprechende Ablehnungsbereich A bestimmt (ab sofort kennzeichnen wir den Ablehnungsbereich allgemein mit A, auch für die standardisierte Prüfgröße). Wir werden zeigen, wie man den genauen Ablehnungsbereich A für Hypothesentests über den Mittelwert μ bestimmen kann. Dabei werden wir, wie bereits erwähnt, nur die standardisierte Prüfgröße betrachten und einige Ergebnisse vorstellen, ohne sie zu beweisen. Bei den Konfidenzintervallen für den Mittelwert μ (Kapitel 8)
260
8 Hypothesentests
hatten wir unterschiedliche Formeln, je nachdem, ob die Varianz der Population bekannt war oder nicht. Hier werden wir diese beiden Fälle wiederum getrennt behandeln.
8.3.1 Hypothesen über den Mittelwert bei unbekannter Varianz Wenn die Nullhypothese gerade erfüllt ist (d.h. μ = μ0 ), folgt aus dem zentralen Grenzwertsatz, dass der Stichprobenmittelwert x¯ annähernd normalverteilt ist mit Erwartungswert μ0 und Varianz σ 2 /n. Wir können dann die Standardisierung der Normalverteilung verwenden, so dass gilt √ (x¯ − μ0) n x¯ − μ0 = ∼ N(0, 1) . Z= σ σ 2 /n Da wir gerade davon ausgehen, dass σ 2 unbekannt ist, können wir mit diesem Ergebnis leider nicht viel anfangen. Man kann jedoch für diesen Fall ein ähnliches Ergebnis herleiten: √ (x¯ − μ0 ) n ∼ t(n − 1) T= S∗ Unter H0 ist die standardisierte Prüfgröße T also t-verteilt mit n − 1 Freiheitsgraden. 1 Zur Berechnung der standardisierten Prüfgröße verwenden wir wieder S∗2 = (n−1) × n
¯ 2 , d.h. den erwartungstreuen Schätzer der Varianz, den wir auch schon für ∑ (xi − x)
i=1
die Konfidenzintervalle bei unbekannter Varianz verwendet haben. Die Grenzen des Ablehnungsbereichs für die standardisierte Prüfgröße ermitteln wir hier im Prinzip genauso wie bei den Hypothesentests für den Anteil π , mit dem Unterschied, dass wir hier die Verteilungsfunktion einer t-Verteilung verwenden. Dabei hängen die Grenzen hier nicht nur vom Signifikanzniveau α und der Art des Tests (linksseitig, rechtsseitig, zweiseitig) ab, sondern auch von der Stichprobengröße n, da die zu verwendende t-Verteilung n − 1 Freiheitsgrade hat. Das allgemeine Vorgehen zur Bestimmung des Ablehnungsbereichs für die drei möglichen Fälle des Hypothesentests ist in den Abbildungen 8.10 bis 8.12 dargestellt. Den benötigten Wert, tn−1,α oder tn−1,α /2, kann man dann (genau wie wir es schon im Rahmen der Konfidenzintervalle beschrieben haben) entweder aus der Tabelle der t-Verteilung (Tabelle A.3 im Anhang) ablesen oder aber mit einer StatistikSoftware berechnen. Die Nullhypothese wird dann in jedem der drei Fälle genau dann verworfen, wenn die standardisierte Prüfgröße in den entsprechenden Ablehnungsbereich fällt. Wir wollen das Vorgehen an einigen Beispielen verdeutlichen. Beginnen wir mit der Brenndauer von Glühbirnen und betrachten die Nullhypothese aus Fall (a): H0 : μ ≥ 1 150
H1 : μ < 1 150
8.3 Hypothesen über den Mittelwert μ einer Population
Abb. 8.10 t-Verteilung und linksseitiger Ablehnungsbereich
Abb. 8.11 t-Verteilung und rechtsseitiger Ablehnungsbereich
Abb. 8.12 t-Verteilung und zweiseitiger Ablehnungsbereich
261
262
8 Hypothesentests
Um die Nullhypothese zu überprüfen, betrachten wir die Stichprobe von 30 Glühbirnen, deren Brenndauern in Tabelle 1.7 gegeben sind. Wir erhalten S∗ = S∗2 = 206.1175 . n = 30 x¯ = 1 092.9 S∗2 = 42 484.44 Mit diesen Werten ergibt sich als standardisierte Prüfgröße √ √ (x¯ − μ0 ) n (1 092.9 − 1 150) 30 ≈ −1.51 . T= = S∗ 206.1175 Zur Beurteilung der Prüfgröße fehlt noch der Ablehnungsbereich. Wir wollen hier ein Signifikanzniveau von α = 0.05 verwenden. Da es sich in diesem Fall um einen linksseitigen Ablehnungsbereich handelt, benötigen wir den Wert von −tn−1,α = −t29,0.05 (vergleiche Abb. 8.10). In der Tabelle der Prozentpunkte der t-Verteilung (Tabelle A.3) können wir ablesen, dass t29,0.05 = 1.70, also −t29,0.05 = −1.70. Der Ablehnungsbereich ist somit A = (−∞; −1.70] . Da die Prüfgröße T = −1.51 nicht in diesen Ablehnungsbereich fällt, können wir die Nullhypothese beim Signifikanzniveau α = 0.05 nicht verwerfen. Verwenden wir allerdings ein Signifikanzniveau von α = 0.1, dann erhalten wir mit t29,0.1 = 1.31 den Ablehnungsbereich A = (−∞; −1.31] . Jetzt fällt die Prüfgröße in den Ablehnungsbereich, so dass wir H0 verwerfen können. Damit wird noch einmal deutlich, dass das Ergebnis des Hypothesentests vom Signifikanzniveau abhängt. Je größer das Signifikanzniveau ist, desto eher verwerfen wir die Nullhypothese. Damit steigt aber auch die Wahrscheinlichkeit, dass wir beim Verwerfen einen Fehler machen. Als nächstes Beispiel betrachten wir wieder die Blockzeiten der American Airlines Flüge von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) aus Beispiel 1.2. Wir wollen die Nullhypothese überprüfen, dass die durchschnittliche Blockzeit μ maximal 180 Minuten beträgt, also H0 : μ ≤ 180
H1 : μ > 180 .
Für die Stichprobe der 174 Flüge im Februar 2006 erhalten wir n = 174 x¯ = 183.3 S∗2 = 191.5 S∗ = S∗2 = 13.84 . Mit diesen Werten ergibt sich als standardisierte Prüfgröße √ √ (x¯ − μ0 ) n (183.3 − 180) 174 T= ≈ 3.15 . = S∗ 13.84
8.3 Hypothesen über den Mittelwert μ einer Population
263
Den Ablehnungsbereich wollen wir für ein Signifikanzniveau von α = 0.01 bestimmen. Da es sich hier um einen rechtsseitigen Ablehnungsbereich handelt, benötigen wir den Wert von tn−1,α = t173,0.01 (vergleiche Abb. 8.11). Diesen Wert können wir nicht mehr in der Tabelle der t-Verteilung ablesen, sondern müssen ihn mit Hilfe einer Statistik-Software berechnen. Wir erhalten t173,0.01 = 2.35 und somit A = [2.35, ∞) . Da die Prüfgröße T = 3.15 in diesen Ablehnungsbereich fällt, können wir die Nullhypothese beim Signifikanzniveau α = 0.01 verwerfen. Bei größeren Signifikanzniveaus wäre der Ablehnungsbereich noch größer, so dass wir auch dann die Nullhypothese verwerfen könnten. Daher können wir mit großer Sicherheit davon ausgehen, dass die Alternativhypothese gilt, dass die durchschnittliche Blockzeit der American Airlines Flüge von DFW nach PHL mehr als 180 Minuten beträgt. Zum Abschluss wollen wir noch einen zweiseitigen Test für den Mittelwert μ einer Grundgesamtheit betrachten. Dazu betrachten wir die Tagesrendite der Deutsche Bank Aktie aus Beispiel 1.6 und überprüfen die Hypothese, dass die durchschnittliche Tagesrendite genau 0 beträgt: H0 : μ = 0
H1 : μ = 0
Für die Stichprobe der 506 Tagesrenditen von Januar 2006 bis Dezember 2007 erhalten wir dann n = 506 x¯ = 0.02 S∗2 = 1.94 S∗ = S∗2 = 1.39 . Mit diesen Werten erhalten ergibt sich standardisierte Prüfgröße √ √ (x¯ − μ0 ) n (0.02 − 0) 506 T= ≈ 0.001 . = S∗ 1.39 Wir wollen hier ein Signifikanzniveau von α = 0.1 verwenden. Da es sich hier um einen zweiseitigen Test handelt, müssen wir das Signifikanzniveau auf zwei Ablehnungsbereiche aufteilen und benötigen daher die Werte −tn−1,α /2 = −t505,0.05 und tn−1,α /2 = t505,0.05 (vergleiche Abb. 8.12). Mit t505,0.05 = 1.65 sowie −t505,0.05 = −1.65 ergibt das den Ablehnungsbereich A = (−∞, −1.65] ∪ [1.65, ∞) . Die Prüfgröße T = 0.001 liegt nicht im Ablehnungsbereich, so dass wir die Nullhypothese nicht verwerfen können. Wir können also nicht ausschließen, dass die durchschnittliche Tagesrendite der Deutsche Bank Aktie genau 0 beträgt. Bisher haben wir angenommen, dass die Varianz σ 2 der Population unbekannt ist, und haben eine Prüfgröße verwendet, die unter der Nullhypothese t(n − 1)verteilt ist. Man spricht daher auch vom t-Test.
264
8 Hypothesentests
8.3.2 Hypothesen über den Mittelwert bei bekannter Varianz Zu Beginn des vorangegangenen Abschnitts haben wir bereits die folgende Prüfgröße vorgestellt, die aus dem zentralen Grenzwertsatz und der Standardisierung der Normalverteilung folgt: √ (x¯ − μ0 ) n ∼ N(0, 1) Z= σ Wir konnten diese Prüfgröße nicht verwenden, weil die Varianz σ 2 unbekannt war, und haben daher eine ähnliche Prüfgröße benutzt. Nun gehen wir jedoch davon aus, dass wir σ 2 kennen, so dass wir diese Prüfgröße jetzt verwenden können. Die Prüfgröße ist unter der Nullhypothese standardnormalverteilt, so dass wir für die Berechnung des Ablehnungsbereichs statt der t(n − 1)-Verteilung jetzt die Standardnormalverteilung verwenden. Da die Normalverteilung auch Gauß-Verteilung genannt wird, spricht man hier auch vom Gauß-Test. Das Vorgehen bei der Bestimmung des Ablehnungsbereichs ist für die drei möglichen Fälle in den Abbildungen 8.13 bis 8.15 dargestellt. Wenn wir die Abbildungen 8.13 bis 8.15 mit den Abbildungen 8.10 bis 8.12 vergleichen, fällt auf, dass die t-Verteilung in der Mitte etwas schmaler ist als die Standardnormalverteilung, dafür aber breitere Enden hat. Dies gilt jedoch nur für eine relativ kleine Anzahl an Freiheitsgraden (den Abbildungen 8.10 bis 8.12 liegt eine t(8)-Verteilung zu Grunde). Wenn die Zahl der Freiheitsgrade steigt, nähert sich die t-Verteilung immer mehr der Standardnormalverteilung an. Der Unterschied zwischen dem Gauß-Test und dem t-Test besteht darin, dass wir jetzt in der Prüfgröße die bekannte Standardabweichung σ statt der erwartungstreuen Stichproben-Standardabweichung S∗ verwenden und die Grenzen des Ablehnungsbereichs mit Hilfe der Standardnormalverteilung an Stelle einer t(n − 1)Verteilung ermitteln. Letzteres hat den Vorteil, dass der Ablehnungsbereich nicht mehr von der Stichprobengröße abhängt, sondern für ein gegebenes Signifikanzniveau für alle Tests gleicher Art identisch ist. Für ein gegebenes Signifikanzniveau α liest man dann den benötigten Wert, zα oder zα /2 aus der Tabelle der Standardnormalverteilung ab (Tabelle A.1 im Anhang). Für α = 0.1 ist z.B. bei einem einseitigen Test in der Tabelle der Standardnormalverteilung der Punkt z0.1 zu bestimmen. Das ist der Punkt z, für den Φ (z) = 1 − α = 0.9 ist. Tabelle 8.4 fasst die Werte zα und zα /2 der Standardnormalverteilung für die gängigen Signifikanzniveaus zusammen.
Tabelle 8.4 Prozentpunkte der Standardnormalverteilung für gängige Signifikanzniveaus
α 0.01 0.05 0.10
zα
zα /2
2.33 2.58 1.64 1.96 1.28 1.64
8.3 Hypothesen über den Mittelwert μ einer Population
Abb. 8.13 N(0, 1)-Verteilung und linksseitiger Ablehnungsbereich
Abb. 8.14 N(0, 1)-Verteilung und rechtsseitiger Ablehnungsbereich
Abb. 8.15 N(0, 1)-Verteilung und zweiseitiger Ablehnungsbereich
265
266
8 Hypothesentests
Da die grundsätzliche Durchführung des Hypothesentests bei bekannter Varianz identisch ist mit der Durchführung bei unbekannter Varianz, werden wir hier nur einen der drei möglichen Fälle an einem Beispiel verdeutlichen. Dazu betrachten wir noch einmal die Füllmenge von Grießpackungen (Beispiel 7.5), die wir bereits im Zusammenhang mit Konfidenzintervallen für μ bei bekannter Varianz kennen gelernt haben. Wir gehen hier wiederum davon aus, dass die Varianz der Füllmenge aus früheren Untersuchungen bekannt ist und σ 2 = 8.0 beträgt. Die weiteren Daten dieses Beispiels sind √ n = 80 x¯ = 1 001.6 σ = σ 2 ≈ 2.83 . Wir wollen jetzt die Nullhypothese überprüfen, dass die durchschnittliche Füllmenge μ der auf der Packung genannten Füllmenge von 1 000 Gramm entspricht, also H0 : μ = 1 000
H1 : μ = 1 000 .
Wir erhalten dann die standardisierte Prüfgröße √ √ (x¯ − μ0 ) n (1 001.6 − 1 000) 80 Z= ≈ 5.06 . = σ 2.83 Wir verwenden ein Signifikanzniveau von α = 0.10 und erhalten damit zα /2 = 1.64 sowie den Ablehnungsbereich A = (−∞, −1.64] ∪ [1.64, ∞) . Die Prüfgröße liegt also im Ablehnungsbereich, so dass wir die Nullhypothese verwerfen können. Da x¯ = 1 001.6 größer ist als μ0 = 1 000, können wir uns damit relativ sicher sein, dass die durchschnittliche Füllmenge größer ist als die auf der Packung angegebene Füllmenge. Zu dieser Aussage sind wir auch schon gekommen, als wir das 90%-Konfidenzintervall für die durchschnittliche Füllmenge betrachtet haben. Dass dies kein Zufall ist, werden wir später noch näher erläutern.
8.4 Hypothesen über die Varianz einer Population Wie bei den bisher betrachteten Tests für den Anteil π und den Mittelwert μ einer Grundgesamtheit, unterscheiden wir auch hier drei Fälle des Hypothesentests, je nach Art der Nullhypothese. Als Beispiel betrachten wir nur Fall (a): H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02
Die allgemeine Prüfgröße (oder auch Teststatistik) für den Hypothesentest für die Varianz einer Grundgesamtheit ist PG =
nS2 ∼ χ 2 (n − 1) . σ02
8.4 Hypothesen über die Varianz einer Population
267
Sie hat unter der Nullhypothese eine χ 2 -Verteilung mit dem Parameter ν = n − 1. Da es sich hier um einen Test mit linksseitigem Ablehnungsbereich handelt (Fall (a)), wird die Nullhypothese verworfen, wenn die Prüfgröße kleine Werte annimmt. Der genaue Ablehnungsbereich für ein gegebenes Signifikanzniveau α wird mit Hilfe der χ 2 (n − 1)-Verteilung so bestimmt, wie in Abb. 8.16 demonstriert. 2 Der Ablehnungsbereich wird in diesem Fall also durch den Wert χn−1,1− α begrenzt, der so bestimmt wird, dass α % der Fläche der zu Grunde liegenden 2 χ 2 (n − 1)-Verteilung links von χn−1,1− α liegen und die restlichen (1 − α )% rechts 2 von χn−1,1−α . Für gegebenes Signifikanzniveau α und gegebene Freiheitsgrade n − 1 kann der Wert aus der Tabelle der χ 2 -Verteilung (Tabelle A.4 im Anhang) abgelesen werden (dabei ist jedoch zu beachten, dass in der Tabelle eine etwas andere Notation verwendet wird). Die Konstruktion des Ablehnungsbereichs für rechtsseitige oder zweiseitige Hypothesentests erfolgt analog. Tests für die Varianz einer Grundgesamtheit sind sehr wichtig geworden, weil in einem Produktionsprozess die Varianz ein nützliches Maß für die Qualität vieler Produkte ist. Betrachten wir z.B. die Produktion irgendeiner wichtigen Komponente einer Maschine, z.B. die eines Kugellagers. Beispiel 8.1. Durchmesser von Kugellagern Der tatsächliche Durchmesser produzierter Kugellager ist nicht konstant, sondern er ist eine Zufallsvariable. Ein Histogramm des tatsächlichen Durchmessers von 2mm-Kugellagern könnte z.B. so aussehen wie das obere Histogramm in Abb. 8.17, in dem der tatsächliche Durchmesser der Kuggellager relativ breit um den geplanten Durchmesser streut. In der Vergangenheit hat man großen Aufwand betrieben, um die zu kleinen und zu großen Kugellager, sowie alle weiteren mit Fehlern behafteten Kugellager zu entfernen. Dabei wurden Methoden der Qualitätskontrolle verwendet. Heutzutage hat sich der Schwerpunkt von der Qualitätskontrolle zur Qualitätsverbesserung verlagert. Dabei geht man so vor, dass der Produktionsprozess so geändert wird, dass
Abb. 8.16 χ 2 -Verteilung und linksseitiger Ablehnungsbereich
268
8 Hypothesentests
es nur sehr wenige Kugellager gibt, die zu groß oder zu klein sind. Man versucht, ein Histogramm wie das untere in Abb. 8.17 zu erreichen, in dem die Streuung des tatsächlichen Durchmessers relativ gering ist. Diese einfache Idee der Qualitätsverbesserung hat sehr zum Erfolg der japanischen Industrie beigetragen. Man beachte, wie sich die Histogramme in Abb. 8.17 unterscheiden. Das untere Histogramm ist schmaler, d.h. die Varianz ist kleiner. Die Varianz misst einen Mangel an Konsistenz in nahezu allen Produkten und Diensten, seien es Nahrung, Kleider, Maschinenteile oder wie lange es dauert, bis Post ausgeliefert oder die Essensausgabe in der Mensa erreicht wird. Ein Mangel an Konsistenz bedeutet schlechte Qualität. Betrachten wir nun ein kleines hypothetisches Beispiel für die Varianz des Durchmessers der Kugellager, an dem wir die Durchführung des Hypothesentests für die Varianz verdeutlichen können. Nehmen wir an, dass die Varianz des Durchmessers der 2mm-Kugellager in der Vergangenheit σ 2 = 0.011 betrug. Nachdem Vorschläge zur Verringerung der Varianz befolgt wurden, wurden die folgenden sechs Messungen des exakten Durchmessers der Kugellager gemacht: 2.14 1.93 1.98 1.93 2.09 1.94 Die Stichprobenvarianz beträgt S2 =
1 6 ∑ (xi − x)¯ 2 = 0.00691. 6 i=1
Abb. 8.17 Mögliche Histogramme des Durchmessers von 2mm-Kugellagern
8.5 Ergänzende Hinweise zum klassischen Signifikanztest
269
Da diese Varianz viel kleiner ist als 0.011, scheint es, dass die durchgeführten Maßnahmen σ 2 verringert haben. Man könnte sich jedoch fragen, ob der Wert S2 = 0.00691 auch dann noch plausibel wäre, wenn sich σ 2 nicht verringert hat. Wir könnten diese Frage wie folgt klären. Wir stellen die Nullhypothese auf, dass sich σ 2 nicht verringert hat, d.h. H0 : σ 2 ≥ 0.011
H1 : σ 2 < 0.011 .
Wenn wir die Nullhypothese verwerfen können, dann können wir daraus schließen, dass H1 mit großer Wahrscheinlichkeit gilt und sich σ 2 tatsächlich verringert hat. Wir verwenden die eben eingeführte Prüfgröße und erhalten PG =
nS2 6 · 0.00691 ≈ 3.77 . = 0.011 σ02
Diese Prüfgröße müssen wir mit dem Ablehnungsbereich vergleichen. Wir verwenden dabei ein Signifikanzniveau von α = 0.10. Aus der χ 2 -Tabelle ist der Punkt 2 χ5;0.90 zu bestimmen, d.h. der Punkt, für den die links von ihm liegende Fläche unterhalb der Dichtefunktion der χ 2 (5)-Verteilung gleich 0.10 ist (in Abb. 8.16 all2 = 1.61 und damit den Ablehnungsgemein für α dargestellt). Wir erhalten χ5;0.90 bereich A = [0, 1.61] . Der Wert der Prüfgröße liegt nicht im Ablehnungsbereich. Wir können die Nullhypothese also nicht verwerfen, d.h. wir können nicht schließen, dass sich die Varianz verringert hat. Es ist zwar durchaus möglich, dass sich die Varianz verringert hat, aber die Beobachtungen widersprechen nicht der Möglichkeit, dass sie bei ihrem alten Wert (σ 2 = 0.011) geblieben ist. Wir haben jetzt gesehen, wie man Tests für Hypothesen über den Anteil π , den Mittelwert μ oder die Varianz σ 2 einer Population durchführt. Zum Abschluss dieses Kapitels sollen noch einige ergänzende Hinweise zum klassischen Signifikanztest gegeben werden.
8.5 Ergänzende Hinweise zum klassischen Signifikanztest 8.5.1 Voraussetzungen des klassischen Signifikanztests Wir haben in der Einführung dieses Kapitels gesehen, dass der Test für den Anteil π einer Grundgesamtheit eigentlich auf der Binomialverteilung basiert. Wir haben jedoch gesagt, dass wir für eine ausreichend große Stichprobe die Normalapproximation, also den approximativen Binomialtest verwenden können. Wir haben bisher nichts darüber gesagt, unter welchen Voraussetzungen wir die besprochenen Tests über den Mittelwert bzw. die Varianz einer Grundgesamtheit
270
8 Hypothesentests
durchführen dürfen, d.h. über die Bedingungen, unter denen die Prüfgrößen die angegebenen Verteilungen unter der Nullhypothese haben. Streng genommen müsste die Grundgesamtheit normalverteilt sein. Dann gelten die Verteilungen der Prüfgrößen exakt. Wie wir aber schon bei den Konfidenzintervallen gesehen haben, reicht es, wenn die Stichprobenmittelwerte annähernd normalverteilt sind. Dies ist aufgrund des zentralen Grenzwertsatzes meistens der Fall, so dass die angegebenen Verteilungen auch schon für relativ kleine Stichprobenumfänge annähernd gültig sind. In der Fachsprache sagt man, dass die besprochenen Testverfahren sehr robust gegenüber Abweichungen von der Normalverteilungsannahme sind.
8.5.2 Zur Wahl der Nullhypothese Wie schon mehrfach erwähnt wurde, ist eine Nullhypothese nicht bewiesen oder statistisch abgesichert, wenn sie nicht verworfen werden kann. Man kann zwar nicht ausschließen, dass sie richtig ist, aber die Wahrscheinlichkeit, sie fälschlicherweise nicht zu verwerfen, kann sehr groß sein. Etwas anders ist es, wenn die Prüfgröße in den Ablehnungsbereich fällt und die Nullhypothese verworfen wird. Dann kann man mit relativ großer Sicherheit sagen, dass die Nullhypothese falsch ist und die Alternativhypothese statistisch abgesichert ist. Die maximale Irrtumswahrscheinlichkeit ist in diesem Fall relativ klein und entspricht dem Signifikanzniveau. Daraus folgt, dass man eine Hypothese nicht dadurch absichern kann, dass man sie in einem Test nicht verwirft, sondern dadurch, dass man die Gegenhypothese verwirft. Dies kann man bei der Wahl der Nullhypothese berücksichtigen. Wenn man beispielsweise von einer Hypothese glaubt, dass sie richtig ist, und dies statistisch absichern möchte, macht es nicht viel Sinn, sie als Nullhypothese aufzustellen, da man bei Nicht-Verwerfen dieser Nullhypothese nicht viel gewonnen hat. Stattdessen sollte man genau die Gegenhypothese als Nullhypothese aufstellen, in der Hoffnung, dass man diese verwerfen und somit die eigene Hypothese absichern kann. Ein typisches Beispiel für einen solchen Fall ist der Hypothesentest für die durchschnittliche Blockzeit der American Airlines Flüge von Dallas / Fort Worth nach Philadelphia. Das Histogramm der beobachteten Blockzeiten in Abb. 1.3 lässt vermuten, dass die durchschnittliche Blockzeit größer ist als 180 Minuten. In unserem Hypothesentest haben wir jedoch als Nullhypothese behauptet, dass die mittlere Blockzeit kleiner ist als 180 Minuten. Da wir diese Hypothese verwerfen konnten, haben wir indirekt abgesichert, dass die durchschnittliche Blockzeit tatsächlich größer ist als 180 Minuten. Anders verhält es sich, wenn man von einer Hypothese glaubt, dass sie falsch ist, und dies statistisch nachweisen möchte. Dann sollte man gerade diese Hypothese als Nullhypothese aufstellen, um sie durch den Test verwerfen zu können.
8.5 Ergänzende Hinweise zum klassischen Signifikanztest
271
8.5.3 Signifikanztests und Konfidenzintervalle Wie bereits kurz erwähnt, beruhen die Konfidenzintervalle aus Kapitel 7 und die hier betrachteten Hypothesentests auf sehr ähnlichen Herleitungen. Wir haben zum Beispiel bei der Einführung in Konfidenzintervalle die Zufallsvariable x¯ − μ √ ∼ N(0, 1) σ/ n zur Herleitung des Konfidenzintervalls für den Mittelwert μ bei bekannter Varianz verwendet. Diese Zufallsvariable entspricht genau der standardisierten Prüfgröße Z im Hypothesentest für den Mittelwert μ bei bekannter Varianz. Der Unterschied besteht darin, dass wir bei Konfidenzintervallen, ausgehend vom Parameter der Stichprobe, eine Aussage über den wahren Parameter in der Grundgesamtheit treffen, während wir bei Hypothesentests bereits eine Hypothese über die Grundgesamtheit haben und diese anhand der Stichprobe überprüfen. Bei zweiseitigen Hypothesentests ist es jedoch möglich, von einem Konfidenzintervall direkt auf das Ergebnis des entsprechenden Hypothesentests zu schließen, vorausgesetzt, dass in beiden Fällen derselbe Wert für α verwendet wird. Bei Berechnung des 90%-Konfidenzintervalls für die durchschnittliche Füllmenge haben wir gesehen, dass die Soll-Füllmenge von 1 000 Gramm nicht in dem Konfidenzintervall enthalten war. Daraus konnten wir mit einer Wahrscheinlichkeit von 90% schließen, dass die tatsächliche durchschnittliche Füllmenge nicht 1 000 Gramm beträgt. In diesem Kapitel haben wir noch einmal die Hypothese, dass die durchschnittliche Füllmenge genau 1 000 Gramm beträgt, anhand eines zweiseitigen Hypothesentests mit Signifikanzniveau α = 0.1 überprüft. Dabei sind wir zu dem Ergebnis gekommen, dass die Nullhypothese verworfen werden kann, so dass wir bei einer Irrtumswahrscheinlichkeit von 10% sagen können, dass die tatsächliche durchschnittliche Füllmenge nicht 1 000 Gramm beträgt. Diese beiden Ergebnisse sind identisch, und das ist kein Zufall. Es gilt nämlich allgemein, dass man bei einem zweiseitigen Hypothesentest mit dem Signifikanzniveau α genau die Werte des Parameters nicht verwerfen kann, die in dem entsprechenden Konfidenzintervall mit dem Niveau 1 − α enthalten sind, während man genau die Werte des Parameters verwerfen kann, die vom Konfidenzintervall nicht abgedeckt werden. Diesen Zusammenhang erkennt man auch am Beispiel der Tagesrendite der Deutsche Bank Aktie (Beispiel 1.6). In Kapitel 7 haben wir das 90%-Konfidenzintervall (−0.08; 0.12) für die durchschnittliche Tagesrendite berechnet. Da der Wert 0 in diesem Konfidenzintervall enthalten ist, können wir sofort schließen, dass man die Hypothese, dass die durchschnittliche Tagesrendite genau 0 beträgt, bei einem Signifikanzniveau von 10% nicht verwerfen kann. Und genau zu diesem Ergebnis sind wir bei dem entsprechenden Test in diesem Kapitel auch gekommen.
272
8 Hypothesentests
Allerdings darf man nicht vergessen, dass dieser Zusammenhang zwischen Konfidenzintervallen und Hypothesentests nur bei identischem Wert von α und nur für zweiseitige Hypothesentests gilt.
8.5.4 P-Werte Wir haben bisher das klassische Verfahren des Signifikanztests kennengelernt, das seit 1925 mit Fishers Buch Statistical Methods for Research Workers zum Standard geworden ist. Man berechnet eine Prüfgröße, deren Verteilung unter der Nullhypothese bekannt ist. Außerdem gibt man ein Signifikanzniveau α vor und schaut in Tabellen nach, um die entsprechenden kritischen Werte abzulesen. Fällt der Wert der berechneten Prüfgröße in den Ablehnungsbereich, wird die Hypothese abgelehnt. Dieses Vorgehen war sehr sinnvoll, so lange es noch keine schnellen Rechner mit statistischer Software gab, da die Tabellen der entsprechenden Verteilungsfunktionen bzw. ihrer Umkehrfunktionen meist nur für ausgewählte Werte vorlagen. Heute werden die Hypothesentests jedoch in der Regel mit statistischen Programmpaketen durchgeführt, die in der Lage sind, die Verteilungsfunktion der Prüfgröße an jeder Stelle auszurechnen. Daher arbeitet man heute in der Regel nicht mehr mit kritischen Werten für gegebene Signifikanzniveaus, sondern betrachtet den sogenannten P-Wert der Prüfgröße. Was dieser P-Wert ist, wollen wir im Folgenden anhand einiger schon betrachteter Hypothesentests zeigen. Betrachten wir zunächst noch einmal die Brenndauer von Glühbirnen (Beispiel 1.12). Wir haben bei dem durchgeführten Hypothesentest über den Mittelwert μ die folgenden Hypothesen betrachtet: H0 : μ ≥ 1 150
H1 : μ < 1 150 .
Als Prüfgröße haben wir erhalten √ √ (x¯ − μ0 ) n (1 092.9 − 1 150) 30 ≈ −1.51 . = T= S∗ 206.1175 Die Prüfgröße ist unter der Nullhypothese t-verteilt mit n − 1 = 29 Freiheitsgraden. Man kann nun mit dieser Verteilung die Wahrscheinlichkeit berechnen, unter der Nullhypothese einen mindestens so extremen Wert wie −1.51 zu erhalten. Da wir hier die Nullhypothese für kleine Werte ablehnen, gilt ein Wert als mindestens so extrem wie −1.51, wenn er noch kleiner oder gleich −1.51 ist. Wir berechnen also die Wahrscheinlichkeit P(T ≤ −1.51) . Das bedeutet, es wird die Fläche unter der Dichte der t(29)-Verteilung ermittelt, die links von −1.51 liegt (Abb. 8.18). In diesem Fall hat diese Fläche den Wert 0.07. Die Wahrscheinlichkeit, einen mindestens so kleinen Wert wie −1.51 für die Prüfgröße zu erhalten, beträgt also 7%. Diese Wahrscheinlichkeit nennt man P-Wert:
8.5 Ergänzende Hinweise zum klassischen Signifikanztest
273
Abb. 8.18 Bestimmung des P-Wertes bei einem linksseitigen t-Test
Der P-Wert ist die Wahrscheinlichkeit, unter der Nullhypothese einen mindestens so extremen Wert für die Prüfgröße zu erhalten wie den beobachteten. Im betrachteten Fall ist diese Wahrscheinlichkeit ziemlich klein; unter der Nullhypothese erhält man also nur selten eine so extreme Prüfgröße wie die beobachtete oder einen noch extremeren Wert. Man kann den erhaltenen P-Wert nun mit den üblichen Signifikanzniveaus vergleichen. Beim klassischen Vorgehen hatten wir als Signifikanzniveau unter anderem α = 0.10 vorgegeben, d.h. einen Ablehnungsbereich konstruiert, in den die Prüfgröße mit einer Wahrscheinlichkeit von 0.10 fällt. Der hier berechnete P-Wert 0.07 ist kleiner als 0.10. Daher weiß man, dass die beobachtete Prüfgröße noch weiter links liegt als die rechte Grenze des 10%-Ablehnungsbereichs, die Prüfgröße also in den Ablehnungsbereich fällt. Die Nullhypothese ist für α = 0.1 also zu verwerfen. Alternativ haben wir weiter oben bei der Durchführung des Tests auch ein Signifikanzniveau von α = 0.05 betrachtet. Da der P-Wert 0.07 nun größer ist als das Signifikanzniveau 0.05, liegt die Prüfgröße rechts vom Ablehnungsbereich, und die Nullhypothese ist nicht zu verwerfen. Dieser Zusammenhang zwischen dem P-Wert und den Signifikanzniveaus wird in Abb. 8.19 verdeutlicht. Generell wird eine Hypothese dann verworfen, wenn der P-Wert klein ist, kleiner als ein übliches Signifikanzniveau. Der Vorteil der Berechnung von P-Werten liegt darin, dass jeder Benutzer anhand des angegebenen P-Wertes individuell entscheiden kann, ob er die Hypothese verwerfen will oder nicht. Der P-Wert bestimmt genau, wie extrem die Prüfgröße ist, nicht nur, ob sie in dem Ablehnungsbereich liegt oder nicht. Für jedes vorher festgelegte Signifikanzniveau kann also anhand des P-Wertes entschieden werden, ob die Hypothese abzulehnen ist oder nicht. Anstatt den P-Wert mit den üblichen Signifikanzniveaus zu vergleichen, kann man auch wie folgt argumentieren. Würde man −1.51 als kritischen Wert verwenden und die Hypothese genau dann verwerfen, wenn man −1.51 oder einen kleine-
274
8 Hypothesentests
Abb. 8.19 P-Wert und Ablehnungsbereiche üblicher Signifikanzniveaus beim linksseitigen Test
ren Wert für die Prüfgröße erhält, so wäre die maximale Irrtumswahrscheinlichkeit oder das Signifikanzniveau gerade 0.07, und man hätte einen Ablehnungsbereich, in dem die Prüfgröße mit einer Wahrscheinlichkeit von 0.07 liegt. Man kann sich dann überlegen, ob man eine noch kleinere Irrtumswahrscheinlichkeit haben möchte oder auch größere Irrtumswahrscheinlichkeiten zulassen würde, und dann entsprechend über die Nullhypothese urteilen. Betrachten wir noch ein weiteres Beispiel. Im vorangegangenen Abschnitt haben wir einen Hypothesentest für die Varianz des Durchmessers von Kugellagern (Beispiel 8.1) durchgeführt. Die Hypothesen lauteten H0 : σ 2 ≥ 0.011
H1 : σ 2 < 0.011 ,
und als (unter H0 χ 2 (5)-verteilte) Prüfgröße erhielten wir PG =
nS2 6 · 0.00691 ≈ 3.77 . = 0.011 σ02
Da es sich hier auch um einen linksseitigen Test handelt, ist der P-Wert erneut die Wahrscheinlichkeit, einen mindestens so kleinen Wert für die Prüfgröße zu erhalten wie den beobachteten. In diesem Fall ergibt sich P(PG ≤ 3.77) ≈ 0.42 . Dieser P-Wert, der auch noch einmal in Abb. 8.20 dargestellt ist, ist nicht klein. Wir können die Nullhypothese, dass sich die Varianz der Kugellager verringert hat, nicht verwerfen, selbst wenn wir z.B. die Irrtumswahrscheinlichkeit 0.1 (oder sogar 0.4) verwenden. Bisher haben wir den P-Wert nur für linksseitige Tests betrachtet. Bei rechtsseitigen Tests ist der P-Wert die Wahrscheinlichkeit, einen mindestens so großen Wert für die Prüfgröße zu erhalten wie den beobachteten. Betrachten wir noch einmal die Blockzeiten der American Airlines Flüge von Dallas / Fort Worth nach Philadelphia
8.5 Ergänzende Hinweise zum klassischen Signifikanztest
275
Abb. 8.20 Bestimmung des P-Wertes bei einem linksseitigen χ 2 -Test
aus Beispiel 1.2. In diesem Beispiel waren die Hypothesen H0 : μ ≤ 180
H1 : μ > 180 ,
und als (unter H0 t(173)-verteilte) Prüfgröße erhielten wir √ √ (x¯ − μ0 ) n (183.3 − 180) 174 = ≈ 3.15 . T= S∗ 13.84 Als P-Wert ergibt sich dann unter der t(173)-Verteilung: P(T ≥ 3.15) ≈ 0.00096 Der P-Wert ist hier so klein, dass wir die Nullhypothese mit sehr großer Sicherheit verwerfen können. Selbst bei einem Signifikanzniveau von α = 0.001 fiele die Prüfgröße noch in den Ablehnungsbereich. Betrachten wir zum Abschluss noch den P-Wert für einen zweiseitigen Test. Als wir die Pünktlichkeitsquote der American Airlines Flüge von Dallas / Fort Worth nach Philadelphia (Beispiel 1.2) überprüft haben, lauteten die Hypothesen H0 : π = 0.8
H1 : π = 0.8 .
Als standardisierte Prüfgröße ergab sich 131 − 139.2 X −μ (X − nπ ) = √ = Z= ≈ −1.55 . σ 27.84 nπ (1 − π ) Unter der Nullhypothese ist die Prüfgröße standardnormalverteilt. Da wir bei einem zweiseitigen Test die Nullhypothese verwerfen, wenn die standardisierte Prüfgröße sehr klein oder sehr groß ist, setzt sich der P-Wert hier aus zwei Wahrscheinlichkeiten zusammen. Zum einen berechnen wir die Wahrscheinlichkeit, einen mindestens so kleinen Wert wie −1.55 für die Prüfgröße zu erhalten, zum anderen ermitteln wir die Wahrscheinlichkeit, einen mindestens so großen Wert wie 1.55 zu erhalten. Der P-Wert ist dann P-Wert = P(|Z| ≥ 1.55) = P(Z ≤ −1.55) + P(Z ≥ 1.55) = 0.06 + 0.06 = 0.12 .
276
8 Hypothesentests
Abb. 8.21 Bestimmung des P-Wertes bei einem zweiseitigen Test
Zur Verdeutlichung siehe Abb. 8.21. In diesem Fall ist der P-Wert größer als alle üblichen Signifikanzniveaus. Daher werden wir die Nullhypothese normalerweise nicht verwerfen, es sei denn, wir akzeptieren eine noch größere Irrtumswahrscheinlichkeit als α = 0.10. Wie wir an diesen Beispielen gesehen haben, sind P-Werte ein sehr mächtiges und informatives Werkzeug bei der Durchführung statistischer Signifikanztests. Sie sind wesentlich informativer als das klassische Vorgehen beim Signifikanztest. In der Regel werden daher bei Verwendung statistischer Software zur Überprüfung von Hypothesen automatisch die P-Werte für die betrachteten Prüfgrößen ausgegeben. Das Konzept der P-Werte ist nicht neu. Schon 1900 hat Pearson P-Werte berechnet und entsprechende Tabellen herausgegeben. Bis zur Verbreitung des Computers hat sich jedoch das Verfahren mit den kritischen Werten von Fisher durchgesetzt. Wichtigste Konzepte: • • • • • • • • •
Nullhypothese und Alternativhypothese Signifikanzniveau α - und β -Fehler Prüfgröße, standardisierte Prüfgröße Teststatistik Ablehnungsbereich kritischer Wert einseitige und zweiseitige Tests p-Wert
Kapitel 9
Der Zufall im Doppelpack — Paare von Zufallsvariablen
Oft sind mehrere Merkmale der Elemente einer Stichprobe gemeinsam von Interesse und werden deshalb gemeinsam beobachtet und untersucht. Mit solchen Untersuchungen soll unter anderem die Art des Zusammenhangs zwischen den Merkmalen bestimmt werden, wie in dem folgenden Beispiel. Beispiel 9.1. Wassergehalt und Brennwert von Zuckerrohr Abbildung 9.1 zeigt den Wassergehalt (in %) und den Brennwert (in Kilo-Joule pro Gramm) von 34 zufällig ausgewählten Zuckerrohr-Proben.1 Jedes Stück Zuckerrohr besitzt zwei uns interessierende Merkmale, nämlich den Wassergehalt, der als Prozentteil gemessen wird, und den Brennwert, der in Kilo-
Abb. 9.1 Wassergehalt und Brennwert von Zuckerrohr 1
Die Daten stammen ursprünglich aus der Master-Arbeit An investigation of the calorific value and some other properties of bagasse, die C.E. Don 1975 an der University of Natal in Durban verfasst hat, wurden aber aus dem Buch Linhart, H. und Zucchini, W. (1991): Statistik Eins, 4. Auflage, Birkhäuser Verlag, Basel, übernommen. Eigentlich handelt es sich dabei um BagasseProben. Bagasse nennt man die ausgepressten Zuckerrohrstengel, die bei der Zuckerproduktion als Abfallprodukt anfallen und meist zur Energiegewinnung verbrannt werden; wir sprechen im Folgenden jedoch einfach von Zuckerrohr. W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
277
278
9 Paare von Zufallsvariablen
joule pro Gramm gemessen wird. Wenn wir Abb. 9.1 betrachten, sehen wir, dass diese beiden Merkmale zusammenhängen. Ein hoher Wassergehalt geht mit einem niedrigen Brennwert einher. Je feuchter das Zuckerrohr ist, desto weniger Wärme kann es produzieren. Wie auch immer, der Zusammenhang ist stochastischer Natur. Der Sinn des Erhebens solcher Daten besteht darin, den Zusammenhang zwischen den beiden Merkmalen zu untersuchen und zu quantifizieren. Dazu genügt es nicht, jedes Merkmal einzeln zu betrachten. Die beiden Merkmale müssen gemeinsam betrachtet werden, denn • die beiden Merkmale sind verbunden, • die Beziehung ist stochastisch und • die beiden Zufallsvariablen besitzen eine gemeinsame Verteilung. Die bisher betrachteten stochastischen Modelle, wie z.B. die Binomialverteilung, die Poisson-, die Exponential- oder die Normalverteilung, lassen sich zur Beschreibung einzelner Merkmale verwenden. Wir könnten diese oder ähnliche Modelle verwenden, um die Verteilung des Wassergehalts oder die des Brennwerts separat zu beschreiben. Jetzt benötigen wir ein Verfahren zur Beschreibung der gemeinsamen Verteilung der beiden Merkmale. Deshalb verallgemeinern wir die Definitionen für Wahrscheinlichkeitsfunktionen, Dichtefunktionen usw., um damit zwei oder mehr Zufallsvariablen gleichzeitig beschreiben zu können. Es gibt unzählige Beispiele für Zusammenhänge zwischen interessanten stochastischen Merkmalen. Wir können hier nur einige davon auflisten. • • • • •
Kosten für Werbemaßnahmen & Umsatzvolumen Schulabschluss & Beruf Stress & Blutdruck Haushaltsgröße & Ausgaben für Lebensmittel Zinssatz & Arbeitslosenquote Typische Fragen in solchen Situationen sind:
• Sind die beiden Merkmale voneinander abhängig? • Wenn ja, wie lässt sich ihr Verhalten beschreiben? • Kann man anhand des Wertes eines der zwei Merkmale das Verhalten des zweiten Merkmals besser voraussagen? • Kann man das Verhalten eines der zwei Merkmale steuern, indem man den Wert des anderen Merkmals steuert? Die Beispiele demonstrieren, dass die hier behandelte Theorie weite Anwendungsgebiete besitzt, auch außerhalb der Wirtschaftswissenschaften. Ein sehr nützlicher Aspekt ist, dass die statistische Theorie uns Konzepte zur Beschreibung sowohl der objektiven Theorie als auch der quantitativen Beziehung zwischen den Merkmalen nennt. So ist z.B. die Tatsache akzeptiert, dass durch eine Erhöhung der Werbeausgaben das Umsatzvolumen erhöht werden kann. Aber uns interessiert die genaue Beziehung zwischen diesen Merkmalen, also die Antwort auf die Frage: In welchem Ausmaß wird der Umsatz steigen, wenn wir die Werbeausgaben um 10% erhöhen?
9.1 Paare diskreter Zufallsvariablen
279
Es gibt eine Vielzahl statistischer Methoden zur Beantwortung spezieller Fragen dieser Art. Wir werden ein Grundvokabular bzw. wichtige Konzepte behandeln, die den Zusammenhang zwischen zwei Merkmalen betreffen. Sie sind deshalb wichtig, weil sie die Grundlage für alle späteren Methoden bilden. Wir werden ein paar spezielle Methoden später behandeln, z.B. die Regressionsanalyse. Wir wissen, dass Zufallsvariablen entweder diskret oder stetig sind. Bei zwei Merkmalen gibt es drei Möglichkeiten: (a) Beide sind diskret. (b) Beide sind stetig. (c) Ein Merkmal ist diskret, das andere ist stetig. Ein Beispiel für die dritte Möglichkeit ist: Merkmal 1: Kauf bzw. Nichtkauf eines Produkts Merkmal 2: Einkommen Alle drei der oben genannten Möglichkeiten kommen in der Praxis vor und sind daher wichtig. Wir beginnen mit Fall (a).
9.1 Paare diskreter Zufallsvariablen Beispiel 9.2. Eignungstest für Minenarbeiter In seinem 1953 im Journal of the National Institute for Personnel Research veröffentlichten Artikel Validation of aptitude tests for the selection of winch drivers on the Witwatersrand gold mines schlug N. Mkele die Verwendung eines Eignungstestes für Arbeiten an einer Winde vor. Arbeiten an einer Winde scheint kein besonders anspruchsvoller Job zu sein, der eine lange Ausbildung erfordert. In diesem Fall ist es aber eine verantwortungsvolle Tätigkeit, weil mit Hilfe der Winde Bergarbeiter in die Goldminen in Südafrika eingefahren werden. Einige Minen befinden sich in 2 Kilometer Tiefe. Mkele ließ daher einige Teilnehmer vor Beginn der Ausbildung einen Eignungstest durchführen und beobachtete dann Erfolg bzw. Misserfolg in der Ausbildung. Aus seinen Beobachtungen lässt sich das in Tabelle 9.1 gegebene Modell der gemeinsamen Wahrscheinlichkeiten ableiten.2 Zunächst sehen wir, dass mit jeder Person zwei Merkmale verbunden sind: 1. Das Ergebnis der Ausbildung (X) 2. Das Ergebnis des Eignungstests (Y) Typische Beobachtungen können folgendermaßen gegeben werden: Statt Erfolg und 3 Testpunkte schreiben wir X = 1,Y = 3 oder einfach das Tupel (1, 3). Wir werden X als Zufallsvariable 1, Y als Zufallsvariable 2 bezeichnen. Die Tabelle 9.1 nennt für jedes mögliche Paar von Ergebnissen in der Ausbildung und im Eignungstest die Wahrscheinlichkeit, mit der es auftritt. Wenn wir also zufällig eine Person aus 2 Das Beispiel wurde ebenfalls aus dem Buch Linhart, H. und Zucchini, W. (1991): Statistik Eins, 4. Auflage, Birkhäuser Verlag, Basel, übernommen.
280
9 Paare von Zufallsvariablen
Tabelle 9.1 Modell der gemeinsamen Wahrscheinlichkeiten Y niedrig X
1
hoch 2
3
4
5
6
Summe
0 (Misserfolg) 1 (Erfolg)
0.028 0.130 0.243 0.138 0.023 0.001 0.000 0.008 0.079 0.192 0.127 0.031
0.563 0.437
Summe
0.028 0.138 0.322 0.330 0.150 0.032
1.000
Ergebnis Erfolg Misserfolg Erfolg usw.
Testpunkte
X
Y
(X,Y )
3 2 4
1 0 1
3 2 4
(1,3) (0,2) (1,4)
dieser Population auswählten, dann betrüge die Wahrscheinlichkeit, dass die Person 3 Punkte im Test und einen Misserfolg in der Ausbildung hätte, 0.243, d.h. P(Person erzielt 3 Punkte im Test und hat einen Misserfolg) = 0.243 . In Symbolen schreiben wir P(X = 0 und Y = 3) = 0.243 oder kurz: P(0, 3) = 0.243. Die Tabelle 9.1 enthält die gemeinsame Wahrscheinlichkeitsfunktion P(x, y) = P(X = x und Y = y) für x = 0, 1; y = 1, 2, 3, 4, 5, 6 In unserem Beispiel ist: ⎧ 0.028 für x = 0, y = 1 ⎪ ⎪ ⎪ ⎪ 0.130 für x = 0, y = 2 ⎪ ⎨ . . P(x, y) = . ⎪ ⎪ ⎪ ⎪ 0.031 für x = 1, y = 6 ⎪ ⎩ 0 sonst Grafisch können wir die gemeinsame Wahrscheinlichkeitsfunktion so darstellen wie in Abb. 9.2. Entlang der x-Achse werden die möglichen Werte der Zufallsvariablen X abgetragen, entlang der y-Achse die der Zufallsvariablen Y , und entlang der z-Achse die Wahrscheinlichkeiten P(x, y). Man beachte, dass wir nun eine dritte Dimension benötigen, da die Wahrscheinlichkeit nicht mehr die Funktion einer, sondern zweier
9.1 Paare diskreter Zufallsvariablen
281
Abb. 9.2 Gemeinsame Wahrscheinlichkeitsfunktion
Zufallsvariablen ist. Die Summe aller dieser Wahrscheinlichkeiten ist gleich 1. 1
6
∑ ∑ P(x, y) = 1
x=0 y=1
Man beachte weiterhin, dass wir mit Hilfe von P(x, y) die Wahrscheinlichkeitsfunktion der einzelnen Zufallsvariablen X und Y bestimmen können. So ist z.B. die Wahrscheinlichkeit des Ereignisses {X = 0} einfach die Summe der Wahrscheinlichkeiten aller gemeinsamen Ereignisse, in denen X = 0 ist. P(X = 0) = P(0, 1) + P(0, 2) + P(0, 3) + P(0, 4) + P(0, 5) + P(0, 6) = 0.028 + 0.130 + 0.243 + 0.138 + 0.023 + 0.001 = 0.563 Analog erhält man: P(X = 1) = 0.437 Deshalb ist die Wahrscheinlichkeitsfunktion P1 (x) der Zufallsvariablen X (siehe Abb. 9.3a) ⎧ ⎨ 0.563 für x = 0 P1 (x) = 0.437 für x = 1 ⎩ 0 sonst . Allgemein gilt:
P1 (x) = ∑ P(x, y) y
Die Summe ist über alle möglichen Werte von Y zu bilden, die Y bei diesem x annehmen kann. P1 (x) wird als Randwahrscheinlichkeitsfunktion von X bezeichnet. Die 1 im Index bezieht sich hier auf Zufallsvariable 1, das ist X. In manchen Texten findet man PX (x) statt P1 (x). Ebenso wird auch pX oder p1 verwendet. Analog ist die Randwahrscheinlichkeitsfunktion von Y gegeben durch: P2 (y) = ∑ P(x, y) x
282
9 Paare von Zufallsvariablen
Abb. 9.3 Randwahrscheinlichkeiten von a X und b Y
Die Summe wird jetzt über die Zeilen der Tabelle gebildet. Die Randwahrscheinlichkeitsfunktionen stehen in Tabelle 9.2 am Rande, am unteren Rand steht die Randwahrscheinlichkeitsfunktion von Y , am rechten Rand die von X. Die Randwahrscheinlichkeitsfunktion (siehe Abb. 9.3b) von Y können wir auch in der folgenden Form schreiben: ⎧ 0.028 für y = 1 ⎪ ⎪ ⎪ ⎪ 0.138 für y = 2 ⎪ ⎪ ⎪ ⎪ ⎨ 0.322 für y = 3 P2 (y) = 0.330 für y = 4 ⎪ ⎪ 0.150 für y = 5 ⎪ ⎪ ⎪ ⎪ 0.032 für y = 6 ⎪ ⎪ ⎩ 0 sonst
Tabelle 9.2 Gemeinsame Wahrscheinlichkeiten mit Randwahrscheinlichkeitsfunktionen Y niedrig X
1
hoch 2
3
4
5
6
P1 (x)
0 (Misserfolg) 1 (Erfolg)
0.028 0.130 0.243 0.138 0.023 0.001 0.000 0.008 0.079 0.192 0.127 0.031
0.563 0.437
P2 (y)
0.028 0.138 0.322 0.330 0.150 0.032
1.000
9.1 Paare diskreter Zufallsvariablen
283
Wir können mit Hilfe von P2 (y) die Wahrscheinlichkeiten der einzelnen Testergebnisse bestimmen, z.B. P(Eine Person erhält eine 2 in dem Test) = P(Y = 2) = P2 (2) = P(0, 2) + P(1, 2) = 0.130 + 0.008 = 0.138 . Wenn wir also die gemeinsame Wahrscheinlichkeitsfunktion von X und Y kennen, können wir die Wahrscheinlichkeitsfunktionen von X und von Y berechnen. Wir haben die Randwahrscheinlichkeitsfunktionen so ausführlich behandelt, weil wir noch einen weiteren Typ einer Wahrscheinlichkeitsfunktion einführen. Es ist wichtig, dass man versteht, wie jede dieser Wahrscheinlichkeitsfunktionen interpretiert wird und welche Information sie uns liefert. Bisher haben wir behandelt: • Die gemeinsame Wahrscheinlichkeitsfunktion • Die Randwahrscheinlichkeitsfunktionen P1 (x) und P2 (y) Als drittes werden jetzt eingeführt: • Die bedingten Wahrscheinlichkeitsfunktionen P1|2(x|y) und P2|1 (y|x) Stellen wir uns vor, wir wählten eine Person der oben genannten Population zufällig aus. Wir stellen uns diese beiden Fragen: Frage 1: Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung? Frage 2: Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung, wenn die Person im Test eine 2 erhalten hat? Die Antwort auf Frage 1 ist einfach P(X = 1), wofür wir schon den Wert 0.437 berechnet haben. Im Falle der Frage 2 besitzen wir eine zusätzliche Information, nämlich, dass der Wert von Y gleich 2 ist. Wir wissen aus Kapitel 3, dass wir zusätzliche Informationen mit dem Konzept der bedingten Wahrscheinlichkeiten berücksichtigen können. In Symbolen lautet die Antwort auf Frage 2: P(X = 1|Y = 2). Wir hatten folgende Formel zur Berechnung bedingter Wahrscheinlichkeiten kennengelernt: Für zwei Ereignisse A und B mit P(B) > 0 gilt P(A|B) = P(A ∩ B)/P(B) . In unserem Beispiel ist A das Ereignis einer erfolgreichen Ausbildung und B das Ereignis, dass das Ergebnis des Eignungstests 2 Punkte ist, d.h. A = {X = 1} und B = {Y = 2}. Damit können wir Frage 2 beantworten: P(X = 1|Y = 2) =
P({X = 1} ∩ {Y = 2}) P(1, 2) 0.008 = = = 0.058 P(Y = 2) P2 (2) 0.138
Fassen wir zusammen: Antwort auf Frage 1: P(X = 1) = 0.437 Antwort auf Frage 2: P(X = 1|Y = 2) = 0.058 Die Antworten auf diese beiden Fragen sagen uns Folgendes:
284
9 Paare von Zufallsvariablen
Antwort auf Frage 1: P(X = 1) = 0.437, d.h. 43.7% aller Personen in der Population würden die Ausbildung erfolgreich beenden. Antwort auf Frage 2: P(X = 1|Y = 2) = 0.058, d.h. in der Gruppe der Personen, die den Test mit 2 Punkten abgeschlossen haben, würden nur 5.8% die Ausbildung erfolgreich absolvieren und 94.2% wären nicht erfolgreich. Solche Aussagen sind natürlich der Sinn eines Eignungstests. Er dient als Indikator, ob eine Person erfolgreich sein wird oder nicht. Was wir gerade als Antwort auf Frage 2 berechnet haben, heißt: Die bedingte Wahrscheinlichkeitsfunktion von X, gegeben Y = 2. Wir schreiben das als P1|2 (x|2) =
P(x, 2) . P2 (2)
Wir hatten (siehe auch die Grafik oben links in Abb. 9.4) P1|2 (0|2) =
P(0, 2) = 0.942 P2 (2)
P(1, 2) = 0.058 P2 (2) Wir können die bedingten Wahrscheinlichkeitsfunktionen auch für andere Testergebnisse ausrechnen. Für das Testergebnis 1 (d.h. Y = 1) erhalten wir P1|2 (1|2) =
P1|2 (0|1) =
P(0, 1) 0.028 = =1 P2 (1) 0.028
P(1, 1) 0.000 = =0 P2 (1) 0.028 Diese bedingte Wahrscheinlichkeit sagt uns, dass eine Person, die 1 Punkt im Test erhält, keine Chance hat, die Ausbildung erfolgreich zu absolvieren. Tabelle 9.3 zeigt die bedingten Wahrscheinlichkeitsfunktionen für jedes mögliche Testergebnis. In Abb. 9.4 sind alle bedingten Wahrscheinlichkeitsfunktionen grafisch dargestellt. Abbildung 9.4 und Tabelle 9.3 zeigen, dass mit zunehmendem Testergebnis die Wahrscheinlichkeit für eine erfolgreiche Ausbildung steigt, d.h. der Eignungstest P1|2 (1|1) =
Tabelle 9.3 Bedingte Wahrscheinlichkeitsfunktionen von X, gegeben Y Testergebnis Bedingte Wahrscheinlichkeitsfunktion P1|2 (1|y) y P1|2 (0|y) 1 2 3 4 5 6
1.000 0.942 0.755 0.418 0.153 0.031
0.000 0.058 0.245 0.582 0.847 0.969
9.1 Paare diskreter Zufallsvariablen
285
Abb. 9.4 Bedingte Wahrscheinlichkeitsfunktionen von X
ist in der Lage, die Chancen für eine erfolgreiche Ausbildung zu prognostizieren. In diesem Beispiel sind wir nur an der bedingten Wahrscheinlichkeitsfunktion von X, gegeben Y , interessiert. Im allgemeinen Fall können aber durchaus beide bedingten Wahrscheinlichkeitsfunktionen von Interesse sein. Wir geben hier noch einmal die Definitionen für den allgemeinen Fall: Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y: P1|2 (x|y) =
P(x, y) P2 (y)
für
P2 (y) > 0
Wenn P2 (y) = 0, dann ist P1|2 (x|y) nicht definiert.
Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x: P2|1 (y|x) =
P(x, y) P1 (x)
für
P1 (x) > 0
286
9 Paare von Zufallsvariablen
Abb. 9.5 Bedingte Wahrscheinlichkeitsfunktionen von Y
Wenn P1 (x) = 0, dann ist P2|1 (y|x) nicht definiert. Die zwei bedingten Wahrscheinlichkeitsfunktionen P2|1 (y|0) und P2|1 (y|1) sind in Abb. 9.5 grafisch dargestellt. Bedingte Wahrscheinlichkeitsfunktionen sind nützlich, wenn wir Entscheidungen auf der Grundlage der Kenntnis eines Merkmals treffen müssen. In dem eben behandelten Beispiel können wir die Tabelle mit den bedingten Wahrscheinlichkeitsfunktionen verwenden, um Entscheidungen darüber zu treffen, wer in das Ausbildungsprogramm aufgenommen werden soll. Die bedingten Wahrscheinlichkeitsfunktionen sind eindimensionale Verteilungen. Wir können für diese Verteilungen die Erwartungswerte und die Varianzen bestimmen. Diese werden genau so wie gewöhnliche Erwartungswerte und Varianzen berechnet. Jedoch verwenden wir anstelle der Randwahrscheinlichkeitsfunktion die bedingte Wahrscheinlichkeitsfunktion. Die Formeln sind: Erwartungswert und Varianz von X gegeben Y = y: E(X|Y = y) = ∑ xP1|2 (x|y) x
Var(X|Y = y) = ∑(x − E(X|Y = y))2 P1|2 (x|y) x
9.2 Paare stetiger Zufallsvariablen
287
Erwartungswert und Varianz von Y gegeben X = x: E(Y |X = x) = ∑ yP2|1 (y|x) y
Var(Y |X = x) = ∑(y − E(Y |X = x))2 P2|1 (y|x) y
9.2 Paare stetiger Zufallsvariablen Für jede der drei neuen Arten von Wahrscheinlichkeitsfunktionen, die wir für Paare diskreter Zufallsvariablen kennen gelernt haben, gibt es eine analoge Definition für Paare stetiger Zufallsvariablen. Diskret
Stetig
Gemeinsame Wahrscheinlichkeitsfunktion Gemeinsame Dichtefunktion P(x, y)
f (x, y)
Eigenschaften P(x, y) ≥ 0 für alle x, y ∈ R ∑ ∑ P(x, y) = 1
Eigenschaften f (x, y) ≥ 0 für alle x, y ∈ R f (x, y)dydx = 1
Randwahrscheinlichkeitsfunktion von X
Randdichtefunktion von X
P1 (x) = ∑ P(x, y)
f1 (x) =
Randwahrscheinlichkeitsfunktion von Y
Randdichtefunktion von Y
P2 (y) = ∑ P(x, y)
f2 (y) =
Bedingte Wahrscheinlichkeitsfunktion von X gegeben Y P1|2 (x|y) = P(x,y) P (y)
Bedingte Dichtefunktion von X gegeben Y f1|2 (x|y) = ff(x,y) (y)
Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X P2|1 (y|x) = P(x,y) P (x)
Bedingte Dichtefunktion von Y gegeben X f2|1 (y|x) = ff(x,y) (x)
x y
y
x
2
1
x y
y
x
f (x, y)dy
f (x, y)dx
2
1
288
9 Paare von Zufallsvariablen
Abb. 9.6 Gemeinsame Dichtefunktion. a Funktionsgebirge. b Image-Plot mit Höhenlinien
Um Wahrscheinlichkeiten für eine einzelne stetige Dichtefunktion zu berechnen, bestimmt man die Fläche unter der Dichtefunktion (vergleiche z.B. Kapitel 4) durch das Integral von a bis b: P(a < X < b) =
b
f (x)dx
a
Die Gesamtfläche unterhalb der Dichtefunktion ist 1. Für ein Paar von Zufallsvariablen ist die gemeinsame Dichtefunktion eine Funktion mit zwei Argumenten und sieht aus wie ein Gebirge oder ein Zelt, wie z.B. in Abb. 9.6a. Abbildung 9.6b zeigt die gleiche Dichte als Image-Plot. Je dunkler die Farbe, desto höher ist die Dichte in dieser Abbildung. Zusätzlich sind noch Höhenlinien eingezeichnet. Anstelle von Flächen müssen wir jetzt Volumina verwenden, um Wahrscheinlichkeiten zu berechnen. Die Wahrscheinlichkeit, dass X zwischen den Punkten a und b liegt und gleichzeitig Y zwischen c und d, ist gegeben durch das Volumen unterhalb der gemeinsamen Dichtefunktion über dem Rechteck (a, b) × (c, d) (siehe Abb. 9.7a). Eine Möglichkeit, dieses Volumen zu bestimmen, ist, das Integral über die Dichtefunktion zu berechnen. Dann ist das folgende Doppelintegral zu berechnen: P(a < X < b, c < Y < d) =
d b
f (x, y)dxdy
c a
Manchmal braucht man Wahrscheinlichkeiten anderer Art, z.B. P(X · Y > 50). Diese Wahrscheinlichkeit ist gegeben durch das Volumen unterhalb der gemeinsamen Dichtefunktion über der Region R = {(x, y) : x·y > 50} — vergleiche Abb. 9.7b — und damit durch P(X ·Y > 50) = f (x, y)dxdy . R
9.2 Paare stetiger Zufallsvariablen
289
Abb. 9.7 Gemeinsame Wahrscheinlichkeit als Volumen unter der Dichtefunktion. a P(−2 < X < 0; 40 < Y < 60). b P(X ·Y > 50)
Solche Integrale können sehr schwierig zu bestimmen sein. Wir hatten dieses Problem schon für den Fall, in dem es nur eine einzelne Zufallsvariable gab. Wir konnten zwar Formeln für die Rechteckverteilung und die Exponentialverteilung erhalten, aber z.B. nicht für die Normalverteilung. Man konnte dann aber die Fläche unter der Dichtefunktion numerisch annähern. Diese Aufgabe der numerischen Bestimmung eines Integrals wird durch Rechner erledigt. Tatsächlich werden so die Tabellen für die Normalverteilung, die t-Verteilung und die χ 2 -Verteilung bestimmt. Wenn wir jetzt mit gemeinsamen Wahrscheinlichkeiten arbeiten, wird man das Volumen mit Hilfe von Tabellen oder einem Computer annähern. Trotz dieser technischen Schwierigkeiten ist das zugrundeliegende Prinzip einfach zu bestimmen. Damit eine Funktion f (x, y) eine gemeinsame Dichtefunktion ist, muss f (x, y) die folgenden beiden Eigenschaften erfüllen: (i) f (x, y) darf keine negativen Werte annehmen, d.h. f (x, y) ≥ 0
für alle x, y ∈ R .
(ii) Das gesamte Volumen unter der Dichtefunktion muss gleich 1 sein, d.h. ∞ ∞
f (x, y)dxdy = 1 .
−∞ −∞
Jetzt wird ein einfaches Beispiel zur Illustration der verschiedenen Definitionen durchgerechnet, in dem es möglich ist, die Integration durchzuführen. Beispiel 9.3. Beispiel einer gemeinsamen Dichtefunktion Gegeben sei die folgende zweidimensionale Dichtefunktion x + 43 y − 23 xy für 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 fXY (x, y) = 0 sonst .
290
9 Paare von Zufallsvariablen
Zunächst wollen wir überprüfen, ob es sich bei dieser Funktion tatsächlich um eine gemeinsame Dichtefunktion handelt, d.h. wir wollen zeigen, dass die Eigenschaften (i) und (ii) erfüllt sind. Wir betrachten zunächst Eigenschaft (i): Aus dem Plot (Abb. 9.8) der gemeinsamen Dichtefunktion ist zu sehen, dass fXY (x, y) keine negativen Funktionswerte annimmt, die Eigenschaft (i) also erfüllt ist. Wir müssen nun überprüfen, ob das Gesamtvolumen unter fXY (x, y) tatsächlich gleich 1 ist. 1 1
f (x, y) dxdy =
0 0
1 1
2 4 x + y − xy 3 3
dxdy
0 0
=
1 0
=
1 2 4 1 x + xy − x2 y 2 3 3
1
y+
0
1 2
dy =
1 dy 0
1 2 1 y + y 2 2
1 =1 0
Beide Bedingungen (i) und (ii) sind erfüllt. Damit ist fXY (x, y) eine zulässige gemeinsame Dichtefunktion. Die Randdichte von X erhalten wir durch Integration über Y , die Randdichte von Y entsprechend durch Integration über X. Wir wollen zunächst die Randdichte von X bestimmen. Die Randdichte von X ist definiert durch: f1 (x) =
∞ −∞
Abb. 9.8 Gemeinsame Dichtefunktion
f (x, y)dy
9.2 Paare stetiger Zufallsvariablen
291
Wir erhalten hier: f1 (x) =
1
f (x, y) dy =
0
= x+
1
2 4 x + y − xy 3 3
0
2 2 1 2 1 dy = xy + y − xy 3 3 0
2 2 2 2 1 − x = x + = (x + 1) 3 3 3 3 3
Als vollständige Dichtefunktion notieren wir f1 (x) wie folgt: 2 (x + 1) für 0 ≤ x ≤ 1 f1 (x) = 3 0 sonst In gleicher Weise erhalten wir für Y : f2 (y) =
y + 12 0
für 0 ≤ y ≤ 1 sonst
Wir können nun aus f1 (x) die Erwartungswerte EX und EX 2 und daraus die Varianz von X errechnen: EX =
1
x f1 (x) dx =
0
1 0
=
2 x (x + 1) dx 3
1 0
EX = 2
1
x f1 (x) dx = 2
0
1 0
=
dx =
2 3 1 2 x + x 9 3
1 = 0
2 1 5 + = 9 3 9
2 2 x (x + 1) dx 3
1 0
2 2 2 x + x 3 3
2 3 2 2 x + x 3 3
dx =
1 4 2 3 x + x 6 9
2 5 7 13 2 2 Var(X) = EX − (EX) = − = 0.08025 = 18 9 162
1 = 0
7 1 2 + = 6 9 18
292
9 Paare von Zufallsvariablen
In derselben Weise wollen wir nun für Y die Erwartungswerte EY und EY 2 und daraus die Varianz von Y bestimmen: EY =
1
y f2 (y) dy =
0
1
y y+
1
dy
1 y + y 2
0
1
0
=
EY 2 =
1 2
y2 f2 (y) dy =
0
1 0
=
Var(Y ) = EY 2 − (EY )2 =
1 1 dy = y3 + y2 3 4
1 = 0
7 1 1 + = 3 4 12
1 y2 y + dy 2
1 0
2
1 y3 + y2 2
7 5 − 12 12
dy =
2 =
1 4 1 3 y + y 4 6
1 = 0
5 1 1 + = 4 6 12
11 = 0.07639 144
Bei der Berechnung der Varianzen von X und von Y haben wir uns der bereits früher genutzten Vereinfachung bedient, Var (Z) = EZ 2 − (EZ)2 . Am Beispiel von Y werden wir nun als Wiederholung aus den vorherigen Kapiteln zeigen, wie man die Varianz auch direkt aus der Definition Var (Y ) = E(Y − EY )2 errechnen kann. Hiernach ist: Var(Y ) = E(Y − EY )2 =
∞
(y − EY )2 f2 (y) dy =
−∞
=
2 1 y+ dy 2
0
1 49 7 49 7 y + y2 − y + y − y2 + 6 144 2 12 288 3
1
49 2 35 y+ y3 − y2 − 3 144 288
0
=
7 12
49 7 1 2 y − y+ y+ dy 6 144 2
1 0
=
y−
1 0
=
1
dy =
dy
1 4 2 3 35 2 49 y − y − y + y 4 9 288 288
1 0
35 49 11 1 2 − − + = 4 9 288 288 144
Wie nicht anders zu erwarten war, erhalten wir für Var Y dasselbe Ergebnis wie bei der vorherigen Berechnung.
9.2 Paare stetiger Zufallsvariablen
293
Beispiel 9.4. Höhe und Wert von Bäumen Die Zufallsvariable X beschreibe die Höhe von Bäumen und Y den Wert ihres Holzes. Das Verhalten dieser zwei stetigen Zufallsvariablen wird durch ihre gemeinsame Dichtefunktion f (x, y) beschrieben. Abbildung 9.9 zeigt die Dichtefunktion als Funktionsgebirge (links) sowie als Image-Plot mit zusätzlichen Höhenlinien, wobei wieder gilt, dass eine dunklere Farbe mit einem höheren Gebirge korrespondiert. Die gemeinsame Dichtefunktion können wir benutzen, um Wahrscheinlichkeiten zu berechnen, indem wir das entsprechende Volumen unterhalb der gemeinsamen Dichtefunktion bestimmen. P(a < X < b, c < Y < d) =
b d
f (x, y)dydx
a c
Dies können wir benutzen, um Fragen über die zwei Variablen zu beantworten: Welcher Anteil von Bäumen in der Grundgesamtheit hat eine Höhe zwischen 8 und 12 Metern und einen Holzwert zwischen 50 und 100 e? In diesem Beispiel ist es naheliegender, die Frage mit dem Begriff Anteil zu formulieren als mit dem Begriff Wahrscheinlichkeit. Jedoch führt es auf dasselbe, wenn man die Frage wie folgt formuliert: Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus der Grundgesamtheit ausgewählter Baum eine Höhe zwischen 8 und 12 Metern und einen Wert zwischen 50 und 100 e hat? Die Antwort ist in Abb. 9.10 dargestellt; die linke Grafik zeigt den gesuchten Teil des Funktionsgebirges, die rechte Grafik den entsprechenden Image-Plot. Analytisch ist die Wahrscheinlichkeit durch das folgende Integral zu berechnen: P(8 < X < 12; 50 < Y < 100) =
12 100
f (x, y)dydx = 0.22
8 50
Abb. 9.9 Gemeinsame Dichtefunktion. a Funktionsgebirge. b Image-Plot mit Höhenlinien
294
9 Paare von Zufallsvariablen
Abb. 9.10 P(8 < X < 12; 50 < Y < 100) als a Volumen unter der Dichtefunktion und b als ImagePlot
In vielen realen Anwendungen ist es nicht einfach, dieses Integral auszurechnen. Wir haben gesehen, dass man die gemeinsame Dichtefunktion, falls man sie kennt, benutzen kann, um die jeweiligen Dichtefunktionen von X und Y zu bestimmen. Wir haben sie Randdichtefunktionen genannt und wie folgt bestimmt: Randdichtefunktion von X (Variable 1):
f1 (x) =
Randdichtefunktion von Y (Variable 2):
f2 (y) =
∞
−∞ ∞ −∞
f (x, y)dy f (x, y)dx
Dies sind Dichtefunktionen der Art, wie wir sie in Kapitel 4 betrachtet haben. Wir wollen anhand einiger Bilder überlegen, wie man sich die Randdichtefunktion anschaulich vorstellen kann. Abbildung 9.9 zeigt die gemeinsame Dichtefunktion von zwei Zufallsvariablen X und Y . Um den Funktionswert der Randdichte von X an der Stelle x zu bestimmen, schneiden wir die gemeinsame Dichtefunktion an der Stelle x durch. Der Flächeninhalt der Schnittfläche ist gerade f1 (x). Abbildung 9.11a zeigt die Fläche unter f (10; y). Der Flächeninhalt beträgt hier f1 (10) = 0.097.
Abb. 9.11 Zur Berechnung der Randdichte a f (x = 10) und b f (y = 100)
9.2 Paare stetiger Zufallsvariablen
295
Abb. 9.12 a P(10 < X < 14) als Fläche unter der Randdichte von X. b P(Y > 200) als Fläche unter der Randdichte von Y
Schneiden wir die gemeinsame Dichtefunktion an der Stelle y = 100 auf, so entspricht der Flächeninhalt gerade f2 (y). Abbildung 9.11b zeigt die Fläche unter f (x; 100) = 0.0036. Die Randdichten können dazu benutzt werden, um Fragen über eine einzelne Zufallsvariable zu beantworten, z. B.: Welcher Anteil von Bäumen in der Grundgesamtheit hat eine Höhe zwischen 10 und 14 Metern? Die Antwort ist P(10 < X < 14) =
14
f1 (x)dx = 0.26 .
10
Welcher Anteil von Bäumen hat einen Holzwert größer als 200 e? Die Antwort auf diese Frage ist ∞
P({Y > 200}) =
f2 (y)dy = 0.15 .
200
Die Randdichten und die beiden berechneten Wahrscheinlichkeiten sind in Abb. 9.12 grafisch dargestellt. Wir haben noch eine dritte Art von Dichtefunktionen definiert, die bedingten Dichtefunktionen. Die bedingte Dichtefunktion von Y (Variable 2), gegeben X (Variable 1), ist: f2|1 (y|x) =
f (x, y) f1 (x)
(für f1 (x) = 0)
296
9 Paare von Zufallsvariablen
Abb. 9.13 a P(100 < Y < 200|x = 10) als Fläche unter der bedingten Dichte von Y , gegeben x = 10. b P(8 < X < 12|Y = 100) als Fläche unter der bedingten Dichte von X, gegeben y = 100
Die bedingte Dichtefunktion von X (Variable 1), gegeben Y (Variable 2), ist: f1|2 (x|y) =
f (x, y) f2 (y)
(für f2 (y) = 0)
Die bedingte Dichtefunktion von Y , gegeben X, kann benutzt werden, um Fragen über Y zu beantworten für einen gegebenen Wert von X. Wie groß ist der Anteil von Bäumen, deren Wert zwischen 100 und 200 e liegt, wenn ihre Höhe 10 Meter beträgt? Die Antwort liefert das Integral
P(100 < Y < 200|X = 10) =
200
f2|1 (y|10)dy = 0.47
100
und ist in Abb. 9.13a grafisch dargestellt. Anschaulich können wir uns die bedingte Dichtefunktion von Y , gegeben x = 10, in Abb. 9.13 so vorstellen: Wir schneiden die gemeinsame Dichtefunktion f (x, y) in Abb. 9.9 (oben) mit der Ebene x = 10, wie in Abb. 9.11a dargestellt. Die dort sichtbare Schnittkurve entspricht von der Gestalt her der bedingten Dichtefunktion. Jedoch ist zu beachten, dass die Fläche unter dieser Kurve im Allgemeinen nicht 1 ist. Um dies zu erreichen, normieren wir die entsprechende Kurve (d.h. die Funktion f (10, y)) so, dass diese Bedingung erfüllt wird. Dazu dividieren wir durch den
9.2 Paare stetiger Zufallsvariablen
297
Flächeninhalt der Schnittfläche, d.h. durch ∞
f (10, y)dy .
0
Das ist gerade die Randdichte f1 (x) von X an der Stelle x = 10, d.h. f1 (10). Also ist die bedingte Dichtefunktion von Y , gegeben x = 10, gleich f2|1 (y|10) =
f (10, y) . f1 (10)
Wir können auch Wahrscheinlichkeiten für X, gegeben Y , berechnen: Welcher Anteil von Bäumen mit einem Holzwert von 100 e ist zwischen 8 und 12 Meter hoch? Die Antwort lautet jetzt P(8 < X < 12|y = 100) =
12
f1|2 (x|100)dx = 0.93
8
und ist in Abb. 9.13b zu sehen. Die bedingte Dichte von X, gegeben y = 100, in Abb. 9.13, entspricht von Gestalt her der Schnittkurve in Abb. 9.11b (d.h. die Funktion f (x, 100)). Auch hier ist es notwendig, diese Funktion zu normieren, so dass die Fläche unter der Kurve gleich Eins ist. Die Funktion muss durch ∞
f (x, 100)dx
0
dividiert werden. Das ist gerade Randdichte von Y an der Stelle y = 100, d.h. f2 (100). Also ist die bedingte Dichtefunktion von X, gegeben y = 100, gleich f1|2 (x|100) =
f (x, 100) . f2 (100)
Die bedingten Dichtefunktionen sind eindimensionale Verteilungen. Wir können für diese Verteilungen die Erwartungswerte und die Varianzen bestimmen. Diese werden genau so wie gewöhnliche Erwartungswerte und Varianzen berechnet. Jedoch verwenden wir anstelle der Randdichtefunktion die entsprechende bedingte Dichtefunktion. Die Formeln sind: Erwartungswert und Varianz von X gegeben Y = y:
298
9 Paare von Zufallsvariablen
E(X|Y = y) = Var(X|Y = y) =
∞ −∞ ∞
x f1|2 (x|y) dx (x − E(X|Y = y))2 f1|2 (x|y) dx
−∞
Erwartungswert und Varianz von Y gegeben X = x: E(Y |X = x) = Var(Y |X = x) =
∞ −∞ ∞
y f2|1 (y|x) dy (y − E(Y |X = x))2 f2|1 (y|x) dy
−∞
Aus der Dichtefunktion zweier Zufallsvariablen X und Y aus Beispiel 9.3 fXY (x, y) =
x + 43 y − 23 xy 0
für 0 ≤ x ≤ 1; sonst ,
0≤y≤1
wollen wir zunächst die bedingte Dichte f1|2 (x|y) berechnen. Oben bereits errechnet hatten wir die Randdichte y + 12 für 0 ≤ y ≤ 1 f2 (y) = . 0 sonst Die gesuchte bedingte Dichte ist so: fXY (x, y) f1|2 (x|y) = = f2 (y)
x+ 43 y− 23 xy y+ 12
0
für 0 ≤ x ≤ 1 sonst
Angenommen, wir wüssten, dass Y den Wert y = 13 angenommen hat. Dann ergäbe sich für X die bedingte Dichtefunktion durch Einsetzen in f1|2 (x|y) als fXY (x, y = 13 ) x + 49 − 29 x 14 8 1 . = x+ f1|2 x|y = = = 1 5 3 15 15 f2 (y = 3 ) 6
9.3 Gemeinsame Verteilungsfunktion
299
Als vollständige Dichtefunktion schreiben wir: 14 8 1 x + 15 f1|2 x|y = = 15 0 3 Erwartungswert und Varianz von X|Y = bedingten Dichtefunktion wie folgt:
1 3
für 0 ≤ x ≤ 1 sonst
errechnen sich unter Verwendung dieser
1 1 14 8 1 1 x+ E X|Y = = x f1|2 x|y = dx = x dx 3 3 15 15 0
=
0
1
14 2 8 x + x 15 15
dx =
14 3 4 2 x + x 45 15
1
0
= 0
14 4 26 + = 45 15 45
1 1 14 8 1 1 x+ E X 2 |Y = = x2 f1|2 x|y = dx = x2 dx 3 3 15 15 0
0
1
14 3 8 2 7 4 8 3 x + x dx = x + x 15 15 30 45 0 2 1 1 1 Var X|Y = = E X 2 |Y = − E X|Y = 3 3 3 2 26 37 − = = 0.07728 90 45 =
1 = 0
8 37 7 + = 30 45 90
9.3 Gemeinsame Verteilungsfunktion In den ersten Kapiteln haben wir verschiedene Begriffe im Zusammenhang mit Zufallsvariablen kennen gelernt, darunter auch den Begriff der Verteilungsfunktion. Tabelle 9.4 enthält noch einmal die Definition der Verteilungsfunktion einer Zufallsvariablen im diskreten und im stetigen Fall.
Tabelle 9.4 Definition der Verteilungsfunktion einer Zufallsvariablen im diskreten und stetigen Fall diskret
stetig
F(t) = P(X ≤ t) = ∑ P(x) x≤t
F(t) = P(X ≤ t) =
t −∞
f (x)dx
300
9 Paare von Zufallsvariablen
Tabelle 9.5 Definition der Verteilungsfunktion einer zweidimensionalen Verteilung im diskreten und stetigen Fall diskret
stetig
F(s,t) = ∑ ∑ P(x, y) x≤s y≤t
F(s,t) =
s t −∞ −∞
f (x, y)dydx
Diese Definitionen behalten wir auch bei, wenn wir ein Paar X,Y von Zufallsvariablen betrachten. Die Verteilungsfunktion einer zweidimensionalen Verteilung ist dann aber eine Funktion mit zwei Argumenten: F(s,t) = P(X ≤ s,Y ≤ t) Die entsprechenden Definitionen der Verteilungsfunktion im diskreten und im stetigen Fall sind in Tabelle 9.5 gegeben. Da die gemeinsame Verteilungsfunktion in der Praxis relativ selten verwendet wird, verzichten wir an dieser Stelle auf ein Beispiel.
9.4 Zusammenhang zwischen Zufallsvariablen Der wichtigste Grund, zwei Zufallsvariablen gemeinsam statt separat zu betrachten, ist, dass man den Zusammenhang zwischen ihnen nutzen möchte. Man möchte den Wert der einen Variablen vorhersagen, wenn der Wert der anderen Variablen bekannt ist. Wenn ein enger Zusammenhang zwischen zwei Zufallsvariablen besteht, wird diese Vorhersage fast exakt sein. Wir werden zwei Begriffe zur Beschreibung des Zusammenhangs zwischen Zufallsvariablen behandeln, nämlich: Korrelation und Abhängigkeit Wir beginnen mit dem Begriff der Korrelation. Der Korrelationskoeffizient ist bei der Betrachtung von zwei Zufallsvariablen von großer Bedeutung. Er wird in zwei Schritten definiert: Kov(X,Y ) , Korrelation (X,Y ) = Var(X) ·Var(Y ) wobei die Kovarianz von X und Y im diskreten Fall definiert ist durch Kov(X,Y ) = ∑ ∑(x − E(X))(y − E(Y))P(x, y) , x
y
und im stetigen Fall durch Kov(X,Y ) =
∞ ∞ −∞ −∞
(x − E(X))(y − E(Y)) f (x, y)dxdy.
9.4 Zusammenhang zwischen Zufallsvariablen
301
Abb. 9.14 Gemeinsame Dichtefunktion von X und Y . a Funktionsgebirge. b Höhenlinien
Die Kovarianz ist einfacher durch die folgende Formel zu berechnen: Kov(X,Y ) = E(XY ) − E(X)E(Y ) Der Korrelationskoeffizient ist so wichtig, dass er sogar ein eigenes Symbol erhält, nämlich den griechischen Buchstaben ρ (rho). Der Korrelationskoeffizient ist ein Maß für die Stärke des linearen Zusammenhangs zwischen den beiden Zufallsvariablen. Man kann beweisen, dass ρ stets zwischen −1 und 1 liegt. −1 ≤ ρ ≤ 1 Jetzt folgen einige Bilder von gemeinsamen Dichtefunktionen, anhand derer wir ρ interpretieren wollen. Abbildung 9.14a zeigt die gewöhnliche dreidimensionale Darstellung einer gemeinsamen Dichtefunktion, Abb. 9.14b die entsprechenden Höhenlinien. Man vergleiche die beiden Bilder, um ein Gefühl für die Darstellung einer gemeinsamen Dichtefunktion durch Höhenlinien zu bekommen. Stellen wir uns Abb. 9.14b als Karte vor, auf der die Höhenlinien eines Berges eingezeichnet sind. (1) Wenn ρ nahe bei 1 liegt, dann ist f (x, y) sehr schmal und sieht so aus wie in der linken oberen Grafik in Abb. 9.15. Man beachte, dass der größte Teil der Wahrscheinlichkeit ziemlich genau entlang einer geraden Linie konzentriert ist. Das bedeutet, dass wir den Wert von Y vorhersagen können, wenn wir den Wert von X kennen. Wir sagen, dass die Zufallsvariablen X und Y stark positiv korreliert sind. (2) Wenn ρ nahe bei −1 liegt, dann ist f (x, y) wieder sehr schmal und sieht so aus wie in der rechten oberen Grafik in Abb. 9.15. Nun ist der größte Teil der Wahrscheinlichkeit entlang einer Geraden konzentriert, die jetzt im Gegensatz zu der linken oberen Grafik eine negative Steigung hat. Wenn wir den Wert von X kennen, können wir den Wert von Y wieder mit großer Sicherheit vorhersagen. Aber die Steigung dieser Linie ist nun negativ und damit ist ρ also negativ. Wir sagen, dass X und Y stark negativ korreliert sind.
302
9 Paare von Zufallsvariablen
Abb. 9.15 Höhenlinien für verschiedene Werte von ρ
(3) Wenn ρ irgendeinen Wert nahe bei 0.5 annimmt, dann ist f (x, y) weniger schmal und sieht etwa so aus wie in Abb. 9.14b. Wenn wir den Wert von X kennen, können wir den Wert von Y wieder mit Hilfe einer Geraden durch die Höhenlinien vorhersagen, aber mit einer viel geringeren Sicherheit. Wir sagen, dass X und Y positiv korreliert sind. (4) Wenn ρ einen Wert um −0.5 besitzt, dann ist f (x, y) wieder nicht so schmal und könnte so aussehen wie in in der linken unteren Grafik in Abb. 9.15. Das ist im Wesentlichen wie im Fall (3), aber die Steigung ist negativ. X und Y sind negativ korreliert. (5) Wenn ρ gleich 0 ist, dann können wir mit einer Geraden keine gute Vorhersage über den Wert von Y treffen, wenn wir den Wert von X kennen. Die Höhenlinien der gemeinsamen Dichtefunktion f (x, y) könnte dann etwa so aussehen wie in der rechten unteren Grafik in Abb. 9.15. Zusammenfassend lässt sich sagen, dass der Korrelationskoeffizient also als ein Maß dafür betrachtet werden kann, wie gut eine Variable mit Hilfe einer Geraden aus der anderen vorhergesagt werden kann. Die Berechnung von ρ ist ganz einfach, kann aber etwas langwierig sein. Wir betrachten wieder die gemeinsame Dichtefunktion aus Beispiel 9.3: fXY (x, y) =
x + 43 y − 23 xy 0
für 0 ≤ x ≤ 1; sonst
0≤y≤1
9.4 Zusammenhang zwischen Zufallsvariablen
303
Daraus berechneten wir f1 (x) =
2 3
f2 (y) =
(x + 1) 0 y + 12 0
für 0 ≤ x ≤ 1 sonst für 0 ≤ y ≤ 1 . sonst
Ebenfalls bestimmt hatten wir aus den Randdichten Erwartungswerte und Varianzen von X und von Y : EX =
1
0 1
x f1 (x) dx =
1 0
5 2 x (x + 1) dx = 3 9
1
2 2 7 x (x + 1) dx = 3 18 0 0 2 7 13 5 2 2 Var(X) = EX − (EX) = = − = 0.08025 18 9 162 EX = 2
EY =
x f1 (x) dx = 2
1
y f2 (y) dy =
0 1
1
1 y y+ 2
dy =
7 12
0
1 5 EY = y f2 (y) dy = y y + dy = 2 12 0 0 2 7 5 11 − = 0.07639 Var(Y ) = EY 2 − (EY )2 = = 12 12 144 2
1
2
2
Nun wollen wir die Kovarianz Kov(X,Y ) bestimmen: Kov(X,Y ) =
∞ ∞
(x − E(X))(y − E(Y)) f (x, y) dxdy
−∞ −∞
=
1 1 0 0
5 x− 9
2 7 4 y− x + y − xy dxdy 12 3 3
Dieses Integral ist zwar mit unseren Mitteln berechenbar. Zur tatsächlichen Berechnung der Kovarianz empfiehlt sich aber die Formel Kov(X,Y ) = E(XY ) − E(X)E(Y ) .
304
9 Paare von Zufallsvariablen
Dabei berechnet man E(XY ) wie folgt: ∞ ∞
E(XY ) =
xy f (x, y) dxdy =
−∞ −∞
=
0 0
1 1 0 0
=
1 1
1 0
4 2 x2 y + xy2 − x2 y2 3 3
1 2 2 y + y2 − y2 3 3 9
2 4 xy(x + y − xy) dxdy 3 3
dxdy =
0
dy =
1
2 2 1 3 x y + x2 y2 − x3 y2 3 3 9
1 2 2 3 2 3 y + y − y 6 9 27
1 = 0
1 dy 0
2 17 1 2 + − = 6 9 27 54
= 0.31481 Damit ist: Kov(X,Y ) = E(XY ) − E(X)E(Y ) =
1 17 5 7 − · =− = −0.00926 54 9 12 108
− 1 Kov(X,Y ) = 108 ρ= = −0.11826 13 Var(X)Var(Y ) · 11 162
144
Die Korrelation zwischen X und Y ist also schwach negativ. Schließlich soll noch eine Schlüsseldefinition gegeben werden: Zwei Zufallsvariablen X,Y heißen unabhängig verteilt, wenn im diskreten Fall
stetigen Fall
P(x, y) = P1 (x)P2 (y)
f (x, y) = f1 (x) f2 (y)
für alle x, y ∈ R gilt. Dies ist gleichbedeutend damit, dass die bedingten Wahrscheinlichkeitsfunktionen beziehungsweise Dichten den Randwahrscheinlichkeiten beziehungsweise Randdichten entsprechen, denn die Formeln lassen sich wie folgt umformen: P1 (x) =
P(x, y) = P1|2 (x|y) P2 (y)
f1 (x) =
f (x, y) = f1|2 (x|y) f2 (y)
P2 (x) =
P(x, y) = P2|1 (y|x) P1 (x)
f2 (x) =
f (x, y) = f2|1 (y|x) f1 (x)
Erinnern wir uns daran, dass zwei Ereignisse unabhängig heißen, wenn das Ergebnis des ersten Ereignisses keinerlei Informationen bezüglich des zweiten Ereignisses enthält. Ob es morgen regnet oder nicht, ist zum Beispiel unabhängig von
9.4 Zusammenhang zwischen Zufallsvariablen
305
der Anzahl der heute verkauften Autos. Auf der anderen Seite sind die Höhe eines Baumes und sein Nutzholzvolumen nicht unabhängig voneinander. Wir haben jetzt zwei Begriffe kennengelernt, die den Zusammenhang zwischen zwei Zufallsvariablen beschreiben, nämlich Korrelation und Abhängigkeit. Es gibt einen feinen Unterschied zwischen diesen Begriffen: Der Korrelationskoeffizient misst, wie gut sich eine Zufallsvariable aus der anderen unter Verwendung einer Geraden vorhersagen lässt. Andererseits sind zwei Zufallsvariablen abhängig, wenn der Wert der einen irgendeine Information (wie klein oder wie kompliziert sie auch sein mag) über das Verhalten der anderen Zufallsvariablen enthält. Abhängigkeit ist also ein allgemeineres Konzept. Es ist sogar möglich (und gar nicht schwierig), die folgende Tatsache zu beweisen: Wenn zwei Zufallsvariablen X und Y unabhängig verteilt sind, dann sind sie unkorreliert, d.h. X und Y unabhängig ⇒ ρ (X,Y ) = 0 . Im Allgemeinen impliziert Unkorreliertheit (also ρ (X,Y ) = 0) aber keine Unabhängigkeit. In Beispiel 9.3 hatten wir: x + 43 y − 23 xy für 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 fXY (x, y) = 0 sonst 2 (x + 1) für 0 ≤ x ≤ 1 f1 (x) = 3 0 sonst y + 12 für 0 ≤ y ≤ 1 f2 (y) = 0 sonst Wir können daran sehen, dass X und Y nicht unabhängig verteilt sind, da 1 2 1 2 f1 (x) f2 (y) = xy + x + y + = fXY (x, y) . 3 3 3 3 Für den diskreten Fall betrachten wir das Beispiel des Eignungstests (Beispiel 9.2). Die gemeinsame Wahrscheinlichkeitsfunktion ist in Tabelle 9.6 gegeben. Man Tabelle 9.6 Gemeinsame Wahrscheinlichkeitsfunktion des Eignungstest-Beispiels Y niedrig X
1
hoch 2
3
4
5
6
P1 (x)
0 (Mißerfolg) 1 (Erfolg)
0.028 0.130 0.243 0.138 0.023 0.001 0.000 0.008 0.079 0.192 0.127 0.031
0.563 0.437
P2 (y)
0.028 0.138 0.322 0.330 0.150 0.032
1.000
306
9 Paare von Zufallsvariablen
sieht leicht, dass die Zufallsvariablen nicht unabhängig verteilt sind. Zum Beispiel brauchen wir für Unabhängigkeit: P(x, y) = P1 (x) · P2(y)
für alle x, y ∈ R
Hier ist z.B.: P(0, 1) = 0.028
P1 (0) = 0.563
P2 (1) = 0.028
Offensichtlich ist P(0, 1) = P1 (0) · P2(1) . Damit sind die Zufallsvariablen X und Y nicht unabhängig. Also enthält der Eignungstest Informationen über die Chancen, die Ausbildung erfolgreich zu absolvieren. Wenn wir herausgefunden hätten, dass X und Y unabhängig sind, dann wüssten wir, dass der Eignungstest keinerlei Informationen über die Wahrscheinlichkeit enthält, die Ausbildung erfolgreich abzuschließen. Wir haben die allgemeinen Definitionen im Zusammenhang mit Paaren stetiger Zufallsvariablen behandelt. Wir haben gesehen, dass wir die gemeinsame Dichtefunktion, falls wir sie kennen, benutzen können, um verschiedene Arten von Fragen über das Verhalten der zwei Zufallsvariablen zu beantworten. Man kann die gemeinsame Dichtefunktion f (x, y) benutzen, um die Randdichten f1 (x) und f2 (y) zu berechnen. Mit diesen können wir dann Fragen über die einzelnen Zufallsvariablen beantworten. Sehr wichtig ist, dass man aus der gemeinsamen Dichtefunktion f (x, y) die bedingten Dichten f1|2 (x|y) und f2|1 (y|x) berechnen kann. Man kann auch bedingte Erwartungen und bedingte Varianzen ausrechnen. f (x, y)
→ → → →
f1 (x) f2 (y) f1|2 (x|y) f2|1 (y|x)
→ → → →
E(X) E(Y ) E(X|Y = y) E(Y |X = x)
Var(X) Var(Y ) Var(X|Y = y) Var(Y |X = x)
Die bedingte Dichtefunktion beschreibt das Verhalten einer der beiden Zufallsvariablen, wenn der Wert der anderen Zufallsvariablen bekannt ist. Es soll noch einmal anhand von Beispiel 9.4 kurz erklärt werden, warum bedingte Dichtefunktionen so wichtig sind. Die zwei Zufallsvariablen waren: X: Y :
Höhe der Bäume Wert ihres Holzes
Wir kennen die gemeinsame Dichtefunktion f (x, y), deren Höhenlinien bereits in Abb. 9.9b dargestellt wurden. Die Zufallsvariablen X und Y sind positiv korreliert. Die Abbildung zeigt, dass höhere Bäume auch einen höheren Wert erzielen. Nehmen wir an, jemand stellt sich die Frage: Welchen Wert hat ein zufällig ausgewählter Baum? Wenn man zunächst keine Vorstellung davon hat, wie hoch der Baum ist, dann wird die beste Antwort auf die Frage durch die Randdichte von Y , f2 (y) gegeben.
9.4 Zusammenhang zwischen Zufallsvariablen
307
Die Randdichte ist die rechtsschiefe Kurve in Abb. 9.16. Über alle Bäume ist der Erwartungswert E(Y ) 97 e. Die Randdichte wird einem nicht exakt verraten, welchen Wert mein Baum erzielen wird. Man kann sie aber verwenden, um Wahrscheinlichkeiten bezüglich des Wertes von Bäumen zu berechnen. Nehmen wir nun an, wir möchten wissen, welchen Wert ein 8-Meter hoher Baum hat. Damit betrachten wir eine zusätzliche Information. Die Antwort auf diese Frage ist immer noch eine Dichtefunktion, jedoch nicht mehr f2 (y), sondern die bedingte Dichtefunktion f2|1 (y|x = 8). Wie in der Abb. 9.16 zum Ausdruck kommt, ist die bedingte Dichte f2|1 (y|x) durch unsere zusätzliche Information schmaler als f2 (y). Man beachte dazu die in der Abbildung angegebene Varianz und die bedingte Varianz. Je schmaler eine Dichtefunktion ist, desto sicherer können wir über ein Ergebnis sein. Bedingte Dichten sind schmaler als Randdichten (es sei denn, die Zufallsvariablen sind unabhängig, denn dann ist f2|1 (y|x) = f2 (y)). Die Varianz liegt nun bei Var(Y |X = 8) = 349; ohne die Berücksichtigung der zusätzlichen Information hatten wir eine Varianz von Var(Y ) = 8 527. Bei einer Höhe von 8 Metern ist der bedingte Erwartungswert E(Y |X = 8) = 61. In Abb. 9.16 sind zusätzlich noch die bedingten Dichtefunktionen für eine Höhe von X = 10 und X = 12 dargestellt. Die Varianzen, die zu der bedingten Dichte gehören, sind alle kleiner als die Varianz, die zu der Randdichte gehört: E(Y ) = 97, Var(Y ) = 8 527 E(Y |X = 8) = 61, Var(Y |X = 8) = 349 E(Y |X = 10) = 103, Var(Y |X = 10) = 995 E(Y |X = 12) = 174, Var(Y |X = 12) = 2 834 In allen Fällen ist Var(Y |X = x) ≤ Var(Y ). Die bedingte Varianz ist kleiner oder gleich der unbedingten Varianz. Durch die Zusatzinformation wird die Varianz reduziert, es sei denn X und Y sind unabhängig. Wenn X und Y unabhängig sind, dann haben sie keine statistische Beziehung zueinander. Dann hilft die Tatsache, dass wir den Wert von X kennen, nicht
Abb. 9.16 Randdichte von Y und bedingte Dichte von Y , gegeben X = 8
308
9 Paare von Zufallsvariablen
weiter, um den Wert von Y vorherzusagen. Falls X und Y unabhängig sind, gilt: Var(Y |X = x) = Var(Y ). Wir haben nun gesehen, dass man die gemeinsame Dichtefunktion eines Paares von Zufallsvariablen X und Y benutzen kann, um daraus andere Dichtefunktionen abzuleiten, Erwartungswerte, Varianzen und den Korrelationskoeffizienten zu berechnen. Diese können wir benutzen, um Fragen über interessierende stochastische Phänomene zu beantworten. In anderen Worten, die gemeinsame Dichtefunktion ist eine sehr nützliche Funktion. Viele Untersuchungen, darunter auch sehr kostspielige, werden nur mit dem Ziel durchgeführt, f (x, y) zu bestimmen oder auch nur eine Eigenschaft von f (x, y). Das nächste Problem ist nun, wie wir in der Praxis die gemeinsame Dichtefunktion oder die gemeinsame Wahrscheinlichkeitsfunktion bestimmen. In den meisten Fällen verwenden wir Modelle, genauso wie wir es getan haben, als wir nur eine Zufallsvariable betrachtet haben. Wir haben die Binomialverteilung, die Poissonverteilung, die Normalverteilung und einige andere Verteilungen behandelt. Modelle für die gemeinsame Dichte eines Paares von Zufallsvariablen sind viel komplizierter als die für die Dichtefunktion einer Zufallsvariablen.
9.5 Die zweidimensionale Normalverteilung Für eine einzelne normalverteilte Zufallsvariable hatten wir die Notation X ∼ N(μ , σ 2 ) verwendet und meinten damit: X ist normalverteilt mit den Parametern μ und σ 2 . Die Dichtefunktion der eindimensionalen Normalverteilung ist gegeben durch 1
e− 2 (
x−μ 2 σ
) −∞ < x < ∞ . 2πσ 2 Die zweidimensionale Normalverteilung beschreibt das Verhalten von zwei Zufallsvariablen X und Y . Wir verwenden die Notation: f (x) = √
1
(X,Y ) ∼ N(μx , μy , σx2 , σy2 , ρ ) Die zweidimensionale Normalverteilung hat fünf Parameter: Parameter: Bedeutung
μx μy σx2 σy2 ρ
Erwartungswert von X Erwartungswert von Y Varianz von X Varianz von Y Korrelationskoeffizient von X und Y
9.5 Die zweidimensionale Normalverteilung
309
Die Dichtefunktion der zweidimensionalen Normalverteilung ist gegeben durch: x − μx 2 1 1 f (x, y) = exp − 2 (1 − ρ 2) σx 2πσx σy 1 − ρ 2 2 ! y − μy x − μx y − μy −2ρ + σx σy σy Dabei gilt:
−∞ < x < ∞,
−∞ < y < ∞
Für die Parameter gilt: −∞ < μx < ∞,
−∞ < μy < ∞,
σx2 > 0,
σy2 > 0,
−1 < ρ < 1
Die zweidimensionale Normalverteilung hat die Form einer Glocke, die je nach Größe von ρ verschieden stark zusammengedrückt ist. Z.B. hat die zweidimensionale Standardnormalverteilung die Parameter μx = μy = 0 und σx = σy = 1. Sie hängt also nur von ρ ab. Abbildung 9.17 zeigt das Funktionsgebirge und die entsprechenden Höhenlinien für eine zweidimensionale Standardnormalverteilung mit ρ = −0.6. Ein Beispiel für ρ = 0.5 war in Abb. 9.14 zu sehen, denn die dort dargestellte Dichte war ebenfalls eine zweidimensionale Standardnormalverteilung. Es wird deutlich, dass der Parameter ρ die Form der Dichte wesentlich beeinflusst. Weitere Beispiele für die Höhenlinien von Standardnormalverteilungen für verschiedene Werte von ρ waren in Abb. 9.15 zu sehen, denn auch diese Höhenlinien wurden mit einer zweidimensionalen Standardnormalverteilung erzeugt.
Abb. 9.17 Dichtefunktion einer zweidimensionalen Normalverteilung mit μx = μy = 0, σx2 = σy2 = 1, ρ = −0.6. a Funktionsgebirge. b Höhenlinien
310
9 Paare von Zufallsvariablen
Die wichtigsten Eigenschaften der zweidimensionalen Normalverteilung sind: • Die Randverteilung von X ist eine Normalverteilung mit den Parametern μx und σx2 , d.h. X ∼ N(μx , σx2 ) • Die Randverteilung von Y ist eine Normalverteilung mit den Parametern μy und σy2 , d.h. Y ∼ N(μy , σy2 ) • Die bedingte Verteilung von X, gegeben Y = y, ist auch eine Normalverteilung mit den Parametern μ = μx + ρσx (y − μy )/σy und σ 2 = σx2 (1 − ρ 2), d.h. X|Y = y ∼ N(E(X|Y = y); Var(X|Y = y)) mit E(X|Y = y) = μx + ρσx (y − μy )/σy
und Var(X|Y = y) = σx2 (1 − ρ 2) .
• Die bedingte Verteilung von Y , gegeben X = x, ist auch eine Normalverteilung mit den Parametern μ = μy + ρσy (x − μx )/σx und σ 2 = σy2 (1 − ρ 2), d.h. Y |X = x ∼ N(E(Y |X = x); Var(Y |X = x)) mit E(Y |X = x) = μy + ρσy (x − μx )/σx
und Var(Y |X = x) = σy2 (1 − ρ 2).
Die bedingten Dichten hatten wir uns veranschaulicht, indem wir einen Schnitt durch die gemeinsame Dichtefunktion legen. So zeigt Abb. 9.18a einen Schnitt durch die gemeinsame Dichtefunktion der zweidimensionalen Normalverteilung mit ρ = −0.6 an der Stelle x = −1. Wir erkennen daraus die Form der bedingten Dichte von Y , gegeben X = −1. Abbildung 9.18b zeigt einen Schnitt durch die
Abb. 9.18 a Veranschaulichung der bedingten Dichte von Y , gegeben X = −1. b Veranschaulichung der bedingten Dichte von X, gegeben Y = 1
9.5 Die zweidimensionale Normalverteilung
311
Tabelle 9.7 Zuckerrohr: Wassergehalt und Kalorienwert i
xi
yi
i
xi
yi
i
xi
yi
i
xi
yi
1 2 3 4 5 6 7 8 9 10
6.3 6.3 7.3 11.3 12.2 12.2 13.7 15.5 15.5 15.5
18.201 17.976 18.235 17.410 16.857 16.882 16.581 16.398 16.174 15.528
11 12 13 14 15 16 17 18 19 20
15.8 16.5 19.0 20.3 23.2 23.7 27.0 29.9 30.4 32.3
16.660 16.217 15.725 15.677 15.005 15.465 14.177 12.928 13.363 14.095
21 22 23 24 25 26 27 28 29 30
32.3 35.0 35.6 41.0 41.7 42.3 55.0 57.2 57.6 57.8
12.712 12.378 12.325 11.733 11.456 11.416 8.601 8.534 8.495 8.460
31 32 33 34
58.7 60.3 61.0 61.7
8.012 7.821 7.523 7.378
Abb. 9.19 Wassergehalt und Kalorienwert von Zuckerrohr mit angepasster Gerade
gemeinsame Dichtefunktion an der Stelle y = 1. Wir erkennen daraus die Gestalt der bedingten Dichte von X, gegeben Y = 1. Wie nützlich diese Formeln sind, werden wir mit Hilfe des Zuckerrohr-Beispiels (Beispiel 9.1) verdeutlichen. Der Wassergehalt X und der Brennwert Y wurden bei 34 Stücken Zuckerrohr gemessen, die zufällig aus der Grundgesamtheit ausgewählt wurden. Die Beobachtungen bestehen aus 34 Paaren (siehe Tabelle 9.7): (x1 , y1 ) nennt den Wassergehalt und den Kaloriengehalt des ersten Zuckerrohrstücks. Die Werte sind 6.3 und 18.201. (x2 , y2 ) sind der Wassergehalt und der Brennwert des zweiten Stücks Zuckerrohr usw. bis (x34 , y34 ). Das waren 61.7 und 7.378. Abbildung 9.1 zeigte bereits eine grafische Darstellung dieser Beobachtungen. In Abb. 9.19 sind die Daten noch einmal zusammen mit einer angepassten Geraden dargestellt. Der Wassergehalt wird auf der x-Achse und der Kalorienwert auf der y-Achse abgetragen. Wir sehen, dass die Merkmale Wassergehalt (X) und Kalorienwert (Y ) annähernd durch die Gerade miteinander verbunden sind. Die Steigung der Geraden ist negativ. Mit anderen Worten: X und Y sind stark negativ korreliert. In diesem Beispiel ist die Zufallsvariable, an deren Wert ein ökonomisches Interesse besteht, der Kalorienwert, weil er den Wert von Zuckerrohr als Heizmaterial bestimmt und damit den Verkaufswert.
312
9 Paare von Zufallsvariablen
Abb. 9.20 Geschätzte Randdichte des Kalorienwerts von Zuckerrohr
Nehmen wir an, wir wollten eine Normalverteilung an die Beobachtungen anpassen. Dann müssen wir die fünf Parameter einer zweidimensionalen Normalverteilung aus den Daten schätzen. Die Maximum-Likelihood-Schätzer sind:
μˆ x = x¯ = σˆ x2 =
1 n ∑ (xi − x)¯ 2 = 331.4 n i=1
μˆ y = y¯ = σˆ y2 =
ρˆ =
1 n
n
1 n ∑ xi = 30.9 n i=1
1 n ∑ yi = 13.4 n i=1
1 n ∑ (yi − y)¯ 2 = 12.2 n i=1
∑ (xi − μˆ x )(yi − μˆ y ) i=1 = σˆ x2 σˆ y2
1 n
n
∑ xi yi − μˆ x μˆ y i=1 = −0.996 σˆ x2 σˆ y2
Es folgt, dass die geschätzte Randdichte des Kalorienwerts Y die Dichte einer Normalverteilung mit den Parametern μ = 13.4 und σ 2 = 12.2 ist: Y ∼ N(13.4; 12.2) Das besagt, dass der Kalorienwert eines zufällig ausgewählten Stücks Zuckerrohr die in Abb. 9.20 dargestellte Dichte hätte. Nehmen wir an, wir wüssten, dass der Wassergehalt des Zuckerrohres 10% betrüge, also X = 10. Dann ist die bedingte Verteilung von Y eine Normalverteilung mit den folgenden Parametern: E(Y |X = 10) = μˆ y + ρˆ
σˆ y (x − μˆ x ) = 17.4 Var(Y |X = 10) = σˆ y2 (1 − ρˆ 2) = 0.097 σˆ x
9.5 Die zweidimensionale Normalverteilung
313
Abb. 9.21 Randdichte und bedingte Dichtefunktionen des Kalorienwerts von Zuckerrohr
Abbildung 9.21 zeigt unter anderem den Graphen dieser bedingten Dichte (rechte schwarze Kurve) über die Randdichte von Y gezeichnet. Es fällt auf, dass die bedingte Dichte viel schmaler ist als die Randdichte. Das bedeutet, dass wir durch die Kenntnis des Wassergehalts des Zuckerrohrs eine viel genauere Vorstellung von ihrem Kalorienwert bekommen. Wir sehen, dass der Kalorienwert irgendwo zwischen 5 und 20 (Einheiten) liegen kann, wenn wir den Wassergehalt nicht kennen. Wenn wir andererseits aber wissen, dass der Wassergehalt 10% beträgt, dann wissen wir, dass der Kalorienwert irgendwo zwischen 16.5 und 18.5 liegt. Wir können die bedingte Dichte auch für andere Werte des Wassergehalts ausrechnen. In Abb. 9.21 sehen wir zusätzlich die bedingten Dichtefunktionen für Werte des Wassergehalts von 35% und von 60%. In jedem Fall ist die bedingte Dichte wesentlich schmaler als die Randdichte. Das Beispiel zeigt, wie sich Unsicherheit über die Werte einer Zufallsvariablen reduzieren lässt, wenn der Wert einer mit ihr zusammenhängenden Zufallsvariablen bekannt ist. In diesem Beispiel haben wir ein Modell an die Beobachtungen angepasst. Damit können wir die Wahrscheinlichkeiten zukünftiger Ergebnisse berechnen. In diesem Fall hängen die beiden Zufallsvariablen eng zusammen. Man muss nur die grafische Darstellung der Daten betrachten, um das zu sehen (siehe Abb. 9.19). In vielen Situationen muss man sich mit viel weniger zufriedengeben als mit dem Anpassen eines Modells. Viele Studien werden ausgeführt, nur um zu untersuchen, ob zwei Zufallsvariablen korreliert sind oder nicht, ob also ihre Verteilungen voneinander abhängen. Zum Beispiel gibt es Studien, um zu testen, ob die folgenden Merkmale abhängig verteilt sind: Merkmal 1
Merkmal 2
Rauchen Familiengröße Zinssatz Beruf
Herzinfarkt (Ja / Nein) Familieneinkommen Arbeitslosenquote Zeitungslektüre
314
9 Paare von Zufallsvariablen
Sind die beiden Merkmale abhängig verteilt oder sind sie unabhängig verteilt? Eine Methode, mit der auf Unabhängigkeit zwischen zwei Merkmalen getestet werden kann, ist Inhalt des nächsten Kapitels. Wichtigste Konzepte • • • • • • • •
gemeinsame Verteilung, gemeinsame Wahrscheinlichkeit / Dichte Randverteilung, Randdichte bedingte Verteilung, bedingte Wahrscheinlichkeit / Dichte bedingter Erwartungswert, bedingte Varianz bivariate / zweidimensionale Normalverteilung Kovarianz Korrelationskoeffizient und Korrelation Unabhängigkeit
Kapitel 10
Stimmt mein Modell — χ 2 -Anpassungs- und Unabhängigkeitstest
10.1 χ 2 -Anpassungstest Die Statistik beschäftigt sich mit stochastischen Phänomenen, die man nicht exakt vorhersagen kann, die sich aber als Zufallsvariablen beschreiben lassen. Zum Beispiel könnte man an der Zufallsvariable Flugzeit eines bestimmten American Airlines Flugs von Dallas / Fort Worth (DFW) nach Philadelphia (PHL) interessiert sein (vgl. Beispiel 1.2). Die tatsächliche Flugzeit kennt man erst nach Beendigung des Fluges. Mit Hilfe statistischer Methoden kann es jedoch möglich sein, schon vor Antritt des Fluges gewisse Aussagen über die mögliche Flugzeit zu treffen. Man könnte zum Beispiel eine Stichprobe vergangener American Airlines Flüge auf dieser Strecke betrachten und versuchen, von dieser Stichprobe auf die Grundgesamtheit aller American Airlines Flüge von DFW nach PHL zu schließen. Wenn man dann davon ausgeht, dass sich alle Flüge der Grundgesamtheit ähnlich verhalten, erhält man auf diese Weise auch Informationen über den einen bestimmten Flug, an dem man interessiert ist. Die Betrachtung von Kennzahlen, wie Mittelwert oder Varianz, ist eine Möglichkeit, das Verhalten einer Grundgesamtheit bzw. einer Zufallsvariable zu beschreiben. Wenn man z.B. weiß, dass die durchschnittliche Flugzeit aller American Airlines Flüge von DFW nach PHL 183 Minuten beträgt, hat man bereits einen Anhaltspunkt, in welcher Größenordnung die Flugzeit des einen bestimmten Fluges liegen wird. Wir haben bereits kennen gelernt, wie man Hypothesen über die Kennzahlen einer Grundgesamtheit, wie z.B. Mittelwert oder Varianz, überprüfen kann. Wir haben Ihnen den klassischen Signifikanztest vorgestellt, bei dem für eine aufgestellte Hypothese anhand einer Stichprobe getestet wird, ob die Hypothese verworfen werden kann oder nicht. Dabei haben wir die Hypothese dann verworfen, wenn die Prüfgröße, die sich aus der Stichprobe ergab, unter der Hypothese sehr unwahrscheinlich war. Nun sind Kennzahlen nur eine Möglichkeit, das Verhalten einer Zufallsvariable zu beschreiben. Wir wissen, dass man Zufallsvariablen noch genauer oder besser mit Hilfe ihrer Verteilung beschreiben kann. Auf diese Weise erhält man noch mehr
W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
315
316
10 χ 2 -Anpassungs- und Unabhängigkeitstest
Informationen über die Zufallsvariable und kann die Wahrscheinlichkeit berechnen, mit der die Zufallsvariable bestimmte Werte annimmt. Wenn man z.B. die Verteilung der Flugzeit der American Airlines Flüge von DFW nach PHL kennt, kann man die Wahrscheinlichkeit bestimmen, mit der die Flugzeit eines bestimmten Fluges weniger als 180 Minuten beträgt. Ebenso wissen wir, dass man zwischen diskreten und stetigen Zufallsvariablen unterscheiden muss und dass man diskrete Zufallsvariablen durch eine Wahrscheinlichkeitsfunktion, stetige Zufallsvariablen durch eine Dichtefunktion beschreiben kann. Außerdem haben wir einige spezielle Verteilungen für diskrete und stetige Zufallsvariablen gesehen, die in der Praxis häufig verwendet werden können. Schließlich haben wir besprochen, wie man anhand theoretischer Überlegungen oder der Form eines Histogramms einer Stichprobe auf die mögliche Verteilung schließen kann und diese dann nach der Methode der Momente oder der MaximumLikelihood-Methode aus den Stichproben-Daten schätzt. Wir haben jedoch bisher eine Frage außer Acht gelassen: Wie können wir überprüfen, ob das von uns an die Daten angepasste Modell vernünftig ist? In diesem Kapitel wird der χ 2 -Anpassungstest (Chi-Quadrat-Anpassungstest) eingeführt, mit dessen Hilfe man eine Antwort auf diese Frage finden kann. Der χ 2 -Anpassungstest folgt derselben Vorgehensweise wie der klassische Signifikanztest, den wir in Kapitel 8 kennen gelernt haben. Man postuliert in der Nullhypothese ein bestimmtes Modell für die betrachtete Grundgesamtheit bzw. Zufallsvariable und überprüft dann anhand einer Stichprobe, ob dieses Modell verworfen werden muss oder aufrecht erhalten werden kann. Beispiel 10.1. Kassenprüfung durch das Finanzamt Die Finanzämter bedienen sich mit Hilfe moderner Software zunehmend statistischer Methoden, um die Buchhaltung eines Unternehmens zu überprüfen. Dabei spielt der χ 2 -Anpassungstest eine wichtige Rolle. Er wird verwendet, um zu überprüfen, ob die Zahlen der Buchhaltung manipuliert worden sind. Die Anwendung des χ 2 -Anpassungstests in der Betriebsprüfung gründet auf der Erkenntnis, dass einerseits die Häufigkeiten bestimmter Ziffern in einer richtigen, d.h. zufällig entstandenen, Buchhaltung gewissen Gesetzmäßigkeiten folgen, während andererseits der Mensch unbewusst Sympathien und Antipathien gegenüber bestimmten Ziffern hat, so dass die Häufigkeiten der Ziffern in einer manipulierten Buchhaltung von diesen Gesetzmäßigkeiten abweichen. Um die Anwendung des χ 2 -Anpassungstests (bei einer Betriebsprüfung) zu demonstrieren, betrachten wir den Datensatz aus Beispiel 7.3, der die Gesamtausgaben von 484 Testhaushalten bei ihren Einkäufen in einem bestimmten Supermarkt in Sioux Falls im Zeitraum Juni bis August 1986 enthält. Wir verwenden nicht den gesamten Datensatz, sondern ziehen eine Stichprobe der Größe n = 1 000. Somit liegen uns genau 1 000 Kasseneinträge des betrachteten Supermarktes vor. Um diese Kasseneinträge hinsichtlich möglicher Manipulationen zu überprüfen, kann man die Häufigkeitsverteilung bestimmter Ziffern untersuchen. Betrachten wir zum Beispiel die Ziffern an der ersten Nachkommastelle der Kasseneinträge und
10.1 χ 2 -Anpassungstest
317
Tabelle 10.1 Beobachtete und erwartete Häufigkeiten der Ziffern an der ersten Nachkommastelle von 1 000 Kasseneinträgen Klasse i (Ziffer)
1 2 3 4 5 6 7 8 9 10 (0) (1) (2) (3) (4) (5) (6) (7) (8) (9)
beobachtete Häufigkeit f io
114 97 95 100 96 104 88 97 99 110
erwartete Häufigkeit f ie
100 100 100 100 100 100 100 100 100 100
verwenden dabei für jede Ziffer eine eigene Klasse, dann erhalten wir die in Tabelle 10.1 gegebenen beobachteten Häufigkeiten. Lassen wir uns nicht davon verwirren, dass die Klassen-Nummerierung von den Ziffern abweicht. Es ist allgemein üblich, die Klassen von 1 bis K durchzunummerieren, unabhängig von Art und Größe der Klassen. Beispielsweise hätten wir auch Klassen mit jeweils zwei Ziffern oder sogar unterschiedlich große Klassen bilden können. In jedem Fall bezeichnen wir die beobachtete Häufigkeit in der i-ten Klasse mit fio (vom englischen observed frequency). Wenn die Kasseneinträge nicht manipuliert wurden, also rein „zufällig” durch die Einkäufe der Kunden entstanden sind, erwarten wir, dass jede Ziffer an der ersten Nachkommastelle in etwa gleich oft vorkommt. Die Wahrscheinlichkeitsfunktion der Zufallsvariablen Ziffer an der ersten Nachkommastelle sieht dann wie folgt aus: 1/10 für x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 P(x) = 0 sonst Diese Wahrscheinlichkeitsfunktion ist unser Modell für die Ziffern an der ersten Nachkommastelle. Aus der Wahrscheinlichkeitsfunktion können wir dann für jede Klasse i zunächst die Wahrscheinlichkeit Pi bestimmen und anschließend die erwartete Häufigkeit fie (vom englischen expected frequency) ableiten, indem wir die Wahrscheinlichkeit Pi mit der Anzahl an Beobachtungen n multiplizieren: fie = n · Pi . In unserem Fall bildet jede Ziffer eine eigene Klasse, die jeweils mit der Wahrscheinlichkeit Pi = 1/10 auftritt. Mit n = 1 000 Kasseneinträgen erhalten wir dann für i = 1, 2, . . . , 10 die erwartete Häufigkeit fie = 1 000 · 1/10 = 100 . Bei 1 000 Kasseneinträgen erwarten wir somit, dass jede Ziffer etwa fie = 100 mal auftritt. Diese erwarteten Häufigkeiten sind ebenfalls in Tabelle 10.1 eingetragen sowie in Abb. 10.1 den beobachteten Häufigkeiten grafisch gegenüber gestellt. Man darf den Begriff erwartete Häufigkeiten hier nicht falsch verstehen. Wir erwarten nicht, dass bei 1 000 Kasseneinträgen die Häufigkeit jeder Ziffer exakt 100 beträgt. 100 ist lediglich der Erwartungswert für die Häufigkeit der Ziffern.
10 χ 2 -Anpassungs- und Unabhängigkeitstest
318
Abb. 10.1 Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der 1. Nachkommastelle von Kasseneinträgen
Wir wollen nun anhand der beobachteten Häufigkeiten überprüfen, ob das unterstellte Modell (d.h. eine gleiche Wahrscheinlichkeit für alle Ziffern) sinnvoll ist. In Tabelle 10.1 und Abb. 10.1 wird deutlich, dass die beobachteten Häufigkeiten nicht sehr stark von den erwarteten Häufigkeiten abweichen. Unsere Unterstellung, dass alle Ziffern an der 1. Nachkommastelle mit der gleichen Wahrscheinlichkeit auftreten, scheint sich also durch die Daten zu bestätigen. Was aber wäre, wenn wir bei 1 000 Kasseneinträgen insgesamt 400 mal die Ziffer 5 an der ersten Nachkommastelle beobachteten und somit die beobachtete Häufigkeit sehr stark von der erwarteten Häufigkeit abwiche? Das wäre natürlich unter der Annahme einer gleichen Wahrscheinlichkeit für alle Ziffern sehr unwahrscheinlich. Daher würden wir in einem solchen Fall schließen können, dass die unterstellte Wahrscheinlichkeitsverteilung der Ziffern nicht richtig ist (und die Kasseneinträge eventuell manipuliert worden sind). Wir beschäftigen uns hier also mit der Frage: Lassen die Beobachtungen darauf schließen, dass das unterstellte Modell nicht richtig ist? Oders anders ausgedrückt: Beschreibt das Wahrscheinlichkeitsmodell P(x) =
für x = 0, 2, 3, . . ., 9 sonst
1/10 0
die beobachteten Ziffern an der ersten Nachkommastelle angemessen? Diese Fragestellung lässt sich wie folgt als Signifikanztest formulieren. Nullhypothese H0 : Das vorgeschlagene Modell trifft zu. Alternativhypothese H1 : Das vorgeschlagene Modell trifft nicht zu. Die Prüfgröße für diesen Signifikanztest ist gegeben durch ( fio − fie )2 , fie i=1 K
PG = ∑
10.1 χ 2 -Anpassungstest
319
wobei fio die beobachteten Häufigkeiten und fie die unter der Nullhypothese (also dem vorgeschlagenen Modell) erwarteten Häufigkeiten sind und K die Anzahl der Klassen bezeichnet (in unserem Beispiel ist K = 10). In Worten lässt sich die Prüfgröße wie folgt beschreiben: (in Klasse i beobachtete Häufigkeit−in Klasse i unter H0 erwartete Häufigkeit)2 in Klasse i unter H0 erwartete Häufigkeit i=1 K
∑
Die Prüfgröße misst also die Abweichung zwischen den Beobachtungen und dem vorgeschlagenen Modell, indem sie für jede Klasse i die quadrierte Abweichung zwischen der beobachteten Häufigkeit und der unter dem Modell erwarteten Häufigkeit ins Verhältnis zur erwarteten Häufigkeit setzt und die erhaltenen Quotienten aufaddiert. Auf diese Weise erhält eine Abweichung zwischen den Häufigkeiten umso mehr Gewicht, je kleiner die erwartete Häufigkeit ist. Man kann zeigen, dass die Prügröße unter der Nullhypothese annähernd eine χ 2 -Verteilung besitzt mit dem Parameter
ν = K − r − 1, wobei K wieder die Anzahl der Klassen und r die Anzahl der in dem Modell geschätzten Parameter ist. Der Parameter der χ 2 -Verteilung wird auch als Freiheitsgrad bezeichnet und mit FG abgekürzt. Auf Grund der Verteilung der Prüfgröße sprechen wir vom χ 2 -Anpassungstest. In unserem Beispiel mussten wir keine Parameter schätzen, um die unter dem Modell erwarteten Häufigkeiten zu bestimmen, weil wir diese unter der Annahme bestimmt haben, dass die Ziffern an der ersten Nachkommastelle der Kasseneinträge gleichverteilt sind. In diesem Fall ist also r = 0 (später werden wir Beispiele sehen, in denen r = 0 ist), so dass die Prügröße χ 2 -verteilt ist mit ν = 10 − 0 − 1 = 9 FG. Die Dichtefunktion der χ 2 (9)-Verteilung ist in Abb. 10.2 dargestellt.
Abb. 10.2 Dichtefunktion der χ 2 (9)-Verteilung und Ablehnungsbereich für α = 0.05
10 χ 2 -Anpassungs- und Unabhängigkeitstest
320
Tabelle 10.2 Berechnung der Prüfgröße für das Modell der Ziffern an der ersten Nachkommastelle von Kasseneinträgen Klasse (Ziffer) i 1 (0) 2 (1) 3 (2) 4 (3) 5 (4) 6 (5) 7 (6) 8 (7) 9 (8) 10 (9)
beobachtete erwartete Abweichung Abweichung2 Häufigkeit Häufigkeit f io
f ie
f io − f ie
114 97 95 100 96 104 88 97 99 110
100 100 100 100 100 100 100 100 100 100
14 −3 −5 0 −4 4 −12 −3 −1 10
Beitrag zu χ 2
( f io − f ie)2 ( f io − f ie )2 / f ie 196 9 25 0 16 16 144 9 1 100
1.96 0.09 0.25 0.00 0.16 0.16 1.44 0.09 0.01 1.00
Summe:
5.16
Wir werden die Nullhypothese ablehnen, wenn die beobachteten Häufigkeiten sehr stark von den unter dem Modell erwarteten Häufigkeiten abweichen, d.h. also dann, wenn die Prüfgröße große Werte annimmt. Unser Test ist somit einseitig, und der Ablehnungsbereich liegt am rechten Ende der Verteilung. Um den Ablehnungsbereich bestimmen zu können, benötigen wir das Signifikanzniveau α . Wir werden in diesem Beispiel α = 0.05 verwenden. Dann müssen 2 wir als linke Grenze des Ablehnungsbereichs den Wert χ9;0.05 bestimmen. Er beträgt 16.92 (siehe Tabelle im Anhang). Wir verwerfen die Nullhypothese also, wenn die Prüfgröße größer als 16.92 ist, d.h. in den rechtsseitigen Ablehnungsbereich fällt. Der kritische Wert und der Ablehnungsbereich sind ebenfalls in Abb. 10.2 dargestellt. Um die Prüfgröße für unser Beispiel zu berechnen, können wir eine Tabelle wie Tabelle 10.2 verwenden. Wir sehen, dass die Prüfgröße nicht im Ablehnungsbereich liegt. Damit können wir die Nullhypothese, dass die Ziffern an der ersten Nachkommastelle der Kasseneinträge alle mit gleicher Wahrscheinlichkeit auftreten, für das Signifikanzniveau α = 0.05 nicht verwerfen. An Stelle des klassischen Vorgehens mit der Bestimmung des Ablehnungsbereichs für ein gegebenes Signifikanzniveau können wir auch hier wieder den P-Wert betrachten. In diesem Fall ist der P-Wert die Wahrscheinlichkeit, unter der Nullhypothese, d.h. unter einer χ 2 (9)-Verteilung, einen noch größeren Wert für die Prüfgröße zu erhalten als 5.16: P(PG > 5.16) ≈ 0.82 . Die Bestimmung des P-Wertes wird in Abb. 10.3 verdeutlicht. Der P-Wert ist hier so groß, dass wir die Nullhypothese bei keinem der üblichen Signifikanzniveaus verwerfen können. Bei der Interpretation dieses Testergebnisses
10.1 χ 2 -Anpassungstest
321
Abb. 10.3 Bestimmung des P-Werts beim χ 2 -Anpassungstest
müssen wir allerdings wieder vorsichtig sein. Wir haben damit nicht bewiesen, dass die Ziffern tatsächlich mit gleicher Wahrscheinlichkeit auftreten. Das lässt sich weder aus 1 000 noch aus 1 000 000 Beobachtungen folgern. Unsere Folgerung lässt sich nur so formulieren: Die Beobachtungen widersprechen nicht der Vermutung, dass alle Ziffern an der ersten Nachkommastelle gleich wahrscheinlich sind. Wir konnten durch den χ 2 -Anpassungstest nicht nachweisen, dass die Ziffern an der ersten Nachkommastelle der Kasseneinträge von der unterstellten Wahrscheinlichkeitsverteilung abweichen. Daher würde das Finanzamt in einem solchen Fall davon ausgehen, dass die Kasseneinträge nicht manipuliert worden sind. Natürlich hängen die Häufigkeiten der Ziffern davon ab, welche Stelle der Kasseneinträge wir betrachten. An der ersten Nachkommastelle ist die Vermutung, dass alle Ziffern in etwa gleich oft vorkommen, sicher sinnvoll. Wenn wir dagegen die zweite (und letzte) Nachkommastelle derselben Kasseneinträge betrachten, stellen wir fest, dass die Ziffer 9 deutlich häufiger auftritt als die anderen Ziffern (und die Annahme gleicher Wahrscheinlichkeit aller Ziffern anhand der Daten verworfen werden muss). Dies lässt sich aber sicher durch die typische Gestaltung von Preisen erklären. Und so lange die Abweichung der Kasseneinträge von den unterstellten Verteilungen logisch erklärt werden kann, muss der überprüfte Betrieb mit keinen Konsequenzen rechnen. Eine besondere Verteilung wird unterstellt, wenn das Finanzamt die Ziffern an der ersten Stelle von Kasseneinträgen überprüft. Für die Ziffern an der ersten Stelle wird nämlich angenommen, dass sie dem sogenannten Benford’schen Gesetz (oder Benford’s Law) folgen. Dieses besagt, dass sich der relative Anteil der Ziffern d = 1, 2, . . . , 9 an der ersten Stelle gemäß der Formel f (d) = log10 (1 + 1/d) ergibt. Mit dieser Formel erhalten wir die in Tabelle 10.3 gegebenen relativen Häufigkeiten der Ziffern 1 bis 9. Man erkennt in Tabelle 10.3, dass laut Benfords Gesetz bei fast jeder dritten Zahl eine 1 an der ersten Stelle steht und dass die relative Häufigkeit der Ziffern mit zunehmender Größe der Ziffer abnimmt.
10 χ 2 -Anpassungs- und Unabhängigkeitstest
322
Tabelle 10.3 Relative Häufigkeit der Ziffern 1 bis 9 gemäß dem Benford’schen Gesetz Ziffer relative Häufigkeit
1
2
3
4
5
6
7
8
9
0.301 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046
Diese Gesetzmäßigkeit für die Häufigkeit von Anfangsziffern wurde bereits 1881 von dem Mathematiker Simon Newcomb beschrieben. Im Jahr 1938 zeigte dann der Physiker Frank Benford, nach dem das Gesetz heute benannt ist, dass sehr viele Phänomene dieser Gesetzmäßigkeit folgen. Wenn wir zum Beispiel die Einwohnerzahlen deutscher Städte betrachten, werden wir sehen, dass die Verteilung der Anfangsziffern sehr gut durch das Benford’sche Gesetz beschrieben wird (viele weitere Beispiele findet man leicht mit einer Suchmaschine im Internet). Für die Ziffern an der ersten Stelle der Kasseneinträge des Supermarkts kann man sich die Gültigkeit von Benfords Gesetz intuitiv erklären. Wenn man in einem Supermarkt einkauft, wird es sicherlich wesentlich öfter vorkommen, dass man zwischen 10.00 e und 19.99 e ausgibt und somit eine 1 an der ersten Stelle hat, als dass der Kassenzettel am Ende eine Summe zwischen 90.00 e und 99.99 e zeigt und somit eine 9 an erster Stelle steht (vgl. z.B. die Histogramme der SupermarktAusgaben aus Beispiel 7.3 in den Abbildungen 7.12 und 7.17). Schauen wir, ob die Häufigkeiten der Ziffern an der ersten Stelle der Kasseneinträge unseres Beispiel-Datensatzes ebenfalls gut durch das Benford’sche Gesetz beschrieben werden. In Tabelle 10.4 sind die beobachteten Häufigkeiten der Ziffern an der ersten Stelle den unter Benfords Gesetz erwarteten Häufigkeiten gegenüber gestellt. Die erwarteten Häufigkeiten erhalten wir, indem wir die relativen Häufigkeiten des Benford’schen Gesetzes mit der Gesamtzahl an Kasseneinträgen multiplizieren. Abbildung 10.4 zeigt einen grafischen Vergleich der beobachteten und der relativen Häufigkeiten. Auf den ersten Blick scheinen die beobachteten Häufigkeiten relativ gut mit den erwarteten Häufigkeiten übereinzustimmen. Ob dies wirklich so ist, oder ob wir auf Grund der beobachteten Häufigkeiten das Benford’sche Gesetz hier doch verwerfen müssen, können wir wieder mit dem χ 2 -Anpassungstest überprüfen. Dazu erstellen wir erneut eine Tabelle zur Berechnung der Prüfgröße (siehe Tabelle 10.5). Unter der Nullhypothese, dass das Benford’sche Gesetz die Ziffern an der ersten Stelle der Kasseneinträge angemessen beschreibt, ist die Prüfgröße χ 2 -verteilt
Tabelle 10.4 Beobachtete und erwartete Häufigkeiten der Ziffern an der ersten Stelle von 1 000 Kasseneinträgen Ziffer
1
2
3
4
5
6
7
8
9
beobachtete Häufigkeit
284 197 132
98
69
67
47
62
44
erwartete Häufigkeit
301 176 125
97
79
67
58
51
46
10.1 χ 2 -Anpassungstest
323
Abb. 10.4 Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der 1. Stelle von Kasseneinträgen
mit K − r − 1 = 9 − 0 − 1 = 8 Freiheitsgraden. Wenn wir ein Signifikanzniveau von 2 α = 0.10 verwenden, können wir den kritischen Wert χ8;0.10 = 13.36 aus Tabelle A.4 ablesen oder mit einer Software berechnen (alternativ könnten wir natürlich auch den P-Wert betrachten). Da die Prüfgröße kleiner ist als dieser Wert und somit nicht in den Ablehnungsbereich fällt, können wir das Benford’sche Gesetz in unserem Beispiel nicht verwerfen. Wir haben damit zwar nicht bewiesen, dass das Gesetz tatsächlich wahr ist, aber das Finanzamt würde in diesem Fall davon ausgehen, dass die Kasseneinträge nicht manipuliert worden sind. Wie bereits zu Beginn dieses Beispiels erwähnt, steht hinter der Anwendung des χ 2 -Anpassungstests zur Buchhaltungsprüfung die Annahme, dass Menschen bei Manipulation der Buchhaltung unbewusst bestimmte Ziffern besonders häufig verwenden, so dass dann die beobachtete Häufigkeitsverteilung der Ziffern signifikant von der unterstellten Verteilung bei Korrektheit der Buchhaltung abweicht.
Tabelle 10.5 Berechnung der Prüfgröße für das Modell der Ziffern an der ersten Stelle von Kasseneinträgen Klasse 1 2 3 4 5 6 7 8 9
f io
f ie
284 301 197 176 132 125 98 97 69 79 67 67 47 58 62 51 44 46
f io − f ie
( f io − f ie )2
( f io − f ie)2 / f ie
−17 21 7 1 −10 0 −11 11 −2
289 441 49 1 100 0 121 121 4
0.96 2.51 0.39 0.01 1.27 0.00 2.09 2.37 0.09
Summe:
9.69
10 χ 2 -Anpassungs- und Unabhängigkeitstest
324
Tabelle 10.6 Berechnung der Prüfgröße für die Poissonverteilung der monatlichen Anzahl starker Erdbeben Klasse
f io
0 1 2 3 4+
127 142 96 38 17
Pi
f ie
0.301 126.4 0.361 151.6 0.217 91.1 0.087 36.6 0.034 14.3
f io − f ie
( f io − f ie)2
( f io − f ie )2 / f ie
0.6 −9.6 4.9 1.4 2.7
0.36 92.16 24.01 1.96 7.29
0.00 0.61 0.26 0.05 0.51
Summe:
1.43
In diesem Beispiel der Kassenprüfung mit Hilfe des χ 2 -Anpassungstests war das unterstellte Modell vollständig bekannt, ohne dass ein Parameter geschätzt werden musste. Betrachten wir nun noch einmal die monatliche Anzahl starker Erdbeben aus Beispiel 1.7, um zu demonstrieren, was wir beachten müssen, wenn wir den χ 2 Anpassungstest für ein aus den Daten geschätztes Modell anwenden möchten. In Kapitel 5 haben wir gesagt, dass wir die monatliche Anzahl starker Erdbeben durch eine Poissonverteilung mit dem Parameter λ = 1.2 beschreiben möchten. In Kapitel 7 haben wir dann gesehen, dass man den Parameter λ einer Poissonverteilung durch den Mittelwert der beobachteten Daten schätzen kann (λˆ = x). ¯ In diesem Beispiel ist 1.2 gerade der (gerundete) Mittelwert der n = 420 beobachteten monatlichen Erdbeben-Anzahlen. Wir wollen jetzt mit Hilfe des χ 2 -Anpassungstests überprüfen, ob die Poissonverteilung ein angemessenes Modell für die monatliche Anzahl starker Erdbeben ist. Dazu müssen wir wieder die unter der Poissonverteilung erwarteten Häufigkeiten den beobachteten Häufigkeiten gegenüberstellen. Tabelle 10.6 zeigt die Rechenschritte zur Berechnung der Prüfgröße. Eine Besonderheit stellt in diesem Fall die letzte Klasse dar. Sie umfasst alle Beobachtungen mit 4 oder mehr Erdbeben und wird daher mit 4+ gekennzeichnet. Der Grund, aus dem wir alle Beobachtungen von 4 oder mehr Erdbeben in einer Klasse zusammenfassen, ist der folgende: Der χ 2 -Anpassungstest liefert nur dann verlässliche Ergebnisse, wenn die erwartete Häufigkeit in jeder Klasse mindestens 5 beträgt. Wenn die unter dem Modell erwarteten Häufigkeiten in einzelnen Klassen zu klein sind, ist die Approximation der exakten Verteilung der Prüfgröße durch die χ 2 Verteilung schlecht. Was genau dabei zu klein bedeutet, kann man nicht allgemein beantworten. Wir verwenden aber die Faustregel, dass die erwarteten Häufigkeiten in jeder Klasse ≥ 5 sein sollten. Um die erwarteten Häufigkeiten zu berechnen, benötigen wir zunächst die Wahrscheinlichkeiten der angepassten Po(1.2)-Verteilung. Diese sind bereits in Tabel-
10.1 χ 2 -Anpassungstest
325
le 5.3 berechnet worden. Für die Klasse 4+ erhalten wir die entsprechende Wahrscheinlichkeit unter Verwendung der Gegenwahrscheinlichkeit: P(X ≥ 4) = 1 − P(X < 4) = 1 − [P(0) + P(1) + P(2) + P(3)] = 0.034 . Die erwartete Häufigkeit einer Klasse entspricht dann (wie in den bisherigen Beispielen auch) dem Produkt aus der Wahrscheinlichkeit der Klasse und der Gesamtzahl n = 420, also z.B. in der Klasse 4+ P(4+) · n = 0.034 · 420 ≈ 14.3. Die unter dem vorgeschlagenen Modell erwarteten Häufigkeiten wurden bereits in Abb. 1.11 den beobachteten Häufigkeiten grafisch gegenübergestellt (allerdings ohne Verwendung der Klasse 4+). Die weiteren Schritte zur Berechnung der Prüfgröße sind identisch mit den bisherigen Beispielen. Allerdings sollte man beachten, dass die Zwischenergebnisse in Tabelle 10.6 jeweils gerundet worden sind, so dass die errechnete Prüfgröße von derjenigen Prüfgröße abweicht, die man ohne Rundung der Zwischenschritte erhält (ohne jedoch das Ergebnis des Tests zu verfälschen). In diesem Beispiel haben wir K = 5 Klassen verwendet und r = 1 Parameter aus den Daten geschätzt, so dass die Prüfgröße unter der Nullhypothese χ 2 -verteilt ist mit K − r − 1 = 5 − 1 − 1 = 3 Freiheitsgraden. Der kritische Wert (d.h. die linke Grenze des Ablehnungsbereichs) 2 = 6.25 (siehe Tabelle für ein Signifikanzniveau von α = 0.10 beträgt daher χ3;0.10 A.4). Der kritische Wert ist deutlich größer als die beobachtete Prüfgröße. Wir können somit nicht die Nullhypothese verwerfen, dass die angepasste Poissonverteilung ein angemessenes Modell für die monatliche Anzahl starker Erdbeben ist. Auf dieselbe Weise können wir auch die Anpassungsgüte anderer diskreter Verteilungen überprüfen. Wir müssen dabei nur jeweils darauf achten, dass die erwartete Häufigkeit in jeder Klasse mindestens 5 betragen sollte, damit der Test verlässliche Ergebnisse liefert. Beispielsweise können wir für die Anzahl der Call-CenterAnrufe pro 5-Minuten-Intervall (Beispiel 1.10), deren beobachtete Häufigkeiten in Abb. 1.14 den unter einer Po(8.5)-Verteilung erwarteten Häufigkeiten gegenübergestellt sind, einen χ 2 -Anpassungstest mit den Klassen 4−, 5, 6, . . . , 11, 12, 13+ durchführen. Wir kommen dann trotz einiger deutlicher Abweichungen zwischen beobachteten und erwarteten Häufigkeiten zu dem Ergebnis, dass die angepasste Poissonverteilung nicht verworfen werden kann. Bisher haben wir den χ 2 -Anpassungstest nur für diskrete Verteilungen betrachtet. Im Folgenden werden wir sehen, wie man den χ 2 -Test anwendet, um die Anpassungsgüte einer stetigen Verteilung zu überprüfen. Dazu betrachten wir noch einmal die Dauer (in Sekunden) der Call-Center-Anrufe aus Beispiel 1.10. Abbildung 1.14 zeigt ein Histogramm der Daten zusammen mit der angepassten Exponentialverteilung mit λ = 0.006, die wir bereits in den Kapiteln 4 und 6 näher betrachtet haben. Der Parameter der Exponentialverteilung wurde durch den Kehrwert des Mittelwertes der Beobachtungen geschätzt, so wie wir es in Kapitel 7 kennen gelernt haben: λˆ = 1/x¯ = 1/172.3 ≈ 0.006
10 χ 2 -Anpassungs- und Unabhängigkeitstest
326
Damit lautet die Dichtefunktion der angepassten Exponentialverteilung f (x) =
0.006e−0.006x 0
x≥0 , sonst
und die dazugehörige Verteilungsfunktion ist gegeben durch F(t) =
0 1 − e−0.006t
t 3) = 1 − P(R ≤ 3) = 1 − Φ
Die Berechnung von P(0 < R ≤ 1) wird in Abb. 10.6 noch einmal grafisch verdeutlicht. Auf dieselbe Weise werden die Wahrscheinlichkeiten der anderen Klassen berechnet. Die Ergebnisse sind in Tabelle 10.8 in der Spalte Pi gegeben. Die erwarteten Häufigkeiten erhält man dann, indem man die Wahrscheinlichkeiten Pi mit der Anzahl an Beobachtungen n = 506 multipliziert; sie sind in der Spalte fie in Tabelle 10.8 enthalten. Als nächstes berechnen wir mit Hilfe von Tabelle 10.8 die Prüfgröße und erhalten ( fio − fie )2 = 14.86 . fie i=1 12
PG = ∑
Man beachte, dass wir in Tabelle 10.8 gerundete Zwischenergebnisse angegeben, bei den weiteren Rechenschritten aber immer mit den nicht gerundeten Zwischenergebnissen gerechnet haben. In der Tabelle sind auch die Beiträge ( fio − fie )2 / fie der einzelnen Klassen enthalten, aus denen sich die Prüfgröße in der Summe zusammensetzt. Beispielsweise beträgt der Beitrag der dritten Klasse (64 − 80.4)2/80.4 ≈ 3.33. Der Beitrag einer Klasse ist nur dann gleich Null, wenn die erwarteten und beobachteten Häufigkeiten genau gleich sind. Je unterschiedlicher diese Häufigkeiten sind, um so größer wird der Beitrag. Die großen Beiträge zeigen also die Klassen, in denen die Anpassung schlecht ist. Abbildung 1.8 zeigt, dass die Anpassung für die Klasse (0 ; 1] am schlechtesten ist. Folglich ist der Beitrag dieser Klasse (5.89) am größten.
Tabelle 10.8 Berechnung der PG für die Normalverteilung der Deutsche Bank Tagesrendite Klasse
f io
(−∞ ; −3] (−3 ; −2] (−2 ; −1] (−1 ; 0] (0 ; 1] (1 ; 2] (2 ; 3] (3 ; ∞)
10 32 64 130 162 76 21 11
Pi
f ie
( f io − f ie)2 / f ie
0.015 7.7 0.059 29.7 0.159 80.4 0.262 132.8 0.265 133.9 0.163 82.4 0.061 31.0 0.016 8.2
0.71 0.18 3.33 0.06 5.89 0.50 3.21 0.98
Summe:
14.86
332
10 χ 2 -Anpassungs- und Unabhängigkeitstest
Um die Prüfgröße PG = 14.86 zu bewerten, benötigen wir wieder einen Ablehnungsbereich. Wir wollen dabei das Signifikanzniveau α = 0.10 verwenden. Mit K = 8 Klassen und r = 2 geschätzten Parametern ist die Prüfgröße unter der Nullhypothese χ 2 -verteilt mit ν = K − r − 1 = 8 − 2 − 1 = 5 Freiheitsgraden. Aus der χ 2 -Tabelle im Anhang (Tabelle A.4) lesen wir den kritischen Wert für ν = 5 und α = 0.10 ab, nämlich 9.24. PG ist größer als der kritische Wert, so dass wir die Nullhypothese für α = 0.10 verwerfen können. Zu demselben Ergebnis kommen wir sofort, wenn wir den PWert der Prüfgröße betrachten. Der P-Wert ist die Wahrscheinlichkeit, unter der χ 2 (5)-Verteilung einen noch größeren Wert für PG zu erhalten als 14.86, und beträgt in diesem Fall P(PG > 14.86) ≈ 0.01. Damit kann die Nullhypothese auch für α = 0.05 und α = 0.01 verworfen werden. Damit haben wir zwar nicht bewiesen, dass die Renditen der Deutsche Bank Aktie nicht normalverteilt sind, wir können aber ziemlich sicher sein, dass die Daten dieser Verteilung widersprechen. Dieses Ergebnis ist typisch für Aktienrenditen. In den meisten Fällen kann man nachweisen, dass Aktienrenditen nicht normalverteilt sind. Renditen sind — genau wie die hier betrachteten Renditen der Deutschen Bank — in der Regel im mittleren Bereich schmaler und steiler verteilt als eine Normalverteilung und haben dafür fettere Enden, also eine höhere Kurtosis. Wenn wir uns die zeitliche Entwicklung der Deutsche Bank Renditen, die in Abb. 10.7 dargestellt ist, anschauen, erkennen wir, warum die Renditen die beschriebenen Charakteristika aufweisen. Es scheint, als ob es einige besonders unruhige Phasen gibt, in denen die Renditen viel variieren (was die fetten Enden verursacht),
Abb. 10.6 Bestimmung von P(0 < R ≤ 1) mit Hilfe der Verteilungsfunktion der Standardnormalverteilung
10.1 χ 2 -Anpassungstest
333
Abb. 10.7 Zeitlicher Verlauf der Deutsche Bank Renditen
und ruhigere Phasen, in denen sie weniger variieren (wodurch die Verteilung in der Mitte so steil wird). Man braucht also ein anderes Modell, wenn man die Verteilung der Deutsche Bank Renditen beschreiben will. Da die Verteilung von Aktienrenditen von großem Interesse ist (es geht um viel Geld), wird sie sehr genau in diversen Forschungsprojekten untersucht, und es werden viele verschiedene Modelle vorgeschlagen. Eine Möglichkeit, die unterschiedlichen Phasen zu berücksichtigen und damit die Renditen besser zu beschreiben, ist die Verwendung einer sogenannten Mischverteilung. Man verwendet z.B. zwei Normalverteilungen, von denen eine relativ breit ist und die andere eher schmal. Die breite Verteilung beschreibt das Verhalten der Renditen in den unruhigen Phasen, die schmale das in den ruhigen Phasen. Abbildung 10.8 zeigt das Histogramm der Deutsche Bank Renditen zusammen mit zwei solchen Normalverteilungen und der Dichtefunktion, die man bekommt, wenn man die schmale und die breite Normalverteilung im Verhältnis 0.43 : 0.57 mischt. Die Dichte der Mischung ist f (x) = 0.43 f1 (x) + 0.57 f2(x) , wobei f1 (x) die Dichte einer N(0.19; 0.842)-Verteilung und f2 (x) die Dichte einer N(−0.11; 1.682)-Verteilung ist. Abbildung 10.8 zeigt, dass die Anpassung der Mischverteilung deutlich besser ist als die der in Abb. 1.8 dargestellten einfachen Normalverteilung, die wir verwerfen mussten. Und wenn wir den χ 2 -Anpassungstest durchführen, können wir die Nullhypothese, dass die DAX-Rendite der angepassten Mischverteilung folgt, nicht verwerfen. Hier noch eine Bemerkung zur Modellierung von Aktienrenditen. Es handelt sich bei den Daten um eine Zeitreihe von Werten, nicht um eine zufällige Stichprobe aus einer Grundgesamtheit. Es ist nicht gesagt, dass sich diese Daten wie Beobachtungen aus einer zufälligen Stichprobe verhalten. Es kann gut sein, dass die aufeinanderfolgenden Werte nicht unabhängig voneinander sind. Wenn man solche Daten genauer untersuchen will, muss man solche Abhängigkeiten berücksichtigen. Wenn wir den Anpassungstest auch für weitere, bereits betrachtete, Beispiele stetiger Verteilungen durchführten, würden wir sehen, dass wir z.B. die Normal-
10 χ 2 -Anpassungs- und Unabhängigkeitstest
334
Abb. 10.8 Histogramm der DAX-Renditen und angepasste Mischverteilung
verteilungen der Glühbirnen-Brenndauer (Beispiel 1.12), der Blockzeiten der Flüge auf der Strecke DFW–PHL (Beispiel 1.2) sowie der Füllmenge von Grießpackungen (Beispiel 7.5) oder auch die Exponentialverteilung der Zeit zwischen zwei Tsunamis oder zwischen zwei starken Erdbeben (Beispiel 1.7) nicht verwerfen können.
10.2 χ 2 -Unabhängigkeitstest Im vorangegangenen Kapitel haben wir bereits über die Unabhängigkeit von zwei Zufallsvariablen gesprochen. Dabei haben wir gesagt, dass zwei Zufallsvariablen X und Y genau dann unabhängig verteilt sind, wenn gilt: P(x, y) = P1 (x)P2 (y)
(diskreter Fall)
f (x, y) = f1 (x) f2 (y)
(stetiger Fall)
Falls wir die Verteilung der beiden Zufallsvariablen (Dichte- oder Wahrscheinlichkeitsfunktion) kennen, können wir sofort prüfen, ob die Zufallsvariablen unabhängig sind oder nicht, wie wir es für das Eignungstest-Beispiel (Beispiel 9.2) bereits getan haben. Ähnlich verhält es sich, wenn wir die gemeinsame Häufigkeitsverteilung zweier Merkmale in der Grundgesamtheit kennen. Wir können dann überprüfen, ob sich für alle Kombinationen der Ausprägungen der beiden Merkmale die gemeinsame relative Häufigkeit als Produkt der relativen Randhäufigkeiten der beiden Ausprägungen ergibt. Ist dies der Fall, sind die beiden Merkmale unabhängig, andernfalls sind sie nicht unabhängig. In der Regel liegt jedoch nicht die gemeinsame Verteilung, sondern nur eine Stichprobe der beiden Merkmale vor, und man möchte anhand der Stichprobe prüfen, ob die Merkmale in der Grundgesamtheit unabhängig sind oder nicht. Dabei muss man beachten, dass es auf Grund zufälliger Schwankungen in der Stichpro-
10.2 χ 2 -Unabhängigkeitstest
335
Tabelle 10.9 Umfrageergebnis zur US-Präsidentenwahl 2000: Geschlecht und Unterstützung von George Bush (absolute Häufigkeiten) Kandidat Geschlecht weiblich männlich Total
pro Bush kontra Bush
Total
73 73
144 93
217 166
146
237
383
be auch dann zu Abhängigkeiten kommen kann, wenn die beiden Merkmale in der Grundgesamtheit unabhängig sind. Im Folgenden werden wir einen Hypothesentest vorstellen, mit dem man zwei Merkmale anhand einer Stichprobe auf Unabhängigkeit überprüft. Zu diesem Zweck betrachten wir noch einmal die Umfrage zur US-Präsidentenwahl 2000, die im Oktober 2000 in New Jersey durchgeführt wurde (Beispiel 7.7). Wir beschränken uns wieder auf die 383 Befragten, die sich bereits für einen Kandidaten entschieden haben, berücksichtigen jetzt aber zusätzlich noch das Geschlecht der Befragten. Wir betrachten jetzt also zwei Merkmale, zum einen das Geschlecht der befragten Person, zum anderen den Kandidaten, der von der befragten Person unterstützt wird. Zur Vereinfachung verwenden wir bezüglich des Kandidaten nur die beiden Kategorien pro Bush und kontra Bush. Da die Personen in der Stichprobe zufällig gewählt worden sind, können wir die beiden Merkmale einer Person auch als Zufallsvariable ansehen. Wir betrachten also die beiden Merkmale bzw. Zufallsvariablen: Geschlecht (X): Kandidat (Y ):
weiblich (X = 0) pro Bush (Y = 0)
männlich (X = 1) kontra Bush (Y = 1)
Die gemeinsamen Häufigkeiten, mit denen die Ausprägungen der beiden Merkmale in der Stichprobe auftreten, sind in Tabelle 10.9 gegeben. Eine solche Tabelle, welche die Häufigkeiten enthält, mit der Kombinationen von zwei oder mehr Merkmalen beobachtet wurden, wird Kontingenztafel genannt (Kontingenz = Zusammenhang). Die interessierende Frage ist nun, ob die beiden Merkmale unabhängig oder abhängig verteilt sind, d.h. ob die Unterstützung von George Bush vom Geschlecht der befragten Person abhängt. Auf den ersten Blick sieht es so aus, als ob Frauen wesentlich deutlicher gegen George Bush sind als Männer. Es könnte aber durchaus auch möglich sein, dass die Unterstützung in der Grundgesamtheit nicht vom Geschlecht abhängt und der Zusammenhang in der Stichprobe nur zufällig entstanden ist. Um die Frage nach der Unabhängigkeit zu beantworten, können wir einen Hypothesentest verwenden, der nach demselben Grundprinzip funktioniert wie die bisher kennengelernten Hypothesentests. Als Nullhypothese verwenden wir dabei: H0 : Die beiden Merkmale sind unabhängig verteilt.
10 χ 2 -Anpassungs- und Unabhängigkeitstest
336
Abb. 10.9 Gemeinsame Wahrscheinlichkeitsfunktion von Geschlecht und Kandidat
D.h. wir gehen zunächst einmal davon aus, dass es keinen Zusammenhang zwischen den beiden Merkmalen gibt, und wir werden diese Nullhypothese nur dann verwerfen, wenn der in der Stichprobe beobachtete Zusammenhang unter der Annahme der Unabhängigkeit sehr unwahrscheinlich ist. Um den Test durchzuführen, berechnen wir zunächst aus den Daten aus Tabelle 10.9 die jeweiligen Anteile an der Gesamtanzahl. Zum Beispiel beträgt der Anteil der befragten Personen, die weiblich sind und George Bush unterstützen, 73/383 = 0.1906. Die Anteile aller Kombinationen sind in Tabelle 10.10 gegeben. Wir können diese Anteile (oder gemeinsamen relativen Häufigkeiten) als Schätzer der gemeinsamen Wahrscheinlichkeitsfunktion P(x, y) ansehen. Abbildung 10.9 stellt P(x, y) grafisch dar. An den Rändern von Tabelle 10.10 stehen die relativen Randhäufigkeiten. Diese dienen als Schätzer der Randverteilungen von X und Y und sind in Abb. 10.10 grafisch dargestellt. Die Randwahrscheinlichkeiten geben uns an, dass rund 57% der befragten Personen weiblich waren und dass circa 38% der Befragten George Bush unterstützen. Diese Informationen sagen uns aber noch nichts über den Zusammenhang zwischen Geschlecht und unterstütztem Kandidat. Um zu testen, ob die Wahlpräferenz tatsächlich vom Geschlecht abhängt, müssen wir die Anteile unter der Nullhypothese betrachten, d.h. unter der Annahme, X und Y seien unabhängig verteilt. Wie bereits erwähnt, ist diese Annahme gleichbedeutend damit, dass sich die gemeinsame Wahrscheinlichkeit als Produkt der Rand-
Tabelle 10.10 Gemeinsame relative Häufigkeiten der Merkmale Geschlecht und Kandidat Kandidat Geschlecht weiblich männlich Total
pro Bush
kontra Bush
Total
73/383 = 0.1906 144/383 = 0.3760 73/383 = 0.1906 93/383 = 0.2428
217/383 = 0.5666 166/383 = 0.4334
146/383 = 0.3812 237/383 = 0.6188
383/383 = 1.0000
10.2 χ 2 -Unabhängigkeitstest
337
Abb. 10.10 Randwahrscheinlichkeiten für a Geschlecht und b Kandidat
wahrscheinlichkeiten ergibt: X,Y unabhängig
⇔
P(x, y) = P1 (x)P2 (y)
Somit können wir die Anteile unter der Nullhypothese als Produkte der entsprechenden Randwahrscheinlichkeiten berechnen. Beispielsweise erhalten wir den erwarteten Anteil der Personen, die weiblich sind und George Bush unterstützen, durch das Produkt: ˆ P(weiblich, Bush) ≈ Pˆ1 (weiblich) · Pˆ2(Bush) = 0.5666 · 0.3812 = 0.2160 Auf dieselbe Weise können wir die Wahrscheinlichkeiten aller Kombinationen berechnen, die sich unter der Hypothese der Unabhängigkeit von X und Y in etwa einstellen sollten. Tabelle 10.11 enthält diese Wahrscheinlichkeiten. Wenn man diese mit Tabelle 10.10 vergleicht, fällt auf, dass die Wahrscheinlichkeiten bei Unab-
Tabelle 10.11 Geschätzte Wahrscheinlichkeitsfunktion bei Unabhängigkeit Kandidat Geschlecht
pro Bush kontra Bush
Total
weiblich männlich
0.2160 0.1652
0.3506 0.2682
0.5666 0.4334
Total
0.3812
0.6188
1.0000
10 χ 2 -Anpassungs- und Unabhängigkeitstest
338
hängigkeit relativ stark von den beobachteten Anteilen abweichen. Es scheint also tatsächlich einen Zusammenhang zwischen Geschlecht und Wahlpräferenz zu geben. Das sehen wir noch deutlicher, wenn wir die erwarteten Häufigkeiten berechnen. Es gab insgesamt n = 356 befragte Personen. Wenn wir die Einträge in Tabelle 10.11 mit n = 356 multiplizieren, erhalten wir die in Tabelle 10.12 gegebenen bei Unabhängigkeit erwarteten (gerundeten) Häufigkeiten. Wenn man zum Vergleich noch einmal die beobachteten Häufigkeiten in Tabelle 10.9 betrachtet, fällt auf, dass George Bush von den weiblichen Befragten deutlich weniger Stimmen, von den männlichen Befragten dagegen mehr Stimmen erhalten hat, als man bei Unabhängigkeit erwartet. Dies lässt vermuten, dass es in der Tat einen Zusammenhang zwischen Geschlecht und Wahlpräferenz gibt. Bis jetzt haben wir die Daten allerdings einfach nur untersucht, ohne einen formalen Signifikanztest durchzuführen. Wenn wir den vermuteten Zusammenhang zwischen Geschlecht und Wahlpräferenz statistisch absichern bzw. die Nullhypothese der Unabhängigkeit überprüfen möchten, können wir die Prüfgröße verwenden, die wir schon im Rahmen des χ 2 -Anpassungstests kennen gelernt haben: PG = ∑
(beobachtete Häufigkeit − erwartete Häufigkeit)2 erwartete Häufigkeit
Wir sprechen zwar hier vom χ 2 -Unabhängigkeitstest, weil wir zwei Merkmale auf Unabhängigkeit überprüfen, wir können den Test aber auch als Anpassungstest interpretieren, bei dem wir die Anpassungsgüte des Unabhängigkeits-Modells testen. Daher ist es logisch, dass wir dieselbe Prüfgröße verwenden können. Wenn wir die Prüfgröße für unser Beispiel berechnen, erhalten wir PG =
(73 − 83)2 (144 − 134)2 (73 − 63)2 (93 − 103)2 + + + ≈ 4.51 . 83 134 63 103
Unter der Nullhypothese, d.h. unter der Hypothese der Unabhängigkeit, ist die Prüfgröße annähernd χ 2 -verteilt mit dem Parameter
ν = (r − 1) · (s − 1) , wobei r die Anzahl der Zeilen und s die der Spalten in der Kontingenztafel ist. In unserem Beispiel haben wir zwei Zeilen und zwei Spalten und erhalten damit
Tabelle 10.12 Erwartete Häufigkeiten unter der Hypothese der Unabhängigkeit Kandidat Geschlecht weiblich männlich
pro Bush kontra Bush 83 63
134 103
10.2 χ 2 -Unabhängigkeitstest
339
Tabelle 10.13 Notation in einer r × s-Kontingenztafel Beobachtete Häufigkeiten n11 n21 .. . nr1
n12 n22 .. . nr2
n13 n23 .. . nr3
... ... ...
n1s n2s .. . nrs
n1. n2. .. . nr.
n.1 n.2 n.3
...
n.s
n
ν = (2 − 1) · (2 − 1) = 1. Für ein gegebenes Signifikanzniveau α können wir somit den kritischen Wert aus der Tabelle der χ 2 -Verteilung in der Zeile ν = 1 ablesen. 2 Für ein Signifikanzniveau von α = 0.05 erhalten wir den kritischen Wert χ1;0.05 = 3.84, der kleiner ist als PG. In diesem Fall verwerfen wir also die Hypothese der Unabhängigkeit. Wenn wir allerdings α = 0.01 verwenden, ist der kritische Wert 2 χ1;0.01 = 6.63 nicht mehr kleiner als die Prüfgröße, so dass wir die Nullhypothese nicht verwerfen können (zu diesem Ergebnis kommt man auch, wenn man die Prüfgröße mit den nicht gerundeten erwarteten Häufigkeiten berechnet). Der P-Wert ist mit 0.03 zwar relativ klein, aber nicht so klein, dass wir die Nullhypothese bei jedem üblichen Signifikanzniveau verwerfen können. Der Zusammenhang zwischen Geschlecht und Wahlpräferenz ist also doch nicht ganz so eindeutig wie es schien, und das Ergebnis des χ 2 -Unabhängigkeitstests hängt davon ab, welche Irrtumswahrscheinlichkeit wir akzeptieren. Wir haben jetzt den χ 2 -Unabhängigkeitstest anhand eines kleinen Beispiels, nämlich einer 2 × 2-Kontingenztafel, eingeführt. Das Prinzip des Tests bleibt auch bei größeren Kontingenztafeln erhalten. Im Folgenden soll daher noch einmal das allgemeine Vorgehen beim Unabhängigkeitstest zusammengefasst werden. Dazu benötigen wir einige neue Notationen. Betrachten wir eine r × s-Tafel mit r Zeilen und s Spalten. Wir bezeichnen die beobachteten Häufigkeiten mit ni j , wobei i für die i-te Zeile und j für die j-te Spalte steht. Für die Randsummen (oder -häufigkeiten) wird folgende Notation verwendet: n1. , n2. , . . . für die Zeilensummen n.1 , n.2 , . . . für die Spaltensummen n3. steht also beispielsweise für die Summe der beobachteten Häufigkeiten in der dritten Zeile. Die Gesamtzahl der Beobachtungen wird wie immer mit n (oder in Anlehnung an die andere Notation mit n.. ) bezeichnet. Tabelle 10.13 verdeutlicht die Notation in einer r × s-Kontingenztafel. Für das obige Beispiel der Wahlumfrage erhalten wir: n11 = 73 n21 = 73 n.1 = 146
n12 = 127 n22 = 83 n.2 = 210
n1. = 200 n2. = 156 n = 356
10 χ 2 -Anpassungs- und Unabhängigkeitstest
340
Die unter der Hypothese der Unabhängigkeit erwarteten Häufigkeiten haben dieselbe Struktur. Wir bezeichnen sie allerdings mit dem Buchstaben m statt n. Die Notation für die erwarteten Häufigkeiten wird in Tabelle 10.14 verdeutlicht. Wenn wir die einzelnen Schritte aus dem obigen Beispiel noch einmal durchgehen, sehen wir, dass die bei Unabhängigkeit erwarteten Häufigkeiten wie folgt aus den beobachteten Randhäufigkeiten berechnet werden: mi j =
ni. n. j n
für i = 1, 2, . . . , r, und j = 1, 2, . . . , s .
Mit der neu eingeführten Notation ist die Formel für die Prüfgröße gegeben durch (ni j − mi j )2 . mi j i=1 j=1 r
s
PG = ∑ ∑
Wie bereits erwähnt, hat PG unter der Nullhypothese, dass die Merkmale unabhängig verteilt sind, eine χ 2 -Verteilung mit dem Parameter ν = (r − 1) · (s − 1). Im Folgenden soll das allgemeine Vorgehen beim χ 2 -Unabhängigkeitstest an zwei weiteren Beispielen demonstriert werden. Dazu betrachten wir zunächst das Ergebnis einer Studie zur Wirksamkeit von Sicherheitsgurten. Beispiel 10.2. Sicherheitsgurte und Verletzungsrisiko bei Autounfällen Vor der Einführung eines Gesetzes zur Verwendung von Sicherheitsgurten im Auto wurde in einer Studie in der Provinz Alberta, Kanada, untersucht, wie wirksam Sicherheitsgurte Verletzungen bei Unfällen verhindern können. Anhand einer Stichprobe von 86 769 Autounfällen wurden die Merkmale Benutzung eines Sicherheitsgurtes und Verletzung des Fahrers analysiert und wie folgt klassifiziert1 : Nein (X = 0) Ja (X = 1) keine (Y = 0) minimal (Y = 1) mittel (Y = 2) schwer/tödlich (Y = 3)
Benutzung eines Sicherheitsgurtes (X): Verletzung des Fahrers (Y ):
Tabelle 10.14 Notation der erwarteten Häufigkeiten in einer r × s-Kontingenztafel Erwartete Häufigkeiten m11 m12 m13 m21 m22 m23 .. .. .. . . . mr1 mr2 mr3
... ... ...
m1s m2s .. . mrs
1 Die Daten wurden aus dem Buch Jobson, J.D. (1992): Applied Multivariate Analysis. Volume II: Categorical and Multivariate Models, Springer Verlag, New York, übernommen.
10.2 χ 2 -Unabhängigkeitstest
341
Tabelle 10.15 Beobachtete Häufigkeiten einer Studie über Autounfälle in Alberta Verletzung des Fahrers/der Fahrerin Sicherheitsgurt
keine
minimal mittel schwer/tödlich
Total
Nein Ja
65 963 12 813
4 000 647
2 642 359
303 42
72 908 13 861
Total
78 776
4 647
3 001
345
86 769
Tabelle 10.16 Bei Unabhängigkeit erwartete Häufigkeiten in der Studie über Autounfälle Verletzung des Fahrers/der Fahrerin Sicherheitsgurt Nein Ja
keine
minimal
mittel
schwer/tödlich
66 191.8 12 584.2
3 904.7 742.3
2 521.6 479.4
289.9 55.1
Die beobachteten Häufigkeiten und Randhäufigkeiten sind in Tabelle 10.15 gegeben. Man sieht, dass zur Zeit der Studie die Benutzung von Sicherheitsgurten noch relativ unüblich war, denn nur bei 16% der beobachteten Unfälle wurde ein Sicherheitsgurt verwendet. Wenn man die Wirkung der Sicherheitsgurte quantifizieren möchte, kann man beispielsweise den Anteil der Unfälle mit schwerer oder tödlicher Verletzung betrachten. Bei Verwendung eines Sicherheitsgurtes beträgt dieser Anteil rund 0.30% (42/13 861), ohne Sicherheitsgurt dagegen 0.42% (303/72 908). Diese Zahlen deuten darauf hin, dass sich die Benutzung eines Sicherheitsgurtes positiv auf die Schwere der Verletzung auswirken könnte. Um diese Vermutung zu überprüfen, wollen wir den χ 2 -Unabhängigkeitstest durchführen; d.h. als Nullhypothese gehen wir wieder davon aus, dass die beiden betrachteten Merkmale unabhängig sind: H0 : Die Verletzung ist unabhängig von der Benutzung eines Sicherheitsgurtes Um den Test durchzuführen, benötigen wir die unter H0 erwarteten Häufigkeiten. Diese erhalten wir wieder aus den Randhäufigkeiten. Beispielsweise ergibt sich die erwartete Häufigkeit m11 bei Unabhängigkeit als m11 =
n1. · n.1 72 908 · 78 776 = = 66 191.8 . n 86 769
Diese und die weiteren erwarteten Häufigkeiten sind in Tabelle 10.16 gegeben. Als Prüfgröße erhalten wir dann (ni j − mi j )2 (42 − 55.1)2 (65 963 − 66 191.8)2 + ...+ = 59.2 . = mi j 66 191.8 55.1 i=1 j=1 2
4
PG = ∑ ∑
10 χ 2 -Anpassungs- und Unabhängigkeitstest
342
Tabelle 10.17 Beobachtete Ergebnisse von Borussia Mönchengladbach in der Saison 2005/06 Ergebnis Spielort Heimspiel Auswärtsspiel Total
Sieg Remis Niederlage
Total
8 2
7 5
2 10
17 17
10
12
12
34
Wir haben hier eine 2 × 4-Kontingenztafel, d.h. eine Kontingenztafel mit 2 Zeilen und 4 Spalten. Die Prüfgröße ist daher unter der Nullhypothese annähernd χ 2 verteilt mit dem Parameter (r − 1) · (s − 1) = (2 − 1) · (4 − 1) = 3. Wir lesen dann 2 beispielsweise für α = 0.05 den kritischen Wert χ3;0.05 = 7.81 ab. PG = 59.2 ist deutlich größer als der kritische Wert, so dass wir die Nullhypothese bei einem Signifikanzniveau von α = 0.05 verwerfen. Da der P-Wert annähernd 0 ist und die Nullhypothese auch bei α = 0.01 verworfen wird, können wir uns sehr sicher sein, dass die beiden Merkmale X (Schwere der Verletzung) und Y (Benutzung des Sicherheitsgurtes) nicht unabhängig verteilt sind. Der Grad der Verletzung, die ein Fahrer bei einem Verkehrsunfall erleidet, hängt also davon ab, ob ein Sicherheitsgurt benutzt wurde oder nicht. Beispiel 10.3. Heimvorteil bei Fußball-Spielen Bei Fußball-Spielen wird häufig davon ausgegangen, dass die Heim-Mannschaft einen Heimvorteil besitzt, d.h. dass sie beispielsweise auf Grund der Unterstützung durch die eigenen Anhänger im eigenen Stadion erfolgreicher spielt als bei Auswärtsspielen. Es gibt viele Möglichkeiten, die Ergebnisse von Fußball-Spielen hinsichtlich der Existenz eines Heimvorteils statistisch zu untersuchen. Wir werden jetzt zeigen, wie man mit Hilfe des χ 2 -Unabhängigkeitstests das Vorliegen eines Heimvorteils nachweisen bzw. überprüfen kann. Dazu betrachten wir die in Tabelle 10.17 getrennt nach Heim- und Auswärtsspielen gegebenen Ergebnisse (Sieg, Remis, Niederlage) von Borussia Mönchengladbach in der Saison 2005/06.2 Da Borussia Mönchengladbach bei Heimspielen wesentlich erfolgreicher war als bei Auswärtsspielen (8 · 3 + 7 = 31 Punkte im Vergleich zu 2 · 3 + 5 = 11 Punkten), scheint die Mannschaft tatsächlich von einem Heimvorteil zu profitieren. Dies wollen wir im Folgenden mit Hilfe des χ 2 -Unabhängigkeitstests testen. Man könnte an dieser Stelle einwerfen, dass hier keine Stichprobe vorliegt, sondern die Grundgesamtheit aller Resultate aus der Saison 2005/06, so dass die Anwendung des Tests gar nicht mehr nötig sei. Der χ 2 -Unabhängigkeitstest wird allerdings auch für Grundgesamtheiten angewendet, um zu überprüfen, ob der beobachtete Zusammenhang signifikant ist. Außerdem könnten wir die Saison 2005/06 auch als Stichprobe für alle Spiele von Borussia Mönchengladbach betrachten. 2
Die Daten wurden am 05.10.2008 von der Internetseite http://borussia.sportdienst.de/vereine/borussiamoenchengladbach/2006/spiele abgefragt, sind aber zum Beispiel auch unter http://www.bundesliga.de verfügbar.
10.2 χ 2 -Unabhängigkeitstest
343
Tabelle 10.18 Ohne Heimvorteil erwartete Ergebnisse von Borussia Mönchengladbach in der Saison 2005/06 Ergebnis Spielort Heimspiel Auswärtsspiel Total
Sieg Remis Niederlage
Total
5 5
6 6
6 6
17 17
10
12
12
34
Tabelle 10.19 Beobachtete Ergebnisse von Hertha BSC Berlin in der Saison 2005/06 Ergebnis Spielort
Sieg Remis Niederlage
Total
Heimspiel Auswärtsspiel
8 4
5 7
4 6
17 17
Total
12
12
10
34
Wenn wir mit Hilfe der Randhäufigkeiten die unter der Nullhypothese der Unabhängigkeit erwarteten Häufigkeiten berechnen, erhalten wir Tabelle 10.18. Damit ergibt sich als Prüfgröße (ni j − mi j )2 (10 − 6)2 (8 − 5)2 + ...+ = 9.27 . = mi j 5 6 i=1 j=1 2
3
PG = ∑ ∑
Unter der Nullhypothese der Unabhängigkeit ist PG χ 2 -verteilt mit ν = (r − 1) · (s − 1) = (2 − 1) · (3 − 1) = 2 FG. Für α = 0.01 erhalten wir dann den kritischen 2 = 9.21. Da die Prüfgröße größer ist als der kritische Wert, können wir Wert χ2;0.01 die Nullhypothese verwerfen, so dass die Existenz eines Heimvorteils statistisch abgesichert ist. Und weil wir eine kleine Irrtumswahrscheinlichkeit gewählt haben, können wir uns bei dieser Entscheidung sogar sehr sicher sein. Dass sich ein offensichtlicher Heimvorteil nicht immer auch statistisch beweisen lässt, zeigt das Beispiel von Hertha BSC Berlin, deren Ergebnisse aus der Saison 2005/06 in Tabelle 10.19 enthalten sind.3 Auch Hertha BSC Berlin war bei Heimspielen mit insgesamt 8 · 3 + 5 = 29 Punkten deutlich erfolgreicher als bei Auswärtsspielen (4 · 3 + 7 = 19 Punkte). Wir werden allerdings gleich sehen, dass die Hypothese der Unabhängigkeit in diesem Fall nicht verworfen werden kann. Die bei Unabhängigkeit erwarteten Ergebnisse sind in Tabelle 10.20 gegeben. Mit den erwarteten Häufigkeiten können wir die Prüfgröße 3
Die Ergebnisse wurden am 05.10.2008 auf der Internetseite http://www.herthabsc.de/ index.php?id=11302 abgefragt.
10 χ 2 -Anpassungs- und Unabhängigkeitstest
344
Tabelle 10.20 Ohne Heimvorteil erwartete Ergebnisse von Hertha BSC Berlin in der Saison 2005/06 Ergebnis Spielort Heimspiel Auswärtsspiel Total
Sieg Remis Niederlage
Total
6 6
6 6
5 5
17 17
12
12
10
34
berechnen und erhalten (ni j − mi j )2 (6 − 5)2 (8 − 6)2 + ...+ = 2.07 . = mi j 5 6 i=1 j=1 2
3
PG = ∑ ∑
Auch hier ist PG unter der Nullhypothese χ 2 -verteilt mit 2 Freiheitsgraden. Unter dieser Verteilung ergibt sich ein P-Wert von 0.36. Das bedeutet, dass wir die Hypothese der Unabhängigkeit bei keinem der üblichen Signifikanzniveaus verwerfen können. Damit haben wir zwar nicht bewiesen, dass das Spielergebnis von Hertha BSC unabhängig vom Spielort ist; die beobachteten Ergebnisse widersprechen jedoch nicht der Annahme der Unabhängigkeit. Wir können den χ 2 -Unabhängigkeitstest übrigens auch verwenden, um den Zusammenhang zwischen der Einnahme von Aspirin und dem Risiko eines Herzanfalls in Beispiel 1.3 zu untersuchen. Darüber hinaus kann der Test — auch wenn wir hier nur Beispiele von Paaren diskreter Zufallsvariablen betrachtet haben — ebenso auf Paare stetiger Zufallsvariablen angewendet werden, vorausgesetzt, dass diese gruppiert vorliegen. Wichtigste Konzepte: • • • • • •
Klassenbildung Prüfgrößen Null- und Alternativhypothese erwartete und beobachtete Häufigkeiten Anpassungstest Unabhängigkeitstest
Kapitel 11
Beziehungen quantifizieren — Regressionsanalyse
11.1 Der bedingte Erwartungswert und das lineare Modell Wenn man Paare von Zufallsvariablen betrachtet, stellen sich als erstes die Fragen: • Hängen die beiden Zufallsvariablen zusammen? • Wie kann der Zusammenhang quantifiziert werden? Die erste Frage kann offenbar über die Frage nach Unabhängigkeit und Korrelation, die wir in Kapitel 9 beschrieben haben, beantwortet werden. Im Folgenden werden wir uns daher mehr mit der zweiten Frage beschäftigen. Dazu betrachten wir noch einmal den Zusammenhang von Wassergehalt und Brennwert von Zuckerrohr (Beispiel 9.1) im Vergleich zum Modell für die Schwingungsdauer eines Pendels (Beispiel 1.1). Abbildung 11.1 zeigt die grafische Darstellung des Zusammenhangs zwischen Wassergehalt und Brennwert von Zuckerrohr zusammen mit einer angepassten Geraden, wie sie bereits in Abb. 9.19 zu sehen war. Die grafische Darstellung des Pendel-Modells enthält Abb. 1.1.
Abb. 11.1 Wassergehalt und Kalorienwert von Zuckerrohr mit angepasster Gerade
W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
345
346
11 Regressionsanalyse
Der entscheidende Unterschied zwischen beiden Phänomenen ist, dass man im Pendel-Beispiel die Schwingungsdauer exakt bestimmen kann, wenn man die Länge des Pendels kennt, während man im Zuckerrohr-Beispiel den Kalorienwert nur annähernd bestimmen kann, wenn man den Wassergehalt kennt. Der Grund für Letzteres liegt nicht darin, dass der Wassergehalt und der Kalorienwert ungenau gemessen wurden. Selbst mit den präzisesten Messgeräten würde man in etwa dieselbe Art von Variation beobachten. Der Grund ist, dass es außer dem Wassergehalt noch andere Faktoren gibt, die den Kalorienwert bestimmen. Man könnte auch sagen, dass der Wassergehalt zwar Informationen über den Brennwert enthält, dass diese Informationen aber unvollständig sind. Auch wenn sich der Kalorienwert des Zuckerrohrs nicht exakt mit Hilfe des Wassergehalts bestimmen lässt, zeigt Abb. 11.1 doch, dass die Beziehung zwischen dem Wassergehalt Y und dem Kalorienwert X annähernd linear ist und die Beobachtungen nur wenig von der angepassten Geraden abweichen. Der Korrelationskoeffizient der Beobachtungen beträgt ρ = −0.996 und entspricht daher fast dem minimal möglichen Wert von −1. Der Zusammenhang zwischen dem Wassergehalt und dem Kalorienwert ist somit fast schon deterministisch und kann gut durch die angepasste Gerade beschrieben werden. Die Gerade schätzt übrigens die bedingte Erwartung von Y gegeben X = x, also E(Y |X = x), und hat die Gleichung ˆ |X = x) ≈ 19.334 − 0.191x . E(Y Diese Funktion ist eine kompakte Beschreibung der Form der Beziehung zwischen den beiden Zufallsvariablen und dient auch dazu, den optimalen Schätzer des Wertes von Y , gegeben X = x, zu bestimmen. Hierbei ist es wichtig zu verstehen, dass wir mit der Kausalität auch die Regressionsfunktion festlegen; es ist also nicht egal, ob man E(Y |X) oder E(X|Y ) betrachtet, zumal diese Beziehung für gewöhnlich nicht symmetrisch ist, wie wir später noch sehen werden. Dieses Beispiel verdeutlicht folgendes: Wenn man den Kaloriengehalt einer Schiffsladung Zuckerrohr exakt bestimmen möchte, dann muss man das gesamte Zuckerrohr verbrennen und den Kaloriengehalt messen. Aber wenn man das Zuckerrohr verbrennt, kann es nicht mehr verkauft werden. Andererseits ist der Kaloriengehalt des Zuckerrohrs von Interesse, weil er dessen Preis bestimmt. Indem der Wassergehalt des Zuckerrohrs bestimmt wird, was möglich ist, ohne Zuckerrohr zu zerstören, kann der Kaloriengehalt hinreichend genau unter Verwendung der Geraden in Abb. 11.1 geschätzt werden. Wenn beispielsweise der Wassergehalt des Zuckerrohrs 30% beträgt, dann erhält man für den Kaloriengehalt durch die obige Geradengleichung den Schätzwert ˆ |X = 30) = 19.334 − 0.191 · 30 = 13.60 [kJ/g] . E(Y Es wurde schon erwähnt, dass die bedingte Erwartung in einem bestimmten Sinn ein optimaler Schätzer von Y , gegeben X = x, ist. Was aber bedeutet optimal? Die obige Vorhersage E(Y |X = 30) = 13.6 wird nicht exakt sein (vergleiche Abb. 11.1). Wenn man viele verschiedene Zuckerrohr-Stücke mit dem Wassergehalt X = 30 hätte, dann wäre der Kaloriengehalt bei einigen Stücken größer, bei anderen kleiner
11.1 Der bedingte Erwartungswert und das lineare Modell
347
als der erwartete Wert von 13.6. In jedem Fall wird man einen Fehler beobachten, der entweder positiv sein wird, wenn der beobachtete Wert von Y größer als der vorhergesagte ist, oder aber negativ, wenn der beobachtete Wert von Y kleiner als der vorhergesagte ist. Allgemein definiert man: Vorhersagefehler = wahrer Wert von Y - vorhergesagter Wert von Y Die Vorhersagen sind dann akkurat, wenn die Vorhersagefehler annähernd Null sind. Dies ist gleichbedeutend damit, dass die Absolutbeträge der Fehler sowie ihre Quadrate annähernd Null sind. Dabei wird in der Statistik der quadratische Fehler meistens bevorzugt, weil er zu einfacheren Formeln führt als der absolute Fehler. Die Genauigkeit einer speziellen Vorhersage kann also beurteilt werden, indem das Quadrat ihres Vorhersagefehlers betrachtet wird. Um die Genauigkeit einer Vorhersagemethode (also einer Formel) zu beurteilen, kann der Mittelwert der quadratischen Fehler über eine große Anzahl von Vorhersagen betrachtet werden. Das ist aber gerade der Erwartungswert des Quadrats des Vorhersagefehlers: E(Vorhersagefehler2 ) Auf dieses Maß beziehen wir uns mit der Aussage, dass die bedingte Erwartung optimal ist. Man kann beweisen, dass es keine Vorhersagemethode gibt, die in diesem Sinn besser ist als die bedingte Erwartung E(Y |X = x). Bedingte Erwartungen sind also wichtig, weil sie optimale Vorhersagen liefern und nicht nur irgendwelche. In praktischen Anwendungen ist die bedingte Erwartung unbekannt. Im Allgemeinen ist nicht einmal die Form von E(Y |X = x) bekannt. Es könnte beispielsweise eine Gerade sein wie in dem Zuckerrohr-Beispiel, eine Parabel, eine Exponentialfunktion oder irgendeine andere Funktion. Selbst wenn man sich für eine bestimmte Form der Beziehung zwischen X und Y entschieden hat, muss man im nächsten Schritt noch die Parameter dieser Funktion schätzen. Beispielsweise legt in dem Zuckerrohr-Beispiel, Abb. 11.1, die Anpassung einer Geraden an die bedingte Erwartung nahe. Man verwendet dann das einfache lineare Modell: E(Y |X = x) = θ1 + θ2 x Wenn man sich für dieses Modell entschieden hat, muss man noch die beiden Parameter der Geraden bestimmen, den Achsenabschnitt θ1 und die Steigung θ2 . Die beiden Schritte zur Beschreibung des Zusammenhangs zwischen zwei Zufallsvariablen lassen sich somit wie folgt zusammenfassen: • Auswahl der Form der Funktion von E(Y |X = x) • Schätzen der Parameter der ausgewählten Funktion Der erste Schritt wird ausgeführt, indem man die Beobachtungen so wie in Abb. 11.1 in einer Grafik abträgt und anhand der Grafik entscheidet, welcher Funktionstyp den Zusammenhang zwischen den Variablen am besten beschreibt. Dabei werden einfache Funktionstypen bevorzugt, weil sie leichter anzupassen und zu
348
11 Regressionsanalyse
Abb. 11.2 Beispiele von Funktionstypen für die Regressionsanalyse Tabelle 11.1 Beispiele von Funktionstypen für die Regressionsanalyse Form
Formel
Gerade Parabel Kubik Exponentialfunktion Logarithmische Funktion Treppenfunktion
θ1 + θ2 x θ1 + θ2 x + θ3 x2 θ1 + θ2 x + θ3 x2 + θ4 x3 θ1 + θ2 eθ3 x θ1 + θ2 log(x) θ1 für x < x0 θ2 für x ≥ x0
Anzahl der Parameter 2 3 4 3 2 2
interpretieren sind und außerdem dazu tendieren, verlässlichere Schätzungen von E(Y |X = x) zu liefern. Abbildung 11.2 zeigt einige in diesem Zusammenhang oft verwendete Funktionen. Die Formeln und die Anzahl der Parameter für die sechs abgebildeten Modelle sind in Tabelle 11.1 gegeben. Im Fall der Treppenfunktion wird angenommen, dass x0 bekannt ist (in Abb. 11.2 ist x0 = 6), d.h. x0 ist kein Parameter, den man schätzen muss. Wenn x0 aber nicht bekannt ist, muss man x0 als zusätzlichen Parameter betrachten und schätzen. Beispiel 11.1. Das Capital Asset Pricing Model (CAPM) und der Beta-Faktor In Beispiel 1.6 haben wir den Zusammenhang zwischen den Tagesrenditen des DAX und denen der Deutsche Bank Aktie betrachtet. Abbildung 11.3 zeigt die grafische Darstellung der Renditen, wie sie bereits in Abb. 1.9 zu sehen war.
11.1 Der bedingte Erwartungswert und das lineare Modell
349
Abb. 11.3 Kontinuierliche Renditen der Deutsche Bank Aktie und des DAX in den Jahren 2006 und 2007 und angepasste Gerade
In Abb. 11.3 ist zu sehen, dass es einen positiven Zusammenhang zwischen den Renditen gibt, d.h. wenn die Rendite des DAX hoch (niedrig) ist, ist tendenziell auch die Rendite der Deutsche Bank Aktie hoch (niedrig). Dieser Zusammenhang ist nicht unerwartet, da zum einen der DAX die allgemeine Entwicklung am Aktienmarkt beschreibt, und zum anderen die Deutsche Bank Aktie in den DAX eingeht, so dass die Rendite der Deutsche Bank Aktie auch die Rendite des DAX beeinflusst. Wir sehen aber auch, wie die Beobachtungen von der Winkelhalbierenden abweichen und die Rendite der Deutsche Bank Aktie stärker streut als die des DAX. Der Zusammenhang zwischen der Rendite eines Wertpapiers (hier Deutsche Bank Aktie) und der Rendite des Marktes (hier repräsentiert durch den DAX) spielt in finanzwirtschaftlichen Modellen eine große Rolle. Zum Beispiel ist ein wichtiger Bestandteil des Capital Asset Pricing Modells, das unter anderem zum Vergleich verschiedener Wertpapiere bezüglich ihres Risikos dient, der sogenannte Beta-Faktor (β -Faktor), der das Risiko eines Werpapiers im Verhältnis zum Marktrisiko beschreibt. Ist der β -Faktor eines Wertpapiers größer als 1, liegt das Risiko des Wertpapiers über dem Marktrisiko; im Gegenzug bedeutet ein β -Faktor kleiner als 1, dass das Risiko des entsprechenden Wertpapiers unter dem Marktrisiko liegt. Der β -Faktor eines Wertpapiers wird in der Regel mit Hilfe der Regressionsanalyse aus historischen Daten ermittelt. In unserem Beispiel muss man einfach eine Regressionsgerade an die Renditen der Deutsche Bank Aktie und die Renditen des DAX anpassen, um den Beta-Faktor zu bestimmten. Wenn wir die Gerade mit Hilfe der Methode der kleinsten Quadrate (die wir nun kennen lernen werden) anpassen, erhalten wir das Modell yˆ = −0.03 + 1.13x , wobei x die Rendite des DAX ist, y die der Deutsche Bank Aktie, und der Hut ˆ· andeutet, dass diese geschätzt ist. Die Gerade ist in Abb. 11.3 eingezeichnet.
350
11 Regressionsanalyse
Der β -Faktor der Deutsche Bank Aktie entspricht schlicht dem Steigungskoeffizienten dieser Regressionsgeraden, d.h. der β -Faktor ist θ2 = 1.13. Da der β -Faktor größer ist als 1, bestätigt sich der Eindruck, dass die Rendite der Deutsche Bank Aktie stärker schwankt als die Rendite des DAX. Wenn wir den Achsenabschnitt der Regressionsgeraden θ1 , der nahezu 0 ist, vernachlässigen, können wir vereinfachend sagen, dass der Aktienkurs der Deutsche Bank Aktie um 1.13% steigt (fällt), wenn der DAX um 1% steigt (fällt). Das Risiko der Deutsche Bank Aktie ist somit, zumindest auf Basis der hier betrachteten Daten, größer als das Marktrisiko. Wenn man sich im Internet (z.B. http://www.onvista.de/ ) über ein bestimmtes Wertpapier informiert, erhält man in der Regel auch Informationen zum Beta-Faktor des Wertpapiers. Dabei hängt der konkrete Wert des Beta-Faktors natürlich davon ab, welche Renditen verwendet werden (z.B. Tages- oder Monatsrenditen) und welcher Zeitraum betrachtet wird (z.B. 30 oder 250 Tage bei Tagesrenditen). Wir haben von X und Y als Zufallsvariablen gesprochen. Wenn wir nicht von einer rein deterministischen Beziehung ausgehen, wie z.B. Y = X 2 oder allgemeiner Y = m(X) für eine bestimmte Funktion m(·), dann wäre Y = m(X) + e eine einfache Möglichkeit, zufällige Abweichungen von diesem deterministischen Modell zu modellieren, wobei e diese zufällige Abweichung beschreibt, also eine Zufallsvariablen mit E(e|X) = 0 ist. Man bemerke, dass dann E(Y |X) = m(X). Wir sprechen hier von einem additiven Fehlerterm, der bei korrekter Bestimmung von m(·) genau unserem Vorhersagefehler entspricht. Im Folgenden werden wir nur Polynome betrachten, d.h. wir beschränken uns auf Situationen, in denen sich E(Y |X = x) gut approximieren lässt durch: E(Y |X) ≈ θ1 + θ2 x + θ3 x2 + . . . + θk+1 xk Die vier einfachsten Polynome sind diejenigen mit k = 0, 1, 2, 3. Die Polynome vom Grad k = 1 (Gerade), k = 2 (Parabel) und k = 3 (Kubik) sind bereits in Tabelle 11.1 und Abb. 11.2 enthalten. Für k = 0 erhält man einfach eine Konstante beziehungsweise das Modell E(Y |X = x) ≈ θ1 ; in diesem Fall hat X also keinen Einfluss auf den Wert von Y . Der Fall eines Polynoms vom Grad k = 1 ist besonders wichtig. Wenn man eine Gerade zur Beschreibung des Zusammenhangs zwischen den beiden Zufallsvariablen verwendet, spricht man von einfacher linearer Regressionsanalyse; benutzt man ein Polynom höheren Grades, spricht man von polynomialer Regression. Dennoch werden alle vier als lineare Modelle bezeichnet, da sie alle linear in den zu schätzenden Parametern θ j sind. Daher können alle mit derselben Methode geschätzt werden. Wenn man sich anhand eines Datenplots für einen Funktionstyp entschieden hat, kann man die Parameter der Funktion aus den Daten schätzen. Im folgenden Abschnitt wird eine Methode vorgestellt, mit der man die optimalen Parameter für eine gegebene Funktion ermittelt. Falls es mehrere Funktionen gibt, die laut der Grafik plausibel erscheinen, passt man im Zweifelsfall alle plausiblen Funktionen an und entscheidet danach, welche Funktion die beste Anpassung liefert. Für diese Entscheidung gibt es eine objektive Methode, die ebenfalls noch dargestellt wird.
11.2 Die Methode der kleinsten Quadrate
351
11.2 Die Methode der kleinsten Quadrate Hat man sich nun beispielsweise für eine Gerade entschieden, ist die nächste Frage, welche spezielle Gerade man denn wählen sollte. Um die spezielle Gerade zu erhalten, muss man Schätzer des Achsenabschnittes θ1 und der Steigung θ2 bestimmen. Hat man sich dagegen für eine Parabel entschieden, muss man deren drei Parameter θ1 , θ2 und θ3 schätzen. Wir werden nun eine allgemeine Methode betrachten, um Kurven an Beobachtungen von zwei Zufallsvariablen anzupassen. Diese Methode heißt Methode der kleinsten Quadrate. Zur Illustration der Methode werden wir wieder mit einem Beispiel beginnen. Beispiel 11.2. Durchmesser und Volumen von Kirschbäumen Da der Wert eines Baumes direkt von seinem Nutzholzvolumen abhängt, ist es in der Holzwirtschaft von Interesse, das Volumen eines Baumes zu kennen. Das Volumen lässt sich allerdings nur exakt bestimmen, indem man den Baum fällt und das Volumen dann ermittelt. Da man den Baum nicht immer gleich fällen kann oder möchte, wäre es hilfreich, wenn man das Volumen mit Hilfe anderer Maße des Baumes abschätzen könnte. Tabelle 11.2 enhält Datenpaare {(xi ; yi )}ni=1 mit den folgenden stetigen Merkmalen von n = 31 Kirschbäumen im Allegheny National Forest in Pennsylvania:1 • X: Durchmesser in 4.5 Fuß (137 cm) Höhe (in Inch, 1 Inch = 2.54 cm) • Y : Volumen (in Kubikfuß, 1 Kubikfuß = 0.028 m3 ) Eine grafische Darstellung dieser Datenpaare zeigt Abb. 11.4. Die Beobachtungen liegen annähernd auf einer Geraden, so dass es plausibel erscheint, den Zusammenhang zwischen dem Durchmesser und dem Volumen der Kirschbäume durch eine Gerade zu beschreiben. Man kann dann diese Gerade verwenden, um das Volumen eines Baumes aus seinem Durchmesser zu schätzen, und muss den Baum nicht mehr fällen, um sein Volumen zu bestimmen. Um das Beispiel einfacher zu machen, werden wir an Stelle der 31 Bäume zunächst nur eine kleine Stichprobe mit 3 Bäumen betrachten. Gehen wir also im Folgenden davon aus, dass wir aus den 31 Datenpaaren zufällig die folgenden drei ausgewählt haben: (8.8; 10.2), (12.0; 19.1), (17.5; 55.7) Tabelle 11.2 Durchmesser und Volumen von 31 Kirschbäumen (8.3; 10.3) (11.0; 18.2) (12.0; 19.1) (14.2; 31.7) (18.0; 51.5)
(8.6; 10.3) (11.1; 22.6) (12.9; 22.2) (14.5; 36.3) (18.0; 51.0)
(8.8; 10.2) (11.2; 19.9) (12.9; 33.8) (16.0; 38.3) (20.6; 77.0)
(10.5; 16.4) (11.3; 24.2) (13.3; 27.4) (16.3; 42.6)
(10.7; 18.8) (11.4; 21.0) (13.7; 25.7) (17.3; 55.4)
(10.8; 19.7) (11.4; 21.4) (13.8; 24.9) (17.5; 55.7)
(11.0; 15.6) (11.7; 21.3) (14.0; 34.5) (17.9; 58.3)
1 Die Daten stammen aus dem Minitab Student Handbook von Ryan, Joiner & Ryan (1976), werden aber auch in A Handbook of Small Data Sets von Hand et al. (1994) gegeben.
352
11 Regressionsanalyse
Abb. 11.4 Durchmesser und Volumen von 31 Kirschbäumen
Abbildung 11.5 zeigt eine Skizze dieser drei Beobachtungspaare, an die wir eine Gerade anpassen möchten. Wir wollen also die bedingte Erwartung von Y , gegeben X = x, durch eine Funktion der folgenden Form approximieren: E(Y |X = x) = θ1 + θ2 x Wir gehen dabei davon aus, dass die Beobachtungen yi aus einem deterministischen Teil, der durch die Funktion θ1 + θ2 xi beschrieben wird, und aus einer hinzu addierten stochastischen Komponente ei bestehen: yi = θ1 + θ2 xi + ei
i = 1, 2, 3
Die stochastischen Komponenten ei sind gerade die Abweichungen zwischen den Beobachtungen yi und der Funktion θ1 + θ2 xi : ei = yi − (θ1 + θ2 xi )
i = 1, 2, 3
Diese Abweichungen sind in Abb. 11.6 zusammen mit einer Geraden, die den Zusammenhang zwischen Durchmesser und Volumen beschreiben soll, dargestellt. Sie werden auch Fehler, Residuale oder Residuen genannt.
Abb. 11.5 Durchmesser und Volumen von drei Kirschbäumen
11.2 Die Methode der kleinsten Quadrate
353
Abb. 11.6 Darstellung der Residuen für eine ausgewälte Gerade
Abbildung 11.6 illustriert einen wichtigen Aspekt dieses Beispiels, nämlich dass die Beziehung zwischen dem Durchmesser und dem Holzertrag eigentlich keine Gerade sein kann, denn sonst würden wir aus diesen Beobachtungen schließen, dass beispielsweise bei einem Durchmesser von 2 das Volumen negativ wäre, was natürlich nicht sein kann. Die wahre Beziehung zwischen x und y muss im Ursprung beginnen und sieht vermutlich etwa so aus wie die Kurve in Abb. 11.7. Wenn wir aber bereit sind, unsere Aufmerksamkeit auf Werte von x zwischen 8 und 21 zu beschränken (das sind ungefähr die Grenzen des beobachteten Durchmessers in Tabelle 11.2 beziehungsweise Abb. 11.4), dann ist eine Gerade eine einfache und vernünftige Annäherung. Im Bereich (8 ≤ Durchmesser ≤ 21) stellt eine Gerade eine vernünftige Annäherung an die Beziehung zwischen Durchmesser und Volumen dar. Die Beobachtungen rechtfertigen jedoch keine Extrapolation der Geraden links und rechts von diesem Bereich. Wenn wir beschlossen haben, dass eine Gerade ein vernünftiges Modell für den Zusammenhang zwischen Durchmesser und Volumen darstellt, bleibt noch die Frage, wie man die Gerade findet, die die drei Punkte am besten approximiert. Nehmen
Abb. 11.7 Durchmesser und Volumen von drei Kirschbäumen mit einer angepassten Funktion
354
11 Regressionsanalyse
wir zunächst an, wir passen die folgende Gerade an: E(Y |X = x) = −10 + 3x Dies ist genau die Gerade, die in Abb. 11.6 dargestellt ist. Sie verläuft durch keinen der drei Punkte. Die vertikalen Abweichungen zwischen den Beobachtungen und der Gerade (Residuen) sind gegeben durch: ei = yi − (−10 + 3xi)
i = 1, 2, 3
Die Werte dieser Abweichungen oder Residuen sind: e1 = 10.2 − (−10 + 3 · 8.8) = −6.2 e2 = 19.1 − (−10 + 3 · 12.0) = −6.9 e3 = 55.7 − (−10 + 3 · 17.5) = 13.2 Wenn wir eine andere Gerade anpassen, erhalten wir andere Residuen. Beispielsweise erhält man für die Gerade E(Y |X = x) = −40 + 5x die Residuen e1 = 10.2 − (−40 + 5 · 8.8) = 6.2 e2 = 19.1 − (−40 + 5 · 12.0) = −0.9 e3 = 55.7 − (−40 + 5 · 17.5) = 8.2 Die Anpassung ist dabei umso besser, je kleiner die Residuen sind. Als Maß für die Anpassung verwendet man daher die Summe der quadrierten Residuen 3
∑ e2i .
i=1
Da sich positive und negative Residuen gegenseitig aufheben können, ist es nicht sinnvoll, einfach die Summe der Residuen zu verwenden, sondern man muss die Absolutbeträge oder aber die Quadrate der Residuen betrachten. Dabei werden, wie bereits erwähnt, in der Regel die quadrierten Residuen verwendet, da sich dann einfachere Formeln ergeben als bei Verwendung der Absolutbeträge. Die ei -Werte hängen davon ab, welche Gerade wir anpassen, also hängen sie von θ1 und θ2 ab. Deswegen schreiben wir die Summe der quadrierten Residuen als 3
SQ(θ1 , θ2 ) = ∑ e2i . i=1
Für die beiden gerade betrachteten Geraden erhält man SQ(−10; 3) = 13.22 + (−6.9)2 + (−6.2)2 = 260.29 , SQ(−40; 5) = 6.22 + (−0.9)2 + 8.22 = 106.49 .
11.2 Die Methode der kleinsten Quadrate
355
Abb. 11.8 Durchmesser und Volumen von drei Kirschbäumen mit der besten Geraden
Bezüglich der quadrierten Residuen ist die zweite Gerade deutlich besser als die erste. Es gibt aber Geraden, die noch besser passen. Wir könnten nun verschiedene Geraden solange ausprobieren, bis wir sicher sein können, die am besten passende gefunden zu haben. Aber so brauchen wir nicht vorzugehen. Gauß entwickelte ein Verfahren, um die am besten passende Gerade zu finden. Dieses Verfahren ist als Methode der kleinsten Quadrate bekannt und findet diejenige Gerade die zum kleinstmöglichen Wert von SQ(θ1 , θ2 ) führt. In unserem Beispiel ist die in diesem Sinne beste Gerade gegeben durch E(Y |X = x) = −40.415 + 5.385x . Sie ist in Abb. 11.8 zusammen mit den drei Beobachtungen eingezeichnet. Die Residuen sowie die Summe der quadrierten Residuen für diese Gerade sind e1 ≈ 3.2 e2 ≈ −5.1 e3 ≈ 1.9 SQ(−40.415; 5.385) ≈ 40 . Die allgemeinen Formeln für die Schätzer der Parameter, Achsenabschnitt θ1 und Steigung θ2 , einer an Beobachtungen (x1 , y1 ), (x2 , y2 ), . . . (xn , yn ) mit der Methode der kleinsten Quadrate angepassten Geraden lauten: n
n
Steigung:
θˆ2 =
Achsenabschnitt:
n
∑ xi yi − 1n ∑ xi ∑ yi
i=1 n
i=1 i=1 n 1 2 ∑ xi − n ( ∑ xi )2 i=1 i=1
n
∑ xi yi − nx¯y¯
=
i=1 n
∑ x2i − nx¯2
i=1
1 n 1 n θˆ1 = ∑ yi − θˆ2 ∑ xi = y¯ − θˆ2 x¯ n i=1 n i=1
Die Steigung und der Achsenabschnitt der Geraden, die die Summe der quadrierten Residuen minimieren, werden mit θˆ1 und θˆ2 bezeichnet. Man schreibt ein Dach
356
11 Regressionsanalyse
über θ1 und über θ2 , um sie so als die auf den Beobachtungen basierenden Schätzer zu kennzeichnen. Man bekommt für jede Stichprobe andere Werte für θˆ1 und θˆ2 . Wir werden jetzt zeigen, wie man diese Formeln für die optimale Gerade findet. Man sollte die Formeln für die optimale Gerade selbst herleiten können, weil man dann auch die Formeln für optimale Kurven anderer Formen herleiten kann. Unser Modell, das sich aus der Geraden und den Residuen zusammensetzt, ist yi = θ1 + θ2 xi + ei
i = 1, 2, . . . , n .
Die Residuen sind dann gegeben durch ei = yi − θ1 − θ2 xi
i = 1, 2, . . . , n .
Damit erhält man als Summe der quadrierten Residuen in Abhängigkeit von den Parametern θ1 und θ2 : n
n
i=1
i=1
SQ(θ1 , θ2 ) = ∑ e2i = ∑ (yi − θ1 − θ2 xi )2
Die Aufgabe besteht nun darin, die Werte von θ1 und θ2 zu finden, die diese Summe der quadrierten Residuen minimieren. Dazu können wir die Funktion partiell nach θ1 und nach θ2 differenzieren und die Ableitungen gleich Null setzen: (i) (ii)
∂ SQ(θ1 , θ2 ) =0 ∂ θ1 ∂ SQ(θ1 , θ2 ) =0 ∂ θ2
Wir erhalten zwei Gleichungen in zwei Unbekannten. Die Lösungen dieser Gleichungen sind die oben angegebenen Formeln für die Steigung und den Achsenabschnitt. Dies werden wir nun zeigen. Differenzieren von SQ(θ1 , θ2 ) nach θ1 und θ2 liefert die folgenden beiden Terme: (i) (ii)
n ∂ SQ(θ1 , θ2 ) = (−2) ∑ (yi − θ1 − θ2 xi ) ∂ θ1 i=1 n ∂ SQ(θ1 , θ2 ) = (−2) ∑ (yi − θ1 − θ2 xi )xi ∂ θ2 i=1
Wenn wir die beiden Summen gleich Null setzen, kann die −2 weggelassen werden. Anschließend können wir das Produkt in der zweiten Gleichung ausmultiplizieren und die Summen in beiden Gleichungen aufteilen.
11.2 Die Methode der kleinsten Quadrate
357
Die Schätzer für θ1 und θ2 sind dann die Lösungen der zwei resultierenden Gleichungen: (i) (ii)
n
n
i=1 n
i=1
n
∑ yi − ∑ θˆ1 − θˆ2 ∑ xi = 0 i=1
n
n
i=1
i=1
∑ xi yi − θˆ1 ∑ xi − θˆ2 ∑ x2i = 0
i=1
Man kann Gleichung (i) noch vereinfachen zu n
n
i=1
i=1
∑ yi − nθˆ1 − θˆ2 ∑ xi = 0 .
(i)
Bis auf θˆ1 und θˆ2 können alle Werte aus den Beobachtungen berechnet werden. Damit haben wir zwei lineare Gleichungen in zwei Unbekannten, die wir nach θˆ1 und θˆ2 auflösen können. In unserem Beispiel mit drei Kirschbäumen haben wir n=3
3
∑ xi = 38.3
i=1
3
∑ yi = 85
i=1
3
∑ xi yi = 1293.71
i=1
3
∑ x2i = 527.69 .
i=1
Wenn wir diese Werte in die beiden Gleichungen einsetzen, ergibt sich: (i)
85 − 3θˆ1 − 38.3θˆ2 = 0
(ii)
1 293.71 − 38.3θˆ 1 − 527.69θˆ2 = 0
Um das Gleichungssystem zu lösen, können wir z.B. Gleichung (i) mit 38.3 und (ii) mit 3 multiplizieren und dann die beiden Gleichungen voneinander subtrahieren: 38.3 · (i) − 3 · (ii) = 38.3 · 85 − 3 · 1293.71 − (38.3 · 38.3 − 3 · 527.69)θˆ 2 = 0 ⇔ −625.63 + 116.18θˆ 2 = 0 ⇔ θˆ2 = 625.63/116.18 = 5.385
θˆ1 erhalten wir dann, indem wir θˆ2 in Gleichung (i) einsetzen und nach θˆ1 auflösen: 1 1 θˆ1 = · 85 − 5.385 · · 38.3 = −40.415 3 3 Die angepasste Gerade yˆi = −40.415 + 5.385xi ist bereits in Abb. 11.8 mit den Beobachtungen eingezeichnet worden. Wir können auch die obigen allgemeinen Formeln herleiten. Dazu betrachten wir noch einmal das oben bereits gegebene Gleichungssystem: (i)
n
n
∑ yi − nθˆ1 − θˆ2 ∑ xi = 0
i=1
(ii)
i=1
n
n
n
i=1
i=1
i=1
∑ xi yi − θˆ1 ∑ xi − θˆ2 ∑ x2i = 0
358
11 Regressionsanalyse
Wir führen die gleichen Schritte durch wie im Zahlenbeispiel, jetzt aber mit Buchn
staben. Wir multiplizieren Gleichung (i) mit ∑ xi und (ii) mit n und erhalten: i=1
n
n
n
i=1
i=1
i=1
n
2
∑ xi ∑ yi − nθˆ1 ∑ xi − θˆ2 ∑ xi
(i)
=0
i=1
n
n
n
i=1
i=1
i=1
n ∑ xi yi − nθˆ1 ∑ xi − nθˆ2 ∑ x2i = 0
(ii)
Subtrahieren dieser beiden Gleichungen ergibt: 2 n n n n n (i) − (ii) = ∑ xi ∑ yi − θˆ2 ∑ xi − n ∑ xi yi + θˆ2 n ∑ x2i = 0 i=1
i=1
i=1
i=1
i=1
Wenn man dann nach θˆ2 auflöst, erhält man die oben bereits angegebene Formel: n
n
i=1
i=1
n
n
∑ xi yi − 1n ∑ xi ∑ yi ∑ xi yi − nx¯y¯ i=1 i=1 i=1 i=1 θˆ2 = = 2 n n n ∑ x2i − nx¯2 ∑ x2i − 1n ∑ xi i=1 Entsprechend kann man dann noch nach θˆ1 auflösen 1 n 1 n θˆ1 = ∑ yi − θˆ2 ∑ xi = y¯ − θˆ2 x¯ . n i=1 n i=1 Diese Formeln können wir jetzt beispielsweise verwenden, um eine Gerade an die Beobachtungen aller 31 Kirschbäume anzupassen. Für diese Bäume gilt n = 31
x¯ = 13.25
y¯ = 30.17
n
∑ x2i = 5736.55
i=1
so dass
n
∑ xi yi = 13887.86 ,
i=1
13887.86 − 31 · 13.25 · 30.17 θˆ2 = = 5.066 5736.55 − 31 · 13.252 θˆ1 = 30.17 − 5.066 · 13.25 = −36.946 .
Die angepasste Gerade ist in Abb. 11.9 dargestellt. Man kann die Methode der kleinsten Quadrate auch zum Anpassen anderer Kurven benutzen. Am folgenden Beispiel soll gezeigt werden, wie man eine Parabel mit Hilfe der Methode der kleinsten Quadrate anpasst. Beispiel 11.3. Temperatur und Gasverbrauch
11.2 Die Methode der kleinsten Quadrate
359
Abb. 11.9 Durchmesser und Volumen von 31 Kirschbäumen Tabelle 11.3 Durchschnittliche Tagestemperatur und durchschnittlicher täglicher Gasverbrauch Monat ∅ Temperatur
1/93 2/93 3/93 4/93 5/93 6/93 7/93 8/93 9/93 10/93 11/93 12/93 (◦ C)
∅ Gasverbrauch
(m3 )
0.0 −5.0 −6.7 −0.6 8.3 13.9 19.4 21.1 21.7 15.6
7.2
30.1 35.1 34.8 29.0 13.5 7.1 5.8 2.9 4.2
16.6 23.8
8.7
3.3
Abb. 11.10 Durchschnittliche Tagestemperatur und durchschnittlicher täglicher Gasverbrauch in einer amerikanischen Kleinstadt in den 12 Monaten des Jahres 1993
Tabelle 11.3 enthält die durchschnittliche Tagestemperatur (in Grad Celsius) sowie den durchschnittlichen täglichen Gasverbrauch (in Kubikmeter) einer amerikanischen Kleinstadt in den 12 Monaten des Jahres 1993.2 Eine grafische Darstellung der Daten ist in Abb. 11.10 zu sehen.
2
Diese zwölf Beobachtungen sind ein in europäische Einheiten umgerechneter Ausschnitt des Datensatzes, der von John Kane vom Department of Economics der Oswego State University of New York auf der Internetseite http://www.oswego.edu/ kane/econometrics/heat_excel.zip zur Verfügung gestellt wird (Download am 04.07.2008).
360
11 Regressionsanalyse
Die grafische Darstellung der Daten deutet darauf hin, dass man eventuell eine Parabel zur Beschreibung des Zusammenhangs verwenden könnte, also yi = θ1 + θ2 xi + θ3 x2i + ei
i = 1, 2, . . . , n .
Für dieses Modell müssen drei Parameter bestimmt werden, nämlich θ1 , θ2 und θ3 . Die Summe der quadrierten Abweichungen ist gegeben durch n
n
i=1
i=1
SQ(θ1 , θ2 , θ3 ) = ∑ e2i = ∑ (yi − θ1 − θ2 xi − θ3 x2i )2 . Man geht jetzt genauso vor wie bei der Anpassung der Geraden in dem vorherigen Beispiel. Um die Summe der quadrierten Residuen zu minimieren, berechnet man die drei partiellen Ableitungen und setzt diese gleich Null:
∂ SQ(θ1 , θ2 , θ3 ) =0 ∂ θ1
∂ SQ(θ1 , θ2 , θ3 ) =0 ∂ θ2
∂ SQ(θ1 , θ2 , θ3 ) =0 ∂ θ3
Die partiellen Ableitungen sind: (i)
n
∂ SQ(θ1 , θ2 , θ3 ) = (−2) ∑ yi − θ1 − θ2 xi − θ3 x2i ∂ θ1 i=1
n
i=1
i=1
i=1
x2i
∂ SQ(θ1 , θ2 , θ3 ) = (−2) ∑ yi − θ1 − θ2 xi − θ3 x2i xi ∂ θ2 i=1 n
= (−2) (iii)
n
∑ yi − nθ1 − θ2 ∑ xi − θ3 ∑
= (−2) (ii)
n
n
n
n
n
i=1
i=1
i=1
i=1
∑ xi yi − θ1 ∑ xi − θ2 ∑ x2i − θ3 ∑ x3i
n
∂ SQ(θ1 , θ2 , θ3 ) = (−2) ∑ yi − θ1 − θ2 xi − θ3 x2i x2i ∂ θ3 i=1
= (−2)
n
∑
n
∑
x2i yi − θ1
i=1
n
∑
x2i − θ2
i=1
x3i − θ3
i=1
n
∑
x4i
i=1
Das Nullsetzen der Ableitungen liefert drei Gleichungen mit drei Unbekannten: (i)
n
n
i=1
(ii) (iii)
n
∑ yi = nθˆ1 + θˆ2 ∑ xi + θˆ3 ∑ x2i i=1
i=1
n
n
n
n
i=1
i=1
i=1
i=1
n
n
n
n
i=1
i=1
i=1
i=1
∑ xi yi = θˆ1 ∑ xi + θˆ2 ∑ x2i + θˆ3 ∑ x3i ∑ x2i yi = θˆ1 ∑ x2i + θˆ2 ∑ x3i + θˆ3 ∑ x4i
11.2 Die Methode der kleinsten Quadrate
361
An dieser Stelle wollen wir wieder die uns bereits bekannten Ausdrücke in die Gleichungen einsetzen, um anschließend die drei Schätzer zu berechnen. Natürlich könnten wir stattdessen auch die allgemeinen Formeln für θ1 , θ2 und θ3 herleiten, dies wird aber leicht unübersichtlich. Aus den in Tabelle 11.3 gegebenen Daten erhalten wir die folgenden (gerundeten) Werte: 12
12
∑ xi = 98
∑ x2i = 1 931
i=1
i=1
12
∑ yi = 212
i=1
12
∑ x3i = 33 946
i=1
12
∑ xi yi = 388
i=1
12
∑ x4i = 667 987
i=1
12
∑ x2i yi = 13458
n = 12
i=1
Damit sind die drei folgenden Gleichungen zu lösen: (i) 212 = 12θˆ1 + 98θˆ2 + 1 931θˆ3 388 = 98θˆ1 + 1 931θˆ2 + 33 946θˆ3 13 458 = 1 931θˆ1 + 33 946θˆ2 + 667 987θˆ3
(ii) (iii)
Die Lösungen dieses Gleichungssystems und damit die geschätzten Parameter sind
θˆ1 = 27.0
θˆ2 = −1.47
θˆ3 = 0.0170 ,
und die mit der Methode der kleinsten Quadrate angepasste Parabel ist dann yˆi = 27 − 1.47xi + 0.017x2i . Abbildung 11.11 zeigt die angepasste Parabel zusammen mit den Beobachtungen. Ob die Parabel tatsächlich eine angemessene Kurve ist oder ob man ein komplexeres Modell braucht oder aber eine Gerade ausreicht, werden wir später untersuchen. Es ist offensichtlich, dass die Methode der kleinsten Quadrate genauso auf Polynome höherer Ordnung angewandt werden kann, allgemein auf n
∑
2 yi − θ1 − θ2 x − θ3 x2 − . . . − θ p x p−1 .
i=1
Abb. 11.11 Beobachtungen mit angepasster Parabel
362
11 Regressionsanalyse
Genauso kann man sich aber auch vorstellen, statt nur einer Einflussvariablen mit verschiedenen Potenzen, noch andere mögliche erklärende Variablen zu berücksichtigen. So lässt sich zum Beispiel unser erwarteter (für gewöhnlich logarithmierter) Lohn nicht nur mit dem Alter, sondern gleichzeitig auch mit Bildung oder Berufserfahrung (alles gemessen in Jahren) in Verbindung setzen. Man würde dann Log-Lohn = θ1 + θ2 Alter + θ3 Alter2 + θ4 Bildung + θ5Er f ahrung + e als ein geeignetes Modell betrachten. Die Koeffizienten θ j , j = 1, . . . , 5, lassen sich offenbar wie zuvor mit der Methode der kleinsten Quadrate schätzen.
11.3 Anmerkungen zur Regressionsanalyse Statistische Eigenschaften Viele wird es nicht überrascht haben, dass auch die Herleitung der Methode der kleinsten Quadrate Gauß zugeschrieben wird. Tatsächlich hat er als erster diese Methode sowohl explizit für die Regressionsananlyse formuliert, als auch mathematisch untersucht. Wichtigstes Resultat für uns ist dabei, dass die Schätzer der kleinsten Quadrate nicht nur konsistent sind, also Bias und Varianz bei steigendem Stichprobenumfang verschwinden, sondern unter gewissen Bedingungen auch die besten sind. Wir wollen solche Bedingungen und die resultierenden statistischen Eigenschaften der Schätzer kurz diskutieren. Vorweg sollte man aber noch bedenken, dass es zwischen zwei Situationen zu unterscheiden gilt: • wenn der Funktionstyp korrekt den Zusammenhang zwischen X und Y beschreibt • wenn das gewählte Polynom nur eine Approximation ist Im zweiten Falle spricht man oft auch von der besten linearen Vorhersage. Nehmen wir der Einfachheit halber die Korrektheit des speziell gewählten Funktionstyps an. Eine weitere Annahme, die wir im Grunde stets benutzen, ist, dass die Stichprobe repräsentativ und groß genug ist, was bedeutet n > p. Der Fehlerterm e sollte E[e|X] = 0 erfüllen und von endlicher Varianz sein. Schließlich darf es unter den erklärenden Variablen, inklusive der Konstanten 1 keine (Multi-)Kolinearität geben. Die 1 ist so etwas wie die zu dem Achsenabschnitt, oft auch intercept genannten, θ1 gehörende Variable, beziehungsweise in einem Polynom die nullte Potenz. Man spricht von (Multi-)Kolinearität, wenn sich eine der Variablen, beziehungsweise eine ihrer im Modell auftauchenden Potenzen x j , als Linearkombination der anderen darstellen lässt. In unserem Falle eines Polynoms (p − 1)ten Grades hätten wir Multikolinearität, wenn man α j ∈ IR finden kann, so dass p−1
1=
∑ α j xij ,
j=1
für alle i = 1, . . . , n
11.3 Anmerkungen zur Regressionsanalyse
363
gilt. Dann nämlich wäre unser Modell yi = 1 · θ1 +
p−1
p−1
j=1
j=1
∑ θ j+1 xij = ∑ α j xij
θ1 +
p−1
p−1
j=1
j=1
∑ θ j+1xij = ∑ (θ j+1 + θ1α j ) xij
somit also nicht eindeutig definiert und damit auch nicht schätzbar, was wir hier nicht allerdings weiter beweisen werden. Nehmen wir noch hinreichende Unabhängigkeit der Beobachtungen hinzu — wann sie hinreichend unabhängig sind, ist leider zumeist kaum nachprüfbar, weshalb man meist schlicht die weit stärkere Annahme der Unabhängigkeit bemüht — so genügen diese Bedingungen für die Konsistenz. Ferner bewies Gauß, dass unter der Annahme Var[e|X] = σ 2 konstant (auch Homoskedastizität genannt) und Cov[ei , e j ] = 0 ∀ i = j, die kleinste Quadrate Methode die besten linearen erwartungstreuen Schätzer (BLUE = best linear unbiased estimator) liefert. Das bedeutet, unter allen erwartungstreuen und linearen Schätzern haben sie die kleinste Varianz. Diese Erkenntnis ist auch bekannt als das Gauß-Markov Theorem. Aus dem zentralen Grenzwertsatz wird geschlossen, dass die Schätzer θˆ j mit der Normalverteilung approximiert werden können, und zwar mit Erwartungswert θ j , da sie ja erwartungstreu sind, d.h. ihr Bias Null ist. Für den Fall der einfachen Geraden möchten wir auch noch die Varianzen ergänzen σ2 (x) ¯2 ˆ Var[θ1 ] = , 1+ 2 n σˆ x
σ2 , Var[θˆ2 ] = nσˆ x2 ¯ 2 die Stichprobenvarianz von X ist. Diese Ergebnisse erlauben wobei σˆ x2 = (x¯2 ) − (x) uns nun auch die Konstruktion von Konfidenzintervallen, vergleiche Kapitel 7, für die Parameter der uns interessierenden Geraden σˆ 1 + (x) ¯ 2 /σˆ x2 ˆ σˆ 1 + (x) ¯ 2 /σˆ x2 ˆ √ √ , θ1 + tn−2,α /2 , für θ1 : θ1 − tn−2,α /2 n n
σˆ σˆ ˆ ˆ für θ2 : θ2 − tn−2,α /2 √ , θ2 + tn−2,α /2 √ , nσˆ x nσˆ x wobei σˆ die aus den Residuen geschätzte Streuung von e ist, σˆ 2 =
1 n−2
∑ni=1 eˆ2i .
Kausalität und der R2 Kommen wir zurück zur Betrachtung von Paaren von Zufallsvariablen. Nach den beiden Fragen Hängen die beiden Zufallsvariablen zusammen? und Wie kann der Zusammenhang quantifiziert werden? wollen wir jetzt auch noch die Frage betrachten: Wieviel der (unbedingten) Variation von Y können wir durch unser Regressionsmodel, also hier durch X , erklären?
364
11 Regressionsanalyse
Abb. 11.12 Jährliche Veränderungen der Arbeitskosten und der Produktivität in Deutschland von 1965–1997
Relevant für die erste Frage waren die Begriffe Unabhängigkeit und Korrelation. In Kapitel 10 wurde zudem der χ 2 -Unabhängigkeitstest vorgestellt, mit dem man die Hypothese überprüfen kann, dass zwei beobachtete Merkmale unabhängig verteilt sind. Wenn zwei Merkmale (oder Zufallsvariablen) unabhängig verteilt sind, gibt es keinen Zusammenhang zwischen ihnen und es bringt nichts, sie gemeinsam zu betrachten; man kann sie getrennt betrachten, ohne dabei Information zu verlieren. Wenn die beiden Merkmale aber abhängig sind, dann können wir den Zusammenhang zwischen den Merkmalen quantifizieren. Falls beide Merkmale quantitativ sind, können wir dazu die eben vorgestellte Methode der kleinsten Quadrate verwenden. Wir müssen jedoch zusätzlich beachten, dass es einen Unterschied zwischen Abhängigkeit bzw. Korrelation und Kausalität gibt. Um diesen Unterschied zu verdeutlichen, soll ein weiteres Beispiel betrachtet werden. Beispiel 11.4. Veränderung von Arbeitskosten und Produktivität Abbildung 11.12 zeigt die jährlichen prozentualen Veränderungen der Arbeitskosten (je Beschäftigtenstunde) und der Produktivität (je Erwerbstätigenstunde) in Deutschland zwischen 1965 und 1997 mit einer angepassten Regressionsgeraden.3 Bei genauer Betrachtung der Grafik sieht man, dass die beiden Merkmale nicht unabhängig sind. Sie sind positiv korreliert; der Korrelationskoeffizient beträgt etwa 0.45. Wenn eines der beiden Merkmale steigt, bedeutet das, dass das zweite dazu tendiert auch zu steigen (und umgekehrt). Das sagt uns jedoch nichts über Kausalität. Die Beziehung zwischen den zwei Merkmalen könnte kausal sein. Man könnte zum Beispiel argumentieren, dass ein Anstieg des Arbeitslohnes eine positive Wirkung auf die Arbeitsmoral hat und dadurch auf die Produktivität. Man könnte aber auch argumentieren, dass eine Steigerung der Produktivität den Freiraum schafft, mehr Geld für Lohn auszugeben. Eine dritte Möglichkeit besteht darin, dass es andere (unbeobachtete) Faktoren gibt, die beide Merkmale beeinflussen, und dass es 3
Die Daten stammen aus dem Heft Zahlen zur wirtschaftlichen Entwicklung der Bundesrepublik Deutschland, Ausgabe 1998, vom Institut der Deutschen Wirtschaft, Köln.
11.3 Anmerkungen zur Regressionsanalyse
365
keine direkte kausale Beziehung zwischen den zwei beobachteten Merkmalen gibt. Dann spricht man von einer spurious (zu deutsch nicht echten) Korrelation. Als Beispiel, in dem es eine solche dritte Möglichkeit gibt, nehmen wir an, wir hätten festgestellt, dass in der Population der Studierenden in Göttingen die Ausgaben für Wohnung (X) und die Ausgaben für Reisen (Y ) positiv korreliert sind. Wir könnten daraus nicht schließen, dass ein solcher Zusammenhang kausal ist. Wenn man ein Einzelzimmer im Studentenwohnheim gegen eine Vierzimmer-PenthouseWohnung eintauschte, würde es nicht dazu führen, dass man sich statt einer Billigreise eine Luxus-Weltreise leisten könnte. Der wichtigste unbeobachtete Faktor hier ist das zur Verfügung stehende Geld. Wenn man nur wenig davon hat, kann man sich weder eine teure Wohnung noch eine teure Reise leisten. Wichtig ist also, dass man sich darüber im Klaren ist, dass Abhängigkeit keine Schlussfolgerungen über Kausalität ermöglicht. Zwei Merkmale können stark korreliert sein, ohne dass es eine kausale Beziehung zwischen ihnen gibt. Man kann aber die Abhängigkeit zwischen zwei Merkmalen dazu verwenden, den Wert eines der Merkmale aus dem Wert des anderen vorauszusagen. Dabei ist der Korrelationskoeffizient ρ (X,Y ) gegenüber der Kausalität indifferent; nicht so aber θ2 im Modell Y = θ1 + θ2 X + ε . Beachten wir für einen Moment Korrelation und einfache lineare Regression unabhängig von einer möglichen spurious Korrelation, so findet man einen sehr einfachen Zusammenhang zwischen ρ und θ2 . Es ist nämlich " VarY Cov[X,Y ] = · ρ. θ2 = Var[X] VarX Die erste Gleichung gilt, da Cov[X,Y ] = Cov[X, (θ1 + θ2 X + e)] = Cov[X, θ1 ] + Cov[X, θ2 X] + Cov[X, e] = = 0 + θ2Cov[X, X] + 0 = θ2 Var[X] . Die zweite Gleichung folgt aus der Definition des Korrelationskoeffizienten. Hieraus erkennen wir nun klar, dass es für die Steigung θ2 nicht dasselbe ist, ob man Y auf X oder X auf Y regressiert. Daraus wiederum lässt sich eine andere häufig benutzte Maßzahl (Bestimmtheitsmaß oder Anpassungsparameter) herleiten, der sogenannte R2 , denn mit θ22 = ρ 2 · Var[Y ]/Var[X] ergibt sich:
ρ2 =
θ22 Var[X] Var[θ2 X] Var[θ1 + θ2 X] erklärte Varianz = = = = R2 . Var[Y ] Var[Y ] Var[Y ] totale Varianz
Der R2 gilt als Maßzahl für die Anpassungsgüte eines Regressionsmodells. Er sagt uns, wieviel Prozent der Varianz von Y durch das betrachtete Modell erklärt
366
11 Regressionsanalyse
wird. Das gilt nicht nur für lineare oder einfache Modelle, sondern ganz allgemein für Modelle der Art Y = E[Y |X] + e mit X, unabhängig von e. Nur für den linearen Fall mit nur einer erklärenden Variablen gilt ρ 2 = R2 . Dank der Varianzzerlegung Var[Y ] = Var(E[Y |X]) + Var[e] können wir auch schreiben:
R2 =
nicht erklärte Varianz Var(E[Y |X]) + Var[e] Var[e] − = 1− . Var[Y ] Var[Y ] totale Varianz
Die erklärte Varianz wird aus den yˆ und die nicht erklärte Varianz aus den Residuen eˆ berechnet. Zumeist wird die zweite Definition des R2 benutzt; sollte aber ein Modell zu einer größeren Varianz der Residuen als der totalen führen, ergibt diese Definition negative Werte und weicht somit automatisch von der ersten Definition ab. Was ist dann passiert? Das Modell muss demnach falsch sein, so dass die Varianzzerlegung nicht mehr gilt. Der R2 macht in diesem Fall keinen Sinn mehr. Zum tieferen Verständnis dessen, was es heißt, dass eine Variable mit oder durch eine andere erklärt wird, erinnere man sich an die Beispiele aus Kapitel 9. Dort sahen wir, wie die Verteilung einer Variablen sich bei der Bedingung auf eine andere verändern konnte; die Varianz verkleinerte sich, zumeist enorm, und der Erwartungswert änderte sich stark mit dem Wert der Variablen, auf die bedingt wurde.
Faktoren als erklärende Variable Ein anderer Aspekt, der hier noch erwähnt werden soll, ist der, dass man die Regressionsanalyse auch verwenden kann, wenn das Merkmal X ein Faktor ist. In den bisherigen Beispielen haben wir immer die Situation betrachtet, in der beide Merkmale X und Y Zufallsvariablen waren. Das Beispiel 11.2 der Kirschbäume gehört in diese Kategorie. Es gibt eine Population von Kirschbäumen, aus der eine zufällige Stichprobe von 31 Bäumen ausgewählt wird. Mit jedem Baum sind zwei Merkmale verbunden, der Durchmesser und das Volumen (siehe Abb. 11.9). Beide Merkmale sind Zufallsvariablen. Wir können das angepasste Modell verwenden, um das Holzvolumen anderer Bäume der Population zu schätzen. In der Praxis begegnet einem auch eine andere Situation, in der das erste Merkmal X ein Faktor ist und nur das zweite Merkmal Y eine Zufallsvariable. Zur Verdeutlichung betrachten wir wieder Preis und Absatzmenge eines TraubensaftProduktes aus Beispiel 1.8. Es wurden folgenden Merkmale untersucht: • X: Verkaufspreis einer Packung Traubensaft (in US$) • Y : wöchentliche Verkaufszahl des Traubensafts in einem Supermarkt Abbildung 11.13 zeigt noch einmal eine grafische Darstellung der beiden Merkmale zusammen mit einer angepassten Regressionsgeraden, wobei diesmal nur diejenigen Preise gezeigt werden, die häufiger verwendet wurden.
11.3 Anmerkungen zur Regressionsanalyse
367
In der Regel wird es so sein, dass der Supermarkt den Verkaufspreis bestimmen kann und die Verkaufszahl dann vom Preis abhängt. Dabei wird die Verkaufszahl allerdings nicht deterministisch durch den Preis bestimmt, sondern wird auch von anderen Faktoren, z.B. den Preisen in Konkurrenz-Supermärkten, abhängen und variieren. In Abb. 11.13 ist deutlich zu sehen, dass die Verkaufszahl für einen gegebenen Preis stark schwankt. Dennoch erkennt man aber auch, dass der Preis einen Einfluss auf die Verkaufszahl hat und diese bei dem niedrigsten Preis von 0.99$ im Schnitt deutlich höher ist als bei einem Verkaufspreis von 1.15$. Dies wird auch durch die eingezeichnete Gerade verdeutlicht, die ebenfalls mit der Methode der kleinsten Quadrate (an die Gesamtdaten) angepasst wurde durch yˆ = 152.5 − 120.8x , wobei x den Verkaufspreis (in US$) und y die Verkaufsmenge (pro Woche) bezeichnet. Die Preis-Absatz-Gerade sagt uns, dass die erwartete Verkaufsmenge um 1.208 Stück zurückgeht, wenn der Verkaufspreis um 0.01 US$, also 1 US-Cent, steigt. Ein Unterschied zwischen diesem Beispiel und dem der Kirschbäume besteht darin, dass der Preis vom Supermarkt festgelegt wird und somit aus Sicht des Supermarkts keine Zufallsvariable ist. Der Preis ist nicht zufällig, sondern durch die Preissetzung des Supermarkts vorbestimmt. Die Verkaufszahl ist dagegen nicht vorherbestimmt, sondern hängt auch von zufälligen Einflüssen ab. Wir bezeichnen den Preis X daher als Faktor, die Verkaufszahl Y aber als Zufallsvariable. Auch wenn sich die beiden Beispiele in der Art ihrer Merkmale unterscheiden, sind die Grafiken doch in beiden Fällen ähnlich, und auch in dem Beispiel des Traubensafts kann die Regressionsanalyse verwendet werden, um den Zusammenhang zwischen beiden Merkmalen zu quantifizieren. Für den Supermarkt ist es sicher von großem Interesse, im Voraus abschätzen zu können, mit welcher Verkaufszahl er bei einem bestimmten Preis rechnen kann. Das Beispiel des Traubensafts sollte verdeutlichen, dass die uns bislang bekannten Schätzmethoden ebenfalls anwendbar sind, wenn X ein Faktor und keine Zufallsvariable ist. In beiden Fällen können wir den
Abb. 11.13 Preis und Absatz eines Traubensaft-Produktes und angepasste Gerade
368
11 Regressionsanalyse
Wert von Y für einen gegebenen Wert von X voraussagen. Im nächsten Abschnitt wird die Frage betrachtet, wie genau eine solche Voraussage ist.
11.4 Voraussagen in der Regressionsanalyse Wenn man Abb. 11.11 mit Abb. 11.12 vergleicht, ist klar, dass die Voraussagen im ersten Fall genauer sein werden als im zweiten, da die Beobachtungen im zweiten Fall viel stärker um die angepasste Funktion schwanken. Einen Eindruck von der Genauigkeit der Prognose erhalten wir, indem wir die Residuen betrachten. Mit ihrer Hilfe lässt sich unter gewissen Annahmen die Genauigkeit sogar quantifizieren. Dies wollen wir mit dem Beispiel einer einfachen linearen Regression aufzeigen: yi = θ1 + θ2 xi + ei
i = 1, 2, ..., n
Abbildung 11.14a zeigt n = 40 künstlich erzeugte Beobachtungspaare (xi , yi ), i = 1, 2, ..., n, sowie eine mit Hilfe der Methode der kleinsten Quadrate angepasste Regressionsgerade. Da man normalerweise θ1 und θ2 nicht kennt, kann man die tatsächlichen Residuen ei = yi − θ1 − θ2 xi
i = 1, 2, ..., n
Abb. 11.14 Beobachtungen mit angepasster Gerade und Residuen ohne Struktur
11.4 Voraussagen in der Regressionsanalyse
369
Abb. 11.15 Beobachtungen mit angepasster Gerade und Residuen mit steigender Varianz
nicht berechnen; man kann sie aber mit Hilfe der angepassten Geraden schätzen: eˆi = yi − θˆ1 − θˆ2 xi
i = 1, 2, ..., n
Eigentlich sollte man zwischen tatsächlichen Abweichungen ei und den geschätzten eˆi unterscheiden. In der Praxis werden die ei oft auch für die geschätzten Abweichungen verwendet und man spricht allgemein von Residuen, auch wenn man geschätzte meint. Die geschätzten Residuen für die künstlichen Daten sind in Abb. 11.14b dargestellt. Die Residuen zeigen keine Regelmäßigkeiten oder erkennbare Struktur. Sie scheinen identisch verteilt zu sein, besonders wenn man sie mit Abb. 11.15 vergleicht, in der andere künstliche Beobachtungen und ihre Residuen abgebildet sind. Dort ist zu sehen, wie die Varianz der Residuen mit den Werten von x steigt. Wenn wir annehmen können, dass die Residuen alle die gleiche Verteilung haben, dann können wir diese Verteilung schätzen und sie verwenden, um die Genauigkeit der Voraussagen zu bestimmen. Es ist zwar fast unmöglich, zu beweisen, dass eine solche Annahme richtig ist, aber es ist nicht schwierig, zu sehen, wann sie plausibel ist. In Abb. 11.15 ist es klar, dass diese Annahme falsch ist, weil die Varianz der Residuen nicht konstant ist. Deswegen können die Residuen nicht identisch verteilt sein. Sie haben unterschiedliche Varianzen in Abhängigkeit davon, wie groß x ist. In solchen Fällen spricht man von Heteroskedastizität, dem Gegenstück zur Homoskedastizität, bei der die Residuenvarianz konstant ist, siehe Gauß-Markov Theorem. Die Residuen in Abb. 11.14 scheinen aber identisch verteilt zu sein, und ein Histogramm dieser Residuen ist in Abb. 11.16 zu sehen, zusammen mit einer angepassten Normalverteilung.
370
11 Regressionsanalyse
Abb. 11.16 Histogramm der Residuen im Fall (a) mit angepasster Normalverteilung
Wenn die Varianz der Residuen konstant ist, ist ein erwartungstreuer Schätzer der Varianz σ 2 , gegeben durch (vergleiche Konfidenzintervalle von θ1 , θ2 )
σˆ 2 =
1 n 2 1 SQ(Res) = DQ(Res) . ei = ∑ n − p i=1 n− p
Dabei ist p die Anzahl der geschätzten Parameter und nicht der Grad des Polynoms, sonst würden wir durch (n − p − 1) teilen müssen, wie es oft in der Literatur anzufinden ist. Der Gesamtausdruck wird auch als Durchschnittsquadrat der Residuen und (n − p) auch als Freiheitsgrade bezeichnet. Eine Gerade hat zwei Parameter θ1 , θ2 , also ist p = 2, und damit DQ(Res) =
1 n 1 n 2 ei = ∑ ∑ (yi − θˆ1 − θˆ2xi )2 . n − 2 i=1 n − 2 i=1
Eine Parabel hat 3 Parameter θ1 , θ2 , θ3 , also ist p = 3, und somit DQ(Res) =
1 n ∑ (yi − θˆ1 − θˆ2xi − θˆ3x2i )2 . n − 3 i=1
Der Schätzer σˆ 2 = DQ(Res) ist wichtig, weil er gebraucht wird • um die Genauigkeit der Vorhersage von y aus x zu bestimmen, • um zu entscheiden, welches Modell die Daten am besten beschreibt, • für die Konfidenzintervalle der θ j . Für alle Zwecke brauchen wir zwei weitere Annahmen, zum einen, dass die Residuen unabhängig verteilt sind, zum anderen, dass sie normalverteilt sind. Natürlich sind die geschätzten Residuen untereinander nicht völlig unabhängig, da sie ja die Restriktion ∑ni=1 ei = 0 erfüllen sollen bei gleichzeitiger Schätzung von p Parametern. Daher gehen von den ursprünglich n FG p verloren. Wenn man in der Literatur von unabhängigen Residuen spricht, sind i.d.R. die Beobachtungen gemeint. Die Annahmen der Unabhängigkeit kann man erfüllen, wenn man zufällige Stichproben
11.4 Voraussagen in der Regressionsanalyse
371
verwendet. Wenn das nicht möglich ist, muss man die Ergebnisse als Approximation betrachten, die nur genau stimmen, wenn die Annahme der Unabhängigkeit erfüllt ist. Die Annahme der Normalität kann man überprüfen, indem man ein Histogramm der Residuen anschaut (siehe Abb. 11.16). Man kann auch einen Anpassungstest verwenden, um die Annahme zu testen. Wir wollen jetzt zeigen, wie man bei unabhängig und identisch normalverteilten Residuen (Fall (a)) eine Aussage über die Genauigkeit der Vorhersage machen kann. Dabei betrachten wir allerdings nur den Fall der einfachen linearen Regression: yi = θ1 + θ2 xi + ei
i = 1, 2, ..., n mit ei unabhängig N(0; σ 2 )-verteilt
Nehmen wir an, wir beobachten irgendeinen Wert von X, nennen wir ihn x0 , und wollen den zugehörigen Wert von Y voraussagen. Wir haben schon mehrfach erwähnt, dass ein Schätzer der bedingten Erwartung E(Y |X = x0 ), d.h. die Vorhersage, durch die angepasste Gerade gegeben ist: yˆ0 = θˆ1 + θˆ2 x0 Daneben gibt es eine relativ komplizierte Formel, mit der ein Konfidenzintervall für die Vorhersage bestimmt werden kann. Ein sogenanntes Vorhersage- oder Prognoseintervall zur Konfidenzwahrscheinlichkeit 1 − α für die Vorhersage, ist unter den oben genannten Annahmen gegeben durch yˆ0 − SF(Vorhersage)· tn−2;α /2
;
yˆ0 + SF(Vorhersage)· tn−2;α /2 ,
wobei der geschätzte Standardfehler der Vorhersage mit der Formel # ⎛ ⎞ $ $ $ ⎜ 2 ⎟ (xo − x) ¯ ⎟ 1 $ SF(Vorhersage) = $σˆ 2 ⎜ 1+ + n ⎠ % ⎝ n 2 ∑ xi − nx¯2 i=1
berechnet wird und tn−2;α /2 ein Prozentpunkt der t-Verteilung mit dem Parameter ν = n − 2 ist (vergleiche z.B. Abb. 8.12). Auf dieselbe Art kann man natürlich auch für Polynome höherer Ordnung Formeln für ein Prognoseintervall herleiten. Um die Berechnung des Konfidenzintervalls in einem konkreten Anwendungsfall durchzuführen, betrachten wir noch einmal den Zusammenhang zwischen Flugstrecke und Blockzeit der American Airlines Flüge aus Beispiel 1.2. Die Daten sind noch einmal in Abb. 11.17 grafisch dargestellt. Man nehme an, wir müssen in Kürze einen inneramerikanischen Flug von American Airlines antreten und möchten uns nicht alleine auf die im Flugplan ange-
372
11 Regressionsanalyse
gebenen Zeiten verlassen. Uns sei allerdings bekannt, dass die Flugstrecke rund 600 Meilen beträgt, was zum Beispiel der Strecke Chicago–Charlotte oder der Strecke Phoenix–Denver entspricht. In Abb. 11.17 wird deutlich, dass die Flugstrecke und die Blockzeit stark positiv zusammenhängen; der Korrelationskoeffizient beträgt 0.95. Man kann diese Abhängigkeit dazu verwenden, um die Blockzeit für die gegebene Flugstrecke vorauszusagen. Dazu passt man mit Hilfe der Methode der kleinsten Quadrate eine Gerade an und erhält ˆ |X = x) = 38.4 + 0.122 · x , E(Y die ebenfalls in Abb. 11.17 eingezeichnet ist. Anhand dieser Gerade kann man nun die Blockzeit für die Flugstrecke von 600 Meilen vorhersagen: ˆ |X = 600) = 38.4 + 0.122 · 600 ≈ 112 . E(Y Die Werte x0 = 600 und yˆ0 = 112 sind ebenfalls in Abb. 11.17 abgetragen. Das Histogramm der Residuen ist in Abb. 11.18, zusammen mit einer angepassten Normalverteilung dargestellt. Man sieht, dass sie in etwa normalverteilt sind. Daher können wir die Formel für das Prognoseintervall verwenden. Um ein 95%-Vorhersageintervall zu berechnen, benötigen wir (gerundet) n = 100
x¯ ≈ 829
132
∑ x2i = 83 113 502
x0 = 600 ,
i=1 100
SQ(Res) = ∑ e2i ≈ 21 498 i=1
σˆ 2 = DQ(Res) =
SQ(Res) ≈ 219 , 100 − 2
und können dann den geschätzten Standardfehler der Voraussage berechnen: (600 − 829)2 1 SF(Vorhersage) = 219 1 + + ≈ 14.9 . 100 83 113 502 − 100 · (829)2
Abb. 11.17 Flugstrecke und Blockzeit für inneramerikanische American Airlines Flüge und Vorhersage für eine Flugstrecke von x0 = 600 Meilen
11.5 Modellauswahl in der Regressionsanalyse
373
Abb. 11.18 Histogramm der Residuen mit angepasster Normalverteilung
Da ein 95%-Konfidenzintervall berechnet werden soll, ist α = 0.05 und α /2 = 0.025. Mit einer Statistik-Software erhält man dann den Wert tn−2;α /2 = t98;0.025 = 1.98. Da ν = n − 2 = 98 relativ groß und nicht mehr in der t-Verteilungstabelle im Anhang gegeben ist, kann man approximativ auch die Standardnormalverteilung verwenden und erhält dann zα /2 = 1.96. Wir wollen aber den exakten Wert 1.98 verwenden und bekommen dann das Intervall [112 − 14.9 · 1.98 ; 112 + 14.9 · 1.98] ≈ [83 ; 141] . Mit diesem Konfidenzintervall kann man die Frage nach der Blockzeit für eine Flugstrecke von 600 Meilen wie folgt beantworten: Die vorhergesagte Blockzeit beträgt 112 Minuten und man ist zu 95% sicher, dass die Blockzeit zwischen 83 und 141 Minuten liegen wird. Dieses Intervall ist relativ breit. Wenn man eine genauere Prognose haben möchte, sollte man entweder eine größere Stichprobe für die Anpassung der Geraden verwenden oder aber noch besser eine Stichprobe der Flüge für die gewählte Strecke betrachten.
11.5 Modellauswahl in der Regressionsanalyse In dem Beispiel der American Airlines Flüge ist es relativ eindeutig, dass der Zusammenhang zwischen der Entfernung und der Blockzeit durch eine Gerade beschrieben werden kann. Nun werden wir zeigen, wie man ein Modell auswählt, wenn es mehrere plausible Funktionen gibt. Dabei beschränken wir uns wieder auf Polynome und betrachten noch einmal die Gasverbrauch-Daten aus Beispiel 11.3, für die wir oben bereits die Parabel angepasst haben, die in Abb. 11.11 zu sehen ist. In diesem Fall ist es nicht so eindeutig, ob die Parabel gewählt werden sollte oder ob vielleicht auch eine Gerade ausreicht oder eventuell eine kubische Funktion besser ist. Abbildung 11.19 zeigt die Anpassung von Polynomen 0., 1., 2. und 3. Grades an die Gasverbrauch-Daten.
374
11 Regressionsanalyse
Abb. 11.19 Anpassung von Polynomen zur Beschreibung des Zusammenhangs von Temperatur und Gasverbrauch
Eine Konstante ist offensichtlich nicht zur Beschreibung des Zusammenhangs zwischen Temperatur und Gasverbrauch geeignet. Wenn man stattdessen ein Polynom 1. Grades anpasst, also eine Gerade, wird die Anpassung schon deutlich besser. Die Anpassung kann aber durch Verwendung einer Parabel, also eines Polynoms 2. Grades, weiter verbessert werden, und bei der kubischen Funktion, dem Polynom 3. Grades, ist sie noch besser. Die Anpassung kann sehr exakt werden, wenn die Anzahl der Parameter genügend groß gewählt wird. Allgemein gilt: Die Anpassung an die Beobachtungen wird mit zunehmender Zahl der Parameter besser und der Fehler durch Approximation verringert sich. Abbildung 11.20 zeigt die Residuen, die sich bei der Anpassung der Polynome ergeben. Man sieht, dass die Residuen mit zunehmendem Grad des Polynoms kleiner werden. Wir müssen aber auch daran denken, dass wir eine Kurve an eine Stichprobe aus der Population anpassen, um damit die Werte von Y in der gesamten Population zu schätzen. Wenn wir dabei ein einfaches Modell wie eine Gerade verwenden, wird die Variabilität von Stichprobe zu Stichprobe weniger groß sein als wenn wir ein komplizierteres Modell anpassen.
11.5 Modellauswahl in der Regressionsanalyse
375
Abb. 11.20 Darstellung der Residuen
Der Fehler durch Schätzung vergrößert sich mit zunehmender Anzahl an Parametern. Die beste Strategie ist, das einfachste Modell zu verwenden, das plausibel ist, das also nicht offensichtlich inkorrekt ist. Wir werden gleich sehen, wie wir objektiv herausfinden können, welches Modell einfach und plausibel ist. In Abb. 11.20 haben wir gesehen, dass die Residuen kleiner werden, wenn wir die Anzahl der Parameter vergrößern. Wir können das Ausmaß dieser Verbesserung anhand der Summe der quadrierten Residuen SQ(Res) quantifizieren. Wenn wir zusätzlich die Anzahl der Parameter p berücksichtigen wollen, müssen wir stattdessen das Durchschnittsquadrat der Residuen DQ(Res) = SQ(Res)/(n− p) betrachten. Tabelle 11.4 enthält SQ(Res) und DQ(Res) für die vier an die Gasverbrauch-Daten angepassten Polynome. Tabelle 11.4 Summen der Quadrate und Durchschnittsquadrate der Residuen für vier Polynome im Gasverbrauch-Beispiel Modell
p SQ(Res) n − p DQ(Res)
Konstante Gerade Parabel Kubik
1 2 3 4
1 670 56 37 19
11 10 9 8
151.800 5.600 4.111 2.375
376
11 Regressionsanalyse
Man sieht, dass sich DQ stark verringert, wenn wir von einer Konstanten zu einer Geraden übergehen. Wenn wir allerdings von einer Geraden zu einer Parabel, beziehungsweise von einer Parabel zu einer Kubik übergehen, ist die Verringerung von DQ nicht mehr so stark. Daher ist nicht klar, ob wir besser eine Parabel oder eine kubische Funktion verwenden sollten, oder ob vielleicht sogar eine Gerade ausreicht. Es gibt aber ein objektives Entscheidungskriterium, mit dem man eine Wahl zwischen zwei möglichen Modellen treffen kann. Die beiden Modelle werden mit M1 und M2 bezeichnet, wobei die folgende Konvention gilt: • M1 ist das Modell mit der größeren Anzahl an Parametern • M2 ist das Modell mit der kleineren Anzahl an Parametern Es ist egal, welche beiden der hier drei plausiblen Modelle wir miteinander vergleichen wollen. Wir nehmen zunächst an, dass wir uns zwischen der Parabel und der Kubik entscheiden möchten. Wir führen dann einen Test durch, der der Grundidee des klassischen Signifikanztests folgt; d.h. wir stellen eine Nullhypothese auf und überprüfen diese anhand einer Prüfgröße und ihrer Verteilung unter dieser Hypothese. Die Nullhypothese bei der Modellauswahl der Regressionsanalyse lautet: H0 : Das Modell mit weniger Parametern, M2 , ist korrekt Wenn wir die Nullhypothese verwerfen können, wählen wir das komplexere Modell M1 , können wir sie dagegen nicht verwerfen, entscheiden wir uns für das einfachere Modell M2 . Wir verwenden also die folgende Entscheidungsregel: Verwende das Modell mit weniger Parametern, wenn nicht bewiesen werden kann, dass es falsch ist. Das heißt: wähle das einfachere Modell M2 , außer wenn H0 verworfen wird. Um die Nullhypothese zu testen, berechnen wir für beide Modelle die Summe der quadrierten Residuen und die Freiheitsgrade. Dabei bezeichnen wir mit • SQ(Res, M j ) die Summe der Quadrate der Residuale • FG(M j ) die Anzahl der Freiheitsgrade • R2 (M j ) den resultierenden R2 des Modells für beide M j , also j = 1, 2. Die Prüfgröße lautet dann
(SQ(Res, M2 ) − SQ(Res, M1)) / (FG(M2 ) − FG(M1 )) SQ(Res, M1 )/FG(M1 ) 2
R (M1 ) − R2(M2 ) / (FG(M2 ) − FG(M1 )) = , (1 − R2(M1 ))/FG(M1 )
PG =
11.5 Modellauswahl in der Regressionsanalyse
377
Abb. 11.21 95%-Punkt der F-Verteilung mit 1 und 8 Freiheitsgraden
wenn wir die R2 e aus den Residuen berechnen. Unter der Nullhypothese H0 folgt die Prüfgröße PG einer Fν1 ,ν2 -Verteilung mit
ν1 = FG(M2 ) − FG(M1 )
ν2 = FG(M1 ) .
Daher wird dieser Test auch F-Test genannt. Allerdings ist dieser Name in Teilen der Literatur für einen am Ende dieses Kapitels vorgestellten Spezialfall reserviert. Daher ist der hier vorgestellte Test auch (speziell in der Ökonometrie) unter dem Namen Wald-Test bekannt, beziehungsweise seine χ 2 -Approximation, denn es gilt ν1 Fν1 ,ν2 ≈ χν21 für (sehr) große ν2 > ν1 . Die F-Verteilung wurde in Kapitel 6 bereits vorgestellt und Abb. 6.20 zeigt einige Dichtefunktionen der F-Verteilung. Wir verwenden die F-Verteilung, um mit Hilfe einer Tabelle oder einer Statistik-Software für ein gegebenes Signifikanzniveau einen kritischen Wert für den Test der Nullhypothese zu bestimmen, und verwerfen H0 genau dann, wenn der Wert der Prüfgröße größer ist als der kritische Wert. Wenn das Signifikanzniveau zum Beispiel α = 0.05 beträgt, dann suchen wir denjenigen Wert in der Tabelle, für den die rechts von ihm liegende Fläche 0.05 und die links von ihm liegende Fläche 0.95 ist (vergleiche Abb. 11.21). Wir haben gesagt, dass wir uns zwischen einer Parabel und einer Kubik für die Gasverbrauch-Daten entscheiden möchten. Die entsprechenden Werte für die quadrierten Residuen und die Freiheitsgrade, siehe Tabelle 11.4, lauten: SQ(Res, M1 ) = 19
FG(M1 ) = 8
SQ(Res, M2 ) = 37
FG(M2 ) = 9
Für die Prüfgröße erhält man dann: PG =
(37−19)/(9−8) 19/8
≈ 7.58
Unter der Nullhypothese ist die Prüfgröße F-verteilt mit
ν1 = FG(M2 ) − FG(M1 ) = 9 − 8 = 1 und ν2 = FG(M1 ) = 8
378
11 Regressionsanalyse
Freiheitsgraden. Für ein Signifikanzniveau von beispielsweise α = 0.05 können wir den kritischen Wert in der F-Tabelle im Anhang ablesen. Diese enthält die oberen Prozentpunkte der F-Verteilung in Abhängigkeit von α , ν1 und ν2 . Für α = 0.05, ν1 = 1 und ν2 = 8 erhalten wir den Wert 5.32. Dieser Wert ist auch in Abb. 11.21 eingezeichnet, die gerade eine F-Verteilung mit 1 und 8 Freiheitsgraden zeigt. Die Prüfgröße ist hier größer als der kritische Wert. Die Nullhypothese, dass M2 die Beobachtungen angemessen beschreibt, kann daher zum Niveau von α = 0.05 verworfen werden. Auf der Basis dieses Tests würden wir das einfachere Modell verwerfen und stattdessen das komplexere (kubische) Modell verwenden. Man kann die Prüfgröße auch einfach ermitteln, indem man eine Arbeitstabelle wie in Tabelle 11.5 verwendet. Dabei schreibt man das einfachere Modell, dessen Gültigkeit man überprüfen möchte, in die untere Zeile, notiert dazu die Freiheitsgrade (FG = n − p) und die Summe der Quadrate SQ für dieses Modell. In die zweite Zeile schreibt man das Modell mit mehr Parametern. Für dieses Modell notiert man die Freiheitsgrade, die Summe der Quadrate und das Durchschnittsquadrat (SQ/FG). In die erste Zeile schreibt man schließlich die Differenz der Freiheitsgrade und die Differenz der Summe der Quadrate. Mit diesen Differenzen bildet man ebenfalls das Durchschnittsquadrat und berechnet die Prüfgröße F als Quotient der beiden Durchschnittsquadrate. Eine solche Tabelle werden wir im Rahmen der Varianzanalyse im folgenden Kapitel noch einmal verwenden. Wie bei jedem anderen Hypothesentest hängt die Entscheidung zusätzlich vom gewählten Signifikanzniveau ab. Wenn wir α = 0.01 statt 0.05 verwenden, können wir die Nullhypothese nicht verwerfen, dass die Parabel die Daten ausreichend beschreibt. Je nach Signifikanzniveau kommt man in diesem Beispiel sogar zu dem Ergebnis, dass man an Stelle der kubischen Funktion sogar ein Polynom vierten Grades verwenden sollte. Diese Unsicherheit bezüglich des zu wählenden Modells hängt mit der niedrigen Beobachtungszahl zusammen. Wenn wir uns nicht auf das Jahr 1993 beschränken, sondern den gesamten Datensatz von Januar 1989 bis Februar 1996 heranziehen, kommen wir unabhängig vom gewählten Signifikanzniveau zu dem Ergebnis, dass man eine Kubik zur Beschreibung der Daten verwenden sollte. Abbildung 11.22 zeigt die Daten zusammen mit der angepassten Funktion. Schließlich weisen wir noch einmal darauf hin, dass der Hypothesentest zur Modellauswahl nur dann exakt ist, wenn die Residuen normalverteilt sind. Falls die Residuen diese Bedingung nicht erfüllen, ist er nur annähernd gültig.
Tabelle 11.5 Arbeitstabelle zur Berechnung der Prüfgröße Modell Differenz M1 M2
FG SQ 1 8 9
18 19 37
DQ
F
18 7.58 2.375
11.5 Modellauswahl in der Regressionsanalyse
379
Abb. 11.22 Temperatur und Gasverbrauch mit angepasster Kubik (Gesamtdatensatz)
Es sollen nun noch kurz die zwei am häufigsten vorkommenden Spezialfälle unseres Modellselektionstests vorgestellt und eine Verallgemeinerung angesprochen werden. Oftmals wird in der Literatur nur der Test als F-Test oder Anpassungstest bezeichnet, der das uns vorschwebende komplexere Modell M1 mit dem trivialen Modell, nämlich einer Konstanten (Polynom 0ten Grades) vergleicht, beziehungsweise M2 : yi = θ1 als Nullhypothese aufstellt. Ein anderer Spezialfall ist, wenn M2 nur um einen Parameter kleiner als M1 ist, wie wir es beim vorherigen Beispiel hatten, in dem eine Parabel (M2 ) mit der kubischen Alternative (M1 ) verglichen wurde. Im Grunde testeten wir nur, ob θ4 = 0 eine akzeptable Nullhypothese ist, beziehungsweise, ob die 0 im Konfidenzintervall von θ4 liegt. Das heißt wir haben getestet, ob θ4 statistisch signifikant ungleich Null (oder schlicht signifikant) ist. Dieser Test wird gemeinhin als t-Test bezeichnet, da für gewöhnlich eine ansonsten zu unserer PG quasi äquivalente (aber t-verteilte) Teststatistik angegeben wird. Ihr Quadrat entspricht aber exakt unserer hier vorgestellten PG, dazu sei bemerkt, dass tν22 = F1,ν2 . Das einfachste Beispiel ist, wenn wir im Falle einer linearen Gerade prüfen wollen, ob θ2 = 0. Dann wäre eine geeignete Strategie sicherlich, das Konfidenzintervall von θ2 zu betrachten, um √ zu sehen, ob die Null enthalten ist oder nicht. In anderen Worten, für PGt = θˆ2 nσˆ x /σˆ wäre zu prüfen, ob −tν2 ,α /2 < PGt < tν2 ,α /2 . Ist das der Fall, so können wir die Nullhypothese nicht verwerfen und sagen, θˆ2 ist signifikant, da sein Konfidenzintervall nicht die Null enthält. Wir hätten ebenso gut prüfen können, ob PGt2 < F1,ν2 (α ). Das aber ist exakt unser oben vorgestellter F- oder Wald-Test. Der Beweis hierzu ist übrigens nicht sonderlich aufwendig. Es ist aber beruhigend zu wissen, dass wir demnach mit zwei scheinbar völlig unterschiedlichen Konzepten, nämlich einmal dem Vergleich der quadrierten Residuen der Modelle M1 und M2 und andererseits dem Blick auf das Konfidenzintervall des fraglichen Parameters, zwangsläufig zum selben Ergebnis kommen. Man beachte aber, dass dies nur für den Spezialfall gilt, dass M1 im Vergleich zu M2 genau einen zusätzlichen Parameter beinhaltet, da bei mehreren Parametern deren Kovarianzstruktur ebenfalls berücksichtigt werden müsste, was zwar unser F-Test leistet, aber nicht der Blick auf mehrere Konfidenzintervalle.
380
11 Regressionsanalyse
Schließlich sei noch auf die kurz angesprochene Verallgemeinerung hingewiesen, wenn wir statt nur einer Variablen mit verschiedenen Potenzen, verschiedene erklärende Variablen in einer Regression betrachten. Man erinnere sich hier an unser Beispiel der Anpassung des logarithmierten Lohns. Auch hier kann uns der F-Test leiten, welches Modell wohl das geeigneteste wäre. Weitere Anwendungsbeispiele der Regressionsanalyse diskutierten wir in Kapitel 1, zum Beispiel den Zusammenhang zwischen Weinkonsum und Herzkrankheiten beziehungsweise Fettkonsum und Brustkrebsrisiko (Geraden in Abb. 1.4) oder die Abhängigkeit des Maximalgebots bei Onlineauktionen von der Zeit seit dem ersten Angebot (Parabel in Abb. 1.13). In allen Fällen wurde ein Regressionsmodell mit Hilfe der Methode der kleinsten Quadrate angepasst. Wichtigste Konzepte: • • • • • • • •
Lineares Regressionsmodell Vorhersagefehler und Residuen Methode der kleinsten Quadrate statistische Eigenschaften, Konfidenzintervalle Kausalität R2 , Anpassungsparameter Vorhersageintervall, Prognoseintervall Modellauswahl, Entscheidungsregel, F-Test, Wald-Test, t-Test
Kapitel 12
Faktoreinflüsse — Varianzanalyse
12.1 Einführung in die einfache Varianzanalyse In der Regressionsanalyse haben wir Methoden zum Quantifizieren der Beziehungen zwischen stetigen Merkmalen betrachtet. Wir werden nun die Varianzanalyse kennen lernen, die sich mit Anwendungen beschäftigt, in denen ein Merkmal diskret ist (üblicherweise qualitativ) und eines stetig. In der Regel möchte man bei Anwendung der Varianzanalyse einige Aspekte von zwei oder mehr unterschiedlichen Gruppen von Individuen, Situationen, Vorgehensweisen, Behandlungen etc. miteinander vergleichen. Typische Fragestellungen, die dabei auftreten können und die man evtl. mit Hilfe der Varianzanalyse beantworten kann, sind die folgenden: • Ist ein neues Verfahren (z.B. Produkt, Medizin, Dünger etc.) effektiver als ein bestehendes? • Wie schwankt die Produktivität (z.B. Verkaufsvolumen, Fehlzeiten durch Krankheit etc.) an unterschiedlichen Tagen der Woche (oder Monaten des Jahres)? • Unterscheidet sich eine bestimmte Teilmenge einer Grundgesamtheit (z.B. Arbeitslose, Ausländer, BWL-Studenten, Rentner etc.) in gewisser Hinsicht (z.B. Einkommen, Blutdruck etc.) von anderen in der Grundgesamtheit? Alle genannten Fragestellungen haben gemeinsam, dass überprüft werden soll, ob die Grundgesamtheit aus mehren Teilgesamtheiten besteht, die sich bezüglich eines stetigen Merkmals unterscheiden. Im Allgemeinen können wir uns die Situation so vorstellen, wie sie in Abb. 12.1 dargestellt ist. Wenn wir ein stetiges Merkmal an jedem Individuum der Grundgesamtheit messen, erhalten wir eine Dichtefunktion f (x). Falls wir aber die Grundgesamtheit anhand eines diskreten Merkmals (z.B. Nationalität) in I Teilgesamtheiten teilen und das Merkmal für jede Teilgesamtheit getrennt messen, so erhalten wir I Dichten: f1 (x), f2 (x), . . . , fI (x). Die Frage, die sich dann stellt, lautet wie folgt: Haben die Teilgesamtheiten identische Dichtefunktionen, d.h. gilt f1 (x) = f2 (x) = ... = fI (x) ? W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
381
382
12 Varianzanalyse
Abb. 12.1 Die Grundgesamtheit und die Teilgesamtheiten
Die Methode, die wir betrachten werden, um Fragen dieser Art zu beantworten, ist in der Literatur unter dem Namen Varianzanalyse zu finden. Die Varianzanalyse ist ein mächtiges und hochentwickeltes Werkzeug zur Analyse empirischer Informationen, das in vielen Bereichen Anwendung findet und zum Grundwerkzeug eines Statistikers gehört. An dieser Stelle werden wir allerdings nur die grundlegende Idee, auf der die Varianzanalyse basiert, verdeutlichen und den einfachsten Fall, die sogenannte Einweg-Varianzanalyse, vorstellen. Wir werden im Folgenden anhand eines kleinen hypothetischen Beispiels die Grundidee der Varianzanalyse und ihre Anwendung in einfachen Fällen einführen. Dabei werden wir auch die Notationen und die Formeln angeben, die nötig sind, um etwas kompliziertere Datensätze zu analysieren. Beispiel 12.1. Getreideertrag in Abhängigkeit vom Düngemittel Wir möchten vergleichen, ob zwei unterschiedliche Düngemittel (1 und 2) zu unterschiedlichen Getreideerträgen führen. Der Getreideertrag hängt nicht nur vom benutzten Dünger ab, sondern auch von vielen anderen Faktoren, wie Boden, Wetter und so weiter. Der Ertrag ist somit eine Zufallsvariable. Sei • f1 (x) die Dichtefunktion des Ertrags bei Verwendung von Dünger 1 und • f2 (x) die Dichtefunktion des Ertrags bei Verwendung von Dünger 2. Falls sich die Dünger in ihrer Wirkung unterscheiden, werden die Dichtefunktionen in etwa so aussehen wie diejenigen in Abb. 12.2a. Falls es keinen Unterschied zwischen den Düngern gibt, sind beide Dichtefunktionen ungefähr gleich (siehe Abb. 12.2b). Wir möchten nun überprüfen, ob die Dichtefunktionen für beide Düngersorten gleich sind oder nicht. In mathematischen Symbolen können wir somit die Fragestellung wie folgt formulieren: f1 (x) = f2 (x) ? Um die Frage zu beantworten, müssen wir einen Versuch durchführen, in dem wir jedes Düngemittel ausprobieren und die Erträge vergleichen. Wenn wir genügend Mittel für einen großen Versuch mit Hunderten von Parzellen haben, ist die Frage einfach zu beantworten. Wir könnten die Beobachtungen nutzen und zwei Histo-
12.1 Einführung in die einfache Varianzanalyse
383
Abb. 12.2 Dichtefunktionen der Erträge bei unterschiedlichen Düngern
Abb. 12.3 Histogramme der Erträge bei unterschiedlichen Düngern
gramme für die Erträge mit Dünger 1 und Dünger 2 zeichnen. Wenn die Histogramme dann wie in Abb. 12.3a aussehen, können wir ziemlich sicher sein, dass sich die Düngemittel unterscheiden. Wenn sie aber wie in Abb. 12.3b aussehen, können wir sicher sein, dass sich die Düngemittel kaum unterscheiden.
384
12 Varianzanalyse
Abb. 12.4 Boxplots der Erträge bei unterschiedlichen Düngern
Alternativ könnten wir die Erträge für die beiden Düngersorten auch als Boxplots darstellen, wie z.B. in Abb. 12.4. Boxplots werden häufig vor Durchführung einer Varianzanalyse verwendet, da man mit ihnen auf einen Blick verschiedene Teildatensätze leicht miteinander vergleichen kann. Wenn wir einen Versuch mit sehr vielen Beobachtungen durchgeführt haben, können wir mit Abb. 12.4 relativ sicher entscheiden, ob sich die Verteilungen unterscheiden (wie z.B. in Abb. 12.4a) oder ob sie nahezu gleich sind (wie in Abb. 12.4b). In vielen praktischen Situationen stehen jedoch nur wenige Beobachtungen zur Verfügung, und die Antwort auf die Frage ist nicht so einfach, selbst wenn die Histogramme oder Boxplots der Daten so aussehen wie in den Abbildungen 12.3 und 12.4. Je weniger Beobachtungen uns vorliegen, desto eher könnte es sein, dass die Unterschiede zwischen den beiden Datensätzen nicht durch die Düngemittel, sondern durch andere zufällige Schwankungen entstanden sind. Wir benötigen daher ein objektives Kriterium, das uns hilft (in Abhängigkeit von der Anzahl der Beobachtungen) zu entscheiden, ob sich die zwei Verteilungen tatsächlich unterscheiden oder ob die Unterschiede zwischen den Datensätzen auch durch zufällige Schwankungen entstanden sein könnten. Die Varianzanalyse bietet ein solches Kriterium, dass auch bei relativ wenigen Beobachtungen noch verlässliche Ergebnisse liefert. Im Folgenden werden wir annehmen, dass uns nur 6 Beobachtungen vorliegen, drei Beobachtungen für Dünger 1 und drei für Dünger 2. Wir werden die drei Erträge bei Dünger 1 mit y11 , y12 , y13 bezeichnen, die bei Dünger 2 mit y21 , y22 , y23 . In dieser Schreibweise bezeichnet der erste Index den verwendeten Dünger und der zweite Index die Nummer der Beobachtung für diesen Dünger. Um uns die Grundidee der Varianzanalyse zu verdeutlichen, werden wir zwei hypothetische Datensätze mit jeweils 6 Beobachtungen benutzen, die in den Tabellen 12.1 und 12.2 (mit den jeweiligen Summen und Mittelwerten für beide Düngersorten) gegeben sind. Bevor wir die Datensätze näher betrachten, müssen wir uns noch ein wenig mit der gebräuchlichen Notation der Varianzanalyse beschäftigen. Wir haben gerade bereits gesagt, dass wir z.B. die zweite Beobachtung für Dünger 1 mit y12 bezeichnen. Diese Notation für die Beobachtungen gilt allgemein in der Varianzanalyse:
12.1 Einführung in die einfache Varianzanalyse
385
Tabelle 12.1 Hypothetischer Datensatz I im Düngemittel-Beispiel Düngemittel
1
2
Beobachtungen
84 85 86
71 72 70
255 85
213 71
Summe Mittelwert
Tabelle 12.2 Hypothetischer Datensatz II im Düngemittel-Beispiel. Düngemittel
1
2
Beobachtungen
70 85 100
71 86 56
Summe Mittelwert
255 85
213 71
yi j bezeichnet die j-te Beobachtung in der Teilgesamtheit i In der Regel werden die Beobachtungen in Form einer Tabelle gegeben, ähnlich der Tabellen 12.1 und 12.2 in unserem Düngemittel-Beispiel. Die allgemeine Form einer Daten-Tabelle für die Einweg-Varianzanalyse ist in Tabelle 12.3 dargestellt. Man beachte, dass in diesem Fall der erste Index die Spalte bezeichnet und nicht wie sonst üblich die Zeile. Darüber hinaus verwenden wir die folgende Notation (die wir zum Teil in ähnlicher Form schon im Zusammenhang mit Kontingenztafeln kennen gelernt haben). • Teilsummen der Beobachtungen in den Teilgesamtheiten: yi. = yi1 + yi2 + . . . + yiJ =
J
∑ yi j
j=1
z.B. y2. = y21 + y22 + . . . + y2J =
J
∑ y2 j
j=1
Tabelle 12.3 Allgemeines Aussehen einer Daten-Tabelle in der Einweg-Varianzanalyse j\i 1 2 .. . J
1
2
y11 y21 y12 y22 .. .. . . y1J y2J
...
I
. . . yI1 . . . yI2 . .. . .. . . . yIJ
386
12 Varianzanalyse
• Teilmittelwerte der Beoabachtungen in den Teilgesamtheiten: y¯i. = (yi1 + yi2 + . . . + y1J )/J = yi. /J (z.B. y¯2. = (y21 + y22 + . . . + y2J )/J = y2. /J) • Gesamtsumme aller Beobachtungen: I
J
y.. = y11 + y12 + . . . + yIJ = ∑ ∑ yi j i=1 j=1
• Gesamtmittelwert aller Beobachtungen: y¯.. = (y11 + y12 + . . . + yIJ )/IJ = y.. /IJ Bei dieser Darstellung der Notation haben wir implizit unterstellt, dass in jeder Teilgesamtheit die gleiche Anzahl an Beobachtungen J vorliegt. Auch im Folgenden werden wir zunächst davon ausgehen, dass die Anzahl der Beobachtungen in jeder Teilgesamtheit gleich ist. Später werden wir dann noch sehen, wie sich die Notation und die Vorgehensweise der Varianzanalyse ändert, wenn dies nicht der Fall ist. Wenn wir die eingeführte Notation auf das Dünger-Beispiel übertragen, erhalten wir beispielsweise die Summe der Erträge mit Düngemittel 2 für Datensatz I durch folgende Berechnung: y2. = y21 + y22 + y23 =
3
∑ y2 j = 71 + 72 + 70 = 213
j=1
Der entsprechende Teilmittelwert ergibt sich dann mit y¯2. = y2. /3 = 213/3 = 71 . Alle Teilsummen und Teilmittelwerte für das Dünger-Beispiel sind bereits in den Tabellen 12.1 und 12.2 gegeben. Um die Gesamtsumme aller Erträge für den hypothetischen Datensatz I zu bestimmen, müssen wir einfach alle Erträge aufaddieren: y.. = y11 + y12 + y13 + y21 + y22 + y23 =
2
3
∑ ∑ yi j = 84 + 85 + 86 + 71 + 72 + 70 = 468
i=1 j=1
Dasselbe Ergebnis erhält man, indem man die Teilsummen der beiden Dünger aufsummiert. Der Gesamtmittelwert ergibt sich dann als Quotient aus der Gesamtsumme und der Anzahl der Beobachtungen (n = IJ): y¯.. = y.. /6 = 468/6 = 78 Im Folgenden lernen wir ein Verfahren kennen, mit dem wir die Frage beantworten können, ob die Erträge mit beiden Düngemitteln gleich sind, d.h. ob f1 (x) = f2 (x) ist. Dazu betrachten wir zunächst einmal die grafische Darstellung der beiden hypothetischen Datensätze in Abb. 12.5.
12.1 Einführung in die einfache Varianzanalyse
387
Abb. 12.5 Erträge bei unterschiedlichen Düngern
In Abb. 12.5a ist deutlich sichtbar, dass sich die Erträge der beiden Dünger im hypothetischen Datensatz I klar unterscheiden. Düngemittel 1 führt zu einem höheren mittleren Ertrag als Düngemittel 2 (vergleiche auch Tabelle 12.2). Auch in dem hypothetischen Datensatz II (siehe Abb. 12.5b) führt Dünger 1 zu einem höheren mittleren Ertrag als Dünger 2. Die Mittelwerte der Erträge sind sogar identisch mit denen im hypothetischen Datensatz I (siehe Tabelle 12.3). Allerdings streuen die Erträge in Datensatz II stärker um ihren Mittelwert, so dass der Unterschied zwischen den Düngemitteln nicht so deutlich erscheint wie in Datensatz I. Abbildung 12.5 verdeutlicht die Hauptidee hinter der Varianzanalyse. In Datensatz I sind die Erträge nahe um ihre Mittelwerte angeordnet. Die Variation ist klein im Vergleich zu den Differenzen zwischen den zwei Mittelwerten. Dies macht uns zuversichtlich, dass die Düngemittel tatsächlich zu unterschiedlichen Erträgen führen. In Datensatz II schwanken die einzelnen Erträge sehr. Zwar führt auch hier Dünger 1 zu einem größeren durchschnittlichen Ertrag als Dünger 2, aber auf Grund der großen Streuungen innerhalb der Teilgesamtheiten können wir nicht sicher sein, dass das wieder so wird, wenn wir den Versuch wiederholen. Wir können diese Erkenntnis noch einmal wie folgt zusammen fassen: In Datensatz I ist die Differenz der durchschnittlichen Erträge groß verglichen mit der Variabilität der Erträge der jeweiligen Düngemittel. Wir können daher ziemlich sicher sein, dass sich die Düngemittel unterscheiden. In Datensatz II ist die Differenz der durchschnittlichen Erträge klein im Vergleich zu den Schwankungen der jeweiligen Erträge aus den Düngemitteln. Wir können nicht sicher sein, dass sich die Dünger unterscheiden. Auch wenn wir diese Aussagen hier so „locker“ getroffen haben, stellen sie doch genau die Grundidee dar, nach der die Varianzanalyse entscheidet, ob sich die Verteilungen in den Teilgesamtheiten unterscheiden oder nicht. Die Varianzanalyse verwendet eine Prüfgröße, die die Differenz bzw. Streuung zwischen den Teilgesamtheiten ins Verhältnis zur Streuung innerhalb der Teilgesamtheiten setzt und die auf Basis eines klassischen Hypothesentests beurteilt werden kann. Dabei lauten die zu
388
12 Varianzanalyse
Grunde liegenden Annahmen der Varianzanalyse (formuliert für unser Beispiel): • Die Erträge sind für beide Dünger normalverteilt. • Die Varianzen der beiden Verteilungen sind gleich. Mit anderen Worten, nehmen wir an, dass die zwei Dichtefunktionen in unserem Dünger-Beispiel glockenförmig sind und die gleiche Breite haben. Der Ertrag mit Dünger 1 ist normalverteilt mit Erwartungswert μ1 und Varianz σ 2 , d.h. N(μ1 ; σ 2 ). Der Ertrag mit Dünger 2 ist normalverteilt mit Erwartungswert μ2 und Varianz σ 2 , d.h. N(μ2 ; σ 2 ). Mit diesen Annahmen gilt: f1 (x) = f2 (x) genau dann, wenn μ1 = μ2 Daher lautet die Nullhypothese, die wir testen werden: H0 : μ1 = μ2 Dementsprechend ist die Alternativhypothese, dass sich die Erwartungswerte in den Teilgesamtheiten unterscheiden: H1 : μ1 = μ2 Im allgemeinen Fall, d.h. mit I statt 2 Teilgesamtheiten, lauten die Hypothesen: H0 : μ1 = μ2 = . . . = μI H1 : Nicht alle μi sind gleich Diese beiden Hypothesen entsprechen zwei unterschiedlichen Modellen, mit denen wir die Daten beschreiben können: Modell 1 mit I unterschiedlichen Erwartungswerten μ1 , . . . , μI (H1 ). Die Modellformulierung lautet yi j = μ i + ei j
i = 1, . . . , I; j = 1, . . . , J,
und die Parameter μi werden durch die Teilmittelwerte der Beobachtungen geschätzt, d.h. μˆ 1 = y¯1. , . . . , μˆ I = y¯I. . Modell 2 mit einem Gesamt-Erwartungswert μ (H0 ). Die Modellformulierung lautet yi j = μ + ei j i = 1, . . . , I; j = 1, . . . , J, und der Parameter μ wird durch den Gesamtmittelwert der Beobachtungen geschätzt, d.h. μˆ = y¯.. . Wie in der Regressionsanalyse stellen die ei j in beiden Modellen die zufälligen Abweichungen von den entsprechenden Erwartungswerten oder Residuale dar. Zu beachten ist jedoch, dass die ei j natürlich nicht in beiden Modellen identisch sind.
12.1 Einführung in die einfache Varianzanalyse
389
Unabhängig vom verwendeten Modell wird die mit SQ Total bezeichnete Gesamtstreuung der Beobachtungen (um ihren Mittelwert) durch die Summe der quadrierten Abweichungen der Beobachtungen yi j vom Gesamtmittelwert y¯.. gemessen: I
J
SQ Total = ∑ ∑ (yi j − y¯.. )2 i=1 j=1
Wenn man das unter der Alternativhypothese gültige Modell 1 mit unterschiedlichen Erwartungswerten verwendet, kann man die Gesamtstreuung in zwei Teile zerlegen, einen Teil, der durch das Modell erklärt werden kann (erklärte Streuung SQ(M1 )) und einen Teil, der nicht durch das Modell erklärt werden kann (Reststreuung SQ(Res; M1 )):
SQ Total = I
SQ(M1 ) I
J
+
J
∑ ∑ (yi j − y¯..)2 = ∑ ∑ (y¯i. − y¯..)2
i=1 j=1
SQ(Res; M1 ) I
J
∑ ∑ (yi j − y¯i.)2
+
i=1 j=1
i=1 j=1
Diese Zerlegung der Gesamtstreuung wird auch Identität der Varianzanalyse genannt und lässt sich mit wenigen Rechenschritten nachprüfen. Der durch das Modell 1 erklärte Teil der Streuung SQ(M1 ) ergibt sich aus den Abweichungen der Teilmittelwerte vom Gesamtmittelwert. Der nicht durch Modell 1 erklärte Teil der Streuung SQ(Res; M1 ) ist einfach die Summe der quadrierten Abweichungen der Beobachtungen yi j von den entsprechenden Teilmittelwerten y¯i. : I
I
J
J
SQ(Res, M1 ) = ∑ ∑ (yi j − y¯i. )2 = ∑ ∑ eˆ2i j (M1 ) i=1 j=1
i=1 j=1
Die Abweichungen eˆi j (M1 ) erhalten hier ein Dach, weil es sich um die geschätzten Residuen handelt, und werden zusätzlich mit (M1 ) gekennzeichnet, damit deutlich wird, dass es sich um die geschätzten Residuen unter Modell 1 handelt. Das einfachere Modell 2, das sich bei Gültigkeit von H0 ergibt, ist allein durch den Gesamtmittelwert y¯.. festgelegt. Es trägt daher nicht zur Erklärung der Streuung bei, so dass in diesem Fall die nicht durch das Modell erklärte Streuung SQ(Res; M2 ), die sich als Summe der quadrierten Abweichungen der Beobachtungen yi j vom Gesamtmittelwert y¯.. ergibt, gleich ist der Gesamtstreuung SQ Total: I
J
I
J
SQ(Res; M2 ) = ∑ ∑ (yi j − y¯.. )2 = ∑ ∑ eˆ2i j (M2 ) = SQ Total i=1 j=1
i=1 j=1
Hier entsprechen die Abweichungen der Beobachtungen vom Gesamtmittelwert, eˆi j (M2 ) den geschätzten Residuen unter Modell 2.
390
12 Varianzanalyse
Wir haben jetzt alle Ausdrücke eingeführt, die wir zur Konstruktion der Prüfgröße der einfachen Varianzanalyse benötigen. Die Prüfgröße der einfachen Varianzanalyse lautet: 1 I−1
PG = 1 n−I
I
J
∑ ∑ (y¯i. − y¯.. )2
i=1 j=1 I
J
∑ ∑ (yi j − y¯i. )2
i=1 j=1
Weiter oben haben wir bereits erwähnt, dass die Varianzanalyse eine Prüfgröße verwendet, die die Differenz (bzw. Streuung) zwischen den Teilgesamtheiten ins Verhältnis zur Streuung innerhalb der Teilgesamtheiten setzt. Wenn wir die Prüfgröße PG mit den oben eingeführten Summen vergleichen, werden wir sehen, dass die Doppelsumme im Zähler von PG gleich SQ(M1 ) ist, die Summe der quadrierten Abweichungen der Teilmittelwerte vom Gesamtmittelwert. Der Zähler misst somit gerade die Streuung zwischen den Teilgesamtheiten. Die Doppelsumme im Nenner von PG entspricht gerade SQ(Res; M1 ) (also der Summe der quadrierten Abweichungen der Beobachtungen von den Teilmittelwerten) und repräsentiert somit die Streuung innerhalb der Teilgesamtheiten. Der Quotient aus beiden Doppelsummen misst daher das Verhältnis der Streuung zwischen den Teilgesamtheiten und der Streuung innerhalb der Teilgesamtheiten oder, in anderen Worten, das Verhältnis der durch Modell 1 erklärten Streuung und der nicht erklärten Streuung. Wir haben bisher ignoriert, dass die beiden Doppelsummen noch durch I − 1 bzw. n − I dividiert werden. Diese Divisoren stellen die Freiheitsgrade der beiden Doppelsummen dar. Das Konzept der Freiheitsgrade kann man sich in etwa wie folgt vorstellen: Wenn man n Zahlen so wählen soll, dass ihr Mittelwert einem vorgegebenen Wert entspricht, dann kann man genau n − 1 Zahlen völlig frei wählen, und die letzte Zahl muss dann so gewählt werden, dass sich insgesamt der geforderte Mittelwert ergibt; vergleiche mit Kapitel 11. Übertragen auf Modell 1 bedeutet das, dass wir bei n Beobachtungen insgesamt n − 1 Freiheitsgrade haben (1 Freiheitsgrad wird wieder durch den Gesamtmittelwert „verbraucht“). Von diesen n − 1 Freiheitsgraden entfallen I − 1 auf die erklärte Streuung, weil wir mit den Teilmittelwerten im Vergleich zum Gesamtmittelwert I − 1 zusätzliche Parameter verwenden; die restlichen (n − 1) − (I − 1) = n − I Freiheitsgrade entfallen dann auf die nicht erklärte Streuung. Daher werden die beiden Doppelsummen der Prüfgröße gerade durch I − 1 und n − I geteilt. Die Divisoren dienen dazu, die Doppelsummen, die ja die erklärte und die nicht erklärte Streuung repräsentieren, zu standardisieren bzw. vergleichbar zu machen. Diese Standardisierung ist notwendig, da die erklärte Streuung (und damit automatisch auch die Reststreuung) von der Anzahl der betrachteten Teilgesamtheiten abhängt. Theoretisch ist es möglich, den Anteil der erklärten Streuung immer weiter zu erhöhen, indem man die Daten in immer mehr Teilgesamtheiten zerlegt. Bis hierhin haben wir bei der Konstruktion der Prüfgröße der einfachen Varianzanalyse nur Modell 1 betrachtet. Wir wollen nun auch Modell 2 ins Spiel bringen. Wir können nämlich die Prüfgröße wie folgt umschreiben:
12.1 Einführung in die einfache Varianzanalyse
1 I−1
PG = 1 n−I
I
J
∑ ∑ (y¯i. − y¯.. )2
i=1 j=1 I
391
J
∑ ∑ (yi j − y¯i. )2
=
SQ(M1 )/(I − 1) SQ(Res; M1 )/(n − I)
i=1 j=1
=
(SQ Total − SQ(Res; M1 )) / ((n − 1) − (n − I)) SQ(Res; M1 )/(n − I)
=
(SQ(Res; M2 ) − SQ(Res; M1)) / (FG(M2 ) − FG(M1 )) SQ(Res; M1 )/FG(M1 )
Bei diesen Rechenschritten haben wir ausgenutzt, dass SQ(M1 ) + SQ(Res; M1 ) = SQ Total sowie SQ Total = SQ(Res; M2 ) (siehe oben). Außerdem haben wir FG(M1 ) und FG(M2 ), die Freiheitsgrade der beiden Modelle, neu eingeführt. Allgemein gilt: FG Modell = n − p = Anzahl Beobachtungen − Anzahl Parameter Für die beiden Modelle der einfachen Varianzanalyse erhalten wir: FG(M1 ) = n − I
und
FG(M2 ) = n − 1
Wenn wir noch einmal auf die Modellauswahl in der Regressionsanalyse (Kapitel 11) zurückblicken, werden wir erkennen, dass wir dort genau dieselbe Prüfgröße verwendet haben. Die Prüfgröße der einfachen Varianzanalyse ist in ihrer gerade hergeleiteten Form nichts anderes als eine standardisierte Quantifizierung der Verkleinerung in der Summe der Quadrate der Residuen, wenn man Modell 1 statt Modell 2 verwendet. Natürlich ist es auch möglich, die Prüfgröße in ihrer zuerst vorgestellten Form zu berechnen. Dies hat zumindest dann Vorteile, wenn die Anzahl der Beobachtungen sehr groß ist. In jedem Fall kann man zeigen, dass die Prüfgröße PG unter der Nullhypothese (identischer Erwartungswerte) F-verteilt ist mit ν1 = FG(M2 ) − FG(M1 ) = I − 1 und ν2 = FG(M1 ) = n − I Freiheitsgraden. Wir können daher für ein gegebenes Signifikanzniveau α den kritischen Wert der entsprechenden F-Verteilung ermitteln und den Wert der Prüfgröße mit diesem kritischen Wert vergleichen. Wenn die Prüfgröße größer ist als der kritische Wert, werden wir die Nullhypothese verwerfen, weil alles darauf hindeutet, dass die Erwartungswerte doch nicht identisch sind. Nach dieser theoretischen Einführung in die Prüfgröße werden wir nun anhand der beiden hypothetischen Datensätze des Dünger-Beispiels zeigen, dass die Durchführung der Varianzanalyse in der Praxis viel einfacher ist, als man nach Herleitung
392
12 Varianzanalyse
der Formeln vielleicht erwarten würde. Beginnen wir mit Datensatz I. Wie bereits erwähnt, liegen uns I = 2 Teilgruppen (Düngemittel 1 und Düngemittel 2) mit jeweils J = 3 Beobachtungen vor, so dass wir insgesamt n = IJ = 6 Beobachtungen haben (siehe Tabelle 12.1). Die beiden möglichen Modelle sind in diesem Fall: Modell 1 mit zwei unterschiedlichen Erwartungswerten μ1 , μ2 , die durch die Teilmittelwerte der Beobachtungen geschätzt werden:
μˆ 1 = y¯1. = 85
μˆ 2 = y¯2. = 71
Modell 2 mit einem gemeinsamen Erwartungswert μ , der durch den Gesamtmittelwert der Beobachtungen geschätzt wird:
μˆ = y¯.. = 78 Die beiden Modelle sind in Abb. 12.6 grafisch dargestellt (linke Grafiken). Trotz der unterschiedlichen Skalen an der y-Achse wird deutlich, dass die Dichte in Modell 2 deutlich breiter ist als die beiden Dichten in Modell 1. Dies deutet darauf hin, dass in diesem Fall Modell 1 vermutlich deutlich besser passt. Wie die Varianzen (und somit die konkreten Dichten) der beiden Modelle bestimmt worden sind, werden wir später sehen. Zunächst berechnen wir die geschätzten Residuen für die beiden Modelle. Modell 1: e1 j = y1 j − y¯1. = y1 j − 85
j = 1, 2, 3
e2 j = y2 j − y¯2. = y2 j − 71
j = 1, 2, 3
Modell 2: ei j = yi j − y¯.. = yi j − 78
i = 1, 2;
j = 1, 2, 3
Die konkreten Werte der Residuen sind für Datensatz I in Tabelle 12.4 gegeben. Außerdem sind die Residuen der beiden Modelle sowie ihre Verteilungen in Abb. 12.7 grafisch dargestellt (linke Grafiken). Der Erwartungswert der Residuen ist in beiden Modellen Null; die Varianzen der Residuen entsprechen den Varianzen der Modelle (zur Bestimmung der Varianzen siehe weiter unten). Daher ist die Verteilung der Residuen in Modell 2 deutlich breiter als in Modell 1. Auch dies deutet an, dass Modell 1 in diesem Fall wesentlich besser passt als Modell 2, da die Reststreuung in Modell 1 deutlich reduziert werden konnte. Die Summe der Quadrate der Residuen, die in Tabelle 12.4 bereits angegeben sind, werden wie folgt berechnet: 2
3
SQ(Res; M1 ) = ∑ ∑ (yi j − y¯i. )2 = (84 − 85)2 + (85 − 85)2 + (86 − 85)2+ i=1 j=1
+ (71 − 71)2 + (72 − 70)2 + (70 − 71)2 = 4 2
3
SQ(Res; M2 ) = ∑ ∑ (yi j − y¯.. )2 = (84 − 78)2 + (85 − 78)2 + (86 − 78)2+ i=1 j=1
+ (71 − 78)2 + (72 − 78)2 + (70 − 78)2 = 298
12.1 Einführung in die einfache Varianzanalyse
393
Abb. 12.6 Datensätze I und II im Düngemittel-Beispiel: Modelle
SQ(Res; M1 ) ist erheblich kleiner als SQ(Res; M2 ), weil die Residuen für Modell 1 absolut viel kleiner sind. Dies deutet wieder darauf hin, dass Modell 1 vermutlich besser passt. Zur Berechnung der Prüfgröße benötigen wir noch die Freiheitsgrade der beiden Modelle. In Modell 1 hat man zwei Mittelwerte geschätzt und erhält somit bei n = 6 Beobachtungen FG(M1 ) = 6 − 2 = 4. Modell 2 hat entsprechend FG(M2 ) = 6 − 1 = 5 Freiheitsgrade. Wir haben jetzt alle Größen ermittelt, die wir zur Berechnung der Prüfgröße PG benötigen. In der Regel wird die Prüfgröße mit Hilfe einer Varianzanalyse-Tabelle berechnet, wie sie in Tabelle 12.5 für Datensatz I des Düngemittel-Beispiels dargestellt ist. Wie in der Regressionsanalyse wird der Quotient aus SQ(Res) und FG mit DQ(Res), also als Durchschnittsquadrat der Residuen, bezeichnet. Die Prüfgröße PG wird häufig auch mit F bezeichnet, weil sie unter der Nullhypothese, dass das einfachere Modell 2 gilt, F-verteilt ist; man spricht deshalb wie in der Regression auch in der Varianzanalyse vom F-Test. Wir erhalten hier für die Prüfgröße den Wert PG = 294 (siehe Tabelle 12.5), den wir mit dem kritischen Wert einer F-Verteilung mit ν1 = FG(M2 ) − FG(M1 ) = 5 − 4 = 1 und ν2 = FG(M1 ) = 4 Freiheitsgraden vergleichen müssen. Wenn wir α = 0.05 als Signifikanzniveau verwenden, erhalten wir aus Tabelle A.6 im Anhang den kritischen Wert 7.71. Die Bestimmung des kritischen Wertes wird noch einmal in Abb. 12.8 verdeutlicht. Die Prüfgröße ist viel größer als der kritische Wert, so dass wir die Nullhypothese (H0 : μ1 = μ2 ) verwerfen können. Zu demselben Ergebnis kommen wir, wenn wir
394
12 Varianzanalyse
Tabelle 12.4 Datensatz I im Düngemittel-Beispiel: Berechnung der SQ Modell 1 Die Verteilungen sind verschieden. Düngemittel i
1
2
Modell 2 Die Verteilungen sind identisch. Düngemittel i
1
2
Beobachtungen yi j
84 71 85 72 86 70
Beobachtungen yi j
Mittelwerte y¯i.
85 71
Mittelwert y¯..
Residuen eˆi j = yi j − y¯i.
−1 0 0 1 1 −1
Residuen eˆi j = yi j − y¯..
6 −7 7 −6 8 −8
0 1 1
quadrierte Residuen eˆ2i j
36 49 49 36 64 64
4 4
SQ(Res; M2 ) = ∑i j eˆ2i j FG(M2 ) = n − 1
quadrierte Residuen eˆ2i j SQ(Res; M1 ) = ∑i j eˆ2i j FG(M1 ) = n − I
1 0 1
Abb. 12.7 Datensätze I und II im Düngemittel-Beispiel: Residuen
84 71 85 72 86 70 78
298 5
12.1 Einführung in die einfache Varianzanalyse
395
Abb. 12.8 Ablehnungsbereich einer F[1;4] -Verteilung für α = 0.05
den P-Wert der Prüfgröße betrachten. Der P-Wert, d.h. die Wahrscheinlichkeit, unter der Nullhypothese einen größeren Wert als 294 für PG zu erhalten, ist ungefähr 0.00007. Man würde die Nullhypothese sogar bei α = 0.0001 verwerfen. Wir können uns daher sehr sicher sein, dass Modell 1 deutlich besser passt und die beiden Düngemittel tatsächlich zu unterschiedlichen Erträgen führen. Betrachten wir zum Vergleich den Datensatz II. Wir haben bereits gesehen, dass die mittleren Erträge für die beiden Düngemittel identisch sind mit denen in Datensatz I, dass sie allerdings auch viel stärker um ihre Mittelwerte streuen, so dass der Unterschied zwischen den beiden Düngemitteln nicht so deutlich ist (vergleiche Abb. 12.5). Wir werden nun auch für Datensatz II die Nullhypothese aufstellen, dass sich die Erträge der beiden Düngemittel nicht unterscheiden und somit Modell 2 die Daten bereits hinreichend gut beschreibt. Analog zu Tabelle 12.4 enthält Tabelle 12.6 die Berechnung der Summen der Quadrate SQ für die beiden Modelle für Datensatz II. Die entsprechende Varianzanalyse-Tabelle zur Berechnung der Prüfgröße ist in Tabelle 12.7 enthalten. Wir können hier denselben kritischen Wert verwenden wie für Datensatz I. In diesem Fall ist die Prüfgröße deutlich kleiner als der kritische Wert 7.71; sie ist auch kleiner als der kritische Wert, den man für α = 0.10 erhält. Wir können daher die Nullhypothese, dass sich die Erträge der Düngemittel nicht unterscheiden, für Datensatz II nicht verwerfen.
Tabelle 12.5 Datensatz I im Düngemittel-Beispiel: Varianzanalyse-Tabelle FG SQ(Res) DQ(Res) F (oder PG) Differenz
1
294
294
Modell 1 Modell 2
4 5
4 298
1
294
396
12 Varianzanalyse
Tabelle 12.6 Datensatz II im Düngemittel-Beispiel: Berechnung der SQ Modell 1 Die Verteilungen sind verschieden. Düngemittel i Beobachtungen yi j Mittelwerte y¯i.
Modell 2 Die Verteilungen sind identisch.
1
2
Düngemittel i
70 85 100
71 86 56
Beobachtungen yi j
85
71
Mittelwert y¯..
1
2
70 85 100
71 86 56 78
Residuen eˆi j = yi j − y¯i.
−15 0 0 15 15 −15
Residuen eˆi j = yi j − y¯..
−8 −7 7 8 22 −22
quadrierte Residuen eˆ2i j
225 0 0 225 225 225
quadrierte Residuen eˆ2i j
64 49 484
SQ(Res; M1 ) = ∑i j eˆ2i j FG(M1 ) = n − I
900 4
SQ(Res; M2 ) = ∑i j eˆ2i j FG(M2 ) = n − 1
49 64 484 1 194 5
Tabelle 12.7 Datensatz II im Düngemittel-Beispiel: Varianzanalyse-Tabelle FG SQ(Res) DQ(Res) F (oder PG) Differenz
1
294
294
Modell 1 Modell 2
4 5
900 1 194
225
1.31
Warum wir für Datensatz II zu einer anderen Entscheidung kommen als für Datensatz I, obwohl die mittleren Erträge in beiden Datensätzen identisch sind, wird deutlich, wenn wir auch für Datensatz II die Residuen unter beiden Modellen betrachten. Diese sind in den beiden rechten Grafiken von Abb. 12.7 zusammen mit ihren Verteilungen dargestellt. Für Datensatz II sind die Residuen (im Gegensatz zu Datensatz I) unter Modell 1 nicht viel kleiner als unter Modell 2. Die Reststreuung konnte also durch die Verwendung unterschiedlicher mittlerer Erträge für die beiden Düngemittel kaum reduziert werden. In diesem Fall ist es überhaupt nicht klar, dass die Dünger zu unterschiedlichen Erträgen führen. Zu demselben Ergebnis kommen wir natürlich, wenn wir statt der Verteilung der Residuen die Verteilungen der Beobachtungen unter den beiden Modellen in Abb. 12.6 (rechte Grafiken) betrachten. Die Verteilungen unter Modell 1 sind annähernd so breit wie unter Modell 2 und überschneiden sich stark, so dass sich die Düngemittel (im Gegensatz zu Datensatz I) anscheinend kaum unterschiedlich auf den Ertrag auswirken. Der Vergleich der beiden Datensätze verdeutlicht die Grundidee der Varianzanalyse, die Streuung zwischen den Teilgesamtheiten ins Verhältnis zur Streuung inner-
12.2 Erweiterungen der einfachen Varianzanalyse
397
halb der Teilgesamtheiten zu setzen, um zu entscheiden, ob sich die Teilgesamtheiten tatsächlich signifikant unterscheiden. In Datensatz I ist die Streuung innerhalb der Teilgesamtheiten relativ klein, so dass wir zu dem Ergebnis kommen, dass sich die Erwartungswerte der Erträge für die beiden Düngemittel tatsächlich unterscheiden. In Datensatz II dagegen ist die Streuung innerhalb der Teilgesamtheiten noch so groß, dass wir uns nicht sicher sein können, ob sich die Erwartungswerte tatsächlich unterscheiden oder ob die Differenz zwischen den Erwartungswerten allein durch zufällige Schwankungen entstanden ist.
12.2 Erweiterungen der einfachen Varianzanalyse Bislang haben wir angenommen, dass in jeder Teilgesamtheit die gleiche Anzahl an Beobachtungen vorliegt. Dies ist in vielen praktischen Anwendungsfällen nicht der Fall. Daher werden wir jetzt sehen, welche Änderungen sich ergeben, wenn die Anzahl der Beobachtungen nicht in allen Teilgesamtheiten identisch ist. Das grundsätzliche Vorgehen der Varianzanalyse bleibt hierbei gleich, allerdings müssen wir die Notation hierzu anpassen. Nehmen wir an, wir betrachten I Teilgesamtheiten, in denen Ji (i = 1, . . . , I) Beobachtungen vorliegen; dann verwenden wir die folgende Notation: • Beobachtungen in den Teilgesamtheiten Ji Beobachtungen in Teilgesamtheit i : yi1 , yi2 , . . . , yiJi (z.B. J2 Beobachtungen in Teilgesamtheit 2 : y21 , y22 , . . . , y2J2 ) • Teilsummen der Beobachtungen in den Teilgesamtheiten: yi. = yi1 + yi2 + . . . + yiJi =
Ji
∑ yi j
j=1
z.B. y2. = y21 + y22 + . . . + y2J2 =
J2
∑ y2 j
j=1
• Teilmittelwerte der Beobachtungen in den Teilgesamtheiten: y¯i. = (yi1 + yi2 + . . . + y1Ji )/Ji = yi. /Ji (z.B. y¯2. = (y21 + y22 + . . . + y2J2 )/J2 = y2. /J2 ) • Gesamtsumme aller Beobachtungen: I
Ji
y.. = y11 + y12 + . . . + yIJI = y1. + y2. + . . . + yI. = ∑ ∑ yi j i=1 j=1
• Gesamtmittelwert aller Beobachtungen: y¯.. = y.. /(J1 + J2 + . . . + JI ) = y.. /n
398
12 Varianzanalyse
Der einzige Unterschied im Vergleich zu dem Fall mit identischer Beobachtungszahl in allen Teilgesamtheiten besteht darin, dass bei der Berechnung von Summen und Mittelwerten die entsprechende Anzahl Ji der betrachteten Teilgesamtheit i berücksichtigt werden muss. Entsprechend muss auch die Prüfgröße der Varianzanalyse in ihrer ursprünglichen Form angepasst werden: 1 I−1
PG = 1 n−I
I
Ji
∑ ∑ (y¯i. − y¯.. )2
i=1 j=1 I Ji
∑ ∑ (yi j − y¯i. )2
i=1 j=1
Man kann aber auch wieder die Prüfgröße in der folgenden Form verwenden: PG =
(SQ(Res; M2 ) − SQ(Res; M1 )) / (FG(M2 ) − FG(M1 )) SQ(Res; M1 )/FG(M1 )
An dieser Form der Prüfgröße wird deutlich, dass sich die praktische Anwendung der Varianzanalyse bei unterschiedlicher Beobachtungszahl in den Teilgesamtheiten im Grunde nicht von dem Fall identischer Beobachtungszahlen unterscheidet, mit der Ausnahme, dass bei der Berechnung der Summen, Mittelwerte und Summen der Quadrate immer die unterschiedliche Anzahl der Beobachtungen in den Teilgesamtheiten berücksichtigt werden muss. Es gibt auch viele praktische Fragestellungen, in denen das Verhalten des interessierenden stetigen Merkmals nicht nur von einem diskreten bzw. qualitativen Merkmal abhängt, sondern von zwei oder mehr Merkmalen und gegebenenfalls ihren sogenannten Wechselwirkungen. Beispielsweise wäre es denkbar, in unserem Düngemittel-Beispiel die Art des Bodens als weiteres erklärendes Merkmal zu berücksichtigen, und dann eventuell sogar eine Wechselwirkung zwischen der Art des Bodens und dem verwendeten Dünger. Das Vorgehen der Varianzanalyse ist auch bei solchen komplexeren Fragestellungen analog zu unserem Vorgehen im einfachen Düngemittel-Beispiel und basiert dabei immer auf der gerade vorgestellten Grundidee des Vergleichs der Streuung zwischen den Teilgesamtheiten mit der Streuung innerhalb der Teilgesamtheiten. Der Hauptunterschied besteht darin, dass die Daten anhand aller betrachteten Merkmale in Teilgesamtheiten zerlegt werden. Dies nennt man Mehrweg-Varianzanalyse, die uns aber weit über eine Einführung hinausführen würde. Im Folgenden werden wir stattdessen noch einige Anwendungsbeispiele der einfachen Varianzanalyse vorstellen.
12.3 Anwendungsbeispiele der einfachen Varianzanalyse Die Varianzanalyse ist mit ihren Erweiterungen eine wichtige und weit verbreitete Methode, die in den unterschiedlichsten Bereichen Anwendung findet. Eine besonders große Rolle spielt sie bei der Auswertung experimenteller Untersuchungen,
12.3 Anwendungsbeispiele der einfachen Varianzanalyse
399
bei denen die erklärenden Merkmale kontrolliert werden können und das Verhalten des zu erklärenden Merkmals analysiert werden soll. Beispielsweise wird die Varianzanalyse zur Auswertung klinischer Studien verwendet, bei denen verschiedene Gruppen von Patienten unterschiedliche Behandlungen erhalten und dann beispielsweise die Heilungs- oder Rückfallquote erhoben wird. Im wirtschaftswissenschaftlichen Bereich findet die Varianzanalyse vor allem bei Fragestellungen des Marketing bzw. der Marktforschung Anwendung. Mögliche Fragestellungen, die mit Hilfe der Varianzanalyse beantwortet werden können, sind: • Wie wirken sich bestimmte Produkteigenschaften (wie z.B. die Art der Verpackung) auf die Akzeptanz des Produkts bei potenziellen Kunden aus? • Wie wirkt sich die Platzierung eines Produktes im Geschäft auf den Absatz aus? • Wie wirkt sich ein bestimmtes Marketinginstrument (z.B. Art der Werbung) auf die Absatzzahl aus? Die letztgenannte Fragestellung wollen wir im Folgenden näher betrachten. Beispiel 12.2. Absatz in Abhängigkeit von der Art der Werbung Wir verwenden erneut einen Ausschnitt der Scanner-Daten, die in der ERIM Database des Kilts Center for Marketing der University of Chicago auf der Internetseite http://research.chicagogsb.edu/marketing/databases/index.aspx zur Verfügung gestellt werden (Stand: 29.08.2008; vergleiche auch Beispiel 10.1). In diesem Fall betrachten wir die Verkaufszahlen von Erdbeer-Joghurt einer bestimmten Sorte in einem Supermarkt in Sioux Falls (SD) im Zeitraum Oktober 1986 bis Juli 1988 und möchten den Einfluss des Anzeigentyps auf die wöchentliche Verkaufszahl untersuchen. Um den Preiseinfluss auf den Absatz auszuschließen, beschränken wir unsere Betrachtung auf diejenigen Wochen, in denen das Joghurt-Produkt zu einem vergleichbaren Preis von rund 34 US-Cent angeboten wurde. Bei diesem Preis handelt es sich um einen Sonderpreis, der normale Verkaufspreis lag bei rund 44 US-Cent. Die interessierende Frage ist nun, ob die wöchentliche Absatzzahl, die sich bei diesem Sonderpreis ergibt, zusätzlich noch durch Anzeigen, die auf den Sonderpreis hinweisen, beeinflusst werden kann. Insgesamt liegen uns die Verkaufszahlen für 21 Wochen vor, wobei in jeweils 7 Wochen keine Anzeige, eine kleine Anzeige oder eine große Anzeige geschaltet wurde. Die Daten sind in Tabelle 12.8 gegeben. Boxplots der Verkaufszahlen in den drei Teilgesamtheiten sind in Abb. 12.9 dargestellt. Es scheint, als ob die Verkaufszahlen vom Anzeigentyp abhängen könnten, aber es ist auf Grund der Überschneidungen der drei Boxen schwer zu beurteilen, ob die Unterschiede in den beobachteten Werten tatsächlich durch den Einfluss des Anzeigentyps erklärt werden können oder auf zufällige Schwankungen zurückzuführen sind. Wir werden daher mit Hilfe der Varianzanalyse untersuchen, ob der Unterschied in den Verkaufszahlen tatsächlich signifikant mit dem Anzeigentyp zusammenhängt.
400
12 Varianzanalyse
Tabelle 12.8 Wöchentliche Verkaufszahl in Abhängigkeit vom Anzeigentyp Anzeigentyp
Beobachtungen
keine klein groß 15 28 18 30 25 19 18
34 32 22 44 15 16 29
27 23 35 46 45 22 33
Wir haben I = 3 Teilgesamtheiten mit je 7 Beobachtungen (J1 = J2 = J3 = 7; n = 21) und werden die Nullhypothese testen, dass die erwartete wöchentliche Verkaufszahl für alle Anzeigentypen gleich ist: H0 : μ1 = μ2 = μ3 Die alternative Hypothese lautet: H1 : Die Erwartungswerte μ1 , μ2 , μ3 sind nicht alle gleich. Wir betrachten also wieder zwei Modelle: Modell 1 (unter H1 ): yi j = μi + ei j Modell 2 (unter H0 ): yi j = μ + ei j
i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7 i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7
Die Residuen und die Summen der Quadrate unter den zwei Modellen werden in Tabelle 12.9 berechnet. Um die weiteren Berechnungen zu vereinfachen, haben wir die mit * gekennzeichneten Mittelwerte gerundet; die Rundungsfehler, die dadurch entstehen, können in diesem Fall vernachlässigt werden. Tabelle 12.10 enthält die entsprechende Varianzanalyse-Tabelle und damit die Berechnung der Prüfgröße. Es ergibt sich hier ein Wert von 2.75 für die Prüfgröße (das exakte Ergebnis bei nicht gerundeten Mittelwerten wäre 2.74). Diesen Wert müssen wir mit dem kritischen Wert einer F-Verteilung mit den Parametern ν1 = I − 1 = 3 − 1 = 2 und ν2 = n − I = 21 − 3 = 18 vergleichen. Für ein Signifikanzniveau von α = 0.05 lesen wir in Tabelle A.6 den kritischen Wert 3.55 ab.
Abb. 12.9 Wöchentliche Verkaufszahl in Abhängigkeit vom Anzeigentyp
12.3 Anwendungsbeispiele der einfachen Varianzanalyse
401
Tabelle 12.9 Verkaufszahl und Anzeigentyp: Berechnung der SQ Modell 1 Die Verteilungen sind verschieden. Anzeigentyp
keine klein 15 28 18 30 25 19 18
groß
Modell 2 Die Verteilungen sind identisch. Anzeigentyp
34 32 22 44 15 16 29
27 23 35 46 45 22 33
Beobachtungen
Mittelwerte
22∗ 27∗
33
Mittelwert
Residuen
−7 7 6 5 −4 −5 8 17 3 −12 −3 −11 −4 2
−6 −10 2 13 12 −11 0
Residuen2
49 49 36 25 16 25 64 289 9 144 9 121 16 4
36 100 4 169 144 121 0
Beobachtungen
SQ(Res; M1 ) FG(M1 )
1 430 18
keine klein groß 15 28 18 30 25 19 18
34 32 22 44 15 16 29
27 23 35 46 45 22 33 27∗
Residuen
−12 7 1 5 −9 −5 3 17 −2 −12 −8 −11 −9 2
0 −4 8 19 18 −5 6
Residuen2
144 49 1 25 81 25 9 289 4 144 64 121 81 4
0 16 64 361 324 25 36
SQ(Res; M2 ) FG(M2 )
1 867 20
Da die Prüfgröße kleiner ist als dieser kritische Wert, können wir die Nullhypothese, dass die erwarteten Verkaufszahlen in den drei Teilgesamtheiten gleich sind, bei diesem Signifikanzniveau nicht verwerfen. Alternativ können wir auch den P-Wert, d.h. die Wahrscheinlichkeit, einen größeren Wert für die Prüfgröße zu erhalten als 2.75, berechnen; dieser beträgt hier rund
Tabelle 12.10 Verkaufszahl und Anzeigentyp: Varianzanalyse-Tabelle FG SQ(Res) DQ(Res) F (oder PG) Differenz
2
437
218.5
Modell 1 Modell 2
18 20
1 430 1 867
79.4
2.75
402
12 Varianzanalyse
0.09. Der P-Wert sagt uns, dass wir die Nullhypothese für α = 0.10 noch verwerfen könnten. Insofern hängt es hier vom verwendeten Signifikanzniveau, also von der erwünschten Sicherheit, ab, ob wir die Nullhypothese verwerfen oder nicht. Wenn wir die Nullhypothese verwerfen, ist dies allerdings mit einer Wahrscheinlichkeit von 9% eine falsche Entscheidung. Das heißt, anhand dieser Daten ist man nicht in der Lage, mit großer Sicherheit nachzuweisen, dass der Anzeigentyp einen Einfluss auf die erwartete wöchentliche Verkaufszahl hat. Dies könnte daran liegen, dass der Anzeigentyp (zumindest in dem betrachteten Fall) tatsächlich keinen Einfluss auf die Absatzzahl hat oder aber dass der Einfluss nicht so deutlich ist, als dass er sich mit der relativ geringen Anzahl an Beobachtungen schon statistisch nachweisen ließe. In jedem Fall sollte man auch immer prüfen, ob die zu Grunde liegenden Annahmen erfüllt sind, da das Ergebnis der Varianzanalyse nur dann verlässlich ist. Eine Annahme besagt, dass die wöchentlichen Verkaufszahlen normalverteilt sind. Zwar ist die Verkaufszahl eigentlich ein diskretes Merkmal, aber wenn die Verkaufszahlen nicht zu klein sind, können wir sie auch als annähernd normalverteilt betrachten, so dass die Annahme zumindest annähernd erfüllt ist. Problematischer ist hier vielleicht die Annahme gleicher Varianzen in allen Gruppen. Abbildung 12.9 deutet bereits darauf hin, dass die Streuung nicht in allen drei Gruppen gleich ist; und tatsächlich beträgt die Varianz in der Teilgesamtheit keine Anzeige nur rund 1/3 der Varianz in den anderen beiden Gruppen. Da wir allerdings insgesamt nur relativ wenige Beobachtungen in den drei Gruppen haben, wollen wir davon ausgehen, dass die unterschiedlichen Varianzen auf zufällige Schwankungen zurückzuführen sind und die Annahme identischer Varianzen doch erfüllt ist. Problematischer ist sicher die Tatsache, dass die Daten aus verschiedenen Wochen stammen und somit durch andere externe Faktoren (wie z.B. das Wetter), die wir nicht beobachtet haben, beeinflusst worden sein könnten. Daher ist es in der Regel sinnvoller, die Wirkung einzelner Marketing-Instrumente, wie z.B. des Anzeigentyps, mit Hilfe spezieller Experimente zu untersuchen, und nicht anhand vergangener Verkaufsdaten aus verschiedenen Perioden. Gehen wir nun aber noch einmal davon aus, dass wir α = 0.10 verwenden und damit die Nullhypothese verwerfen. Wir erhalten dann Modell 1 mit den drei unterschiedlichen Erwartungswerten μˆ 1 = 22, μˆ 2 = 27 und μˆ 3 = 33. Die Varianz, die annahmegemäß für alle drei Teilgesamtheiten identisch ist, entspricht gerade der Varianz der Residuen, und diese schätzen wir durch 2 σˆ M = DQ(Res; M1 ) = 1
SQ(Res; M1 ) 1430 = ≈ 79.4 . FG(M1 ) 18
Abbildung 12.10 zeigt eine grafische Darstellung der drei angepassten Dichtefunktionen für Modell 1. Zusätzlich enthält Abb. 12.10 die Dichtefunktion, die sich für Modell 2 ergibt. Unter Modell 2 ist μˆ = 27, und die Varianz wird ebenfalls durch das Durchschnittsquadrat der Residuen geschätzt: 2 σˆ M = DQ(Res; M2 ) = 2
SQ(Res; M2 ) 1867 = = 93.35 FG(M2 ) 20
12.3 Anwendungsbeispiele der einfachen Varianzanalyse
403
Abb. 12.10 Verteilungen unter Modell 1 und Modell 2
Dieser Schätzer entspricht dem erwartungstreuen Schätzer der Varianz S∗2 , den wir in Kapitel 7 kennen gelernt haben. Bei Betrachtung der Varianzen der beiden Modelle bzw. der Dichten in Abb. 12.10 wird deutlich, dass sich die Varianz durch die Berücksichtigung des Anzeigentyps nicht sehr stark verringert hat. Auch sind die unterschiedlichen Verteilungen unter Modell 1 nicht sehr stark getrennt. Man sollte daher eventuell in weiteren Untersuchungen überprüfen, ob der Anzeigentyp tatsächlich einen Einfluss auf die Verkaufszahl hat. Die Varianzanalyse wird natürlich nicht nur im Marketing verwendet. Es gibt auch viele weitere Fragestellungen mit wirtschaftswissenschaftlichem Bezug, die mit Hilfe der Varianzanalyse betrachtet werden können, wie z.B. • Hängt die Höhe des Einstiegsgehalts eines Absolventen von der Art des Abschlusses (Bachelor, Master, Diplom) ab? • Unterscheidet sich die Miete pro m2 in Hannover von der in Göttingen? • Hängt das Maximalgebot bei Online-Auktionen vom Wochentag ab, an dem die Auktion endet? Die Varianzanalyse ist so wichtig, weil sie ein objektives Kriterium zur Beantwortung solcher Fragen liefert. Die letztgenannte Fragestellung haben wir übrigens in Kapitel 1 bereits einmal angesprochen, als wir das Maximalgebot für Auktionen eines bestimmten Handy-Typs in Abhängigkeit vom Wochentag betrachtet haben (vergleiche Beispiel 1.9, insbesondere Abb. 1.13). In diesem Beispiel, bei dem im Übrigen die Anzahl der endenden Auktionen nicht an jedem Wochentag gleich ist (also nicht für jeden Tag die gleiche Anzahl an Beobachtungen vorliegt), lässt sich allerdings kein Einfluss des Wochentags nachweisen, da der entsprechende P-Wert der Varianzanalyse sehr groß ist.
404
12 Varianzanalyse
Wichtigste Konzepte: • • • • •
Idee der Varianzanalyse Varianzzerlegung Varianzanalyse-Tabelle Annahmen der Varianzanalyse F-Test
Kapitel 13
Der Zufall im Zeitverlauf — Zeitreihen und Indizes
13.1 Klassische Zeitreihenanalyse 13.1.1 Einführung Wenn wir bisher Beobachtungen einer Variablen untersucht haben, handelte es sich meistens um die folgende Situation: Es wurde eine Stichprobe aus einer Grundgesamtheit gezogen und es wurden die Werte einer Variablen bei verschiedenen Merkmalsträgern untersucht. • • • • • •
Das Alter zufällig ausgewählter Personen Die Brenndauer von Glühbirnen Die Höhe von Bäumen Die Ausgaben für Lebensmittel in verschiedenen Familien Die Umsätze in verschiedenen Firmen Die Ernteerträge in verschiedenen Parzellen
Meistens wird zu einem festen Zeitpunkt bei verschiedenen Mitgliedern einer Population ein Merkmal beobachtet. Die Messungen können auch nacheinander erfolgt sein, wie z.B. die Flugzeiten für einen bestimmten Linienflug von Frankfurt nach Berlin. Wir können aber stets an unabhängige und identische Wiederholungen des gleichen Experiments denken. Bei den Variablen, die wir jetzt betrachten werden, werden die Werte einer Variablen zu verschiedenen aufeinanderfolgenden Zeitpunkten an einem Merkmalsträger beobachtet. • • • • •
Monatlicher Umsatz einer Firma Wöchentliche Verkaufszahlen eines bestimmten Produkts Jährliche Anzahl der neu zugelassenen PKW in der Stadt Göttingen Monatliche Entwicklung der Arbeitslosenzahlen in Deutschland Täglicher Kurs einer Aktie
Hier ist man an der zeitlichen Entwicklung der Werte dieser Variablen interessiert. Da wir es mit einer Reihe von Daten zu tun haben, die mit der Zeit erhoben W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
405
406
13 Zeitreihenanalyse und Indizes
Abb. 13.1 Monatliche Steuereinnahmen in Mrd. e in der Bundesrepublik Deutschland von Januar 1992 bis Dezember 2007
wurden, spricht man von einer Zeitreihe. Die Zeitpunkte, zu denen die Daten erhoben wurden, werden meistens mit t = 1, 2, . . . , n bezeichnet. Die Werte dieser Variablen werden dann mit x1 , x2 , . . . , xt , . . . , xn oder y1 , y2 , . . . , yt , . . . , yn bezeichnet. Der erste Schritt in jeder Zeitreihenanalyse ist die grafische Darstellung. Beispiel 13.1. Monatliche Steuereinnahmen in Deutschland Abbildung 13.1 zeigt die monatlichen Steuereinnahmen (in Mrd. e) in der Bundesrepublik Deutschland von Januar 1992 bis Dezember 2007.1 Die Zeit ist auf der Abszisse abgetragen, die Werte der Zeitreihe auf der Ordinate. Die einzelnen Werte sind linear verbunden, um die zeitliche Veränderung sichtbar zu machen. Der erste Eindruck von diesen Daten ist eine allmähliche Aufwärtsbewegung. Im Großen und Ganzen steigen die Werte der Variablen mit wachsender Zeit an. Man sagt dann, die Zeitreihe hat einen Trend, der in diesem Fall steigend ist. Auffallend an diesem Bild sind ferner die deutlichen Spitzen, die jeweils zum Monat Dezember gehören. Dazwischen gibt es jeweils drei kleinere Spitzen, die zu den Monaten März, Juni und September gehören, wobei die Spitze im März ab dem Jahr 2000 immer weiter zurückgeht. Die restlichen Monate liegen dagegen annähernd auf demselben niedrigen Niveau. Noch deutlicher wird diese Struktur, die in den Daten steckt, wenn wir nur einen Ausschnitt der Daten betrachten, wie auf der linken Seite in Abb. 13.2, die die monatlichen Steuereinnahmen der Jahre 1995, 2000 und 2005 jeweils untereinander zeigt. Auf der rechten Seite in Abb. 13.2 sind die entsprechenden prozentualen Anteile der Monate am gesamten Jahresaufkommen abgetragen. Man erkennt, dass diese in den drei Jahren annähernd gleich waren. Dieses Muster zeigt sich auch in den anderen Jahren. Die Zeitreihe hat also neben Trend noch eine ganz besondere jährlich wiederkehrende Struktur, die man als Saisonkomponente bezeichnet. 1
Die Daten wurden aus den Statistischen Monatszahlen, dem Tabellenteil der monatlich erscheinenden Zeitschrift Wirtschaft und Statistik des Statistischen Bundesamtes entnommen und umfassen die kassenmäßigen Einnahmen des Bundes, der Länder sowie aus EU-Eigenmitteln, wie z.B. Zöllen. Die Einnahmen der Gemeinden sind nicht in den Steuereinnahmen enthalten, da sie nur quartalsweise gegeben sind; sie machen in der Regel 10 bis 15 Prozent der gesamten jährlichen Steuereinnahmen aus.
13.1 Klassische Zeitreihenanalyse
407
Abb. 13.2 Monatliche Steuereinnahmen in Mrd. e in der Bundesrepublik Deutschland in den Jahren 1995, 2000 und 2005
Das Ziel der klassischen Zeitreihenanalyse ist, die Zeitreihe in übersichtliche Komponenten zu zerlegen, nämlich den Trend, die Saisonkomponente und die Residuen. Im additiven Modell werden die Werte der Zeitreihe als Summe der Komponenten dargestellt: xt = Tt + St + et , t = 1, 2, . . . , n Im multiplikativen Modell sind sie ein Produkt der Komponenten: xt = Tt · St · et ,
t = 1, 2, . . . , n
Der Trend soll die langfristige Entwicklung der Zeitreihe darstellen. Die Saisonkomponente soll das konstante Muster, das sich jedes Jahr wiederholt, beschreiben. Wenn man den Trend und die Saisonkomponente bestimmt hat, sind die Residuen im additiven Modell einfach die Abweichungen: et = xt − Tt − St ,
t = 1, 2, . . . , n
408
13 Zeitreihenanalyse und Indizes
Sie zeigen, wie weit die Werte der Zeitreihe (xt ) von der Summe der gegebenen Komponenten Tt und St abweichen. Diese Richtlinien sind aber keine mathematischen Definitionen. Was man genau als Trend betrachten will, darf man selber entscheiden. Die Entscheidung hängt auch davon ab, welche Ziele man mit der Datenbeschreibung erreichen will. Manchmal wird der Trend zusätzlich in zwei Komponenten zerlegt, nämlich in einen einfachen Trend Rt (oft eine Gerade) und einen Konjunkturzyklus Zt . Im additiven Modell hat man dann t = 1, 2, . . . , n Tt = Rt + Zt , Eine solche zusätzliche Zerlegung werden wir hier nicht weiter verfolgen. Wir werden zeigen, wie man den Trend und die Saisonkomponente bestimmen kann und welche Ideen dahinterstecken. Bildet man den Logarithmus von xt im multiplikativen Modell, so erhält man ein additives Modell für die Logarithmen der Werte: log(xt ) = log(Tt ) + log(St ) + log(et ) ,
t = 1, 2, . . . , n
Die erste Entscheidung, die man bei der klassischen Zeitreihenanalyse treffen muss, ist, ob man ein additives Modell oder ein multiplikatives Modell verwenden
Abb. 13.3 Abweichungen der Monatswerte vom Jahresdurchschnitt
13.1 Klassische Zeitreihenanalyse
409
soll. Im zweiten Fall wird ein additives Modell an die Logarithmen der Daten angepasst, d.h. die Daten werden erst transformiert. Das Ziel der Transformation ist es, die Saisonschwankungen etwa gleich groß zu machen. Zum Beispiel ist in Abb. 13.1 deutlich zu sehen, dass nicht nur das allgemeine Niveau der Zeitreihe mit der Zeit angestiegen ist, sondern dass auch die Saisonschwankungen größer geworden sind. Dieses Verhalten der Saisonschwankungen ist typisch für multiplikative Zeitreihen: Wenn das Niveau hoch ist, sind die Schwankungen entsprechend größer.Dass diese Schwankungen nicht konstant sind, kann man in Abb. 13.3 sehen. Sie zeigt für jeden Monat die Abweichungen des Monatswertes vom Jahresdurchschnitt. Vor allem in den Monaten Juni, September und Dezember, die durch die Spitzen gekennzeichnet waren, fällt auf, dass die Abweichungen vom Jahresmittelwert mit der Zeit tendenziell größer geworden sind. Im März dagegen ist mit der Zeit aus einer deutlich positiven Abweichung eine negative Abweichung geworden. Dies hatte sich bereits in Abb. 13.1 angedeutet und zeigt uns, dass man bei einer gegebenen Zeitreihe nicht blindlings darauf vertrauen kann, dass die Reihe in der gewohnten Weise weiterlaufen wird. Wenn man die logarithmierten Werte der Zeitreihe betrachtet (Abb. 13.4), sieht man, dass die Saisonschwankungen (mit Ausnahme des Monats März) in allen Mo-
Abb. 13.4 Abweichungen der logarithmierten Monatswerte vom Jahresdurchschnitt
410
13 Zeitreihenanalyse und Indizes
Abb. 13.5 Logarithmen der monatlichen Steuereinnahmen
Abb. 13.6 Beispiel einer Zeitreihe, die weder additiv noch multiplikativ ist
naten etwa gleich groß bleiben, so dass die Monatsanteile bei der logarithmierten Zeitreihe als additive Komponenten betrachtet werden können. Die Werte im Dezember sind z.B. etwa 0.6 (log Mrd. e) höher als der Jahresdurchschnitt. Dieses Verhalten bedeutet, dass die prozentuale Verteilung der Jahressummen auf die 12 Monate etwa konstant bleibt (etwa wie auf der rechten Seite in Abb. 13.2). Abbildung 13.5 zeigt die Logarithmen der monatlichen Steuereinnahmen. Man sieht, dass die Saisonschwankungen etwa konstant sind. Manche Zeitreihen sind weder additiv noch multiplikativ. Es kann z.B. passieren, dass die Saisonschwankungen mit steigendem Niveau auch steigen, aber wenn man die Werte logarithmiert, passiert das Gegenteil. In solchen Fällen kann man eine alternative Transformation ausprobieren, z.B. die Quadratwurzel-Transformation √ xt . Man versucht eine Transformation zu finden, so dass die transformierten Werte etwa additiv sind, d.h. die Saisonschwankungen etwa gleich groß sind. Abbildung
13.1 Klassische Zeitreihenanalyse
411
13.6 zeigt eine künstlich erzeugte Zeitreihe, die weder additiv noch multiplikativ ist, aber additiv wird, wenn man die Quadratwurzeln der Werte betrachtet. Erst wenn die Saisonschwankungen in etwa additiv sind, kann die Zeitreihe in die Komponenten Trend, Saisonkomponente und Residuen zerlegt werden. Bevor diese Zerlegung dargelegt wird, soll jedoch zunächst anhand eines Beispiels gezeigt werden, wie man den Trend bei Zeitreihen ohne Saisonschwankungen bestimmt.
13.1.2 Zerlegung von Zeitreihen ohne Saisonschwankungen Im ersten Kapitel wurde bereits die Entwicklung des Aktienkurses der Deutschen Bank in den Jahren 2006 und 2007 betrachtet (Beispiel 1.6). Der zeitliche Verlauf beziehungsweise die Zeitreihe der täglichen Schlusskurse in diesem Zeitraum wurde in Abb. 1.5 dargestellt. Den Ausschnitt der Schlusskurse, der bereits in Tabelle 1.4 gegeben war, zeigt noch einmal Tabelle 13.1. Diese Zeitreihe verhält sich ganz anders als die vorige. Sie hat keine Saisonkomponente, jedoch einen Trend, der mehrfach seine Richtung wechselt. Wir werden diese Zeitreihe als Beispiel verwenden, um zu zeigen, wie man den Trend einer Zeitreihe bestimmen kann. Tabelle 13.1 Schlusskurse der Deutsche Bank Aktie und gleitende Durchschnitte für a = 1, 2, 5 Index
Datum
Kurs
a=1 a=2 a=5
1 2 3 4 5 6 7 8 9 10 .. .
2. Jan. 2006 3. Jan. 2006 4. Jan. 2006 5. Jan. 2006 6. Jan. 2006 9. Jan. 2006 10. Jan. 2006 11. Jan. 2006 12. Jan. 2006 13. Jan. 2006 .. .
81.93 81.74 83.47 83.50 84.24 84.55 84.70 86.71 86.78 85.64 .. .
— 82.38 82.90 83.74 84.10 84.50 85.32 86.06 86.38 86.09 .. .
— — 82.98 83.50 84.09 84.74 85.40 85.68 85.94 85.93 .. .
— — — — — 84.46 84.71 84.84 84.89 84.86 .. .
498 499 500 501 502 503 504 505 506 507
12. Dez. 2007 13. Dez. 2007 14. Dez. 2007 17. Dez. 2007 18. Dez. 2007 19. Dez. 2007 20. Dez. 2007 21. Dez. 2007 27. Dez. 2007 28. Dez. 2007
91.16 88.75 89.15 87.79 87.73 87.45 87.15 87.87 89.14 89.40
90.19 89.69 88.56 88.22 87.66 87.44 87.49 88.05 88.80 —
90.22 89.50 88.92 88.17 87.85 87.60 87.87 88.20 — —
89.33 89.16 89.02 88.93 88.75 — — — — —
412
13 Zeitreihenanalyse und Indizes
Die Bestimmung des Trends einer Zeitreihe (oder allgemeiner ihre Zerlegung in Trend, Saisonkomponente und Rest) ist nicht eindeutig. Es gibt dazu verschiedene Verfahren in der Literatur. Beispielsweise kann auch die in Kapitel 11 vorgestellte Regressionsanalyse oder das in der Produktion und Lagerhaltung weit verbreitete exponentielle Glätten zur Trendberechnung verwendet werden. Diese Verfahren sollen hier nicht näher vorgestellt werden. Stattdessen wird hier zur Berechnung des Trends ein einfacher gleitender Durchschnitt verwendet. Der gleitende Durchschnitt zur Zeit t ist im einfachsten Fall der Durchschnitt aus diesem Wert xt und je a benachbarten Werten zu beiden Seiten von t. Für a = 1 ist dies also der Mittelwert der drei um t liegenden Werte: Dt =
(xt−1 + xt + xt+1 ) , 3
t = 2, 3, · · · , n − 1
D1 ist nicht definiert, D2 = (x1 + x2 + x3 )/3 = (81.93 + 81.74 + 83.47)/3 = 82.38, D3 = (x2 + x3 + x4 )/3 = (81.74 + 83.47 + 83.50)/3 = 82.90, .. . D506 = (x505 + x506 + x507)/3 = (87.87 + 89.14 + 89.40)/3 = 88.80, D507 ist nicht definiert. Tabelle 13.1 enthält neben dem Ausschnitt der Kursdaten auch die entsprechenden gleitenden Durchschnitte für a = 1, 2 und 5, und in Abb. 13.7 ist die Zeitreihe zusammen mit dem gleitenden Durchschnitt für a = 5 dargestellt. In Abb. 13.7 sowie in der entsprechenden Spalte in Tabelle 13.1 fehlen die gleitenden Durchschnitte für die ersten fünf und die letzten fünf Zeitpunkte. In diesen Fällen kann man den gleitenden Durchschnitt nicht bilden, da es an dieser Stelle nicht ausreichend viele linke und rechte Nachbarn für die Berechnung des gleitenden Durchschnitts gibt.
Abb. 13.7 Zeitreihe und gleitender Duchchschnitt (a = 5)
13.1 Klassische Zeitreihenanalyse
413
Die allgemeine Formel für den gleitenden Durchschnitt an der Stelle t lautet Dt =
(xt−a + xt−a+1 + . . . + xt + xt+1 + . . . + xt+a ) , (2a + 1)
t = a + 1, a + 2, . . ., n − a .
Wieder ist der gleitende Durchschnitt am Rande nicht definiert, wenn links oder rechts nicht genügend benachbarte Werte zur Verfügung stehen. Der Durchschnitt heißt gleitend, weil beim Übergang von t nach t + 1 die x-Werte, aus denen der Durchschnitt gebildet wird, gleichermaßen um eine Einheit verschoben werden. Am Anfang wird ein Wert weggelassen, am Ende wird ein neuer x-Wert hinzugefügt. Man gleitet also über die Zeitreihe und bildet jeweils über die 2a + 1 (von t aus gesehen) zentralen Werte den Durchschnitt. Die Werte, aus denen der Durchschnitt gebildet wird, unterscheiden sich beim Übergang von t nach t + 1 nur durch einen Wert (der erste Wert zur Zeit t wird durch einen neuen letzten Wert zur Zeit t + 1 ersetzt). Daher ist es verständlich, dass die Werte der Durchschnittsreihe nicht so stark schwanken. Die Durchschnittsreihe sollte glatt werden. Je größer a, desto glatter wird die Reihe der Durchschnitte. Abbildung 13.8 zeigt die Zeitreihe mit den gleitenden Durchschnitten für a = 1, 5, 10 und 25. Man sieht, dass der gleitende Durchschnitt mit wachsendem a glatter wird. Für a = 1 macht der gleitende Durchschnitt noch fast alle Bewegungen der Ursprungsreihe mit. Das ist verständlich, denn bei a = 1 wird der Durchschnitt über drei Werte, bei a = 5 über elf Werte gebildet, wobei jeweils beim Gleiten ein Wert ausscheidet und ein neuer Wert hinzukommt. Das Gewicht, mit dem eine einzelne Beobachtung in die Berechnung des Durchschnitts eingeht, ist 1/3 für a = 1
Abb. 13.8 Zeitreihe und gleitender Durchschnitt (a = 1, 5, 10 und 25)
414
13 Zeitreihenanalyse und Indizes
gegenüber 1/11 bei a = 5, so dass die Änderung eines Wertes bei großen a nicht mehr so stark ins Gewicht fällt. Wir haben von dem Gewicht gesprochen, mit dem eine einzelne Beobachtung in die Berechnung des gleitenden Durchschnitts eingeht. Die Formel für den einfachen gleitenden Durchschnitt kann auch wie folgt geschrieben werden: Dt =
a
1 xt+i i=−a 2a + 1
∑
t = a + 1, . . ., n − a
Jede Beobachtung, die zur Berechnung des einfachen gleitenden Durchschnitts verwendet wird, geht mit dem gleichen Gewicht, nämlich 1/(2a + 1) in die Berechnung ein. Es gibt Situationen, in denen es sinnvoll ist, die einzelnen Beobachtungen unterschiedlich zu gewichten. Man spricht dann von gewichteten gleitenden Durchschnitten. Die entsprechende Formel ist: Dt =
b
∑
λi xt+i
t = a + 1, . . ., n − b
i=−a
wobei die Summe der verwendeten Gewichte λi Eins sein muss: b
∑
λi = 1
i=−a
Man beachte auch, dass man links und rechts unterschiedlich viele Nachbarn zur Berechnung des gleitenden Durchschnitts heranziehen kann, da a und b verschieden sein können. Beispielsweise wird in der weit verbreiteten Chartanalyse von Aktienkursen in der Regel ein gleitender Durchschnitt verwendet, in den nur Vergangenheitsdaten — also nur Werte links von xt — eingehen. Dies hat den Vorteil, dass nicht gerade die aktuellsten Durchschnittswerte fehlen, führt andererseits aber dazu, dass der Trend bei steigenden Kursen systematisch unterschätzt und bei fallenden Kursen systematisch überschätzt wird. Beim einfachen gleitenden Durchschnitt ist a = b und λi = 1/(2a + 1). Geht man von einer Zeitreihe xt zu der Zeitreihe Dt der gleitenden Durchschnitte über, so sagt man, die Reihe wird gefiltert (die Zeitreihe wird dadurch glatt, Unebenheiten werden herausgefiltert). Wie die Reihe xt dadurch verändert wird, hängt natürlich von den Gewichten λi , i = −a, −a + 1, . . ., b , ab. Gleitende Durchschnitte werden zur Berechnung des Trends verwendet. Der Trend ist einfach gleich dem gleitenden Durchschnitt. Es bleibt für uns die Frage: Welchen gleitenden Durchschnitt sollen wir verwenden? Für Daten, die keine Saisonkomponente haben, wie z.B. die Aktienkurse, verwendet man meistens einfache gleitende Durchschnitte, wobei • große a zu glatten Trends führen, • kleinere a zu weniger glatten Trends führen. Es kommt nun darauf an, was man an der Zeitreihe erkennen möchte. Wenn nur die großen markanten Bewegungen einer Zeitreihe erfasst werden sollen (oh-
13.1 Klassische Zeitreihenanalyse
415
ne Details), verwendet man ein großes a. Ist man dagegen auch noch an Details interessiert, sollte man ein kleineres a verwenden. Einfache gleitende Durchschnitte können allerdings nur bei Zeitreihen ohne Saisonschwankungen zur Bestimmung des Trends verwendet werden. Wie bei Zeitreihen mit Saisonschwankungen vorgegangen werden muss, wird im folgenden Abschnitt gezeigt.
13.1.3 Zerlegung von Zeitreihen mit Saisonschwankungen Liegen Saisonschwankungen vor, so muss man bei der Wahl des Filters beachten, dass diese eliminiert werden, so dass nur der Trend übrigbleibt. Ein einfacher gleitender Durchschnitt ist für Monatsdaten nicht geeignet, um den Trend zu schätzen, denn er eliminiert die Saisonschwankungen nicht. Das kann man in Abb. 13.9 sehen, die erneut die Steuereinnahmen zwischen Januar 1992 und Dezember 2007 (Beispiel 14.1) und auch Dt , den einfachen gleitenden Durchschnitt mit a = 1 zeigt. Man sieht, dass der Trend Dt ebenfalls Saisonschwankungen aufweist. Der Grund für dieses Verhalten ist einfach: Dt ist der Durchschnitt dreier aufeinanderfolgender Werte. Da die Werte für Dezember immer hoch sind, werden die Werte von Dt für November, Dezember und Januar auch hoch sein, da sie alle den DezemberWert enthalten. Um die Saisonschwankungen zu eliminieren, muss man den Filter so wählen, dass alle Monate in dem Filter gleich gewichtet sind, d.h. jeder Mo1 erhalten. Man hat aber ein zusätzliches Problem zu lösen. nat soll das Gewicht 12 1 1 1 x1 + 12 x2 · · · + 12 x12 zuordnen? Welchem Monat soll man z.B. den Durchschnitt 12 Dieser Wert gehört zu den Monaten 6 und 7, also teils Juni und teils Juli. Man müsste den Durchschnitt D6 1 nennen. Um dieses Problem zu umgehen, zentriert man den 2
Abb. 13.9 Logarithmen der monatlichen Steuereinnahmen und einfacher gleitender Durchschnitt mit a = 1
416
13 Zeitreihenanalyse und Indizes
Filter und verwendet den gefilterten Wert: 1 1 1 D7 = x1 + (x2 + x3 · · · + x12) + x13 24 12 24 Wir merken, dass alle 12 Monate gleiche Gewichte haben — Januar wird zwei1 mal mit dem Gewicht 24 repräsentiert, die anderen Monate sind je einmal mit dem 1 Gewicht 12 repräsentiert. Der gefilterte Wert D7 gehört eindeutig zu Monat 7, also Juli. Im Allgemeinen ist für Monatsdaten der folgende Filter geeignet: 1 1 1 xt−6 + (xt−5 + xt−4 · · · xt+5 ) + xt+6 , t = 7, 8, · · · , n − 6 24 12 24 Abbildung 13.10 zeigt Dt für die Logarithmen der monatlichen Steuereinnahmen. Jetzt hat Dt keine Saisonschwankungen — man sagt, Dt ist saisonbereinigt. Ein geeigneter Filter für monatliche Daten verwendet also: 1 1 1 λ−6 = ; λ−5 = λ−4 = · · · = λ5 = ; λ6 = 24 12 24 Für Quartalsdaten ist der geeignete Filter: 1 1 1 λ−2 = ; λ−1 = λ0 = λ1 = ; λ2 = 8 4 8 Für halbjährliche Daten ist der zentrierte Filter: 1 1 1 λ−1 = ; λ0 = ; λ1 = 4 2 4 In allen Fällen ist die Summe der Gewichte gleich Eins. Statt Dt für den gleitenden Durchschnitt schreiben wir Tt für den Trend: Dt =
Tt = Dt Jetzt bleiben noch die Saisonkomponente St und die Residuen et aus unserem Modell. Da man Tt bestimmt hat, kann man St + et berechnen: St + et = xt − Tt
Abb. 13.10 Logarithmen der monatlichen Steuereinnahmen und zentrierter gleitender Durchschnitt
13.1 Klassische Zeitreihenanalyse
417
Tabelle 13.2 Steuereinnahmen: Bestimmung der Saisonkomponente aus St + et Jahr
Jan
Feb
Mrz
Apr
Mai
1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
— −0.17 −0.13 −0.10 −0.14 −0.11 −0.12 −0.10 −0.13 −0.02 −0.01 −0.14 −0.11 −0.17 −0.16 −0.14
— −0.08 −0.01 −0.03 −0.06 −0.15 −0.18 −0.19 −0.14 −0.17 −0.15 −0.14 −0.10 −0.06 −0.08 −0.02
— 0.12 0.14 0.10 0.09 0.09 0.08 0.05 0.02 −0.02 −0.08 −0.10 −0.16 −0.07 −0.06 −0.02
— −0.18 −0.15 −0.21 −0.22 −0.21 −0.16 −0.15 −0.21 −0.20 −0.18 −0.16 −0.07 −0.15 −0.12 −0.08
— −0.11 −0.09 −0.09 −0.14 −0.13 −0.13 −0.12 −0.01 −0.10 −0.05 −0.03 −0.05 −0.01 −0.01 −0.01
— 0.19 0.11 0.14 0.18 0.18 0.19 0.22 0.27 0.23 0.13 0.18 0.21 0.18 0.18 0.20
0.01 −0.17 −0.08
0.18
Durchschnitt: −0.11 −0.11
Jun
Jul
Aug
−0.07 −0.12 −0.09 −0.08 −0.11 −0.07 −0.06 −0.06 −0.10 −0.03 −0.01 −0.01 −0.09 −0.08 −0.05 —
−0.07 −0.08 −0.09 −0.07 −0.06 −0.12 −0.13 −0.10 −0.15 −0.08 −0.06 −0.13 −0.10 −0.11 −0.14 —
− 0.07 −0.10
Sep
Okt
Nov
−0.17 −0.18 −0.15 −0.12 −0.13 −0.14 −0.14 −0.18 −0.16 −0.14 −0.06 −0.11 −0.17 −0.15 −0.16 —
−0.12 −0.12 −0.14 −0.11 −0.12 −0.16 −0.17 −0.14 −0.17 −0.17 −0.16 −0.13 −0.12 −0.16 −0.19 —
0.51 0.50 0.53 0.56 0.59 0.63 0.61 0.61 0.59 0.54 0.61 0.60 0.58 0.58 0.52 —
0.15 −0.14 −0.15
0.57
0.14 0.15 0.10 0.12 0.14 0.17 0.18 0.18 0.20 0.12 0.12 0.14 0.15 0.17 0.16 —
Dez
Die Werte, die sich für die Zeitreihe der logarithmierten Steuereinnahmen ergeben, sind in Tabelle 13.2 gegeben. Außerdem ist die Zeitreihe der Summe aus Saisonkomponente und Residuen in Abb. 13.11 dargestellt. Der nächste Schritt ist, die St und et zu bestimmen. Wir haben die Saisonkomponente als das konstante Muster definiert, das sich jedes Jahr wiederholt. Weiterhin haben wir die Zeitreihe so transformiert, dass dieses Muster annähernd additiv ist. Um St zu berechnen, bilden wir einfach den Mittelwert der Komponenten St + et für jeden einzelnen Monat (separat). Wir beginnen mit dem ersten möglichen Monat, für den St + et verfügbar ist, nämlich Juli. Die mit Jul markierte Spalte enthält alle Werte von St + et , die zu dem
Abb. 13.11 Saisonkomponente und Residuen
418
13 Zeitreihenanalyse und Indizes
Abb. 13.12 Saisonkomponenten
Monat Juli gehören. Die nächste mit Aug bezeichnete Spalte enthält alle Werte von St + et , die zu dem Monat August gehören usw. Tabelle 13.2 veranschaulicht dieses Vorgehen. Am Ende der Tabelle stehen die Durchschnitte dieser Spalten für jeden Monat. So wird z.B. die Saisonkomponente für Juli als Durchschnitt aus den 15 Werten −0.07, −0.12, −0.09, . . ., −0.05 geschätzt und man erhält −0.07. Abbildung 13.12 zeigt die 12 so geschätzten Saisonkomponenten. Hat man Trend und Saisonkomponente berechnet, so kann man auch die Residuen berechnen. Da xt = Tt + St + et , folgt et = xt − Tt − St .
Abb. 13.13 Darstellung der Residuen
13.1 Klassische Zeitreihenanalyse
419
Wie auch in der Regressions- oder Varianzanalyse sollte man die Residuen immer grafisch darstellen, um dadurch das Modell zu überprüfen. Besonders große Residuen sollte man beachten. Möglicherweise wurde ein Fehler bei der Datenerhebung oder -übertragung gemacht oder es gibt eine andere Erklärung für diese großen Werte. Die Residuen sollten sich völlig unregelmäßig verhalten und keine auffallende Struktur erkennen lassen. Liegt dagegen solch eine Struktur vor, so ist das Modell eventuell ungeeignet. Abbildung 13.13a zeigt den zeitlichen Verlauf der Residuen für die Logarithmen der monatlichen Steuereinnahmen. Es ist keine Struktur im Verlauf der Residuen zu erkennen. Ein Histogramm der Residuen ist in Abb. 13.13b gegeben. Aus diesem erkennt man, dass die Residuen annähernd normalverteilt sind. Da die Residuen hier keine Struktur oder sonstige Auffälligkeiten zeigen, scheint die vorgenommene Zerlegung der Zeitreihe in die drei Komponenten Trend, Saisonkomponente und Rest, angemessen zu sein. Die drei Komponenten sind noch einmal in Abb. 13.14 dargestellt. Möchte man die Zerlegung der ursprünglichen Reihe zum multiplikativen Modell, so bildet man: ext = eTt +St +et = eTt eSt eet Die sich dann ergebenden Saisonfaktoren eSt sind in Tabelle 13.3 gegeben.
Abb. 13.14 Komponenten der Zeitreihe
420
13 Zeitreihenanalyse und Indizes
Tabelle 13.3 Saisonfaktoren Monat
Jan
Feb Mrz Apr
Mai
Jun
Jul
Aug Sep
Okt
Nov Dez
Saisonkomponente −0.11 −0.11 0.01 −0.17 −0.08 0.18 −0.07 −0.10 0.15 −0.14 −0.15 0.57 Saisonfaktor
0.89
0.90 1.01
0.84
0.93 1.20
0.93
0.90 1.16
0.87
0.86 1.77
Saisonfaktor (%)
89
90
84
93
93
90
87
86
101
120
116
177
Abb. 13.15 Darstellung der Saisonfaktoren
Abb. 13.16 Monatliche Steuereinnahmen und angepasstes Modell
Die Saisonfaktoren kann man so interpretieren: Der Wert für Januar ist etwa 89% des Wertes des Trends, für Februar etwa 90%, . . ., für Dezember 177%. Die Saisonfaktoren sind in Abb. 13.15 dargestellt. Abbildung 13.16 zeigt schließlich noch einmal die ursprüngliche Zeitreihe der monatlichenden Steuereinnahmen zusammen mit dem angepassten Modell eTt +St . Das angepasste Modell scheint die Struktur der Zeitreihe gut zu erfassen.
13.2 Indizes
421
13.2 Indizes Im vorangegangenen Abschnitt haben wir einzelne Zeitreihen betrachtet wie beispielsweise die zeitliche Entwicklung des Aktienkurses der Deutsche Bank Aktie, die ein klassisches Beispiel für eine Zeitreihe ist. Oft ist man allerdings nicht nur an einer einzelnen Zeitreihe interessiert, sondern an der Entwicklung einer Menge von Zeitreihen. Beispielsweise möchte man einen Überblick über die generelle Entwicklung des deutschen Aktienmarktes erhalten. Dann könnte man theoretisch die Zeitreihen aller bzw. der wichtigsten an deutschen Börsen gehandelten Aktien betrachten. Das würde eine Vielzahl der verschiedensten Zeitreihen geben mit sehr unterschiedlichen Informationen. Ziel und Aufgabe des Statistikers ist es, diese Informationen in einer einzigen aussagekräftigen Information zusammenzufassen. Zahlen, die das leisten, nennt man Indizes. Sie entstehen in der Regel durch eine geeignete Aggregation oder Mittelung der Werte der einzelnen Zeitreihen. Wir haben in Beispiel 1.6 bereits einen Index der Aktienkurse kennengelernt, nämlich den Deutschen Aktienindex (DAX). Dieser Index beschreibt nicht die Entwicklung einer einzigen Aktie, sondern er soll die zeitliche Entwicklung des gesamten deutschen Aktienmarktes widerspiegeln. Zu diesem Zweck gehen in die Berechnung des DAX die Kurse der 30 wichtigsten deutschen Aktien entsprechend ihrer Bedeutung (d.h. ihrem Anteil an der Marktkapitalisierung) ein. Neben Aktienindizes gibt es noch eine Reihe weiterer wichtiger Indizes, wie z.B. den Verbraucherpreisindex, der die allgemeine Preisentwicklung beschreibt. Im Folgenden werden wir die wichtigsten Indizes und ihre Konstruktionsweise kennen lernen.
13.2.1 Preisindizes Unter ökonomischen wie auch sozialpolitischen Gesichtspunkten ist die Entwicklung der Preise für Güter, die zur täglichen Lebenshaltung benötigt werden, von großem Interesse. Besondere öffentliche Aufmerksamkeit erhält dabei die Entwicklung der Kraftstoffpreise. Beispiel 13.2. Entwicklung des Benzinpreises Auf der Internetseite http://www.mwv.de des deutschen Mineralölwirtschaftsverbandes werden die Zeitreihen der jährlichen Durchschnittspreise der wichtigsten Kraftstoffsorten veröffentlicht. Tabelle 13.4 enthält die am 30.04.2008 auf dieser Internetseite abgefragte Zeitreihe des durchschnittlichen Verbraucherpreises (inklusive Steuern) für bleifreies Normalbenzin für die Jahre 1995 bis 2007. Eine grafische Darstellung dieser Zeitreihe ist in Abb. 13.17 gegeben. Bei solchen Zeitreihen ist man häufig an der Änderung der Werte gegenüber einem Basisjahr interessiert. Wählen wir 1995 als Basisjahr, dann bezeichnen wir diesen Zeitpunkt mit t = 0 und die folgenden Jahre mit t = 1, 2, . . . , 10. Die Preise werden mit pt ,t = 0, 1, . . . , 10, bezeichnet. Um die Änderung des Preises gegenüber dem Basisjahr 1995 zu untersuchen, bilden wir alle Quotienten
422
13 Zeitreihenanalyse und Indizes
Abb. 13.17 Entwicklung des Durchschnittspreises für bleifreies Normalbenzin (Cent/Liter)
pt , p0 die in Tabelle 13.5 stehen. Solche Quotienten bezeichnet man als Messziffern. Hier in diesem Beispiel handelt es sich um eine Preismessziffer. Die Zahl 1.73 für 2007 sagt aus, dass der Benzinpreis 2007 um 73% höher war als 1995. Der durchschnittliche Preis für ein Liter Normalbenzin ist also von 1995 bis 2007 um 73% gestiegen. Das Basisjahr 1995 hat den Wert 1. Häufig gibt man solche Zahlen in Prozent an. Dann erhält das Basisjahr den Wert 100. Abbildung 13.18 zeigt eine grafische Darstellung der Preismessziffer für Normalbenzin in Prozent, bezogen auf das Jahr 1995 (1995 = 100).
Tabelle 13.4 Entwicklung des Durchschnittspreises für bleifreies Normalbenzin (Cent/Liter) 1995
1996
1997
1998
1999
76.8
80.1
82.7
78.7
84.1
2000
2001
2002
2003
2004
2005
2006
2007
99.3 100.2 102.8 107.4 111.9 120.0 126.7 132.7
Abb. 13.18 Preismessziffer für 1 Liter Normalbenzin in Prozent (1995 = 100)
13.2 Indizes
423
Tabelle 13.5 Preismessziffern für 1 Liter Normalbenzin (Basis 1995) Jahr t pt
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 0
1
2
3
4
5
6
7
8
9
10
11
12
76.8 80.1 82.7 78.7 84.1 99.3 100.2 102.8 107.4 111.9 120.0 126.7 132.7
pt /p0 1.00 1.04 1.08 1.02 1.10 1.29 1.30 1.34 1.40 1.46 1.56 1.65 1.73
Man könnte nun daran gehen, genauso wie wir es gerade für Normalbenzin getan haben, die Preisentwicklung für andere Güter des täglichen Bedarfs zu studieren, z.B. für Brot, Kleidung, Schuhe, Kaffee, Zahnpasta, Bier, Wasser usw. Im Rahmen der amtlichen Statistik der Verbraucherpreise werden monatlich die Preise von rund 750 Waren und Dienstleistungen erhoben. Da es nahezu unmöglich und wenig sinnvoll ist, die Zeitreihen aller Preise einzeln zu betrachten, werden die Zeitreihen in wenigen Preisindizes zusammengefasst, die einen Überblick über die allgemeine Preisentwicklung geben. Analog zum bereits betrachteten Deutschen Aktienindex, müssen in einen Index, der die Preise für die Lebenshaltung beschreiben soll, alle Güter des täglichen Bedarfs entsprechend ihrer Bedeutung, d.h. entsprechend der im Durchschnitt verbrauchten Menge eingehen. Das bedeutet, es ist ein Warenkorb zusammenzustellen, der die Güter des täglichen Bedarfs entsprechend ihrer Menge enthält. Mit Hilfe dieses Warenkorbs und den entsprechenden Preisen kann dann ein Preisindex berechnet werden. Beispiel 13.3. Verbraucherpreisindex für Deutschland Das statistische Bundesamt veröffentlicht laufend eine Vielzahl von Preisindizes. Der wichtigste und bekannteste Preisindex ist der Verbraucherpreisindex für Deutschland, der früher Preisindex der Lebenshaltung hieß. Dieser Index repräsentiert alle privaten Haushalte entsprechend ihrem Anteil an der Gesamtbevölkerung und spiegelt die allgemeine zeitliche Entwicklung der Lebenshaltungskosten wider. Aus diesem Grund wird er in der Regel als Inflationsmaßstab zur Berechnung der Inflationsrate, d.h. der allgemeinen Preissteigerungsrate, herangezogen. Neben dem Verbraucherpreisindex veröffentlicht das Statistische Bundesamt noch eine Reihe weiterer Indizes, z.B. • • • • • • • •
Index der Erzeugerpreise gewerblicher Produkte, Index der Großhandelsverkaufspreise, Index der Einzelhandelspreise, Index der Einfuhrpreise, Index der Ausfuhrpreise, Preisindex für Wohngebäude, Verbraucherpreisindex für Telekommunikationsdienstleistungen, Preisindex für die Personenbeförderung im Luftverkehr.
Dabei werden einzelne Indizes noch weiter in Untergruppen aufgeteilt, z.B. der Verbraucherpreisindex aktuell in die 12 Teilbereiche
424
13 Zeitreihenanalyse und Indizes
Tabelle 13.6 Gewichtung der Untergruppen bei der Berechnung des Verbraucherpreisindex (%)
• • • • • • • • • • • •
Nr.
Untergruppe
1995
2000
2005
1 2 3 4 5 6 7 8 9 10 11 12
Nahrungsmittel Alk. Getränke / Tabakw. Bekleidung / Schuhe Wohnung, ... Einrichtungsgegenstände, ... Gesundheitspflege Verkehr Nachrichtenübermittlung Freizeit / Kultur Bildungswesen Beherbergung / Gaststätten andere Waren / Dienstl.
13.1 4.2 6.9 27.5 7.0 3.4 13.9 2.3 10.4 0.6 4.6 6.1
10.3 3.7 5.5 30.3 6.8 3.5 13.9 2.5 11.1 0.7 4.7 7.0
10.4 3.9 4.9 30.8 5.6 4.0 13.2 3.1 11.6 0.7 4.4 7.4
∑
Gesamtlebenshaltung
100.0 100.0 100.0
Nahrungsmittel und alkoholfreie Getränke, Alkoholische Getränke, Tabakwaren, Bekleidung und Schuhe, Wohnung, Wasser, Strom, Gas und andere Brennstoffe, Einrichtungsgegenstände (Möbel), Apparate, Geräte und Ausrüstungen für den Haushalt sowie deren Instandhaltung, Gesundheitspflege, Verkehr, Nachrichtenübermittlung, Freizeit, Unterhaltung und Kultur, Bildungswesen, Beherbergungs- und Gaststättendienstleistungen, Andere Waren und Dienstleistungen.
Darüber hinaus gibt es noch regionale Untergliederungen, z.B. nach Bundesländern. Die Unterteilung in neue und alte Bundesländer sowie nach verschiedenen Haushaltstypen wird dagegen seit einigen Jahren nicht mehr vorgenommen. Während der dem Index zu Grund liegende Warenkorb laufend aktualisiert und damit dem aktuellen Güterangebot angepasst wird, wird das Wägungsschema, das zur Berechnung des Index aus den einzelnen Preisen verwendet wird, nur alle fünf Jahre angepasst, damit der Verbraucherpreisindex über einen längeren Zeitraum vergleichbar bleibt. Seit Februar 2008 wird als Basisjahr das Jahr 2005 (2005=100) verwendet; von Februar 2003 bis Januar 2008 war 2000 das Basisjahr und davor das Jahr 1995.2 Tabelle 13.6 enthält die Gewichtung der oben aufgeführten Untergruppen des Verbraucherpreisindex für die Basisjahre 1995, 2000 und 2005. 2
Eine detaillierte Beschreibung der Umstellung des Verbraucherpreisindex vom Basisjahr 2000 auf das Basisjahr 2005 findet man in Heft 4, Jahrgang 2008, der Zeitschrift Wirtschaft und Statistik; die Beschreibung der Umstellung von 1995 auf 2000 gibt es in Heft 5/2003.
13.2 Indizes
425
Tabelle 13.7 Verbraucherpreisindex, bezogen auf das Basisjahr 2005 (2005=100) Jahr
2000 2001 2002 2003 2004 2005 2006 2007
Nahrungsmittel 95.3 99.6 100.4 Alk. Getränke / Tabakw. 77.5 78.8 82.0 Bekleidung / Schuhe 101.9 102.7 103.4 Wohnung, ... 91.3 93.5 94.4 Einrichtungsgegenstände, ... 98.4 99.3 100.2 Gesundheitspflege 80.6 81.6 82.1 Verkehr 87.9 90.1 91.9 Nachrichtenübermittlung 106.6 100.3 102.0 Freizeit / Kultur 101.3 101.9 102.6 Bildungswesen 89.5 90.6 93.0 Beherbergung / Gaststätten 93.1 94.9 98.3 andere Waren / Dienstl. 91.7 94.4 96.3 Gesamtlebenshaltung
92.7
94.5
95.9
100.3 86.3 102.6 95.8 100.5 82.5 93.9 102.7 102.0 95.0 99.1 97.9 96.9
99.9 92.2 101.9 97.3 100.3 98.3 96.1 101.8 101.1 98.1 99.9 99.3
100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0
102.0 103.0 99.4 102.9 99.8 100.5 103.0 96.0 99.5 101.5 101.2 101.1
105.9 106.4 100.7 104.9 101.0 101.3 106.9 94.9 99.8 126.9 104.0 103.7
98.5 100.0 101.6 103.9
Im Folgenden wird noch gezeigt, dass die Gewichtung der einzelnen Güter oder Untergruppen von Preis und Menge im Basisjahr abhängt. Daher kann die Veränderung der Gewichtung zwei Ursachen haben, nämlich Preisänderungen und Mengenänderungen. Beispielsweise ist der Rückgang des Gewichtungsfaktors für die Untergruppe Nahrungsmittel und alkoholfreie Getränke vom Basisjahr 1995 zum Basisjahr 2000 zu rund einem Viertel auf Preisrückgänge, und zu drei Viertel auf Änderungen der Verbrauchsgewohnheiten zurückzuführen. Tabelle 13.7 enthält den Verbraucherpreisindex der Jahre 2000 bis 2007, bezogen auf das Basisjahr 2005, für die 12 Untergruppen und als Gesamtindex. Die Indexwerte stellen jährliche Durchschnittswerte dar, die z.B. im Statistischen Jahrbuch oder auf der Internetseite (http://www.destatis.de/ ) des Statistischen Bundesamtes zu finden sind (die hier angegebenen Zahlen wurden der Internetseite mit Stand vom 16. April 2008 entnommen). Darüber hinaus veröffentlicht das Statistische Bundesamt viele weitere Indizes oder Teilindizes in diversen Fachserien oder im Internet. Die meisten Indizes werden dabei in der Regel monatlich ermittelt. Alle Indexwerte beziehen sich immer auf das aktuelle Basisjahr, also im Moment auf das Jahr 2005. Das heißt, dass auch die Indexwerte für frühere Jahre neu skaliert werden, sobald sich das Basisjahr ändert. Daher beziehen sich z.B. die in Tabelle 13.7 gegebenen Werte für das Jahr 2000 auch auf das Basisjahr 2005. Abbildung 13.19 stellt die Entwicklung des Verbraucherpreisindex (Gesamtindex) grafisch dar. Wir sehen in der Abbildung oder in Tabelle 13.7, dass z.B. der Verbraucherpreisindex von 2005 bis 2007 um 3.9% gestiegen ist. Wir können aus den Indexwerten auch jeweils die jährliche Preissteigerung ermitteln, indem wir zwei aufeinander folgende Indexwerte durcheinander teilen. Beispielsweise waren die Preise im Jahr 2002 um (95.9/94.5 − 1) · 100 = 1.5% höher als im Vorjahr. Scheinbar sind in Deutschland – entgegen der öffentlichen Meinung - die Preise durch die Einführung des Euro also nicht übermäßig gestiegen.
426
13 Zeitreihenanalyse und Indizes
Die Entwicklung der 12 Teilindizes wird in Abb. 13.20 dargestellt. Es wird deutlich, dass sich die Preise der Untergruppen zum Teil sehr unterschiedlich entwickelt haben. So sind beispielsweise die Preise für alkoholische Getränke und Tabakwaren von 2000 bis 2005 um 37.3% gestiegen, während die Preise für Nachrichtenübermittlung sogar um 11.0% gesunken sind. Teilweise lässt sich die Preisentwicklung der Untergruppen durch bestimmte Ereignisse erklären, die auch im Verlauf der Teilindizes erkennbar sind. So kann der starke Anstieg der Preise für alkoholische Getränke und Tabakwaren sicher durch die Steuererhöhungen der letzten Jahre erklärt werden, während z.B. der Rückgang der Preise für Nachrichtenübermittlung zu Beginn des Jahrtausends auf die Liberalisierung im Telekommunikationsmarkt zurückzuführen ist. Der Sprung bei den Preisen für Gesundheitspflege im Jahr 2004 könnte z.B. Folge der Einführung der Praxisgebühr sowie erhöhter Zuzahlungen in Folge der Gesundheitsreform sein, und der stetige Anstieg der Preise für Wohnung, Strom,... sowie Verkehr hängt sicher mit der Entwicklung der Energiepreise der letzten Jahre zusammen. Auffällig ist auch der extreme Anstieg des Index für Bildungswesen im Jahr 2007, in dem mehrere Bundesländer Studiengebühren eingeführt haben. Die Einführung des Euro ist dagegen nur im Teilindex für Beherbergung / Gaststätten durch einen kleinen Sprung im Jahr 2002 erkennbar. Und da dieser Teilbereich, der sicherlich größtenteils dafür verantwortlich ist, dass der Euro in der Bevölkerung als „Teuro“ wahrgenommen wird, mit weniger als 5% in den Gesamtindex eingeht (siehe Tabelle 13.6), ist im Gesamtindex kein übermäßiger Preisanstieg im Jahr der Euro-Einführung erkennbar. All diese Beispiele verdeutlichen die Bedeutung von Preisindizes. Im Folgenden wird gezeigt, wie man solche Indizes aus den Angaben des Warenkorbes berechnen kann. Die Anzahl der Güter im Warenkorb wird mit n bezeichnet; darüber hinaus werden folgende Bezeichnungen für Mengen und Preise der Güter verwendet: (1)
(2)
(n)
(1)
(2)
(n)
p0 , p0 , . . . , p0 für die Preise in der Basisperiode 0 pt , pt , . . . , pt für die Preise in der Berichtsperiode t (1) (2) (n) q0 , q0 , . . . , q0 für die Mengen in der Basisperiode 0
Abb. 13.19 Zeitliche Entwicklung des Verbraucherpreisindex (2005=100)
13.2 Indizes
427
Abb. 13.20 Verbraucherpreisindex für die 12 Teilbereiche (2005 = 100)
(1)
(2)
(n)
qt , qt , . . . , qt
für die Mengen in der Berichtsperiode t
Aus diesen 4n Werten berechnen wir nun eine einzige Zahl, die die Veränderung der Preise in der Berichtsperiode t gegenüber der Basisperiode beschreibt. Dazu bilden wir zunächst für jedes der n Güter des Warenkorbes die Preismessziffer (i)
pt
(i)
p0
,
i = 1, 2, . . . n .
Bis zu den Arbeiten Die Berechnung einer mittleren Warenpreissteigerung von E. Laspeyres (1871) und Ueber die Preisentwicklung der letzten Jahre nach den Hamburger Börsennotierungen von H. Paasche (1874)3, deren Index-Formeln wir im Folgenden vorstellen werden, wurde vorwiegend das arithmetische Mittel (i)
1 n pt ∑ (i) n i=1 p 0
3
Die beiden Artikel findet man in den Bänden 16 und 23 der Jahrbücher für Nationalökonomie und Statistik.
428
13 Zeitreihenanalyse und Indizes
der Preismessziffern als Anhaltspunkt für die Preisentwicklung verwendet. Dieses Maß hat eine ganz klare Schwäche: jedes Gut aus dem Warenkorb wird mit dem gleichen Gewicht 1/n in die Berechnung einbezogen, unabhängig von seinem Anteil am Gesamtumsatz aller Güter des Warenkorbes. Wenn der Preis von Brot um 20% steigt, hat das den gleichen Einfluss auf den Index wie ein Anstieg des Preises von Kiwis um 20%. Es erscheint daher sinnvoller, ein gewichtetes arithmetisches Mittel (i)
n
pt
i=1
p0
Pt = ∑
g (i) i
als Preisindex Pt zu verwenden, wobei gi den Gewichtungsfaktor des Gutes i bezeichnet. Ein möglicher und häufig verwendeter Gewichtungsfaktor ist der Umsatzanteil des Gutes i in der Basisperiode. Der Umsatz des Gutes i in der Basisperiode ist (i) (i) p0 q0 , und der Gesamtumsatz aller Produkte in der Basisperiode beträgt n
∑ p0
( j) ( j) q0 .
j=1
Für den Gesamtumsatz verwenden wir bei der Herleitung der Indexformel den Summationsindex j, weil wir den Index i bereits für das betrachtete Gut i benutzen. Das Gut i hat damit den folgenden Anteil am Gesamtumsatz in der Basisperiode: (i) (i)
p0 q0 n
( j) ( j)
∑ p0 q0
j=1
Es macht Sinn, genau diesen Anteil als Gewichtungsfaktor (i) (i)
gi =
p0 q0 n
( j) ( j)
∑ p0 q0
j=1
für die Berechnung des Preisindex zu verwenden, da er die ökonomische Bedeutung des Gutes i im Vergleich zu allen anderen Gütern widerspiegelt. Wenn man nun den Umsatzanteil als Gewichtungsfaktor in die obige Formel für den Preisindex Pt einsetzt und einige Rechenschritte durchführt, erhält man: n
(i) pt Pt = g (i) i i=1 p0 n
∑
(i) pt = (i) i=1 p0 n
∑
(i) (i) p0 q0 n ( j) ( j) ∑ p0 q0 j=1
=
n
(i) (i)
∑ pt q0
i=1 n ( j) ( j) ∑ p0 q0 j=1
=
(i) (i)
∑ pt q0
i=1 n (i) (i) ∑ p0 q0 i=1
Im letzten Schritt konnten wir den Summationsindex j wieder durch den Summationsindex i ersetzen, ohne dass sich die Formel inhaltlich ändert, meistens lässt man den Summationsindex jedoch ganz weg und schreibt:
13.2 Indizes
429
PtL =
∑ pt q0 ∑ p0 q0
In der letzten Formel haben wir den Preisindex zusätzlich noch mit einem hoch gestellten L gekennzeichnet, weil sie die Aggregatform des Preisindex nach Laspeyres darstellt. Wir sehen an dieser Formel, dass der Preisindex nach Laspeyres nur auf Preisänderungen in der Berichtsperiode gegenüber der Basisperiode beruht. Anschaulich kann man sich darunter die Änderung des Gesamtumsatzes in der Berichtsperiode gegenüber der Basisperiode vorstellen, wenn auch in der Berichtsperiode die Mengen der Basisperiode unterstellt werden. Im Zähler steht also ein fiktiver Gesamtumsatz, berechnet aus den Preisen der Berichtsperiode und den Mengen der Basisperiode. Im Nenner steht der Gesamtumsatz der Basisperiode. Beispiel 13.4. Warenkorb aus Zigaretten, Bier und Kaffee Wir betrachten einen Warenkorb, der nur Zigaretten, Bier und Kaffee enthält. In den Ausgaben 1990 bis 1995 der vom Statistischen Bundesamt herausgegebenen Fachserie 15, Reihe 1 (Einnahmen und Ausgaben ausgewählter privater Haushalte), findet man die in den Tabellen 13.8 und 13.9 gegebenen durchschnittlichen Verbrauchsmengen (pro Monat) und Preise für Zigaretten (Z), Bier (B) und Kaffee (K) für Angestellten- bzw. Beamtenhaushalte vom Haushaltstyp 3 (4-Personenhaushalte von Arbeitnehmern mit höherem Einkommen). Da das Statistische Bundesamt seit einigen Jahren nur noch die aggregierten Indizes und keine einzelnen Preise mehr veröffentlicht, liegen für das Beispiel leider keine aktuelleren Daten vor. Die Ver-
Tabelle 13.8 Mengen und Preise für Zigaretten, Bier und Kaffee für Beamten-Haushalte Jahr Gut i
1990=0 ˆ (i) q0
(i) p0
1991=1 ˆ (i) q1
(i) p1
1992=2 ˆ (i) q2
(i) p2
1993=3 ˆ (i) q3
(i) p3
1994=4 ˆ (i) q4
(i) p4
1995=5 ˆ (i)
q5
(i)
p5
Z [St.] 56 0.19 43 0.20 38 0.22 45 0.22 39 0.23 26 0.24 B [l] 15.3 1.87 14.1 1.91 15.0 2.02 12.9 2.1 12.5 2.09 13.1 2.1 K [kg] 1.229 15.17 1.177 14.81 1.202 15.10 1.196 15.06 1.136 16.78 1.132 18.02
Tabelle 13.9 Mengen und Preise für Zigaretten, Bier und Kaffee für Angestellten-Haushalte Jahr Gut i
1990=0 ˆ (i)
q0
(i)
p0
1991=1 ˆ (i)
q1
(i)
p1
1992=2 ˆ (i)
q2
(i)
p2
1993=3 ˆ (i)
q3
(i)
p3
1994=4 ˆ (i)
q4
(i)
p4
1995=5 ˆ (i)
q5
(i)
p5
Z [St.] 81 0.20 85 0.21 70 0.22 68 0.22 77 0.23 78 0.23 B [l] 16.0 1.88 16.3 1.94 16.4 2.01 15.3 2.08 15.3 2.10 15.9 2.14 K [kg] 1.137 15.08 1.062 14.78 1.114 14.8 1.126 14.45 1.077 15.97 1.122 16.97
430
13 Zeitreihenanalyse und Indizes
Abb. 13.21 Mengen und Preise für Zigaretten, Bier und Kaffee im Zeitverlauf
wendung von monatlichen Durchschnittsmengen ist kein Problem, weil sich bei Verwendung der durchschnittlichen Monatsmengen derselbe Indexwert ergibt wie bei der Verwendung der durch Multiplikation aller Monatsmengen mit 12 erhaltenen Jahresmengen. Die zeitliche Entwicklung der Mengen und Preise für beide Haushaltstypen ist in Abb. 13.21 grafisch dargestellt. Wir entnehmen Abb. 13.21, dass die Angestellten mehr Zigaretten rauchen und mehr Bier trinken als die Beamten, während die Beamten mehr und teureren Kaffee konsumieren. Verwenden wir 1990 als Basisjahr, so erhalten wir mit der Formel für den Preisindex nach Laspeyres (für BeamtenHaushalte) 0.20 · 56 + 1.91 · 15.3 + 14.81 · 1.229 = 1.013 = 101.3% . 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229 Im Vergleich zu 1990 sind die Preise für unseren aus Zigaretten, Bier und Kaffee bestehenden Warenkorb im Jahr 1991 um 1.3% gestiegen. Mit demselben Basisjahr ergibt sich für 1992 der Preisindex P1L =
P2L =
0.22 · 56 + 2.02 · 15.3 + 15.10 · 1.229 = 1.067 = 106.7% , 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229
13.2 Indizes
431
und für 1995 erhält man 0.24 · 56 + 2.1 · 15.3 + 18.02 · 1.229 = 1.170 = 117.0% . 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229 Die Preise für diese drei Güter sind demnach (bezogen auf Beamten-Haushalte) von 1990 bis 1995 um 17% gestiegen. Tabelle 13.10 enthält den Preisindex nach Laspeyres von 1990 bis 1995 für Beamten- und Angestellten-Haushalte. Die oben definierten Gewichtungsfaktoren P5L =
(i) (i)
gi =
p0 q0 n
( j) ( j)
∑ p0 q0
,
j=1
mit denen die Güter in die Berechnung des Preisindex nach der Formel (i)
n
pt
i=1
p0
PtL = ∑
g (i) i
eingehen, sind in diesem Beispiel g1 =
0.19 · 56 = 0.184 = 18.4% für Zigaretten, 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229
g2 =
1.87 · 15.3 = 0.494 = 49.4% für Bier, 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229
g3 =
15.17 · 1.229 = 0.322 = 32.2% für Kaffee. 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229
Berechnet man die gleichen Gewichtungsfaktoren für die in dem Lehrbuch Statistik von Bamberg und Baur (2007) gegebenen Daten mit dem Basisjahr 1950, so erhält man die in der zweiten Zeile der Tabelle 13.11 stehenden Werte.
Tabelle 13.10 Preisindex nach Laspeyres für den Warenkorb aus Zigaretten, Bier und Kaffee Jahr
1990
1991
1992
1993
1994
1995
Beamte
100.0 101.3 106.7 108.7 113.1 117.0
Angestellte 100.0 102.3 105.3 106.5 111.0 113.8
Tabelle 13.11 Gewichtungsfaktoren für den Warenkorb aus Zigaretten, Bier und Kaffee Zigaretten Bier Kaffee 1950 1990
72.2 18.4
16.8 49.4
11.0 32.2
432
13 Zeitreihenanalyse und Indizes
Diese Zahlen zeigen eine deutliche Veränderung in den Verbrauchsgewohnheiten dieser drei Genussmittel. Bier und Kaffee waren 1950 noch ausgesprochene Luxusgüter und hatten zusammen nur einen Anteil von 27.8% am Umsatz unseres Warenkorbes, gegenüber 71.8% im Jahr 1990. Bisher haben wir nur den Preisindex nach Laspeyres betrachtet, bei dem (i) (i)
gi =
p0 q0 n
( j) ( j)
∑ p0 q0
j=1
als Gewicht für das Gut i in die Berechnung des Preisindex eingeht, das dem Anteil des Umsatzes des Gutes i am Gesamtumsatz zur Zeit 0 entspricht. Man beachte, dass dabei die Preise und Mengen der Basisperiode 0 verwendet werden. Anders ist es bei der Berechnung des Preisindex nach Paasche. Die Gewichte können wie bei Laspeyres als Anteil des Gutes i am Gesamtumsatz betrachtet werden. Dabei werden jedoch die Mengen der Berichtsperiode t und die Preise der Basisperiode verwendet. Die Gewichtungsfaktoren nach Paasche sind also (i) (i)
gti =
p0 qt n
( j) ( j)
∑ p0 qt
.
j=1
Es handelt sich also um einen fiktiven Umsatz, der sich in der Berichtsperiode t ergäbe, wenn die Preise unverändert blieben. Die Gewichtungsfaktoren hängen jetzt von der Berichtsperiode t ab. Durch eine Umformung der allgemeinen PreisindexFormel ergibt sich mit den Gewichten nach Paasche: n
(i) pt t g Pt = (i) i i=1 p0 n
∑
(i) pt = (i) i=1 p0 n
∑
(i) (i) p0 qt n ( j) ( j) ∑ p0 qt j=1
n
(i) (i)
∑ pt qt
=
i=1 n ( j) ( j) ∑ p0 qt j=1
(i) (i)
∑ pt qt
=
i=1 n (i) (i) ∑ p0 qt i=1
Wenn wir den Summationsindex weglassen, erhalten wir die Aggregatform des Preisindex nach Paasche
PtP =
∑ pt qt , ∑ p0 qt
der mit einem hoch gestellten P gekennzeichnet wird. Anschaulich können wir uns unter dem Preisindex nach Paasche die Änderung des Gesamtumsatzes in der Berichtsperiode gegenüber der Basisperiode vorstellen, wenn auch in der Basisperiode die Mengen der Berichtsperiode unterstellt werden.
13.2 Indizes
433
Betrachten wir zum Vergleich die Formel für den Preisindex nach Laspeyres: PtL =
∑ pt q0 ∑ p0 q0
Beim Preisindex nach Laspeyres werden auch in der Berichtsperiode die Mengen der Basisperiode verwendet. Aus dem Vergleich der beiden Berechnungsformeln ergeben sich die folgenden Vor- und Nachteile des Laspeyres-Index gegenüber dem Paasche-Index für die Erstellung längerer Index-Zeitreihen: 1. Da das Gewichtungsschema konstant bleibt, geben die Indexzahlen die Auswirkung der reinen Preisveränderung wieder, so dass die Vergleichbarkeit der einzelnen Index-Werte eher gewährleistet ist als beim Paasche-Index. 2. Das unveränderte Gewichtungsschema des Laspeyres-Index führt allerdings auch dazu, dass dieser Index erst bei einer Überarbeitung des Warenkorbs auf geänderte Verbrauchsgewohnheiten reagiert, während diese beim Paasche-Index (zumindest für die im Warenkorb enthaltenen Güter) sofort berücksichtigt werden. 3. Es ist einfacher, Preise zu erheben, als die Verbrauchsgewohnheiten (ausgewählter Verbrauchergruppen). Insofern ist die Berechnung des Paasche-Index aufwändiger, weil dabei die Mengen in jeder Periode neu erhoben werden müssen. Das Statistische Bundesamt verwendet bei der Berechnung seiner Indizes die Indexformel nach Laspeyres, wobei alle 5 Jahre das Basisjahr und das Wägungsschema aktualisiert und alle Indexwerte, bezogen auf das neue Basisjahr, neu ermittelt werden. Dabei tritt allerdings (unabhängig von der verwendeten Index-Formel) das Problem auf, dass bei Einführung neuer Güter (z.B. DVD-Rekorder, Digitalkameras, ...) in den Warenkorb keine Preise und Mengen für frühere Perioden existieren, so dass für die Anpassung früherer Indexwerte an den neuen Warenkorb spezielle Kunstgriffe nötig sind. Es soll nun auch der Preisindex nach Paasche für den Warenkorb aus Zigaretten, Bier und Kaffee berechnet werden. Man erhält dann beispielsweise für den Preisindex für Beamten-Haushalte im Jahr 1991 den Wert P1P =
0.20 · 43 + 1.91 · 14.1 + 14.81 · 1.177 = 1.011 = 101.1% . 0.19 · 43 + 1.87 · 14.1 + 15.17 · 1.177
Im Vergleich zu 1990 ist der Preisindex nach Paasche für den Warenkorb 1991 um 1.1% gestiegen. Die weiteren Werte für Beamten- und Angestellten-Haushalte sind in Tabelle 13.12 gegeben. Wenn man die Werte des Preisindex nach Paasche (Tabelle 13.12) mit denen des Preisindex nach Laspeyres (Tabelle 13.10) vergleicht, fällt auf, dass der Preisindex nach Paasche in unserem Beispiel vor allem für Beamten-Haushalte in der Regel etwas niedriger ist als der Preisindex nach Laspeyres (was nicht generell so sein muss). Dies liegt daran, dass in den Beamten-Haushalten die Mengen an Kaffee, d.h. des Gutes mit der relativ größten Preissteigerung, im Verhältnis am stärksten zurückgegangen sind, so dass das Gewicht von Kaffee bei der Indexberechnung
434
13 Zeitreihenanalyse und Indizes
nach Paasche, die ja gerade auf den neuen Mengen des Berichtsjahres basiert, in allen Jahren niedriger ist als bei der Indexberechnung nach Laspeyres, die die Mengen aus dem Berichtsjahr verwendet. Bisher wurden nur Preisindizes betrachtet, mit denen man die allgemeine Preisentwicklung beschreibt. In vielen Fällen ist man jedoch auch oder gerade an der Entwicklung der Mengen oder des Umsatzes interessiert. Daher werden in den folgenden Abschnitten Mengen- und Umsatzindizes vorgestellt, die ähnlich konstruiert werden wie Preisindizes.
13.2.2 Mengen- und Umsatzindizes Mengenindizes werden analog zu den bereits betrachteten Preisindizes konstruiert. Der einzige Unterschied besteht darin, dass man bei der Berechnung von Mengenindizes an Stelle der Preismessziffern die sogenannten Mengenmessziffern (i)
qt
(i)
q0
,
i = 1, 2, . . . n,
mit den Gewichten gi multipliziert und die Produkte aufaddiert. Die allgemeine Indexformel für einen Mengenindex lautet also n
Qt = ∑
(i)
qt
g. (i) i i=1 q0
Wenn man als Gewichtungsfaktor gi des Gutes i wieder den entsprechenden Umsatzanteil in der Basisperiode, also (i) (i)
gi =
p0 q0 n
( j) ( j)
∑ p0 q0
,
j=1
verwendet, erhält man den Mengenindex nach Laspeyres: n
(i) qt QtL = g (i) i i=1 q0 n
∑
(i) qt = (i) i=1 q0 n
∑
(i) (i) p0 q0 n ( j) ( j) ∑ p0 q0 j=1
=
n
(i) (i)
∑ p0 qt
i=1 n ( j) ( j) ∑ p0 q0 j=1
=
(i) (i)
∑ p0 qt
i=1 n (i) (i) ∑ p0 q0 i=1
Tabelle 13.12 Preisindex nach Paasche für den Warenkorb aus Zigaretten, Bier und Kaffee Jahr
1990
1991
1992
1993
1994
1995
Beamte
100.0 101.1 106.2 108.2 112.8 116.2
Angestellte
100.0 102.4 105.2 106.3 111.0 113.8
13.2 Indizes
435
In der Regel lässt man den Summationsindex weg und schreibt einfach
QtL =
∑ p0 qt . ∑ p0 q0
Der Mengenindex nach Paasche ergibt sich, wenn man als Gewicht den fiktiven Umsatzanteil mit Preisen aus der Berichtsperiode und Mengen aus der Basisperiode (i) (i)
gti =
pt q0 n
( j) ( j)
∑ pt q0
j=1
als Gewichtungsfaktor des Gutes i verwendet. Man erhält dann mit wenigen Rechenschritten die Indexformel nach Paasche: n
n
QtP = ∑
(i)
qt
gt (i) i i=1 q0
n
=∑
pt q0
(i) i=1 q0
n
∑
j=1
( j) ( j) pt q0
n
(i) (i)
∑ pt qt
(i) (i)
(i)
qt
=
i=1 n ( j) ( j) ∑ pt q0 j=1
(i) (i)
∑ pt qt
=
i=1 n (i) (i) ∑ pt q0 i=1
Auch hier lässt man wieder den Summationsindex weg und schreibt einfach
QtP =
∑ pt qt . ∑ pt q0
Analog zum Vergleich zwischen den Preisindizes nach Laspeyres und Paasche gilt, dass Veränderungen des Mengenindex nach Laspeyres allein auf Mengenänderungen beruhen, während der Wert des Mengenindex nach Paasche auf Grund der Verwendung aktueller Preise auch durch die Preisentwicklung beeinflusst wird. Wenn man die beiden Indexformeln für Mengenindizes mit denen für Preisindizes vergleicht, erkennt man, dass in den Aggregatformen einfach die Rollen der Mengen und Preise vertauscht sind. Tabelle 13.13 fasst noch einmal die Formeln für Preis- und Mengenindizes zusammen. Wenn wir den Mengenindex nach Laspeyres für unseren Warenkorb mit Zigaretten, Bier und Kaffee berechnen, erhalten wir beispielsweise für den Beamtenhaushalt im Jahr 1995 den Wert 0.19 · 26 + 1.87 · 13.1 + 15.17 · 1.132 = 0.805 = 80.5% . 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229 Dieses Ergebnis besagt, dass sich die verbrauchten Mengen von 1990 bis 1995 (unter der Annahme unveränderter Preise) um −19.5% verändert haben. QL5 =
436
13 Zeitreihenanalyse und Indizes
Entsprechend können wir den Preisindex nach Paasche berechnen und erhalten im Jahr 1995 für den Beamtenhaushalt den Wert 0.24 · 26 + 2.1 · 13.1 + 18.02 · 1.132 = 0.800 = 80.0% . 0.24 · 56 + 2.1 · 15.3 + 18.02 · 1.229 Dieses Ergebnis besagt, dass die verbrauchten Mengen von 1990 bis 1995 (unter der Annahme, dass das Preisniveau von 1995 auch 1990 Gültigkeit hatte) um 20.0% zurückgegangen sind. Die weiteren Werte der beiden Mengenindizes sind in den Tabellen 13.14 und 13.15 gegeben. Der stärkere Rückgang des Mengenindex nach Paasche liegt darin begründet, dass der relativ starke Mengenrückgang von Kaffee bei der Berechnung des Gewichtungsfaktors durch den noch stärker steigenden Preis überkompensiert wird, so dass der Gewichtungsfaktor dieses Gutes mit dem relativ stärksten Mengenrückgang mit der Zeit steigt, während er bei der Indexberechnung nach Laspeyres konstant bleibt. Umsatzindizes werden ähnlich berechnet wie die bereits betrachteten Preis- und Mengenindizes. Allerdings gibt es für Umsatzindizes nur eine Formel, die auf der Gewichtung nach Laspeyres aufbaut (eine andere Gewichtung führt in diesem Fall zu keiner sinnvollen Formel). Die Umsatzmessziffern QP5 =
(i) (i)
pt qt
(i) (i)
p0 q0
,
i = 1, 2, . . . n ,
werden entsprechend ihres Anteils am Gesamtumsatz in der Basisperiode (i) (i)
gi =
p0 q0 n
( j) ( j)
∑ p0 q0
j=1
gewichtet. Damit ergibt sich für den Umsatzindex die Formel n
(i) (i) pt qt Ut = g (i) (i) i i=1 p0 q0 n
∑
(i) (i) pt qt = (i) (i) i=1 p0 q0 n
∑
(i) (i) p0 q0 n ( j) ( j) ∑ p0 q0 j=1
=
i=1 n ( j) ( j) ∑ p0 q0 j=1
Tabelle 13.13 Preis- und Mengenindizes nach Laspeyres und Paasche Preisindex
n
(i) (i)
∑ pt qt
Mengenindex
Laspeyres
PtL =
∑ pt q0 ∑ p0 q0
QtL =
∑ p0 qt ∑ p0 q0
Paasche
PtP =
∑ pt qt ∑ p0 qt
QtP =
∑ pt qt ∑ pt q0
(i) (i)
∑ pt qt
=
i=1 n (i) (i) ∑ p0 q0 i=1
.
13.2 Indizes
437
Tabelle 13.14 Mengenindex nach Laspeyres für den Warenkorb aus Zigaretten, Bier und Kaffee Jahr
1990
1991
1992 1993 1994 1995
Beamte
100.0
90.5
92.4
87.8
82.9
80.5
Angestellte
100.0 100.4
97.2
93.6
95.2
98.4
Tabelle 13.15 Mengenindex nach Paasche für den Warenkorb aus Zigaretten, Bier und Kaffee Jahr
1990
1991
1992 1993 1994 1995
Beamte
100.0
90.3
91.9
87.4
82.7
80.0
Angestellte
100.0 100.5
97.1
93.4
95.2
98.4
Tabelle 13.16 Umsatzindex für den Warenkorb aus Zigaretten, Bier und Kaffee Jahr
1990
1991
1992
1993
1994
1995
Beamte
100.0
91.5
98.1
95.0
93.5
93.5
Angestellte
100.0 102.7 102.2
99.4
105.7 112.0
In Aggregatform schreibt man
Ut =
∑ pt qt . ∑ p0 q0
Zur Berechnung eines Umsatzindex wird also einfach der Gesamtumsatz der Berichtsperiode durch den Gesamtumsatz der Basisperiode geteilt, so dass sich sowohl Preis- als auch Mengenänderungen direkt auf den Umsatzindex auswirken. Wir betrachten wieder den Warenkorb aus Zigaretten, Bier und Kaffee und berechnen den Umsatzindex für Beamte für Berichtsjahr 1995, Basisjahr 1990: 0.24 · 26 + 2.1 · 13.1 + 18.02 · 1.132 = 0.935 = 93.5% 0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229 Der Umsatz im Jahr 1995 ist somit um 6.5% niedriger als der Umsatz im Basisjahr 1990. Die weiteren Werte des Umsatzindex für Beamten- und AngestelltenHaushalte sind in Tabelle 13.16 gegeben. Es fällt auf, dass der Umsatzindex für Beamte deutlich zurückgegangen ist, während er für Angestellte gegen Ende des Betrachtungszeitraums relativ stark gestiegen ist. Der Grund für diese unterschiedliche Entwicklung wird ersichtlich, wenn man den Umsatzindex nicht isoliert betrachtet, sondern auch die Entwicklung der U5 =
438
13 Zeitreihenanalyse und Indizes
Preis- und Mengenindizes berücksichtigt. In Abb. 13.22 sind alle fünf Indizes, jeweils für Beamten- und Angestellten-Haushalte, grafisch dargestellt. Wir entnehmen Abb. 13.22, dass die Preisindizes für Beamte und Angestellte ähnlich stark gestiegen sind, doch während der Preisanstieg bei den BeamtenHaushalten durch einen starken Rückgang der Mengen überkompensiert wurde, so dass der Umsatz sogar gesunken ist, zeigen die Mengenindizes für Angestellte nur eine vorübergehende Mengeneinschränkung, weshalb der Umsatzindex auf Grund der stark steigenden Preise ebenfalls stark zunimmt. Darüber hinaus wird in Abb. 13.22 deutlich, dass sich die Indizes nach Laspeyres und Paasche (für Preise und Mengen) in unserem Beispiel nur geringfügig unterscheiden. Der Preisindex (Mengenindex) nach Paasche weicht generell nur dann deutlich vom Preisindex (Mengenindex) nach Laspeyres ab, wenn sich die Mengen (Preise) im Berichtsjahr im Vergleich zu denen des Basisjahrs sehr ungleichmäßig verändert haben. Insofern macht es Sinn, dass das Statistische Bundesamt bei der Berechnung seiner Preisindizes die mit weniger Erhebungsaufwand verbundene Formel nach Laspeyres verwendet und nur alle fünf Jahre den Warenkorb komplett überarbeitet.
Abb. 13.22 Preis-, Mengen- und Umsatzindizes für den Warenkorb aus Zigaretten, Bier und Kaffee im Zeitverlauf (Basisjahr 1990)
13.2 Indizes
439
13.2.3 Aktienindizes Die Ermittlung von Aktienindizes dient von der Idee her demselben Zweck wie die Berechnung von Preis-, Mengen- oder Umsatzindizes. Aktienindizes sollen auf sehr komprimierte Weise ein repräsentatives Bild von der Entwicklung eines Aktienmarktes liefern. Dabei muss man die Besonderheit beachten, dass die Kursentwicklung einer Aktie auch durch Kapitalveränderungen, Bezugsrechte und Dividendenzahlungen beeinflusst wird und z.B. der Kurs einer Aktie in der Regel nach der Dividenden-Ausschüttung leicht sinkt (theoretisch entspricht der Wert einer Aktie nach Ausschüttung der Dividende dem Wert vor der Ausschüttung abzüglich der Dividende). Man unterscheidet daher Kursindizes, die die tatsächliche reine Kursentwicklung darstellen, und Performance-Indizes, bei deren Berechnung auch Kapitalveränderungen und Dividendenzahlungen (z.B. durch einen Korrekturfaktor) berücksichtigt werden. Da diese Berücksichtigung dazu führt, dass den Aktien bei der Index-Berechnung effektiv ein höherer als der tatsächliche Kurs zugestanden wird, ist der Wert eines Performance-Index in der Regel höher (und nie niedriger) als der entsprechende Kursindex. Die Konstruktion der meisten Aktienindizes basiert direkt auf der Konzeption von Preisindizes. Im Folgenden werden zwei wichtige Aktienindizes vorgestellt, der Deutsche Aktienindex (DAX) sowie der amerikanische Dow Jones Industrial Average Index (Dow Jones), jedoch ohne dass dabei alle Details erläutert werden. Ausführliche Informationen über den DAX sowie weitere Aktienindizes der Deutschen Börse findet man auf der Internetseite http://www.deutsche-boerse.com, Details zum Dow Jones können z.B. der Internetseite http://www.djindexes.com entnommen werden, und eine allgemeine Einführung in die Konstruktion von Aktienindizes findet man z.B. in der Studie Aktienindizes (Studie 12) des Deutschen Aktieninstituts (DAI), die auf der Internetseite http://www.dai.de verfügbar ist. Beispiel 13.5. Deutscher Aktienindex (DAX) Der Deutsche Aktienindex (DAX) wurde im Jahr 1988 als Nachfolger des Index der Börsen-Zeitung mit einem Basiswert von 1000 Punkten am Basiszeitpunkt 30.12.1987 eingeführt. Der aktuelle Wert des DAX beschreibt somit die Veränderung des deutschen Aktienmarktes im Vergleich zu diesem Basiszeitpunkt. Durch eine Umrechnung des Vorgänger-Index auf die DAX-Basis liegt heute eine historische Zeitreihe des DAX vor, die bis in das Jahr 1959 zurückreicht. Der DAX wird von der Deutschen Börse in der Regel als Performance-Index veröffentlicht (aber zusätzlich auch einmal täglich unter dem Kürzel DAXK als Kursindex berechnet) und aus den Kursen des elektronischen Handelssystems XETRA ermittelt. In seine Berechnung gehen 30 deutsche Aktienwerte aus den Technologieund klassischen Branchen ein, die im sogenannten Prime Standard-Segment zugelassen sind. Diese 30 Aktien repräsentieren laut der Deutschen Börse rund drei Viertel des deutschen Aktienmarktes bezüglich des Grundkapitals inländischer börsennotierter Aktiengesellschaften und des in deutschen Beteiligungspapieren getätigten Börsenumsatzes. Auswahlkriterien für die Aufnahme in den DAX sind der Börsenumsatz und die Marktkapitalisierung, wobei man unter der letzteren das Produkt
440
13 Zeitreihenanalyse und Indizes
aus der Anzahl frei verfügbarer Aktien mit dem Aktienkurs versteht. Vierteljährlich wird die Zusammensetzung des DAX überprüft und gegebenenfalls entsprechend vorgegebener Regeln verändert. Die Formel zur Berechnung des DAX ist eine Modifikation der Formel des Preisindex nach Laspeyres und lautet 30
DAXt =
(i) (i)
(i) (i)
∑ pt qT ffT ct
i=1
30
∑
i=1
(i) (i) p0 q0
· KT · 1 000 ,
wobei (i)
p0 = Kurs der Aktie i am Tag vor der Aufnahme in den Index (i)
pt = Kurs der Aktie i zum Zeitpunkt t (i) q0 = (i) qT = (i) ff T = (i) ct =
Anzahl der Aktien der Gesellschaft i am Tag vor der Aufnahme in den Index Anzahl der Aktien der Gesellschaft i zum Zeitpunkt T Freefloat-Faktor der Aktie i zum Zeitpunkt T Korrekturfaktor der Aktie i zum Zeitpunkt t
KT = Indexspezifischer Verkettungsfaktor zum Zeitpunkt T
Im Vergleich zur einfachen Preisindexformel nach Laspeyres ist die Formel zur (i) Berechnung des DAX um einige Korrekturfaktoren (ct und KT ) ergänzt, die dazu dienen, die Vergleichbarkeit des Indexwertes auch bei einer Änderung der Zusammensetzung des Indexkorbes sowie bei einer Beeinflussung durch marktfremde Faktoren zu gewährleisten. Außerdem wird in der Summe des Zählers nicht die Anzahl (i) der Aktien zum Basiszeitpunkt q0 verwendet, sondern das Produkt aus der Anzahl (i)
(i)
der Aktien qT und dem Freefloat-Faktor ffT im Zeitpunkt T (der Freefloat-Faktor beschreibt den Anteil der tatsächlich frei am Markt verfügbaren Aktien der Gesell(i) schaft i). Dieses Produkt ist nur gleich q0 , wenn sich die Anzahl frei verfügbarer Aktien seit dem Basiszeitpunkt nicht geändert hat. (i) (i) Der Kurs der Aktie pt sowie der Korrekturfaktor ct , der zur Bereinigung um marktfremde Einflüsse, die durch Dividenden oder Kapitalmaßnahmen der Gesell(i) schaft i entstehen, dient, werden täglich aktualisiert. Die Anzahl der Aktien qT ,der (i) Freefloat-Faktor ffT sowie der indexspezifische Verkettungsfaktor KT werden dagegen nur an den vier jährlichen Verkettungsterminen T angepasst. An diesen Ver(i) kettungsterminen werden auch die Korrekturfaktoren ct auf den Wert 1 zurückgesetzt und in den Verkettungsfaktor KT überführt. Die Multiplikation mit dem Basiswert 1000 dient nur zur Adjustierung auf ein übliches Niveau. Trotz dieser aufwändigen Korrekturen bleibt der DAX ein Laspeyres-Index, bei dem die Kursmessziffern im Grunde mit ihrem Umsatzanteil (bzw. Marktkapitalisierungs-Anteil) im Basiszeitpunkt gewichtet werden, auch wenn dies in der Formel auf Grund der Korrekturfaktoren nicht offensichtlich wird. Wenn es seit Einführung
13.2 Indizes
441
des DAX keine Veränderung der Zusammensetzung und der Anteile frei verfügbarer Aktien sowie keine Dividendenzahlungen und Aktiensplits gegeben hätte, wäre die Formel zur Berechnung des DAX sogar vollkommen identisch mit der PreisindexFormel nach Laspeyres. In der Regel wird der Begriff Gewichtung im Zusammenhang mit dem DAX jedoch mit einer anderen Bedeutung verwendet als bei der Herleitung der Preisindexformeln. Man kann die Formel des DAX auch wie folgt interpretieren: 30
∑ Marktkapitalisierung der Gesellschaft i im Zeitpunkt t
DAXt =
i=1 30
· KT · 1 000
∑ Marktkapitalisierung der Gesellschaft i im Zeitpunkt 0
i=1
Die Entwicklung des DAX hängt dann zwischen den Verkettungs-Zeitpunkten T nur von der Summe im Zähler, also der gesamten Marktkapitalisierung der 30 DAXGesellschaften im Zeitpunkt t, ab, weil die anderen Teile der Formel konstant sind. Man sagt dann auch, das Gewicht der Gesellschaft i ist der Anteil der Gesellschaft i an der gesamten Marktkapitalisierung im Zeitpunkt t. Das Gewicht der einzelnen Gesellschaften hängt somit zum einen von der Anzahl der frei verfügbaren Aktien, die vierteljährlich von der Deutschen Börse neu ermittelt wird, zum anderen auch vom täglichen Aktienkurs ab, so dass sich die Gewichtung täglich leicht ändert. Tabelle 13.17 gibt einen Überblick über die im DAX enthaltenen Gesellschaften und ihre Gewichtung am 28.12.2007 (Quelle: www.deutsche-boerse.com). Tabelle 13.17 Zusammensetzung und Gewichtung des DAX (Stand 28.12.2007) Adidas Allianz BASF BMW Bayer Commerzbank Continental Daimler Deutsche Bank Deutsche Börse
1.31 % 8.37 % 6.18 % 1.71 % 6.00 % 1.98 % 1.81 % 8.16 % 5.63 % 3.41 %
Deutsche Post Deutsche Postbank Deutsche Telekom Eon Fresenius Henkel Hypo Real Estate Infineon Linde Lufthansa
2.48 % 0.63 % 5.26 % 10.06 % 0.86 % 0.86 % 0.91 % 0.76 % 1.45 % 1.05 %
MAN Merck Metro Münchner Rück RWE SAP Siemens Thyssen-Krupp TUI Volkswagen
1.41 % 0.72 % 0.74 % 3.64 % 5.61 % 3.96 % 9.93 % 1.86 % 0.48 % 2.78 %
Es wird deutlich, dass sich die Gewichtung der einzelnen Gesellschaften stark unterscheidet. Je größer das Gewicht einer Gesellschaft ist, desto größer ist auch der Einfluss ihres Aktienkurses auf den Index-Stand. Beispielsweise hätte mit den Gewichten vom 28.12.2007 ein alleiniger Anstieg des Kurses der Siemens-Aktie um 10% den Wert des DAX um 10% · 9.93% ≈ 1% erhöht, während der DAX bei einer alleinigen 10%-igen Erhöhung des Lufthansa-Kurses nur um 10% · 1.05% ≈ 0.1% gestiegen wäre. Um den Einfluss einzelner Gesellschaften auf den DAX zu
442
13 Zeitreihenanalyse und Indizes
Abb. 13.23 Zeitliche Entwicklung des monatlichen DAX-Schluss-Standes seit dem Basiszeitpunkt 30.12.1987
begrenzen, ist das maximal mögliche Gewicht einer Gesellschaft seit September 2006 auf 10% festgelegt. Abbildung 13.23 zeigt den zeitlichen Verlauf des monatlichen DAX-SchlussStandes seit dem Basiszeitpunkt 30.12.1987. Es wird deutlich, dass sich der deutsche Aktienmarkt, abgesehen von einem deutlichen Einbruch in den Jahren 2000 bis 2003, langfristig sehr positiv entwickelt hat. Der Stand des DAX war Ende 2007 rund achtmal so hoch wie im Basiszeitpunkt. 2008 fiel er dann allerdings auf Grund der Finanzkrise wieder unter 7000 Punkte. Beispiel 13.6. Dow Jones Industrial Average (Dow Jones) Während sich der DAX mit seiner relativ komplexen Formel an die PreisindexFormel nach Laspeyres anlehnt, gibt es auch wesentlich einfachere Aktienindizes. Der amerikanische Dow Jones Industrial Average Index (Dow Jones), der ein reiner Kursindex ist (also keine Dividendenzahlungen berücksichtigt), ist im Grunde nichts anderes als ein ungewichtetes arithmetisches Mittel. Er wurde erstmals im Jahr 1896 veröffentlicht, entsprach damals dem Mittelwert der Kurse von 12 berücksichtigten Aktien und hatte einen Eröffungsstand von 41 Punkten, bei einem Wert von rund 13.000 Punkten Anfang Mai 2008. Seit 1928 umfasst der Dow Jones 30 große amerikanische Standardwerte und wird aktuell nach der folgenden Formel berechnet: 30
(i)
∑ pt
DJIAt =
i=1
c · 30
,
wobei (i)
pt = Kurs der Aktie i zum Zeitpunkt t c = Korrekturfaktor
Der Dow Jones wird also immer noch aus dem Mittelwert der Kurse der 30 berücksichtigten Aktien ermittelt, allerdings erweitert um den Korrekturfaktor c, der
13.2 Indizes
443
Abb. 13.24 Zeitliche Entwicklung des monatlichen Dow Jones Schluss-Standes
zur Berücksichtigung von Aktiensplits oder Veränderungen der Index-Zusammensetzung eingeführt wurde. Der Korrekturfaktor dient also dem Erhalt der Vergleichbarkeit des Indexwertes bei Veränderungen seiner Struktur. In der Regel wird der Nenner der obigen Formel (c · 30) zum sogenannten Divisor zusammengefasst. Anfang Mai 2008 betrug der Divisor ungefähr 0.123, d.h. dass die Aktienkurse der 30 im Index enthaltenen Aktien addiert und dann durch 0.123 geteilt wurden. Der Divisor ändert sich, sobald auf Grund von Veränderungen der Index-Zusammensetzung oder Aktiensplits eine Korrektur notwendig ist. Auch wenn der Dow Jones als einfacher ungewichteter Mittelwert nicht mehr den Standard eines modernen Aktienindex erfüllt (im Gegensatz zum DAX), so ist er doch immer noch der am meisten beachtete Aktienindex weltweit. Zum Vergleich mit dem DAX zeigt Abb. 13.24 den zeitlichen Verlauf der monatlichen Schluss-Stände des Dow Jones seit 1988. Man erkennt, dass der grundsätzliche Verlauf des Dow Jones sehr dem des DAX ähnelt. Dies ist sicher auf die starke Verknüpfung der beiden Volkswirtschaften USA und Deutschland sowie der internationalen Wertpapier-Märkte zurückzuführen. Allerdings ist der Einbruch des Dow Jones in den Jahren 2000 bis 2003 deutlich sanfter ausgefallen. Wichtigste Konzepte: • Zeitreihe • additives und multiplikatives Modell • Trend, Filter • Saisonkomponente • Indexgewicht, Basisjahr, Berichtsperiode • Paasche-Index • Laspeyres-Index
Anhang A
Verteilungstabellen
Tabelle A.1 Verteilungsfunktion der Standardnormalverteilung. Die Tabelle gibt Φ (z), die Wahrscheinlichkeit, dass eine N(0, 1)-verteilte Zufallsvariable kleiner oder gleich z ist.
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
z
Φ (z)
−3.00 −2.99 −2.98 −2.97 −2.96 −2.95 −2.94 −2.93 −2.92 −2.91
0.001 0.001 0.001 0.001 0.002 0.002 0.002 0.002 0.002 0.002
−2.40 −2.39 −2.38 −2.37 −2.36 −2.35 −2.34 −2.33 −2.32 −2.31
0.008 0.008 0.009 0.009 0.009 0.009 0.010 0.010 0.010 0.010
−1.80 −1.79 −1.78 −1.77 −1.76 −1.75 −1.74 −1.73 −1.72 −1.71
0.036 0.037 0.038 0.038 0.039 0.040 0.041 0.042 0.043 0.044
−1.20 −1.19 −1.18 −1.17 −1.16 −1.15 −1.14 −1.13 −1.12 −1.11
0.115 0.117 0.119 0.121 0.123 0.125 0.127 0.129 0.131 0.133
−0.60 −0.59 −0.58 −0.57 −0.56 −0.55 −0.54 −0.53 −0.52 −0.51
0.274 0.278 0.281 0.284 0.288 0.291 0.295 0.298 0.302 0.305
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.500 0.504 0.508 0.512 0.516 0.520 0.524 0.528 0.532 0.536
0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69
0.726 0.729 0.732 0.736 0.739 0.742 0.745 0.749 0.752 0.755
1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29
0.885 0.887 0.889 0.891 0.893 0.894 0.896 0.898 0.900 0.901
1.80 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89
0.964 0.965 0.966 0.966 0.967 0.968 0.969 0.969 0.970 0.971
2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49
0.992 0.992 0.992 0.992 0.993 0.993 0.993 0.993 0.993 0.994
−2.90 −2.89 −2.88 −2.87 −2.86 −2.85 −2.84 −2.83 −2.82 −2.81
0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002 0.002
−2.30 −2.29 −2.28 −2.27 −2.26 −2.25 −2.24 −2.23 −2.22 −2.21
0.011 0.011 0.011 0.012 0.012 0.012 0.013 0.013 0.013 0.014
−1.70 −1.69 −1.68 −1.67 −1.66 −1.65 −1.64 −1.63 −1.62 −1.61
0.045 0.046 0.046 0.047 0.048 0.049 0.051 0.052 0.053 0.054
−1.10 −1.09 −1.08 −1.07 −1.06 −1.05 −1.04 −1.03 −1.02 −1.01
0.136 0.138 0.140 0.142 0.145 0.147 0.149 0.152 0.154 0.156
−0.50 −0.49 −0.48 −0.47 −0.46 −0.45 −0.44 −0.43 −0.42 −0.41
0.309 0.312 0.316 0.319 0.323 0.326 0.330 0.334 0.337 0.341
0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19
0.540 0.544 0.548 0.552 0.556 0.560 0.564 0.567 0.571 0.575
0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79
0.758 0.761 0.764 0.767 0.770 0.773 0.776 0.779 0.782 0.785
1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39
0.903 0.905 0.907 0.908 0.910 0.911 0.913 0.915 0.916 0.918
1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99
0.971 0.972 0.973 0.973 0.974 0.974 0.975 0.976 0.976 0.977
2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59
0.994 0.994 0.994 0.994 0.994 0.995 0.995 0.995 0.995 0.995
−2.80 −2.79 −2.78 −2.77 −2.76 −2.75 −2.74 −2.73 −2.72 −2.71
0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003 0.003
−2.20 −2.19 −2.18 −2.17 −2.16 −2.15 −2.14 −2.13 −2.12 −2.11
0.014 0.014 0.015 0.015 0.015 0.016 0.016 0.017 0.017 0.017
−1.60 −1.59 −1.58 −1.57 −1.56 −1.55 −1.54 −1.53 −1.52 −1.51
0.055 0.056 0.057 0.058 0.059 0.061 0.062 0.063 0.064 0.066
−1.00 −0.99 −0.98 −0.97 −0.96 −0.95 −0.94 −0.93 −0.92 −0.91
0.159 0.161 0.164 0.166 0.169 0.171 0.174 0.176 0.179 0.181
−0.40 −0.39 −0.38 −0.37 −0.36 −0.35 −0.34 −0.33 −0.32 −0.31
0.345 0.348 0.352 0.356 0.359 0.363 0.367 0.371 0.374 0.378
0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29
0.579 0.583 0.587 0.591 0.595 0.599 0.603 0.606 0.610 0.614
0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89
0.788 0.791 0.794 0.797 0.800 0.802 0.805 0.808 0.811 0.813
1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49
0.919 0.921 0.922 0.924 0.925 0.926 0.928 0.929 0.931 0.932
2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09
0.977 0.978 0.978 0.979 0.979 0.980 0.980 0.981 0.981 0.982
2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69
0.995 0.995 0.996 0.996 0.996 0.996 0.996 0.996 0.996 0.996
−2.70 −2.69 −2.68 −2.67 −2.66 −2.65 −2.64 −2.63 −2.62 −2.61
0.003 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.004 0.005
−2.10 −2.09 −2.08 −2.07 −2.06 −2.05 −2.04 −2.03 −2.02 −2.01
0.018 0.018 0.019 0.019 0.020 0.020 0.021 0.021 0.022 0.022
−1.50 −1.49 −1.48 −1.47 −1.46 −1.45 −1.44 −1.43 −1.42 −1.41
0.067 0.068 0.069 0.071 0.072 0.074 0.075 0.076 0.078 0.079
−0.90 −0.89 −0.88 −0.87 −0.86 −0.85 −0.84 −0.83 −0.82 −0.81
0.184 0.187 0.189 0.192 0.195 0.198 0.200 0.203 0.206 0.209
−0.30 −0.29 −0.28 −0.27 −0.26 −0.25 −0.24 −0.23 −0.22 −0.21
0.382 0.386 0.390 0.394 0.397 0.401 0.405 0.409 0.413 0.417
0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39
0.618 0.622 0.626 0.629 0.633 0.637 0.641 0.644 0.648 0.652
0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99
0.816 0.819 0.821 0.824 0.826 0.829 0.831 0.834 0.836 0.839
1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59
0.933 0.934 0.936 0.937 0.938 0.939 0.941 0.942 0.943 0.944
2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19
0.982 0.983 0.983 0.983 0.984 0.984 0.985 0.985 0.985 0.986
2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79
0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997 0.997
−2.60 −2.59 −2.58 −2.57 −2.56 −2.55 −2.54 −2.53 −2.52 −2.51
0.005 0.005 0.005 0.005 0.005 0.005 0.006 0.006 0.006 0.006
−2.00 −1.99 −1.98 −1.97 −1.96 −1.95 −1.94 −1.93 −1.92 −1.91
0.023 0.023 0.024 0.024 0.025 0.026 0.026 0.027 0.027 0.028
−1.40 −1.39 −1.38 −1.37 −1.36 −1.35 −1.34 −1.33 −1.32 −1.31
0.081 0.082 0.084 0.085 0.087 0.089 0.090 0.092 0.093 0.095
−0.80 −0.79 −0.78 −0.77 −0.76 −0.75 −0.74 −0.73 −0.72 −0.71
0.212 0.215 0.218 0.221 0.224 0.227 0.230 0.233 0.236 0.239
−0.20 −0.19 −0.18 −0.17 −0.16 −0.15 −0.14 −0.13 −0.12 −0.11
0.421 0.425 0.429 0.433 0.436 0.440 0.444 0.448 0.452 0.456
0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49
0.655 0.659 0.663 0.666 0.670 0.674 0.677 0.681 0.684 0.688
1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09
0.841 0.844 0.846 0.848 0.851 0.853 0.855 0.858 0.860 0.862
1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69
0.945 0.946 0.947 0.948 0.949 0.951 0.952 0.953 0.954 0.954
2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29
0.986 0.986 0.987 0.987 0.987 0.988 0.988 0.988 0.989 0.989
2.80 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89
0.997 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.998
−2.50 −2.49 −2.48 −2.47 −2.46 −2.45 −2.44 −2.43 −2.42 −2.41
0.006 0.006 0.007 0.007 0.007 0.007 0.007 0.008 0.008 0.008
−1.90 −1.89 −1.88 −1.87 −1.86 −1.85 −1.84 −1.83 −1.82 −1.81
0.029 0.029 0.030 0.031 0.031 0.032 0.033 0.034 0.034 0.035
−1.30 −1.29 −1.28 −1.27 −1.26 −1.25 −1.24 −1.23 −1.22 −1.21
0.097 0.099 0.100 0.102 0.104 0.106 0.107 0.109 0.111 0.113
−0.70 −0.69 −0.68 −0.67 −0.66 −0.65 −0.64 −0.63 −0.62 −0.61
0.242 0.245 0.248 0.251 0.255 0.258 0.261 0.264 0.268 0.271
−0.10 −0.09 −0.08 −0.07 −0.06 −0.05 −0.04 −0.03 −0.02 −0.01
0.460 0.464 0.468 0.472 0.476 0.480 0.484 0.488 0.492 0.496
0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59
0.691 0.695 0.698 0.702 0.705 0.709 0.712 0.716 0.719 0.722
1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19
0.864 0.867 0.869 0.871 0.873 0.875 0.877 0.879 0.881 0.883
1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79
0.955 0.956 0.957 0.958 0.959 0.960 0.961 0.962 0.962 0.963
2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39
0.989 0.990 0.990 0.990 0.990 0.991 0.991 0.991 0.991 0.992
2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99
0.998 0.998 0.998 0.998 0.998 0.998 0.998 0.999 0.999 0.999
z
W. Zucchini, A. Schlegel, O. Nenadi´c, S. Sperlich, Statistik für Bachelorund Masterstudenten, © Springer-Verlag Berlin Heidelberg 2009
445
446
A Verteilungstabellen
Tabelle A.2 Prozentpunkte der Standardnormalverteilung. α
0.15
0.10
0.05
0.025 0.01
0.005 0.0005
zα
1.04
1.28
1.64
1.96
2.58
2.33
3.29
Tabelle A.3 Prozentpunkte der Student-t-Verteilung. Die Tabelle gibt die oberen Prozentpunkte tν |α in Abhängigkeit von α und den Freiheitsgraden ν an.
α
0.15
0.1
0.05
0.025
0.01
1 2 3 4 5
1.96 1.39 1.25 1.19 1.16
3.08 1.89 1.64 1.53 1.48
6.31 2.92 2.35 2.13 2.02
12.71 4.30 3.18 2.78 2.57
31.82 6.96 4.54 3.75 3.36
63.66 9.92 5.84 4.60 4.03
6 7 8 9 10
1.13 1.12 1.11 1.10 1.09
1.44 1.41 1.40 1.38 1.37
1.94 1.89 1.86 1.83 1.81
2.45 2.36 2.31 2.26 2.23
3.14 3.00 2.90 2.82 2.76
11 12 13 14 15
1.09 1.08 1.08 1.08 1.07
1.36 1.36 1.35 1.35 1.34
1.80 1.78 1.77 1.76 1.75
2.20 2.18 2.16 2.14 2.13
2.72 2.68 2.65 2.62 2.60
ν
0.005
α
0.15
0.1
0.05
0.025
0.01
0.005
16 17 18 19 20
1.07 1.07 1.07 1.07 1.06
1.34 1.33 1.33 1.33 1.33
1.75 1.74 1.73 1.73 1.72
2.12 2.11 2.10 2.09 2.09
2.58 2.57 2.55 2.54 2.53
2.92 2.90 2.88 2.86 2.85
3.71 3.50 3.36 3.25 3.17
21 22 23 24 25
1.06 1.06 1.06 1.06 1.06
1.32 1.32 1.32 1.32 1.32
1.72 1.72 1.71 1.71 1.71
2.08 2.07 2.07 2.06 2.06
2.52 2.51 2.50 2.49 2.49
2.83 2.82 2.81 2.80 2.79
3.11 3.05 3.01 2.98 2.95
26 27 28 29 30
1.06 1.06 1.06 1.06 1.05
1.31 1.31 1.31 1.31 1.31
1.71 1.70 1.70 1.70 1.70
2.06 2.05 2.05 2.05 2.04
2.48 2.47 2.47 2.46 2.46
2.78 2.77 2.76 2.76 2.75
40 60 120
1.05 1.05 1.04
1.30 1.30 1.29
1.68 1.67 1.66
2.02 2.00 1.98
2.42 2.39 2.36
2.70 2.66 2.62
ν
Tabelle A.4 Prozentpunkte der χ 2 -Verteilung. Die Tabelle gibt die oberen Prozentpunkte χν2;α in Abhängigkeit von α und den Freiheitsgraden ν an.
α
0.99
0.95
0.90
0.50
0.10
0.05
0.01
ν
1 2 3 4 5
0.00 0.02 0.11 0.30 0.55
0.00 0.10 0.35 0.71 1.15
0.02 0.21 0.58 1.06 1.61
0.45 1.39 2.37 3.36 4.35
2.71 4.61 6.25 7.78 9.24
3.84 5.99 7.81 9.49 11.07
6.63 9.21 11.34 13.28 15.09
6 7 8 9 10
0.87 1.24 1.65 2.09 2.56
1.64 2.17 2.73 3.33 3.94
2.20 2.83 3.49 4.17 4.87
5.35 6.35 7.34 8.34 9.34
10.64 12.02 13.36 14.68 15.99
12.59 14.07 15.51 16.92 18.31
11 12 13 14 15
3.05 3.57 4.11 4.66 5.23
4.57 5.23 5.89 6.57 7.26
5.58 6.30 7.04 7.79 8.55
10.34 11.34 12.34 13.34 14.34
17.28 18.55 19.81 21.06 22.31
19.68 21.03 22.36 23.68 25.00
ν
α
0.99
0.95
0.90
0.50
0.10
0.05
0.01
16 17 18 19 20
5.81 6.41 7.01 7.63 8.26
7.96 8.67 9.39 10.12 10.85
9.31 10.09 10.86 11.65 12.44
15.34 16.34 17.34 18.34 19.34
23.54 24.77 25.99 27.20 28.41
26.30 27.59 28.87 30.14 31.41
32.00 33.41 34.81 36.19 37.57
16.81 18.48 20.09 21.67 23.21
21 22 23 24 25
8.90 9.54 10.20 10.86 11.52
11.59 12.34 13.09 13.85 14.61
13.24 14.04 14.85 15.66 16.47
20.34 21.34 22.34 23.34 24.34
29.62 30.81 32.01 33.20 34.38
32.67 33.92 35.17 36.42 37.65
38.93 40.29 41.64 42.98 44.31
24.72 26.22 27.69 29.14 30.58
26 27 28 29 30
12.20 12.88 13.56 14.26 14.95
15.38 16.15 16.93 17.71 18.49
17.29 18.11 18.94 19.77 20.60
25.34 26.34 27.34 28.34 29.34
35.56 36.74 37.92 39.09 40.26
38.89 40.11 41.34 42.56 43.77
45.64 46.96 48.28 49.59 50.89
A Verteilungstabellen
447
Tabelle A.5 Obere 10%-Punkte F[ν1 ;ν2 ;α =0.1] der F-Verteilung. Die Tabelle gibt die oberen Prozentpunkte F[ν1 ;ν2 ;α =0.1] in Abhängigkeit von den Freiheitsgraden ν1 und ν2 an.
ν1
∞
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
1 2 3 4 5
39.86 8.53 5.54 4.54 4.06
49.50 9.00 5.46 4.32 3.78
53.59 9.16 5.39 4.19 3.62
55.83 9.24 5.34 4.11 3.52
57.24 9.29 5.31 4.05 3.45
58.20 9.33 5.28 4.01 3.40
58.91 9.35 5.27 3.98 3.37
59.44 9.37 5.25 3.95 3.34
59.86 9.38 5.24 3.94 3.32
60.19 9.39 5.23 3.92 3.30
60.71 9.41 5.22 3.90 3.27
61.22 9.42 5.20 3.87 3.24
61.74 9.44 5.18 3.84 3.21
62.00 9.45 5.18 3.83 3.19
62.26 9.46 5.17 3.82 3.17
62.53 9.47 5.16 3.80 3.16
62.79 9.47 5.15 3.79 3.14
63.06 9.48 5.14 3.78 3.12
63.33 9.49 5.13 3.76 3.10
6 7 8 9 10
3.78 3.59 3.46 3.36 3.29
3.46 3.26 3.11 3.01 2.92
3.29 3.07 2.92 2.81 2.73
3.18 2.96 2.81 2.69 2.61
3.11 2.88 2.73 2.61 2.52
3.05 2.83 2.67 2.55 2.46
3.01 2.78 2.62 2.51 2.41
2.98 2.75 2.59 2.47 2.38
2.96 2.72 2.56 2.44 2.35
2.94 2.70 2.54 2.42 2.32
2.90 2.67 2.50 2.38 2.28
2.87 2.63 2.46 2.34 2.24
2.84 2.59 2.42 2.30 2.20
2.82 2.58 2.40 2.28 2.18
2.80 2.56 2.38 2.25 2.16
2.78 2.54 2.36 2.23 2.13
2.76 2.51 2.34 2.21 2.11
2.74 2.49 2.32 2.18 2.08
2.72 2.47 2.29 2.16 2.06
11 12 13 14 15
3.23 3.18 3.14 3.10 3.07
2.86 2.81 2.76 2.73 2.70
2.66 2.61 2.56 2.52 2.49
2.54 2.48 2.43 2.39 2.36
2.45 2.39 2.35 2.31 2.27
2.39 2.33 2.28 2.24 2.21
2.34 2.28 2.23 2.19 2.16
2.30 2.24 2.20 2.15 2.12
2.27 2.21 2.16 2.12 2.09
2.25 2.19 2.14 2.10 2.06
2.21 2.15 2.10 2.05 2.02
2.17 2.10 2.05 2.01 1.97
2.12 2.06 2.01 1.96 1.92
2.10 2.04 1.98 1.94 1.90
2.08 2.01 1.96 1.91 1.87
2.05 1.99 1.93 1.89 1.85
2.03 1.96 1.90 1.86 1.82
2.00 1.93 1.88 1.83 1.79
1.97 1.90 1.85 1.80 1.76
16 17 18 19 20
3.05 3.03 3.01 2.99 2.97
2.67 2.64 2.62 2.61 2.59
2.46 2.44 2.42 2.40 2.38
2.33 2.31 2.29 2.27 2.25
2.24 2.22 2.20 2.18 2.16
2.18 2.15 2.13 2.11 2.09
2.13 2.10 2.08 2.06 2.04
2.09 2.06 2.04 2.02 2.00
2.06 2.03 2.00 1.98 1.96
2.03 2.00 1.98 1.96 1.94
1.99 1.96 1.93 1.91 1.89
1.94 1.91 1.89 1.86 1.84
1.89 1.86 1.84 1.81 1.79
1.87 1.84 1.81 1.79 1.77
1.84 1.81 1.78 1.76 1.74
1.81 1.78 1.75 1.73 1.71
1.78 1.75 1.72 1.70 1.68
1.75 1.72 1.69 1.67 1.64
1.72 1.69 1.66 1.63 1.61
21 22 23 24 25
2.96 2.95 2.94 2.93 2.92
2.57 2.56 2.55 2.54 2.53
2.36 2.35 2.34 2.33 2.32
2.23 2.22 2.21 2.19 2.18
2.14 2.13 2.11 2.10 2.09
2.08 2.06 2.05 2.04 2.02
2.02 2.01 1.99 1.98 1.97
1.98 1.97 1.95 1.94 1.93
1.95 1.93 1.92 1.91 1.89
1.92 1.90 1.89 1.88 1.87
1.87 1.86 1.84 1.83 1.82
1.83 1.81 1.80 1.78 1.77
1.78 1.76 1.74 1.73 1.72
1.75 1.73 1.72 1.70 1.69
1.72 1.70 1.69 1.67 1.66
1.69 1.67 1.66 1.64 1.63
1.66 1.64 1.62 1.61 1.59
1.62 1.60 1.59 1.57 1.56
1.59 1.57 1.55 1.53 1.52
30 40 60 120 ∞
2.88 2.84 2.79 2.75 2.71
2.49 2.44 2.39 2.35 2.30
2.28 2.23 2.18 2.13 2.08
2.14 2.09 2.04 1.99 1.94
2.05 2.00 1.95 1.90 1.85
1.98 1.93 1.87 1.82 1.77
1.93 1.87 1.82 1.77 1.72
1.88 1.83 1.77 1.72 1.67
1.85 1.79 1.74 1.68 1.63
1.82 1.76 1.71 1.65 1.60
1.77 1.71 1.66 1.60 1.55
1.72 1.66 1.60 1.55 1.49
1.67 1.61 1.54 1.48 1.42
1.64 1.57 1.51 1.45 1.38
1.61 1.54 1.48 1.41 1.34
1.57 1.51 1.44 1.37 1.30
1.54 1.47 1.40 1.32 1.24
1.50 1.42 1.35 1.26 1.17
1.46 1.38 1.29 1.19 1.00
ν2
448
A Verteilungstabellen
Tabelle A.6 Obere 5%-Punkte F[ν1 ;ν2 ;α =0.05] der F-Verteilung. Die Tabelle gibt die oberen Prozentpunkte F[ν1 ;ν2 ;α =0.05] in Abhängigkeit von den Freiheitsgraden ν1 und ν2 an.
ν2 1 2 3 4 5
ν1
1
2
3
4
5
6
7
8
9
10
12
15
20
24
30
40
60
120
∞
161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 243.91 245.95 248.01 249.05 250.10 251.14 252.20 253.25 254.31 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 7 8 9 10
5.99 5.59 5.32 5.12 4.96
5.14 4.74 4.46 4.26 4.10
4.76 4.35 4.07 3.86 3.71
4.53 4.12 3.84 3.63 3.48
4.39 3.97 3.69 3.48 3.33
4.28 3.87 3.58 3.37 3.22
4.21 3.79 3.50 3.29 3.14
4.15 3.73 3.44 3.23 3.07
4.10 3.68 3.39 3.18 3.02
4.06 3.64 3.35 3.14 2.98
4.00 3.57 3.28 3.07 2.91
3.94 3.51 3.22 3.01 2.85
3.87 3.44 3.15 2.94 2.77
3.84 3.41 3.12 2.90 2.74
3.81 3.38 3.08 2.86 2.70
3.77 3.34 3.04 2.83 2.66
3.74 3.30 3.01 2.79 2.62
3.70 3.27 2.97 2.75 2.58
3.67 3.23 2.93 2.71 2.54
11 12 13 14 15
4.84 4.75 4.67 4.60 4.54
3.98 3.89 3.81 3.74 3.68
3.59 3.49 3.41 3.34 3.29
3.36 3.26 3.18 3.11 3.06
3.20 3.11 3.03 2.96 2.90
3.09 3.00 2.92 2.85 2.79
3.01 2.91 2.83 2.76 2.71
2.95 2.85 2.77 2.70 2.64
2.90 2.80 2.71 2.65 2.59
2.85 2.75 2.67 2.60 2.54
2.79 2.69 2.60 2.53 2.48
2.72 2.62 2.53 2.46 2.40
2.65 2.54 2.46 2.39 2.33
2.61 2.51 2.42 2.35 2.29
2.57 2.47 2.38 2.31 2.25
2.53 2.43 2.34 2.27 2.20
2.49 2.38 2.30 2.22 2.16
2.45 2.34 2.25 2.18 2.11
2.40 2.30 2.21 2.13 2.07
16 17 18 19 20
4.49 4.45 4.41 4.38 4.35
3.63 3.59 3.55 3.52 3.49
3.24 3.20 3.16 3.13 3.10
3.01 2.96 2.93 2.90 2.87
2.85 2.81 2.77 2.74 2.71
2.74 2.70 2.66 2.63 2.60
2.66 2.61 2.58 2.54 2.51
2.59 2.55 2.51 2.48 2.45
2.54 2.49 2.46 2.42 2.39
2.49 2.45 2.41 2.38 2.35
2.42 2.38 2.34 2.31 2.28
2.35 2.31 2.27 2.23 2.20
2.28 2.23 2.19 2.16 2.12
2.24 2.19 2.15 2.11 2.08
2.19 2.15 2.11 2.07 2.04
2.15 2.10 2.06 2.03 1.99
2.11 2.06 2.02 1.98 1.95
2.06 2.01 1.97 1.93 1.90
2.01 1.96 1.92 1.88 1.84
21 22 23 24 25
4.32 4.30 4.28 4.26 4.24
3.47 3.44 3.42 3.40 3.39
3.07 3.05 3.03 3.01 2.99
2.84 2.82 2.80 2.78 2.76
2.68 2.66 2.64 2.62 2.60
2.57 2.55 2.53 2.51 2.49
2.49 2.46 2.44 2.42 2.40
2.42 2.40 2.37 2.36 2.34
2.37 2.34 2.32 2.30 2.28
2.32 2.30 2.27 2.25 2.24
2.25 2.23 2.20 2.18 2.16
2.18 2.15 2.13 2.11 2.09
2.10 2.07 2.05 2.03 2.01
2.05 2.03 2.01 1.98 1.96
2.01 1.98 1.96 1.94 1.92
1.96 1.94 1.91 1.89 1.87
1.92 1.89 1.86 1.84 1.82
1.87 1.84 1.81 1.79 1.77
1.81 1.78 1.76 1.73 1.71
30 40 60 120 ∞
4.17 4.08 4.00 3.92 3.84
3.32 3.23 3.15 3.07 3.00
2.92 2.84 2.76 2.68 2.60
2.69 2.61 2.53 2.45 2.37
2.53 2.45 2.37 2.29 2.21
2.42 2.34 2.25 2.18 2.10
2.33 2.25 2.17 2.09 2.01
2.27 2.18 2.10 2.02 1.94
2.21 2.12 2.04 1.96 1.88
2.16 2.08 1.99 1.91 1.83
2.09 2.00 1.92 1.83 1.75
2.01 1.92 1.84 1.75 1.67
1.93 1.84 1.75 1.66 1.57
1.89 1.79 1.70 1.61 1.52
1.84 1.74 1.65 1.55 1.46
1.79 1.69 1.59 1.50 1.39
1.74 1.64 1.53 1.43 1.32
1.68 1.58 1.47 1.35 1.22
1.62 1.51 1.39 1.25 1.00
A Verteilungstabellen
449
Tabelle A.7 Obere 1%-Punkte F[ν1 ;ν2 ;α =0.01] der F-Verteilung. Die Tabelle gibt die oberen Prozentpunkte F[ν1 ;ν2 ;α =0.01] in Abhängigkeit von den Freiheitsgraden ν1 und ν2 an.
ν1
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5
4052.18 98.50 34.12 21.20 16.26
4999.50 99.00 30.82 18.00 13.27
5403.35 99.17 29.46 16.69 12.06
5624.58 99.25 28.71 15.98 11.39
5763.65 99.30 28.24 15.52 10.97
5858.99 99.33 27.91 15.21 10.67
5928.36 99.36 27.67 14.98 10.46
5981.07 99.37 27.49 14.80 10.29
6022.47 99.39 27.35 14.66 10.16
6055.85 99.40 27.23 14.55 10.05
6 7 8 9 10
13.75 12.25 11.26 10.56 10.04
10.92 9.55 8.65 8.02 7.56
9.78 8.45 7.59 6.99 6.55
9.15 7.85 7.01 6.42 5.99
8.75 7.46 6.63 6.06 5.64
8.47 7.19 6.37 5.80 5.39
8.26 6.99 6.18 5.61 5.20
8.10 6.84 6.03 5.47 5.06
7.98 6.72 5.91 5.35 4.94
7.87 6.62 5.81 5.26 4.85
11 12 13 14 15
9.65 9.33 9.07 8.86 8.68
7.21 6.93 6.70 6.51 6.36
6.22 5.95 5.74 5.56 5.42
5.67 5.41 5.21 5.04 4.89
5.32 5.06 4.86 4.69 4.56
5.07 4.82 4.62 4.46 4.32
4.89 4.64 4.44 4.28 4.14
4.74 4.50 4.30 4.14 4.00
4.63 4.39 4.19 4.03 3.89
4.54 4.30 4.10 3.94 3.80
16 17 18 19 20
8.53 8.40 8.29 8.18 8.10
6.23 6.11 6.01 5.93 5.85
5.29 5.18 5.09 5.01 4.94
4.77 4.67 4.58 4.50 4.43
4.44 4.34 4.25 4.17 4.10
4.20 4.10 4.01 3.94 3.87
4.03 3.93 3.84 3.77 3.70
3.89 3.79 3.71 3.63 3.56
3.78 3.68 3.60 3.52 3.46
3.69 3.59 3.51 3.43 3.37
21 22 23 24 25
8.02 7.95 7.88 7.82 7.77
5.78 5.72 5.66 5.61 5.57
4.87 4.82 4.76 4.72 4.68
4.37 4.31 4.26 4.22 4.18
4.04 3.99 3.94 3.90 3.85
3.81 3.76 3.71 3.67 3.63
3.64 3.59 3.54 3.50 3.46
3.51 3.45 3.41 3.36 3.32
3.40 3.35 3.30 3.26 3.22
3.31 3.26 3.21 3.17 3.13
30 40 60 120 ∞
7.56 7.31 7.08 6.85 6.63
5.39 5.18 4.98 4.79 4.61
4.51 4.31 4.13 3.95 3.78
4.02 3.83 3.65 3.48 3.32
3.70 3.51 3.34 3.17 3.02
3.47 3.29 3.12 2.96 2.80
3.30 3.12 2.95 2.79 2.64
3.17 2.99 2.82 2.66 2.51
3.07 2.89 2.72 2.56 2.41
2.98 2.80 2.63 2.47 2.32
12
15
20
24
30
40
60
120
∞
1 2 3 4 5
6106.32 99.42 27.05 14.37 9.89
6157.28 99.43 26.87 14.20 9.72
6208.73 99.45 26.69 14.02 9.55
6234.63 99.46 26.60 13.93 9.47
6260.65 99.47 26.50 13.84 9.38
6286.78 99.47 26.41 13.75 9.29
6313.03 99.48 26.32 13.65 9.20
6339.39 99.49 26.22 13.56 9.11
6365.86 99.50 26.13 13.46 9.02
6 7 8 9 10
7.72 6.47 5.67 5.11 4.71
7.56 6.31 5.52 4.96 4.56
7.40 6.16 5.36 4.81 4.41
7.31 6.07 5.28 4.73 4.33
7.23 5.99 5.20 4.65 4.25
7.14 5.91 5.12 4.57 4.17
7.06 5.82 5.03 4.48 4.08
6.97 5.74 4.95 4.40 4.00
6.88 5.65 4.86 4.31 3.91
11 12 13 14 15
4.40 4.16 3.96 3.80 3.67
4.25 4.01 3.82 3.66 3.52
4.10 3.86 3.66 3.51 3.37
4.02 3.78 3.59 3.43 3.29
3.94 3.70 3.51 3.35 3.21
3.86 3.62 3.43 3.27 3.13
3.78 3.54 3.34 3.18 3.05
3.69 3.45 3.25 3.09 2.96
3.60 3.36 3.17 3.00 2.87
16 17 18 19 20
3.55 3.46 3.37 3.30 3.23
3.41 3.31 3.23 3.15 3.09
3.26 3.16 3.08 3.00 2.94
3.18 3.08 3.00 2.92 2.86
3.10 3.00 2.92 2.84 2.78
3.02 2.92 2.84 2.76 2.69
2.93 2.83 2.75 2.67 2.61
2.84 2.75 2.66 2.58 2.52
2.75 2.65 2.57 2.49 2.42
21 22 23 24 25
3.17 3.12 3.07 3.03 2.99
3.03 2.98 2.93 2.89 2.85
2.88 2.83 2.78 2.74 2.70
2.80 2.75 2.70 2.66 2.62
2.72 2.67 2.62 2.58 2.54
2.64 2.58 2.54 2.49 2.45
2.55 2.50 2.45 2.40 2.36
2.46 2.40 2.35 2.31 2.27
2.36 2.31 2.26 2.21 2.17
30 40 60 120 ∞
2.84 2.66 2.50 2.34 2.18
2.70 2.52 2.35 2.19 2.04
2.55 2.37 2.20 2.03 1.88
2.47 2.29 2.12 1.95 1.79
2.39 2.20 2.03 1.86 1.70
2.30 2.11 1.94 1.76 1.59
2.21 2.02 1.84 1.66 1.47
2.11 1.92 1.73 1.53 1.32
2.01 1.80 1.60 1.38 1.00
ν2
ν2
ν1
Sachverzeichnis
Abhängigkeit, 300 Ablehnungsbereich, 244 Aktienindizes, 439 α -Fehler, 244 Alternativhypothese, 242 Anpassungstest, 319, 379 Ausreißer, 50 Bedingte Dichtefunktion, 287, 295 Bedingte Wahrscheinlichkeit, 86, 90 Bedingte Wahrscheinlichkeitsfunktion, 284, 285, 287 Beispiele: 6 Kinder mit 3 Merkmalen, 44 Altersverteilung in Göttingen, 195, 226 Anrufe in einem Call-Center, 20, 101, 164, 203, 325 Anteil potentieller Käufer, 234 Anzahl funktionierender Mikroprozessoren, 138 Aspirin und Herzanfälle, 7, 32, 33, 344 Ausgaben in einem Supermarkt, 201, 214, 316 Benzinverbrauch eines Autos, 189 Blockzeiten von Flügen, 3, 34, 176, 232, 252, 262, 274, 334 Brenndauer von Glühbirnen, 24, 35, 93, 98, 177, 230, 259, 272, 334 Durchmesser von Kugellagern, 267, 274 Eignungstest für Minenarbeiter, 279, 305 Entwicklung der Arbeitslosenquote in Deutschland, 23 Entwicklung von Aktienkursen, 10, 39, 330 Erdbeben und Tsunamis, 16 Erdbeben, 167, 169, 324, 334 Füllmenge von Grießpackungen, 238, 334 Fettkonsum und Brustkrebsrisiko, 9
Flugzeit, 315 Füllmenge von Grießpackungen, 232, 266 Höhe und Wert von Bäumen, 293 Heimvorteil, 342 Investition von 1 000 e, 39 Kassenprüfung, 316 Reservierung von Sitzplätzen in Flugzeugen, 204 Schwingungsdauer eines Pendels, 26 Sicherheitsgurte, 340 Tagesrendite der Deutschen Bank, 126, 127, 232, 263, 271 US-Präsidentenwahl, 179, 235, 242, 258, 335 Verkaufspreis bei Online-Auktionen, 19 Wassergehalt und Brennwert von Zuckerrohr, 277, 311 Weinkonsum und Herzkrankheiten, 8 Bernoulli-Verteilung, 131 Beste lineare Vorhersage, 362 β -Fehler, 244 Bewusste Auswahlverfahren, 33 Bias, 214, 218 Binomialkoeffizienten, 134 Binomialverteilung, 133 BLUE, 363 Boxplot, 68 χ 2 -Anpassungstest, 315 χ 2 -Unabhängigkeitstest, 334, 338 χ 2 -Verteilung, 185 cluster sampling, 33 DAX, 439 Deskriptive Statistik, 41 Deterministische und stochastische Modelle, 1 Deterministisches Modell, 6
451
452 Dichtefunktion, 35, 93, 189 Differenz, 76 disjunkt, 76 Diskretes Merkmal, 43 Dow Jones, 442 Durchschnitt, 76 Einfaches lineares Modell, 347 Einseitiger Test, 252 Einweg-Varianzanalyse, 382 Elementarereignisse, 75 Entscheidungsregel, 376 Entscheidungsregel klassischer Signifikanztests, 243 Ereignis, 73, 84 Erfolgswahrscheinlichkeit, 132 Ergebnis, 73, 76 Ergebnismenge, 73–76 Erwartungswert, 113 Erwartungswert einer stetigen Zufallsvariablen, 114 Exponentialverteilung, 164 F-Test, 377 F-Verteilung, 186 Faktor, 366 Fehler 1. Art, 244 Fehler 2. Art, 244 filtern, 414 Freiheitsgrad, 185, 186 Gauß-Test, 264 Gauß-Markov Theorem, 363 Gemeinsame Dichtefunktion, 287 Gemeinsame Wahrscheinlichkeitsfunktion, 280, 287 Geschichtete Zufallsstichprobe, 32 Gesetz der großen Zahlen, 83 Gesetz der großen Zahlen, 118 Gewichteter gleitender Durchschnitt, 414 GGZ, 118 Gleichverteilung, 161 Gleitender Durchschnitt, 412 Grundgesamtheit, 27 Grundmodell, 195 Histogramm, 63, 189 Homoskedastizität, 363 Hypothese, 241 Hypothesentest, 242 Image-Plot, 288 Indizes, 421 intercept, 362
Sachverzeichnis Irrtumswahrscheinlichkeit, 251 j-tes Moment, 113 j-tes zentriertes Moment, 113 Kausalität, 363, 364 Klassischer Signifikanztest, 241 Klumpenstichprobe, 33 Kolinearität, 362 Kombinatorik, 82 Komplementäres Ereignis, 76 Konfidenzintervall, 227, 228, 363 Konfidenzintervalle für die Varianz, 237 konsistent, 362 Konsistenz, 363 Konstante, 362 Kontingenztafel, 335 Korrelation, 300, 365 Kumulierte absolute Häufigkeit, 46 Kumulierte relative Häufigkeit, 47 Kursindizes, 439 Kurtosis, 125 Lage-Statistiken, 49 Likelihoodfunktion, 208 Lineares Modell, 345, 350 Maximum-Likelihood, 208 Median, 49, 68 Mengen- und Umsatzindizes, 434 Mengenindex nach Laspeyres, 434 Mengenindex nach Paasche, 435 Merkmal, 41 Methode der kleinsten Quadrate, 351 Methode der Momente, 201 Mittelwert, 49 Mittlerer quadratischer Fehler, 214, 220 Modal-Klasse, 67 Modalwert, 49 Modell, 2 Modellauswahl, 373 Moment, 113 Multi-Kolinearität, 362 nominal skaliert, 42 Normalverteilung, 170 Nullhypothese, 242 ordinalskaliert, 42 P-Wert, 272–276 Parameter der Wahrscheinlichkeitsverteilung, 132 Performance-Indizes, 439
Sachverzeichnis Polynomiale Regression, 350 Preisindex nach Laspeyres, 429 Preisindex nach Paasche, 432 Prognoseintervall, 371 Prüfgröße, 242 Qualitative Merkmale, 41 Quantitatives Merkmal, 42 Quartil, drittes, 68 Quartil, erstes, 68 quota sampling, 33 R2 , 363, 365 Randdichtefunktion, 287 Randwahrscheinlichkeitsfunktion, 287 rangskaliert, 42 Realisation, 38 Rechteckverteilung, 161 Relative Häufigkeit, 46, 84 robust, 50 Saisonfaktoren, 419 Saisonkomponente, 406 Schätzer, 214 Schiefe, 125 Schätzung, 201, 208 Sicheres Ereignis, 76 signifikant, 379 Signifikanzniveau eines Tests, 248 Spannweite, 51 spurious, 365 Standardabweichung, 53, 122 Standardfehler, 214 Standardfehler des Schätzers, 217 Standardisierte Prüfgröße, 254 Standardisierte Zufallsvariable, 176 Statistische Analyse, 24 Stetiges Merkmal, 43 Stetigkeitskorrektur, 181 Stichprobe, 27 Stichprobentheorie, 32 Stochastisches Modell, 6 strata, 32 stratified sampling, 32 Streuungsparameter, 51
453 Summe der quadrierten Residuen, 354 Summenkurve, 65 symmetrisch, 80 Säulendiagramm, 47 t-Test, 263, 379 Teilmenge, 76 Transformation, 409 Trend, 406 Treppenkurve, 48 Umsatzindizes, 436 Unabhängigkeit, 86, 90, 91, 304 Unbedingte Wahrscheinlichkei, 90 Unbestimmtheit, 25 uncertainty, 25 uniform, 161 Unmögliches Ereignis, 76 Unsicherheit, 25 Value at Risk, 127 Varianz, 51, 120 Varianzanalyse, 382 Verbraucherpreisindex für Deutschland, 423 Vereinigung, 76 Verteilungsfunktion, 103, 106 Verwerfungsbereich, 244 Volatilität, 124 Voraussagen, 368 Vorhersagefehler, 347 Vorhersageintervall, 371 Wahrscheinlichkeit, 76, 84 Wahrscheinlichkeitsfunktion, 96, 107 Wald-Test, 377 Warenkorb, 423 Zeitreihe, 406 Zentraler Grenzwertsatz, 224 Zufälliges Ereignis, 75, 76 Zufallsexperiment, 73, 74 Zufallsstichprobe, 29 Zufallsvariable, 37, 95 Zweiseitiger Test, 252