Christian Schäfer / Jens-Uwe Scheer Statistisches Tutorium für Wirtschaftswissenschaftler
Christian Schäfer Jens-Uwe Scheer
Statistisches Tutorium für Wirtschaftswissenschaftler Aufgaben mit ausführlichen Lösungen und Programmbeispielen in R
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Christian Schäfer ist wissenschaftlicher Mitarbeiter am Fachbereich Rechts- und Wirtschaftswissenschaften der Johannes Gutenberg-Universität Mainz sowie Lehrbeauftragter an der Fachhochschule Mainz und der Verwaltungsfachhochschule Wiesbaden. Dr. Jens-Uwe Scheer ist Assistent am Lehrstuhl für Statistik und Mathematik des Fachbereichs Rechtsund Wirtschaftswissenschaften der Johannes Gutenberg-Universität Mainz gewesen und zur Zeit im Risikomanagement einer deutschen Bank tätig.
1. Auflage 2009 Alle Rechte vorbehalten © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009 Lektorat: Jutta Hauser-Fahr | Walburga Himmel Gabler ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-8349-1151-3
Vorwort Das vorliegende Buch dient der Vertiefung und praxisnahen Anwendung der im Rahmen eines wirtschaftswissenschaftlichen Bachelor-Studienganges erlernten statistischen und wahrscheinlichkeitstheoretischen Methoden. Es ist auf wiederholten Wunsch von Studierenden der Fachhochschule Mainz und der Verwaltungsfachhochschule Wiesbaden entstanden. Daneben haben ¨ ¨ sich Teile des Ubungsmaterials und die beigef¨ ugte Formelsammlung bereits im Ubungsbetrieb begleitend zu den Vorlesungen Statistik I und II am Lehrstuhl f¨ ur Statistik und Mathematik des Fachbereichs Rechts- und Wirtschaftswissenschaften der Johannes Gutenberg-Universit¨at Mainz, dessen damaliger Lehrstuhlinhaber Herr Univ.-Prof. Dr. Alois Kneip war, bew¨ahrt. Das Tutorium umfasst eine Vielzahl praxisnaher deskriptiver und induktiver statistischer Problemstellungen inklusive vollst¨andig gerechneter und durch Abbildungen visualisierter L¨o¨ sungen. Um den Zeit- und Ubungsaufwand in ein vern¨ unftiges Verh¨altnis zum Rechenaufwand ¨ zu stellen, wurde f¨ ur die Ubungsaufgaben jeweils ein limitierter Datenumfang gew¨ahlt. Im Anhang ist weiterhin eine Formelsammlung f¨ ur das Verst¨andnis der verwendeten Notation beigef¨ ugt. ¨ Der von studentischer Seite h¨aufig gew¨ unschten Praxisn¨ahe der Ubungsaufgaben kommt das Buch weiterhin durch die im Anhang zur Verf¨ ugung gestellten Quellcodes f¨ ur die PCgest¨ utzte Auswertung einzelner Tutoriumsaufgaben mit Hilfe des statistischen Programmpaketes R nach. R ist eine frei zug¨angliche objektorientierte Programmierumgebung zur Datenanalyse und anderen Programmen vor allem hinsichtlich der graphischen Darstellung der Ergebnisse u uhrung in die Programmier¨berlegen. Zu Anfang wird dem Leser eine kurze Einf¨ sprache R gegeben, bevor die Quellcodes der einzelnen Prozeduren aufgef¨ uhrt werden. Der Studierende hat ferner die M¨oglichkeit, mit diesem Programmpaket leicht auch gr¨oßere Daten¨ s¨atze, z.B. von Master- oder Bachelorarbeiten, in Anlehnung an die Quellcodes der Ubungsauf¨ gaben zuverl¨assig auszuwerten. So wird im Rahmen dieses Ubungsbuches der immer beliebter werdenden empirischen Ausrichtung von Master- und Bachelorarbeiten Rechnung getragen und vorgegriffen. ¨ In Kapitel 1 und 2 sind Ubungsaufgaben zur deskriptiven Statistik sowie zur Wahrscheinlichkeitsrechnung und zur schließenden Statistik zusammengestellt, die in unterschiedliche, thematisch abgegrenzte Abschnitte gegliedert sind. Am Ende jedes Abschnitts folgen die jeweiligen L¨osungen inklusive ausf¨ uhrlicher Rechenwege. Zur Vereinfachung wird in jeder Aufgabe auf die entsprechende L¨osung verwiesen. Jeder Abschnitt wird mit leichteren und thematisch enger umrissenen Aufgabenstellungen eingeleitet. Erst danach werden thematisch u ¨bergreifende Aufgaben pr¨asentiert, bei denen z.T. Formeln aus verschiedenen Abschnitten ben¨otigt werden. In Kapitel 3 folgt eine Einf¨ uhrung in das statistische Programmpaket R, in dem anhand einiger Beispiele das Einlesen von Daten, die univariate Datenanalyse und die graphiV
VORWORT sche Darstellung von Daten kurz erl¨autert werden. Das Kapitel enth¨alt weiterhin Quellcodes zu ausgesuchten Aufgaben der Kapitel 1 und 2. Falls zu einer Aufgabe eine L¨osung mit R sinnvoll war, ist auf den entsprechenden Code ein Hinweis gegeben. Als Hilfe beim L¨osen der Aufgaben haben wir in Kapitel 4 die wichtigsten Formeln und Begriffe in einer kurzen Formelsammlung zusammengestellt. Diese ist analog zu den Kapiteln 1 und 2 in verschiedene thematische Abschnitte gegliedert, so dass alle ben¨otigten Formeln ohne großen Aufwand gefunden werden k¨onnen. Die Formelsammlung und der Programmcode der R-Listings stehen Ihnen auf der Homepage des Gabler Verlags (www.gabler.de) unter der Rubrik OnlinePLUS als Zusatzmaterial zur Verf¨ ugung. Bei der Erstellung des vorliegenden Buches sind viele Aufgabenstellungen an fr¨ uhere Tu¨ toriumsaufgaben des Ubungsbetriebs zur Statistik I und Statistik II angelehnt, f¨ ur den beide Autoren seinerzeit verantwortlich gewesen sind. Unser Dank gilt Herrn Dr. J¨ urgen Arns, Frau Anna Rosinus und Herrn Marcus Fr¨omberg, die seinerzeit entweder wertvolle Anregungen zu einzelnen Aufgaben gegeben oder bei der Erstellung der L¨osungen zu einigen Aufgaben in der damaligen Version mitgewirkt haben. Weiterhin kommen einzelne Inspirationen und ¨ Anregungen aus anderen Ubungsund Lehrb¨ uchern zur Statistik. Die Herkunft und Urheberschaft k¨onnen wir im einzelnen nicht mehr zuordnen, m¨ochten jedoch an dieser Stelle den Autorinnen und Autoren unseren ausdr¨ ucklichen Dank aussprechen. Unserer ganz besonderer Dank gilt Frau Elke Schuster f¨ ur die sehr sorgf¨altige Durchsicht des Manuskriptes, die vielen Korrekturen im LATEX-Code und wertvolle Beitr¨age zur sprachlichen und inhaltlichen Klarheit der Aufgaben und L¨osungen. Ohne Frau Schusters Beitrag w¨are eine Fertigstellung des Buches in der vorliegenden Form nur schwer m¨oglich gewesen. Schließlich gilt unser Dank dem Gabler Verlag f¨ ur die stets gute und zielorientierte Zusammenarbeit, geleistet durch unsere Ansprechpartnerinnen Frau Jutta Hauser-Fahr und Frau Walburga Himmel. Da sich selbst bei sorgf¨altiger Durchsicht noch Druck- und Rechenfehler einschleichen, sind wir f¨ ur Hinweise auf alle Arten von Fehlern stets dankbar (E-Mail:
[email protected]).
Mainz und Hilden im Juli 2009 Christian Sch¨afer Jens-Uwe Scheer
VI
Inhaltsverzeichnis 1 Deskriptive Statistik 1.1 Grundlagen und Grundbegriffe . . . . . . . . . L¨osungen zu den Aufgaben 1 bis 8 . . . . . . . 1.2 Univariate Datenanalyse . . . . . . . . . . . . L¨osungen zu den Aufgaben 9 bis 24 . . . . . . 1.3 Bivariate Datenanalyse . . . . . . . . . . . . . L¨osungen zu den Aufgaben 25 bis 37 . . . . . 1.4 Konzentrationsmaße . . . . . . . . . . . . . . L¨osungen zu den Aufgaben 38 bis 42 . . . . . 1.5 Deskriptive Zeitreihenanalyse und Indexzahlen L¨osungen zu den Aufgaben 43 bis 50 . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
1 2 5 10 20 42 53 73 77 88 93
2 Wahrscheinlichkeitsrechnung und induktive 2.1 Grundlagen der Wahrscheinlichkeitsrechnung L¨osungen zu den Aufgaben 51 bis 56 . . . . 2.2 Diskrete Verteilungsmodelle . . . . . . . . . L¨osungen zu den Aufgaben 57 bis 64 . . . . 2.3 Mehrstufige Zufallsversuche . . . . . . . . . L¨osungen zu den Aufgaben 65 bis 71 . . . . 2.4 Stetige Verteilungsmodelle . . . . . . . . . . L¨osungen zu den Aufgaben 72 bis 80 . . . . 2.5 Konfidenzintervalle und Signifikanztests . . . L¨osungen zu den Aufgaben 81 bis 100 . . . .
Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
107 108 110 114 118 125 128 135 138 146 156
3 Programmbeispiele in R 3.1 Einf¨ uhrung in R . . . . . 3.2 Hilfefunktion in R . . . . 3.3 Einlesen von Daten in R 3.4 Erste Schritte in R . . . 3.5 R-Quellcodes . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
179 179 180 180 181 182
4 Formelsammlung 4.1 Grundbegriffe der deskriptiven Statistik . . . . . . . . . . . . . . . . . . . . . . 4.2 Univariate Deskription und Exploration von Daten . . . . . . . . . . . . . . . 4.3 Bivariate Deskription und Exploration von Daten . . . . . . . . . . . . . . . .
215 215 216 221
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . . .
. . . . .
. . . . . . . . . .
. . . . .
. . . . . . . . . .
. . . . .
. . . . . . . . . .
. . . . .
. . . . .
VII
INHALTSVERZEICHNIS 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11
VIII
Konzentrationsmaße . . . . . . . . . . . . . Zeitreihenanalyse und Indexzahlen . . . . . Grundlagen der Wahrscheinlichkeitsrechnung Diskrete Verteilungsmodelle . . . . . . . . . Mehrstufige Zufallsversuche . . . . . . . . . Stetige Verteilungsmodelle . . . . . . . . . . Konfidenzintervalle und Signifikanztests . . . Verteilungstabellen . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
227 228 231 234 238 241 246 261
Verzeichnis der R-Listings Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing
1: R-Code zum Einf¨ uhrungsbeispiel: Einlesen von Daten 2: R-Code zum Einf¨ uhrungsbeispiel: Einfache Funktionen 3: R-Code zum Einf¨ uhrungsbeispiel: Einfache Graphiken 4: R-Code zu Aufgabe 9 5: R-Code zu Aufgabe 11 6: R-Code zu Aufgabe 14 7: R-Code zu Aufgabe 15 8: R-Code zu Aufgabe 16 9: R-Code zu Aufgabe 17 10: R-Code zu Aufgabe 23 11: R-Code zu Aufgabe 24 12: R-Code zu Aufgabe 30 13: R-Code zu Aufgabe 31 14: R-Code zu Aufgabe 34 15: R-Code zu Aufgabe 35 16: R-Code zu Aufgabe 36 17: R-Code zu Aufgabe 38 18: R-Code zu Aufgabe 40 19: R-Code zu Aufgabe 41 20: R-Code zu Aufgabe 43 21: R-Code zu Aufgabe 45 22: R-Code zu Aufgabe 54 23: R-Code zu Aufgabe 55 24: R-Code zu Aufgabe 57 25: R-Code zu Aufgabe 58 26: R-Code zu Aufgabe 59 27: R-Code zu Aufgabe 60 28: R-Code zu Aufgabe 61 29: R-Code zu Aufgabe 62 30: R-Code zu Aufgabe 63 31: R-Code zu Aufgabe 64 32: R-Code zu Aufgabe 72 33: R-Code zu Aufgabe 73 34: R-Code zu Aufgabe 75 35: R-Code zu Aufgabe 77
180 181 182 182 183 183 183 184 185 186 187 187 188 189 189 190 191 192 193 193 194 195 196 197 197 197 198 199 199 200 200 200 201 202 202 IX
VERZEICHNIS DER R-LISTINGS Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing Listing
X
36: 37: 38: 39: 40: 41: 42: 43: 44: 45: 46: 47: 48: 49: 50: 51: 52: 53: 54: 55: 56:
R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code R-Code
zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu zu
Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe Aufgabe
78 79 80 81 82 84 85 87 88 89 90 91 92 93 94 95 96 97 98 99 100
203 203 203 204 205 206 207 208 209 209 209 210 210 211 211 211 212 212 212 213 213
Kapitel 1 Deskriptive Statistik Ziel der deskriptiven Statistik ist es, Daten u ¨bersichtlich aufzubereiten und graphisch darzustellen, um eine erste Struktur sowie m¨ogliche Zusammenh¨ange bzw. Abh¨angigkeiten erkennen zu k¨onnen. Das Aufgabengebiet der deskriptiven Statistik liegt in der Erhebung und der beschreibenden Auswertung von Daten, um R¨ uckschl¨ usse auf die den erhobenen Daten zugrunde liegenden Gesetzm¨aßigkeiten treffen zu k¨onnen. H¨aufig bedarf es hierzu einer Verdichtung der Rohdaten in Klassen, um diese u ¨berschaubar und besser interpretierbar zu machen. Neben dem beschreibenden Aspekt eines graphisch u ¨bersichtlich aufbereiteten Verteilungsdiagramms, kommt der Bestimmung verschiedener Lage- und Streuungsmaße besondere Bedeutung zu. Auch die Analyse des Zusammenhangs zwischen verschiedenen Variablen f¨allt in das Gebiet der deskriptiven Statistik. ¨ Die Ubungsaufgaben dieses Kapitels umfassen die Bereiche Grundlagen und Grundbegriffe, univariate Deskription, bivariate Deskription, Konzentrationsmaße sowie Zeitreihenanalyse und Indexzahlen. Im Rahmen der Zusammenhangsanalyse werden hier lediglich Aufgaben zur bivariaten Datenanalyse und zur linearen Einfachregression behandelt.
1
C. Schäfer, Jens-Uwe Scheer, Statistisches Tutorium für Wirtschaftswissenschaftler, DOI 10.1007/978-3-8349-8784-6_1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 1. DESKRIPTIVE STATISTIK
1.1
Grundlagen und Grundbegriffe
Aufgabe 1
(L¨osung auf Seite 5)
Die abk¨ urzende Schreibweise f¨ ur die Summe der n Zahlen x1 , x2 , . . . , xn ist: n
xi = x1 + x2 + . . . + xi + . . . + xn
i=1
Gegeben seien die Werte a1 = 2, a2 = 4, a3 = −3, a4 = 6, a5 = −7 und b1 = 0, 2, b2 = 0, 4, b3 = −0, 3, b4 = 0, 6, b5 = −0, 7. Berechnen Sie: a)
5
ai
b)
5
i=1
e)
5
bj
4
c)
j=1
ai bi
f)
5
i=1
al
3
d)
2
5
g)
j=1
b2i−1
i=1
l=2
i
5
h)
i=1
−3
i=1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 2
(L¨osung auf Seite 5)
F¨ ur Summen gilt die folgende Rechenregel: n
(α · xi + β · yi) = α ·
i=1
n
xi + β ·
i=1
n
yi
i=1
Berechnen Sie mit dieser Regel und den Ergebnissen aus Aufgabe 1 a)
5 (5ai − 3bi )
b)
i=1
c)
5 (−7al + 2)
d)
i=1
f)
i=1
(ai + bi )2
5
(3ai bi + 4ai )
i=1
Berechnen und vergleichen Sie: 5 2 5 2 e) ai und ai g)
(2j + 5aj )
j=1
l=1
i=1 5
5
und
5 i=1
a2i +
5 i=1
b2i
h)
5 i=1 5 i=1
ai b i
und
5 i=1
1 ai
und
1 5 i=1
ai ·
5
bi
i=1
ai
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1. GRUNDLAGEN UND GRUNDBEGRIFFE
Aufgabe 3
(L¨osung auf Seite 6)
Stellen Sie die folgenden Ausdr¨ ucke mit Hilfe des Summenzeichens dar: a) Die Summe der ersten 100 nat¨ urlichen Zahlen. b) Die Summe der ersten 20 Quadratzahlen. c) Die Summe der ersten 50 ungeraden Zahlen. d) Die Summe der Quadrate aller geraden Zahlen von 10 bis 40. Zeigen Sie, dass f¨ ur beliebige reelle Zahlen x1 , x2 , . . . , xn die folgenden beiden Gleichungen richtig sind: n n 1 e) xj = 0 xi − n j=1 i=1 2 2 n n n n 1 1 1 2 1 xi − f) xj = x − xi n i=1 n j=1 n i=1 i n i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 4
(L¨osung auf Seite 7)
Bezeichnen Sie f¨ ur die folgenden Merkmale jeweils das Skalenniveau und geben Sie m¨ogliche Merkmalsauspr¨agungen an. a ) Geschlecht b ) Sparguthaben c ) Rendite von Wertpapieren d ) Kontonummer e ) Unternehmensrating f ) Bruttosozialprodukt g ) Religionszugeh¨origkeit h ) Freizeitbesch¨aftigung i ) Geburtsdatum j ) Schulbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 5
(L¨osung auf Seite 7)
Listen Sie f¨ ur die folgenden statistischen Einheiten jeweils 5 verschiedene Merkmale auf, die erhoben werden k¨onnten. Geben Sie f¨ ur jedes Merkmal auch die m¨oglichen Auspr¨agungen, das Skalenniveau und den Merkmalstyp (stetig, dichotom, usw.) an. W¨ahlen Sie die Merkmale dabei so aus, dass f¨ ur jede Teilaufgabe jeweils die 3 Skalenarten vorkommen. a) Studierender“ ” b) Auto“ ” c) Wohnung“ ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 6
(L¨osung auf Seite 8)
Eine Firma interessiert sich f¨ ur die wirtschaftliche Lage ihrer Besch¨aftigten. Dazu werden an einem Stichtag 50 Besch¨aftigte ausgew¨ahlt und befragt hinsichtlich • Haushaltsgr¨oße (Anzahl der im Haushalt lebenden Personen) • monatlicher Miete • Familienstand • Entfernung zwischen Wohnung und Arbeitsst¨atte • eigener Einsch¨atzung der wirtschaftlichen Lage (1 = sehr gut, . . . , 6 = sehr schlecht) und • Nationalit¨at. a) Nennen Sie die Grundgesamtheit und den Merkmalstr¨ager. b) Welche Auspr¨agungen besitzen die erhobenen Merkmale und welches Skalenniveau liegt ihnen zugrunde? Was ist der Merkmalstyp? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 7
(L¨osung auf Seite 8)
Geben Sie jeweils eine kurze Beschreibung f¨ ur eine Fragestellung, bei der die Daten einer zugeh¨origen statistischen Untersuchung sinnvollerweise a) einer Vollerhebung b) einer einfachen Zufallsstichprobe c) einer geschichteten Zufallsstichprobe d) einer Klumpenstichprobe entstammen sollten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 8
(L¨osung auf Seite 9)
Geben Sie jeweils eine kurze Beschreibung a) einer Querschnittsstudie b) einer Zeitreihe c) eines Panels anhand eines von Ihnen ausgew¨ahlten Beispiels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.1. GRUNDLAGEN UND GRUNDBEGRIFFE
Lo ¨sung zu Aufgabe 1 auf Seite 2 a)
5
ai = 2 + 4 + (−3) + 6 + (−7) = 2
i=1
b)
5 j=1
c)
4
ai = 4 + (−3) + 6 = 7
i=2
d)
3
b2i−1 = b1 + b3 + b5 = 0, 2 + (−0, 3) + (−0, 7) = −0, 8
i=1
e)
5
ai · bi = 2 · 0, 2 + 4 · 0, 4 + (−3) · (−0, 3) + 6 · 0, 6 + (−7) · (−0, 7) = 11, 4
i=1
f)
bj = 0, 2 + 0, 4 + (−0, 3) + 0, 6 + (−0, 7) = 0, 2
5
2 = 2 + 2 + 2 + 2 + 2 = 10
j=1
Das Summenzeichen dr¨ uckt aus, dass die Zahl 2 f¨ unfmal aufsummiert werden muss. Deshalb ist das Ergebnis nicht 2. g)
5
i = 1 + 2 + 3 + 4 + 5 = 15
i=1
Man kann hier auch die Summenformel
n i=1
h)
5
i=
n·(n+1) 2
=
5·6 2
= 15 benutzen.
−3 = 5 · (−3) = −15
i=1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 2 auf Seite 2 a)
5
(5ai − 3bi ) = 5 ·
i=1
b)
5
(2j + 5aj ) = 2 ·
j=1
c)
5
5 i=1 5 j=1
(−7al + 2) = −7 ·
l=1
d)
5
(3ai bi + 4ai ) = 3 ·
i=1
ai − 3 · j+5·
5 l=1 5 i=1
al +
5 i=1
5 j=1 5 l=1
bi = 5 · 2 − 3 · 0, 2 = 9, 4
aj = 2 · 15 + 5 · 2 = 40
2 = −7 · 2 + 5 · 2 = −4
ai b i + 4 ·
5 i=1
ai = 3 · 11, 4 + 4 · 2 = 42, 2 5
KAPITEL 1. DESKRIPTIVE STATISTIK
e)
5 i=1
f)
5 i=1
g)
5
a2i = 22 + 42 + (−3)2 + 62 + (−7)2 = 114 ai · bi = 11, 4
(ai + bi )2 =
i=1
5 i=1
und
5 i=1
ai ·
5 i=1
und
5 i=1
2 ai
= 22 = 4
bi = 2 · 0, 2 = 0, 4
(a2i + 2ai bi + b2i ) =
5 i=1
a2i + 2 ·
5 i=1
ai b i +
5 i=1
b2i
= 114 + 2 · 11, 4 + 1, 14 = 137, 94 5 5 a2i + b2i = 114 + 1, 14 = 115, 14 i=1
h)
i=1
5 1 1 −1 1 −1 37 1 = + + + + = ≈ 0, 4405 a 2 4 3 6 7 84 i=1 i
1 5 i=1
= ai
1 = 0, 5 2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 3 auf Seite 3
a)
100 i=1
e)
n
i
b)
i=1
n 1 xi − xj n j=1
20
i2
i=1 =
c)
50
(2i − 1)
d)
i=1 n i=1
20
(2i)2
i=5
n n n 1 xi − n · xj = xi − xj = 0 n j=1 i=1 i=j
Damit ist bewiesen, dass die Summe der Abweichungen der Beobachtungen von ihrem arithmetischen Mittel Null ergibt.
f)
n i=1
1 xj xi − n j=1 n
2
n
1 1 = −2· xi · xj + n 2 n n i=1 i=1 j=1 n 2 n 1 = x2i − xi n i=1 i=1 x2i
n
n
n
2 xj
j=1
Nach Multiplikation beider Seiten der Gleichung mit n1 ist die Formel bewiesen. Diese Formel vereinfacht die Berechnung der empirischen Varianz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.1. GRUNDLAGEN UND GRUNDBEGRIFFE
Lo ¨sung zu Aufgabe 4 auf Seite 3 Merkmal Geschlecht Sparguthaben Rendite von Wertpapieren Kontonummer Unternehmensrating Bruttosozialprodukt Religionszugeh¨origkeit Freizeitbesch¨aftigung Geburtsdatum Schulbildung
Skalenniveau nominal kardinal kardinal nominal ordinal kardinal nominal nominal kardinal ordinal
Auspr¨ agungen m¨annlich, weiblich beliebige Geldbetr¨age beliebige Geldbetr¨age x-stellige Kontonummer AAA, AA, AB, AB+, C usw. in Euro evangelisch, katholisch, j¨ udisch usw. lesen, joggen, schwimmen usw. 03.10.1990, 01.04.2001 usw. Abitur, Fachhochschulreife usw.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 5 auf Seite 3 a) Studierender“: ” • Nominal: Geschlecht, Nationalit¨at • Ordinal: Abiturnote • Kardinal: Gewicht, Anzahl Geschwister, Entfernung zwischen Universit¨at und Wohnort b) Auto“: ” • Nominal: Hersteller (Fiat, Audi, . . . ), Farbe, Karosserie (Limousine, Coup´e, . . . ) • Ordinal: Gr¨oßenklasse“ (Klein-, Mittel-, Oberklassewagen) Typklasse, Risikoklas” ” se“ bei der Versicherungseinstufung • Kardinal: Datum der Erstzulassung, Leistung (kW), Produktionsdatum, Alter, L¨ange c) Wohnung“: ” • Nominal: Art“ (Maisonette, 3-Zimmer, Loft, . . . ) Eigentumsverh¨altnis“ (Eigentums” ” oder Mietwohnung) • Ordinal: Lage(-einstufung) • Kardinal: Quadratmeter, Anzahl der Zimmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 6 auf Seite 4 a) Die Grundgesamtheit sind alle Besch¨aftigten der Firma, Merkmalstr¨ager ist ein Besch¨aftigter der Firma. b)
• Haushaltsgr¨oße: kardinal (verh¨altnisskaliert), diskret • Monatliche Miete: kardinal (verh¨altnisskaliert), (quasi-)stetig • Familienstand: nominal • Entfernung zwischen Wohnung und Arbeitsst¨atte: kardinal (verh¨altnisskaliert), stetig • Eigene Einsch¨atzung der wirtschaftlichen Lage: ordinal • Nationalit¨at: nominal
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 7 auf Seite 4 a) Vollerhebung: Merkmale jeder einzelnen statistischen Einheit der Grundgesamtheit werden erhoben. Beispiele: Wahl, (Voll-)Inventur, Volksz¨ahlung, Klausurauswertung b) Einfache Zufallsstichprobe: Aus der interessierenden statistischen Masse werden n Einheiten nach einem reinen Zufallskriterium ausgew¨ahlt. Beispiele: • Qualit¨atskontrolle (Schrauben etc.) • Crashtest (wenn ein untersuchtes Objekt bei der Erhebung zerst¨ort oder besch¨adigt wird) • Stiftung Warentest (f¨allt aber auch unter Schichtung z.B. nach Hersteller) c) Geschichtete Zufallsstichprobe: Die Grundgesamtheit wird zun¨achst bez¨ uglich eines bestimmten Merkmals in sich nicht u ¨berlappende Schichten zerlegt. Aus jeder Schicht wird dann eine einfache Zufallsauswahl getroffen. Beispiele: • Umsatz im Einkaufsladen (Schichtung nach Verkaufsfl¨ache, z.B. klein, mittel, groß; Schichtung nach Art, z.B. Tante-Emma-Laden, Supermarkt, Kiosk, usw.) • Mittlere Schuh-/ K¨orpergr¨oße o.¨a. (Schichtung nach Geschlecht) • Medizin: H¨aufigkeit von Lungenkrebs (Schichtung nach Raucher/ Nichtraucher bzw. anderen Risikofaktoren) 8
1.1. GRUNDLAGEN UND GRUNDBEGRIFFE d) Klumpenstichprobe: Die Grundgesamtheit zerf¨allt in untereinander ¨ahnliche Teilgesamtheiten (Klumpen). Die Klumpen werden zuf¨allig ausgew¨ahlt, und innerhalb jedes Klumpens wird eine Vollerhebung durchgef¨ uhrt. Beispiele: • Meinungsumfrage/Wahlforschung/erste Prognosen bei einer Wahl: basierend auf schneller Ausz¨ahlung in einigen Stimmbezirken, die nach repr¨asentativem Wahlverhalten (in fr¨ uheren Wahlen) ausgew¨ahlt wurden • Fahrgastbefragung, Kundenzufriedenheit, Bezahlungsart (bar, EC, Kreditkarte, etc.) • Erfolg einer bestimmten Werbung oder eines bestimmten Sonderangebots o.¨a., erhoben in einigen, repr¨asentativ ausgew¨ahlten Filialen einer Supermarktkette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 8 auf Seite 4 a) Querschnittsstudie: F¨ ur eine Stichprobe von statistischen Einheiten werden ein oder mehrere Merkmale zu einem festgelegten Zeitpunkt erfasst. Beispiele: Unternehmensbefragung u ¨ber aktuelle Auftragslage, Befragung z.B. auf der Straße, Internetfrageb¨ogen b) Zeitreihe: Ein Objekt wird hinsichtlich eines Merkmals u ¨ber einen l¨angeren Zeitraum hinweg beobachtet, d.h. die Auspr¨agung des Merkmals wird in verschiedenen Zeitperioden erfasst. Beispiele: Monatlicher Gesamtkonsum aller deutschen Haushalte von 1991-2001, Aktienindex, Wechselkurse, Temperaturverlauf, Studentenzahlen c) Panel (L¨angsschnittstudie): F¨ ur eine Stichprobe von statistischen Einheiten wird die Entwicklung von interessierenden Merkmalen u ¨ber einen gewissen Zeitraum hinweg verfolgt. Beispiele: Konsumentenverhalten, Probanden (z.B. in der Medizin), Sozio-¨okonomisches Panel: 1984 vom DIW gestartete j¨ahrliche Wiederholungsbefragung von mehreren Tausend Haushalten (mehrere Hundert Variablen, z.B. Erwerbsstatus, Einkommen) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
KAPITEL 1. DESKRIPTIVE STATISTIK
1.2
Univariate Datenanalyse
Aufgabe 9
(L¨osung auf Seite 20, R-Code auf Seite 182)
Die Marktanteile am deutschen Fernsehmarkt verteilen sich im Wesentlichen auf 4 Sender. Am Stichtag haben insgesamt 20 Mio. Zuschauer ferngesehen. Davon entfielen 12,9 % auf ZDF, 5,38 Mio. Zuschauer der ARD + Dritte, 12,4 % auf RTL, und SAT.1 hatte 1,92 Mio. Zuschauer. Stellen Sie die Marktanteile geeignet graphisch dar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 10
(L¨osung auf Seite 20)
Die folgende Tabelle enth¨alt die Landesstimmen der Landtagswahlen von 1996 und 2001 in Rheinland-Pfalz gem¨aß des amtlichen Endergebnisses.
Wahlberechtigte ung¨ ultige Stimmen Stimmen f¨ ur SPD Stimmen f¨ ur CDU Stimmen f¨ ur F.D.P. Stimmen f¨ ur die Gr¨ unen Stimmen f¨ ur sonstige Parteien
Landtagswahl 2001 3.025.090 46.114 820.610 647.238 143.427 95.567 127.004
Landtagswahl 1996 2.987.099 51.207 821.539 798.166 184.426 142.665 116.930
a) Wie hoch war die Wahlbeteiligung jeweils? Wie viele g¨ ultige Stimmen wurden jeweils abgegeben? b) Stellen Sie die Stimmenanteile der Parteien (f¨ ur beide Wahlen getrennt) geeignet graphisch dar. Runden Sie dabei auf eine Nachkommastelle und beziehen Sie sich auf die g¨ ultigen Stimmen. c) Stellen Sie die Stimmenanteile und die prozentualen Gewinne/ Verluste der Parteien in der Wahl von 2001 gegen¨ uber jener in 1996 geeignet graphisch dar. ¨ d) Wir betrachten jetzt eine vereinfachte, fiktive Sitzverteilung, die u.a. Uberhangmandate und Wahlkreisstimmen ignoriert. Berechnen Sie f¨ ur einen Landtag mit 101 Abgeordneten die Sitzverteilung f¨ ur die einzelnen Parteien und w¨ahlen Sie auch hierf¨ ur eine geeignete graphische Darstellung. (Hinweis: Nichtganzzahlige Sitze werden den Parteien mit den gr¨oßten Nachkommaanteilen zugeschlagen.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.2. UNIVARIATE DATENANALYSE
Aufgabe 11
(L¨osung auf Seite 22, R-Code auf Seite 183)
In der Augustinergasse befragt eine Gruppe neugieriger Studenten des 1. Semesters zuf¨allig ausgew¨ahlte Erwachsene nach ihrem h¨ochsten Schul- bzw. Hochschulabschluss. Die Auswertung ihrer Strichliste ergab die folgende Tabelle: Abschluss ohne Hauptschule Mittlere Reife Abitur Universit¨at
Anzahl 8 20 30 40 22
a) Geben Sie die relative H¨aufigkeitsverteilung an. b) Stellen Sie die Daten graphisch dar. c) Geben Sie die kumulierten H¨aufigkeiten an. K¨onnen Sie diese sinnvoll interpretieren? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 12
(L¨osung auf Seite 23)
Bei einer statistischen Untersuchung wurden f¨ ur ein metrisches Merkmal die Daten x1 , x2 , . . . , x100 erhoben und daraus die folgende empirische Verteilungsfunktion berechnet: ⎧ 0 f¨ ur x < 3, ⎪ ⎪ ⎪ ⎪ ⎪ 0, 2 f¨ ur 3 ≤ x < 4, ⎪ ⎪ ⎪ ⎨0, 45 f¨ ur 4 ≤ x < 6, F (x) = ⎪ 0, 5 f¨ ur 6 ≤ x < 10, ⎪ ⎪ ⎪ ⎪ ⎪0, 75 f¨ ur 10 ≤ x < 12, ⎪ ⎪ ⎩ 1 f¨ ur x ≥ 12. a) Zeichnen Sie die empirische Verteilungsfunktion. b) Handelt es sich um ein stetiges oder ein diskretes Merkmal? c) Geben Sie die absolute und die relative H¨aufigkeitsverteilung an. d) Stellen Sie die Daten graphisch dar. e) F¨ ur eine zweite Untersuchung wurden ebenfalls 100 Daten erhoben und gruppiert. Es ergab sich die folgende H¨aufigkeitsverteilung: Klasse Anzahl
[2; 3] 20
(3; 4] 25
(4; 6] 5
(6; 10] 25
(10; 12] 25
Zeichnen Sie die zugeh¨orige empirische Verteilungsfunktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 13
(L¨osung auf Seite 25)
In der Tabelle ist das monatliche Einkommen (in e ) von 1.000 Personen angegeben. Einkommen [0, 1.000] (1.000, 1.500] (1.500, 2.500] (2.500, 5.000] (5.000, 10.000]
hi 50 170 270 500 10
fi
δi
c¯i
H¨ohe
a) Vervollst¨andigen Sie die Tabelle und zeichnen Sie das zugeh¨orige Histogramm. Warum hat man die Klassen nicht gleich groß gew¨ahlt? b) Zeichnen Sie die empirische Verteilungsfunktion. c) Geben Sie an, wie viel Prozent der Befragten ein Einkommen von h¨ochstens e 1.500 und wie viel Prozent ein Einkommen von h¨ochstens e 5.000 haben. d) Wie viel Prozent der Befragten haben ein Einkommen von h¨ochstens e 1.250? Erkl¨aren Sie, warum Ihre Antwort hier nur n¨aherungsweise g¨ ultig ist. e) F¨ ur welche Einkommensgrenzen k¨onnen Sie u ¨berhaupt eine exakte Prozentangabe machen? f) Wie k¨onnen Sie graphisch bestimmen, wie viel Prozent der Befragten ein Einkommen von h¨ochstens e 3.750 haben? g) Was k¨onnen Sie u ¨ber Modalit¨at, Symmetrie und Schiefe dieser Einkommensverteilung aussagen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 14
(L¨osung auf Seite 27, R-Code auf Seite 183)
Der Dekan einer naturwissenschaftlichen Fakult¨at an der Universit¨at in M ben¨otigte zu ad¨ ministrativen Zwecken eine Ubersicht u ¨ber die Fachrichtung der Absolventen des letzten Semesters. An der Fakult¨at kann man ausschließlich einen Abschluss in Physik (P), Chemie (C) oder Biologie (B) erwerben. Zur Datenerhebung wurden alle Absolventen des letzten Semesters befragt. a) Charakterisieren Sie das hierbei angefallene Datenmaterial: • Art der Erhebung • Statistische Einheit • Statistische Masse • Skalenniveau des erhobenen Merkmals • Auspr¨agungen des erhobenen Merkmals. 12
1.2. UNIVARIATE DATENANALYSE Um sich Tipparbeit zu ersparen, hat der Mitarbeiter, der die Daten zur statistischen Analyse im Computer erfassen sollte, die folgende Codierung gew¨ahlt: 1 = Physik, 2 = Biologie, 4 = Chemie. Daraus ergab sich die Tabelle: Codierung Anzahl Absolventen
1 48
2 28
4 24
b) Was ist nun das Skalenniveau des erhobenen Merkmals? c) Stellen Sie die Daten graphisch dar. d) Berechnen Sie ein – oder auch mehrere – Ihnen geeignet erscheinende Lagemaße und begr¨ unden Sie kurz Ihre Wahl. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 15
(L¨osung auf Seite 28, R-Code auf Seite 183)
Die Familiengr¨oßen in einem kleinen Dorf sind in folgender H¨aufigkeitstabelle zusammengefasst: Familiengr¨oße Anzahl
3 25
4 35
5 15
6 10
7 10
8 5
a) Um welche Art der Erhebung handelt es sich? b) Was sind die statistischen Einheiten, was die statistische Masse? Welches Merkmal wird erhoben? Welches Skalenniveau, welcher Typ liegt vor? Welche m¨oglichen Auspr¨agungen kann das Merkmal haben? c) Wie viele Menschen leben insgesamt in dem Dorf? d) Stellen Sie die Verteilung der Familiengr¨oßen geeignet graphisch dar. e) Zeichnen Sie die empirische Verteilungsfunktion. f) Was k¨onnen Sie u ¨ber Modalit¨at und Schiefe dieser Verteilung sagen? g) Berechnen Sie das arithmetische Mittel, den Median und den Modalwert. Welches halten Sie hier f¨ ur das sinnvollste Lagemaß? (Begr¨ undung!) h) Bestimmen Sie die empirische Varianz und die Standardabweichung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 16
(L¨osung auf Seite 29, R-Code auf Seite 184)
Eine Autozeitschrift will zwei neue Kleinwagen vergleichen. Von Interesse ist unter anderem der Benzinverbrauch auf 100 km. Mit Wagen A werden 50 Fahrten gemacht. Das Ergebnis der Messungen zeigt die folgende Tabelle: Benzinverbrauch (in Litern je 100 km) Anteil der Fahrten (in %)
5,0 2
5,5 6
6,0 16
6,4 30
6,9 34
7,5 8
7,8 4
Da der Redaktionsschluss naht, k¨onnen mit Wagen B nur noch 20 Fahrten unternommen werden. Die Testergebnisse sind die folgenden: 4, 2 4, 8 4, 8 4, 8 5, 4 5, 4 5, 4 5, 4 5, 4 5, 4 5, 9 5, 9 5, 9 5, 9 5, 9 5, 9 6, 0 6, 0 6, 0 6, 5 a) Berechnen Sie f¨ ur Wagen B die relativen H¨aufigkeiten und stellen Sie diese graphisch dar. b) Bestimmen Sie f¨ ur den Benzinverbrauch bei Wagen A und B jeweils den Median. c) Auf wie vielen Fahrten haben Wagen A bzw. Wagen B weniger als 6,5 Liter verbraucht? d) Zeichnen Sie die empirischen Verteilungsfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 17
(L¨osung auf Seite 31, R-Code auf Seite 185)
In einer Untersuchung u ¨ber das monatliche Nettoeinkommen der Eltern von 200 Studierenden werden der Median mit e 1.950 und das arithmetische Mittel mit e 1.970 ausgewiesen. Es liegen die – auf den ersten Blick – unvollst¨andigen Informationen vor: Einkommensklasse [600, 1.200] (1.200, 1.500] (1.500, 2.100] (2.100, 2.700] (2.700, 3.000] u ¨ber 3.000
14
abs. H¨aufigkeit 20 20 unleserlich unleserlich 10 10
1.2. UNIVARIATE DATENANALYSE a) Wie viele Einkommen liegen in den beiden Klassen, deren absolute H¨aufigkeiten unle¨ serlich sind? (Hinweis: Uberlegen Sie zun¨achst, welches die Einfallsklasse des Medians ist. Wie ist dann der Zusammenhang zwischen dem Median und der relativen H¨aufigkeit dieser Klasse?) b) Welches Klassenmittel wurde f¨ ur die Klasse u ¨ber 3.000“ verwendet, um das oben an” ¨ gegebene mittlere Einkommen zu berechnen? (Hinweis: Uberlegen Sie, wie man den Mittelwert aus gruppierten Daten berechnet.) c) Beschreiben Sie die Verteilung und zeichnen Sie auch die Verteilungsfunktion. d) Berechnen und interpretieren Sie das untere und das obere Quartil dieser Verteilung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 18
(L¨osung auf Seite 33)
In der CD-Abteilung eines Kaufhauses konnte seit 1996 ein j¨ahrlich steigender Umsatz (in DM) festgestellt werden: Jahr Umsatz
1996 150.000
1997 1998 172.500 207.000
1999 258.750
2000 310.500
Dar¨ uber hinaus wurden f¨ ur das Jahr 2000 der Umsatz und der durchschnittliche Preis getrennt f¨ ur einzelne Musiksparten ermittelt: Musiksparte Umsatz durchschn. Preis einer CD
Klassik 136.000 17
Pop 115.000 20
Jazz 35.000 28
Sonstiges 24.500 25
a) Wie groß ist die durchschnittliche Umsatzh¨ohe u ¨ber die Jahre? b) Berechnen Sie die durchschnittliche Umsatzsteigerung in der CD-Abteilung. c) Was war der durchschnittliche Preis aller verkauften CDs in diesem Kaufhaus im Jahr 2000? d) Wie lauten Ihre Antworten zu den Teilaufgaben a) bis c), wenn Sie statt in DM in Euro rechnen? Der Umrechnungskurs betr¨agt 1:1,95583. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 19
(L¨osung auf Seite 33)
Beim Gl¨ uhbirnenhersteller DURAM wurden 250 Gl¨ uhbirnen auf ihre Brenndauer X (gemessen in Stunden) untersucht. Nach Einf¨ uhrung einer Klasseneinteilung ergab sich laut Versuchsprotokoll folgende Tabelle: Brenndauer [0; 400] (400; 800] (800; 1.000] (1.000; 1.200]
Anzahl 25 50 75 100
rel. H¨aufigkeit
rel. kum. H¨aufigkeit
a) Vervollst¨andigen Sie die obige Tabelle und zeichnen Sie die empirische Verteilungsfunktion. Zeichnen Sie außerdem das zugeh¨orige Histogramm. b) Berechnen Sie den Mittelwert und die empirische Varianz. c) Berechnen Sie den Median und das obere Quartil. d) Was k¨onnen Sie u ¨ber die Form der Verteilung sagen? e) Bestimmen Sie den Anteil (in Prozent) der Gl¨ uhbirnen, die l¨anger als 700 Stunden gebrannt haben. f) Erkl¨aren Sie, wie Sie den in der vorigen Teilaufgabe gesuchten Anteil graphisch mit Hilfe der Verteilungsfunktion aus Teilaufgabe a) bestimmen k¨onnen. g) Bei einer zweiten Stichprobe wurde die Brenndauer von 200 Gl¨ uhbirnen erhoben. Man erhielt die folgende – an einigen Stellen leider unleserliche – Tabelle: Brenndauer [0; 200] (200; 400] (400; 800] (800; 1.200]
Anzahl unleserlich unleserlich 60 40
Einer der Auswerter erinnerte sich noch an den Mittelwert, der x¯ = 500 betrug. Rekonstruieren Sie die fehlenden beiden H¨aufigkeiten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.2. UNIVARIATE DATENANALYSE
Aufgabe 20
(L¨osung auf Seite 35)
In der Stadt Statistika wurden Informationen u ¨ber das j¨ahrliche Einkommen von SingleHaushalten erhoben. Anhand des Melderegisters wurden jeweils 7 Frauen und 7 M¨anner zuf¨allig ausgew¨ahlt und nach ihrem Jahreseinkommen befragt. ¨ Aufgrund eines Ubermittlungsfehlers ist f¨ ur die Gruppe der 7 M¨anner nur bekannt, dass das arithmetische Mittel der Einkommen gleich 25, 4 und die Standardabweichung gleich 12, 5 ist. F¨ ur die Frauen ergaben sich folgende Einkommenswerte (in e 1.000): 35, 0 26, 0 14, 9 22, 3 30, 4 50, 0 20, 2 a) Um welche Art der Datenerhebung handelt es sich hier? b) Berechnen Sie die empirische Varianz der Einkommen der Frauen. Bei welcher Gruppe - Frauen oder M¨anner - ist die Streuung der Einkommenswerte h¨oher? c) Berechnen Sie f¨ ur die Gruppe der Frauen den Quartilskoeffizient der Schiefe. Welche Schlussfolgerung auf die Struktur der Verteilung k¨onnen Sie aus Ihrem Ergebnis ziehen? d) Berechnen Sie das arithmetische Mittel aller 14 Beobachtungen (Frauen und M¨anner) und bestimmen Sie die gesamte Varianz des Datensatzes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 21
(L¨osung auf Seite 36)
In den Semesterferien wurde in der Mensa die Anzahl der ausgegebenen Essen an zwei Theken erhoben: Theke 1: 123 138 152 232 240 258 261 276 300 361 381 398 425 467 481 Theke 2: 187 114 93 152 161 265 177 173 198 238 a) Wie viele Essen wurden durchschnittlich pro Theke ausgeben? b) Berechnen Sie jeweils die Varianz. c) Zeichnen Sie f¨ ur beide Theken jeweils den Boxplot und bestimmen Sie den Quartilskoeffizienten der Schiefe. Was l¨asst sich daraus u ¨ber die Verteilungen aussagen? d) Aus den erhobenen Daten von Ausgabetheke 3 wurden ein arithmetisches Mittel von 200,4 und eine Standardabweichung von 35,6 ermittelt. F¨ ur diese Berechnung wurden die Daten von 10 Tagen verwendet. Berechnen Sie den Mittelwert und die Varianz f¨ ur alle drei Theken zusammen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 22
(L¨osung auf Seite 37)
Bei 100 zuf¨allig ausgew¨ahlten Studierenden wurde die Zeit gestoppt, die sie ben¨otigen, um von der Mensa in den H¨orsaal zu gehen. Es ergaben sich die folgenden Daten: Zeit (in Minuten) 0 bis 4 mehr als 4 bis 5 mehr als 5 bis 7 mehr als 7 bis 10
Anzahl Studierende 20 16 50 14
a) Charakterisieren Sie das Datenmaterial: • Statistische Einheit • Art der Erhebung • Merkmal • Skalenniveau • Merkmalstyp b) Zeichnen Sie das Histogramm und die Verteilungsfunktion. Achten Sie dabei auf eine ordentliche Beschriftung beider Achsen. c) Berechnen Sie den Modus. d) Berechnen Sie den Median. e) Berechnen Sie die Standardabweichung. f) Wie groß ist der Anteil der Studierenden, die h¨ochstens 7 Minuten gebraucht haben? Ist Ihre Antwort exakt oder approximativ? g) Wie groß ist der Anteil der Studierenden, die h¨ochstens 3 Minuten gebraucht haben? Ist Ihre Antwort exakt oder approximativ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.2. UNIVARIATE DATENANALYSE
Aufgabe 23
(L¨osung auf Seite 39, R-Code auf Seite 186)
An zwei Registrierkassen eines Supermarktes wurden eine Stunde lang jeweils die Bedienungszeiten (in Sekunden) gemessen: Kasse 1: 35, 45, 15, 36, 68, 75, 12, 9, 35, 23, 45, 25, 28, 67, 46 Kasse 2: 76, 21, 49, 63, 47, 48, 69, 62, 52, 41, 68, 79, 45, 32, 11, 12, 16, 45, 23, 7 a) Berechnen Sie f¨ ur jede Kasse die mittlere Bedienungszeit. b) Berechnen Sie f¨ ur jede Kasse die Varianz der Bedienungszeiten. c) Bestimmen Sie f¨ ur jede Kasse den Median sowie das untere und obere Quartil der Bedienungszeiten. Zeichnen Sie f¨ ur beide Kassen die Boxplots der Bedienungszeiten. d) Berechnen Sie jetzt sowohl das Mittel als auch die Varianz der Bedienungszeit f¨ ur beide Kassen zusammen. Benutzen Sie dabei nicht die beiden Urlisten, sondern nur Ihre Ergebnisse aus den Teilaufgaben a) und b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 24
(L¨osung auf Seite 40, R-Code auf Seite 187)
Auf der diesj¨ahrigen IAA soll die F¨ahigkeit untersucht werden, in eine enge Parkl¨ ucke einzuparken. F¨ ur jeweils 10 zuf¨allig ausgew¨ahlte Frauen und M¨anner wurde die ben¨otigte Zeit (in Sekunden) f¨ ur das korrekte Einparken in die vorgegebene Parkl¨ ucke gemessen. Folgende Daten wurden dabei erhoben: Frauen M¨anner
11 15 18 19 22 23 31 32 45 97 16 22 25 29 31 31 33 34 46 48
a) Um welche Art der Erhebung handelt es sich hier? b) Berechnen Sie f¨ ur die Stichproben der Frauen und M¨anner jeweils den Mittelwert und die Varianz. c) Geben Sie jeweils die 5-Punkte-Zusammenfassung an. d) Zeichnen Sie die beiden Boxplots. Was k¨onnen Sie daraus u ¨ber die Verteilungen ablesen? e) Beurteilen Sie die Schiefe anhand eines geeigneten Koeffizienten. f) Berechnen Sie den Mittelwert und die Varianz der gesamten Stichprobe und verwenden Sie dabei nur Ihre Ergebnisse aus Teilaufgabe b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 9 auf Seite 10 Da Marktanteile dargestellt werden sollen, empfiehlt sich die Konstruktion eines Kreisdiagramms. Man k¨onnte aber auch ein Stab-, Balken- oder S¨aulendiagramm zeichnen. Die Winkel lassen sich wie folgt berechnen: Winkel in ◦ = fi · 360◦ , z.B. 0, 129 · 360◦ = 46, 44◦ . Die absoluten und relativen H¨aufigkeiten sowie die Winkel des Kreisdiagramms k¨onnen der folgenden Tabelle entnommen werden: TV-Sender ZDF ARD + Dritte RTL SAT.1 Sonstige Zuschauer in Mio. 2,58 5,38 2,48 1,92 7,64 20 Anteil in % 12,9 26,9 12,4 9,6 38,2 100 Winkel in ◦ 46, 44 96, 84 44, 64 34, 56 137, 52 360 Marktanteile in Prozent
40
Marktanteile in Prozent
30
ARD+Dritte
ZDF
20
RTL
10
Sat1
0
Sonstige
ZDF ARD+Dritte RTL
Sat1
Sonstige
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 10 auf Seite 10 a) Wahlbeteiligung =
abgegebene Stimmen Wahlberechtigte
· 100 %
Im Jahr 1996 betrug die Walbeteiligung
100 % ≈ 70, 8 %.
Im Jahr 2001 betrug die
· 100 % ≈ 62, 1 %.
b) Anteil(Partei X) =
2.114.933 · 2.987.099 1.879.960 Wahlbeteiligung 3.025.090
g¨ ultige Stimmen f¨ ur Partei X alle g¨ ultigen Stimmen
· 100 %
Im Jahr 1996 wurden 2.063.726 g¨ ultige Stimmen abgegeben, im Jahr 2001 nur noch 1.833.846. Partei Wahl 2001 (Anteil in %) Wahl 1996 (Anteil in %) Differenz (in Prozentpunkten) 20
SPD 44,7 39,8 4,9
CDU 35,3 38,7 -3,4
F.D.P. 7,8 8,9 -1,1
Gr¨ une 5,2 6,9 -1,7
Sonstige 7,0 5,7 1,3
1.2. UNIVARIATE DATENANALYSE
40 30 20 10 0
0
10
20
30
40
50
Stimmenanteile (in %) 2001
50
Stimmenanteile (in %) 1996
SPD
CDU
F.D.P.
Grüne
Sonstige
SPD
CDU
F.D.P.
Grüne
Sonstige
c) Die jeweiligen Gewinne bzw. Verluste sind der letzten Zeile der Tabelle aus Aufgabe b) zu entnehmen.
−6
−4
−2
0
2
4
6
Veränderung der Stimmenanteile in Prozentpunkten
SPD
d) Sitze(Partei X) =
CDU
F.D.P.
Grüne
g¨ ultige Stimmen f¨ ur Partei X alle g¨ ultigen Stimmen f¨ ur Parteien im Landtag
Sonstige
· Anzahl Sitze
Hier m¨ ussen die Stimmen, die auf die sonstigen Parteien fallen, subtrahiert werden, da diese nicht im Landtag vertreten sind. Damit ergeben sich f¨ ur 1996 1.946.796 g¨ ultige Stimmen und f¨ ur 2001 1.706.842 g¨ ultige Stimmen f¨ ur die Parteien im Landtag. 21
KAPITEL 1. DESKRIPTIVE STATISTIK
Partei SPD CDU F.D.P Gr¨ une
Sitze 48,56 38,3 8,49 5,66 101
Wahl 2001 Tat. Sitze Winkel 49 87,3 38 67,7 8 14,3 6 10,7 101 180
Berechnung der Winkel: Winkel(Partei X) = gramm gezeichnet wird.
Sitze 42,62 41,41 9,57 7,40 101
Wahl 1996 Tat. Sitze Winkel 43 76,6 41 73,1 10 17,8 7 12,5 101 180
tat. Sitze f¨ ur X 101
· 180◦ , falls ein Halbkreisdia-
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 11 auf Seite 11 a) Tabelle der H¨aufigkeiten: ai ohne Hauptschule mittlere Reife Abitur Universit¨at Summe
hi 8 20 30 40 22 120
fi 0, 067 = 1/15 0, 167 = 1/6 0, 25 = 1/4 0, 333 = 1/3 0, 183 = 11/60 1
Fi 0, 067 = 1/15 0, 233 = 7/30 0, 483 = 29/60 0, 817 = 49/60 1
b) Graphische Darstellung als S¨aulendiagramm:
0
10
20
30
40
Absolute Häufigkeitsverteilung
ohne
22
Hauptschule
Mittlere Reife
Abitur
Universität
1.2. UNIVARIATE DATENANALYSE c) Die kumulierten (relativen) H¨aufigkeiten sind in der obigen Tabelle angegeben. Da es sich um ein ordinales Merkmal handelt, sind sie auch sinnvoll interpretierbar. Zum Beispiel bedeutet F3 = 0, 483, dass 48,3 % der Befragten h¨ochstens den Abschluss Mittlere ” Reife“ haben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 12 auf Seite 11 a) Empirische Verteilungsfunktion:
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Empirische Verteilungsfunktion (diskret)
0
2
4
6
8
10
12
x
b) Es handelt sich um ein diskretes Merkmal, da es nur endlich abz¨ahlbar viele Auspr¨agungen annimmt, n¨amlich die Werte 3, 4, 6, 10 und 12. Alle anderen Werte werden mit der H¨aufigkeit 0 angenommen. Deshalb ist die zugeh¨orige Verteilungsfunktion eine Treppenfunktion. c) Tabelle der absoluten, relativen und kumulierten H¨aufigkeiten: Auspr¨agung ai absolute H¨aufigkeit hi relative H¨aufigkeit fi kumulierte rel. H¨aufigkeit Fi
3 20 0,2 0,2
4 25 0,25 0,45
6 5 0,05 0,5
10 25 0,25 0,75
12 25 0,25 1,0
23
KAPITEL 1. DESKRIPTIVE STATISTIK d) Die absolute oder relative H¨aufigkeitsverteilung eines diskreten Merkmals ist z.B. als Stabdiagramm darstellbar.
0.00
0.05
0.10
f(x)
0.15
0.20
0.25
Stabdiagramm der relativen Häufigkeiten
3
4
5
6
7
8
9
10
11
12
x
e) Da gruppierte Daten vorliegen, ist die empirische Verteilungsfunktion st¨ uckweise linear:
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Verteilungsfunktion (gruppierte Daten)
2 3 4
6
10
12
x
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2. UNIVARIATE DATENANALYSE
Lo ¨sung zu Aufgabe 13 auf Seite 12 a) Vollst¨andige Tabelle der H¨aufigkeiten in den Einkommensklassen:
Einkommen [0, 1.000] (1.000, 1.500] (1.500, 2.500] (2.500, 5.000] (5.000, 10.000] Summe
hi 50 170 270 500 10 1.000
fi 0,05 0,17 0,27 0,5 0,01 1,0
δi 1.000 500 1.000 2.500 5.000
c¯i 500 1.250 2.000 3.750 7.500
H¨ohe 0,00005 0,00034 0,00027 0,0002 0,000002
Fi 0,05 0,22 0,49 0,99 1
Histogramm der Einkommensverteilung 0.4
f(x) * 1000
0.3
0.2
0.1
0 0
1
2.5
5
10
x (Einkommen in 1.000 EUR)
Da die Klassen unterschiedlich breit sind, entspricht die H¨ohe dem Quotienten aus relativer H¨aufigkeit und Klassenbreite. Durch diese Normierung ist das Histogramm fl¨achentreu, d.h. die Fl¨ache des gesamten Histogramms ergibt 1. Wegen der Schiefe der Einkommensverteilung sind die Klassen hier unterschiedlich breit gew¨ahlt. Sonst h¨atte man in den hohen Einkommensklassen nur wenige oder gar keine Auspr¨agungen. 25
KAPITEL 1. DESKRIPTIVE STATISTIK b) Die Werte der Verteilungsfunktion Fi sind der obigen Tabelle zu entnehmen.
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Verteilungsfunktion (gruppierte Daten)
0.0
1.5
5.0
10.0
x (Einkommen in 1.000 EUR)
c) Anteil(Einkommen ≤ 1.500) = F (1.500) = 0, 22 Anteil(Einkommen ≤ 5.000) = F (5.000) = 0, 99 22 % der Befragten haben ein Einkommen von h¨ochstens e 1.500 und 99 % der Befragten erzielen ein Einkommen von h¨ochstens e 5.000. d) Da die Verteilung der urspr¨ unglichen Beobachtungen innerhalb der Klasse nicht bekannt ist, wird eine Gleichverteilung angenommen. 0, 17 · (1.250 − 1.000) = 0, 135 Anteil(Einkommen ≤ 1.250) = 0, 05 + 500 13,5 % der Befragten haben ein Einkommen von h¨ochstens e 1.250. Das entspricht dem Wert der Geraden durch die Punkte (1.000, F (1.000)) und (1.500, F (1.500)) an der Stelle xi = 1.250. e) Da u ¨ber die Einkommensverteilung innerhalb der Klassen nichts genaueres bekannt ist, kann man nur f¨ ur die Klassenobergrenzen exakte Prozentangaben machen, und selbstverst¨andlich f¨ ur alle Werte, die kleiner gleich der unteren Grenze der untersten Klasse (Fi = 0) bzw. gr¨oßer gleich der oberen Grenze der obersten Klasse sind (Fi = 1). f) Man kann den Anteil an der empirischen Verteilungsfunktion an der Stelle xi = 3.750 ablesen. Der zugeh¨orige Funktionswert Fi ist 0,74. Durch exakte Berechnung erh¨alt man 0, 5 · (3.750 − 2.500) = 0, 74 Anteil(Einkommen ≤ 3.750) = 0, 49 + 2.500 74 % der Befragten erzielen ein Einkommen von h¨ochstens e 3.750. g) Die Verteilung ist unimodal und linkssteil bzw. rechtsschief. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.2. UNIVARIATE DATENANALYSE
Lo ¨sung zu Aufgabe 14 auf Seite 12 a)
• Art der Erhebung: Vollerhebung • Statistische Einheit: Ein Absolvent der Fakult¨at im letzten Semester. • Statistische Masse: Alle Absolventen der Fakult¨at im letzten Semester. • Skalenniveau des erhobenen Merkmals: nominal • Auspr¨agungen des erhobenen Merkmals: Physik, Chemie, Biologie
b) Das Merkmal ist immer noch nominal skaliert, denn das Skalenniveau bleibt unbeeinflusst von der Codierung. c) Zur Berechnung der H¨aufigkeiten und der Winkel f¨ ur das Kreisdiagramm wird die folgende Tabelle angefertigt: Studienrichtung ai absolute H¨aufigkeit hi relative H¨aufigkeiten fi Winkel in Grad
Physik 48 0,48 172,80
Biologie 28 0,28 100,80
Chemie 24 0,24 86,40
Summe 100 1 360
S¨aulen- und Kreisdiagramm der Studienrichtung: Relative Häufigkeiten
50
Absolute Häufigkeiten
20
30
40
Physik
Chemie
0
10
Biologie
Physik
Biologie
Chemie
d) Das einzig sinnvolle Lagemaß f¨ ur nominal skalierte Daten ist der Modus. Er bezeichnet die Merkmalsauspr¨agung mit der gr¨oßten absoluten H¨aufigkeit und betr¨agt hier xmod = 1“ = Physik“. ” ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 15 auf Seite 13 a) Es handelt sich um eine Vollerhebung, da alle Familien innerhalb des Dorfes bez¨ uglich ihrer Gr¨oße untersucht wurden. b)
• Statistische Einheit: Eine im Dorf wohnhafte Familie. • Statistische Masse: Alle im Dorf wohnenden Familien. • Merkmal: Familiengr¨oße • Skalenniveau: metrisch • Merkmalstyp: diskret • Auspr¨agungen: Anzahl der Familienmitglieder, hier: 3, 4, 5, 6, 7, 8.
c) Insgesamt leben im Dorf 25 · 3 + 35 · 4 + 14 · 5 + 10 · 6 + 10 · 7 + 5 · 8 = 460 Bewohner. d) Hilfstabelle zur Erstellung des Stab- oder S¨aulendiagramms: Familiengr¨oße ai absolute H¨aufigkeit hi relative H¨aufigkeit fi kumulierte relative H. Fi
3 25 0,25 0,25
4 35 0,35 0,6
5 15 0,15 0,75
6 10 0,1 0,85
7 10 0,1 0,95
8 5 0,05 1,0
Summe 100 1
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
f(x)
Relative Häufigkeiten der Familiengröße
3
4
5
6
7
8
Familiengröße (Personen)
e) Die empirische Verteilungsfunktion ist eine Treppenfunktion, da das Merkmal Famili” engr¨oße“ ein diskretes Merkmal ist. 28
1.2. UNIVARIATE DATENANALYSE
0.4
F(x)
0.6
x 0. Da hier rXY < 0, folgt βˆ < 0. e) Berechnung der Koeffizienten der Ausgleichsgerade: 5, 2 ≈ −6, 345 βˆ = −0, 954 · 230 α ˆ = y¯ − βˆ · x¯ = 40 + 6, 345 · 3 = 59, 035 Die angepasste Ausgleichsgerade lautet yˆ = 59, 035 − 6, 345 · x. Sie ist im Scatterplot aus Teilaufgabe a) bereits an die Daten angepasst. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 35 auf Seite 50 a) Bevor die Ausgleichsgerade bestimmt wird, ist zu u ¨berlegen, welches das abh¨angige und welches das unabh¨angige Merkmal ist. Die einzige logische M¨oglichkeit ist, dass die Arbeitslosenzahl von der Zahl der gemeldeten offenen Stellen abh¨angt. Merkmal X: Zahl der gemeldeten offenen Stellen in 1.000 (Regressor) Merkmal Y : Arbeitslosenzahl in 1.000 (Regressand) i 1 2 3 4 5 1 5
xi 3 3,4 4 2,4 2,2 15 3
yi 15 16 10 18 20 79 15,8
x2i 9 11,56 16 5,76 4,84 47,16 9,432
yi2 225 256 100 324 400 1.305 261
xi yi 45 54,4 40 43,2 44 226,6 45,32
x¯ = 3 y¯ = 15, 8 s˜2X = 9, 432 − 32 = 0, 432 s˜XY = 45, 32 − 3 · 15, 8 = −2, 08
Berechnung der Parameter der Ausgleichsgeraden: −2, 08 s˜XY = −4, 815 βˆ = 2 = s˜X 0, 432 ⇒ yˆ = 30, 244 − 4, 815 · xi
α ˆ = y¯ − βˆ · x¯ = 15, 8 + 4, 815 · 3 = 30, 244
b) Steigt die Anzahl der gemeldeten offenen Stellen um 1.000, kann man (im Mittel) mit einem Sinken der Arbeitslosenzahl um 4.815 Personen rechnen. c) Scatterplot und Ausgleichsgerade:
15 10 0
5
Arbeitslose (in 1000)
20
25
Lineare Regression: Anzahl Arbeitslose auf offene Stellen
1.5
2.0
2.5
3.0
3.5
Offene Stellen (in 1000)
68
4.0
4.5
1.3. BIVARIATE DATENANALYSE d) Bestimmtheitsmaß: 1.305 − 15, 82 = 11, 36 5 s˜2 (−2, 08)2 R2 = 2XY2 = = 0, 8816 s˜X s˜Y 11, 36 · 0, 432 s˜2Y =
R2 ∈ [0; 1]
Das Bestimmtheitsmaß ist ein Indikator f¨ ur die Anpassungsg¨ ute des Modells an die beobachteten Daten und damit auch f¨ ur die Prognosegenauigkeit. 88, 16 % der Streuung der yi -Werte werden durch die Regression erkl¨art. Das Modell passt sich also recht gut an die Daten an und erlaubt eine relativ genaue Prognose. Die restlichen 11, 84 % sind durch das Modell nicht erkl¨arte Streuung (sogenannte Residualstreuung). e) Prognose (f¨ ur x0 = 2):
yˆ0 = 30, 244 − 4, 815 · 2 = 20, 614
Bei 2.000 gemeldeten offenen Stellen erwartet man etwa 20.614 Arbeitslose. f)
Der Wert von R2 ist nahe 0. Die Ausgleichsgerade hat eine Steigung von ≈ 0. Dadurch ist auch die Kovarianz nahe 0, d.h. zwischen den Merkmalen besteht kein linearer Zusammenhang.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 36 auf Seite 51 a) Berechnung des Korrelationskoeffizienten: s˜2X
332, 3292 = − 11
59, 88 11
2 ≈ 0, 5786 2
39, 80 147, 4930 − ≈ 0, 3172 11 11 217, 7103 59, 88 39, 80 = − · = 0, 0958 11 11 11 0, 0958 √ =√ ≈ 0, 2236 0, 5786 · 0, 3172
s˜2Y = s˜XY ⇒ rXY
Es besteht ein schwacher positiver linearer Zusammenhang zwischen den Ausgaben f¨ ur Alkohol und Tabak. b) Berechnung der Ausgleichsgeraden mit Merkmal X: Ausgaben f¨ ur Tabak (Regressor) Merkmal Y : Ausgaben f¨ ur Alkohol (Regressand) 39, 80 59, 88 0, 09578 = 0, 1655 α ˆ= − 0, 1655 · = 2, 717 βˆ = 0, 5786 11 11 ⇒ yˆi = 2, 717 + 0, 1655 · xi 69
KAPITEL 1. DESKRIPTIVE STATISTIK Bestimmung des Determinationskoeffizienten: 2 R2 = rXY = 0, 22362 = 0, 05
Das Modell passt sich nur sehr schlecht an die Daten an, da lediglich 5 % der Varianz der yi -Werte durch die Regression erkl¨art werden. c) Graphische Darstellung:
4 3 2 1 0
Ausgabenanteil für Alkohol
5
Lineare Regression: Ausgaben für Alkohol auf Tabak
4.0
4.5
5.0
5.5
6.0
6.5
Ausgabenanteil für Tabak
d) Ohne Northern Ireland: 10 i=1 10
xi = 59, 88 − 4, 02 = 55, 86 x2i = 316, 1688
i=1 10
10 i=1 10
yi = 39, 8 − 4, 56 = 35, 24 yi2 = 126, 6994
i=1
xi yi = 199, 3791
i=1
2 2 55, 86 35, 24 316, 1688 126, 6994 − − ≈ 0, 4135 s˜2Y = ≈ 0, 2514 10 10 10 10 199, 3791 55, 86 35, 24 = − · = 0, 2528 10 10 10 0, 2528 √ =√ ≈ 0, 7841 0, 413 · 0, 251
s˜2X = s˜XY ⇒ rXY 70
1.3. BIVARIATE DATENANALYSE Es besteht nun ein starker positiver linearer Zusammenhang zwischen den Ausgaben f¨ ur Tabak und Alkohol. Berechnung der neuen Ausgleichsgeraden: 35, 24 55, 86 0, 2528 ≈ 0, 6115 α ˆ= − 0, 6121 · ≈ 0, 1082 βˆ = 0, 413 10 10 ⇒ yi = 0, 1082 + 0, 6115 · xi
4 3 2 1 0
Ausgabenanteil für Alkohol
5
Lineare Regression: Ausgaben für Alkohol auf Tabak (ohne Nordirland)
4.5
5.0
5.5
6.0
6.5
Ausgabenanteil für Tabak
2 Bestimmung des neuen Determinationskoeffizienten: R2 = rXY = 0, 78412 = 0, 615
Das Modell passt sich nun wesentlich besser an die Daten an, es werden immerhin 61, 5 % der Varianz der yi -Werte durch die Regression erkl¨art. Bei Northern Ireland handelt es sich also offenbar um einen Ausreißer.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 37 auf Seite 52 a) Zur Bestimmung der Parameter der Ausgleichsgeraden werden zun¨achst die arithmetischen Mittel, die Varianzen und die Kovarianz der beiden Merkmale X und Y berechnet: 1.000 = 100 10 125.000 − 1002 = 2.500 s˜2X = 10 800.000 s˜XY = − 100 · 650 = 15.000 10 x¯ =
6.500 = 650 10 5.125.000 s˜2Y = − 6502 = 90.000 10 y¯ =
Dadurch berechnen sich die Parameter der Ausgleichgeraden wie folgt: 15.000 =6 βˆ = 2.500
α ˆ = 650 − 6 · 100 = 650 − 600 = 50
Man erh¨alt als angepasste Ausgleichsgerade: b) Prognose f¨ ur x0 = 125:
yˆ = 50 + 6x
yˆ0 = 50 + 6 · 125 = 800
Eine 125 m -große Wohnung w¨ urde e 800 Miete kosten. 2
c) Beurteilung der Anpassungsg¨ ute: 1. M¨oglichkeit: R2 =
s˜2XY 15.0002 = =1 2 · s˜Y 2.500 · 90.000
s˜2X
2. M¨oglichkeit: s˜2 2.500 = 62 · R2 = βˆ2 · X =1 s˜2Y 90.000 F¨ ur diese Daten besteht ein perfekter positiver linearer Zusammenhang zwischen Mietpreis und Wohnfl¨ache. Man kann also davon ausgehen, dass der tats¨achliche Mietpreis einer Wohnung mit 125 m2 Wohnfl¨ache e 800 betr¨agt. 2 = R2 gilt, ist rXY = 0. Daraus folgt, dass s˜XY und wegen βˆ = s˜s˜XY auch βˆ = 0 d) Da rXY 2 X sein m¨ ussen. Damit hat die Ausgleichsgerade eine Steigung von 0 und verl¨auft durch y¯ = 650.
e) Es existiert kein linearer Zusammenhang zwischen Alter und Mietpreis. Allerdings kann man am Scatterplot erkennen, dass bis zum Alter von 50 Jahren ein starker positiver und ab 50 Jahren ein starker negativer Zusammenhang zwischen den Merkmalen besteht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
1.4. KONZENTRATIONSMASSE
1.4
Konzentrationsmaße
Aufgabe 38
(L¨osung auf Seite 77, R-Code auf Seite 191)
Auf einer kleinen Insel in der Nordsee leben nur 5 Familien. Bei einer Erhebung der Immobilienverm¨ogen ergab sich (in e 10.000) Familie Nr. Immobilienverm¨ogen
1 0
2 0
3 20
4 60
5 120
Man interessiert sich f¨ ur die relative Konzentration der Verteilung des Immobilienverm¨ogens. a) Zeichnen Sie die Lorenzkurve f¨ ur die Verm¨ogensverteilung. b) Welcher der folgenden Punkte liegt niemals auf einer Lorenzkurve? (0/0)
(0, 6/0, 6)
(0, 6/0, 1)
(0, 1/0, 6)
(1/1)
c) Berechnen Sie ein geeignetes Konzentrationsmaß und interpretieren Sie das Ergebnis. d) Wie ver¨andert sich die in Teilaufgabe c) berechnete Maßzahl, wenn das Immobilienverm¨ogen in britischen Pfund anstatt in Euro angegeben wird? e) Auf einer zweiten Insel mit ebenfalls 5 Familien ist das h¨ochste gemessene Immobilienverm¨ogen (in e 10.000) x5 = 100. Wie hoch m¨ ussten die Verm¨ogenswerte x1 , x2 , x3 , x4 der anderen 4 Familien sein, damit man auf dieser Insel von einer Nullkonzentration“ des Immobilienverm¨ogens sprechen ” kann? x1 = x2 = x3 = x4 = 100 x1 = x2 = x3 = x4 = 0 x1 , x2 , x3 , x4 gleichverteilt zwischen 0 und 100. Diese Frage kann man erst nach Berechnung eines geeigneten Konzentrationsmaßes beantworten. f) Angenommen, der Immobilienbesitz von Familie Nr. 3 wird gleichm¨aßig auf die Familien Nr. 1 bis 3 verteilt. Wie w¨ urden sich die Lorenzkurve aus Teilaufgabe a) und Ihre Maßzahl aus Teilaufgabe c) ver¨andern? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 39
(L¨osung auf Seite 78)
F¨ unf Studierende treffen sich zum Pokerspiel. Zu Beginn hat jeder $ 200. Nach einer Stunde ist die Verteilung des Geldes wie folgt: Person $
A 50
B 150
C 200
D 100
E 500
73
KAPITEL 1. DESKRIPTIVE STATISTIK a) Beurteilen Sie die relative Geldkonzentration zu Beginn des Spiels graphisch sowie anhand einer geeigneten Maßzahl. b) Beurteilen Sie die relative Geldkonzentration nach einer Stunde graphisch sowie durch Berechnung einer geeigneten Maßzahl. c) Nach jeder Spielrunde berechnen die Studierenden die Lorenzkurve. Viele Stunden sp¨ater ist Spielerin E am reichsten und der Punkt (0, 8/0) liegt auf der Lorenzkurve. Warum ist das Spiel jetzt zu Ende? Welchen Wert nimmt der Gini-Koeffizient an? d) Nach Ende der Pokerpartie lesen die Studierenden im Wirtschaftsteil der Tageszeitung und finden dort folgenden Beitrag u ¨ber die aktuellen Einkommensverh¨altnisse von Familien: Z¨ahlt eine Familie zu jenen 5 Prozent, die am meisten verdienen, dann hat sie (durch” schnittlich) zehnmal so viel wie eine Familie im untersten F¨ unftel. Weiterhin verdienen die mittleren 75 Prozent der Familien im Schnitt dreimal so viel wie jene untersten 20 Prozent.“ Berechnen Sie den Gini-Koeffizienten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 40
(L¨osung auf Seite 80, R-Code auf Seite 192)
In der folgenden Tabelle sind die Marktanteile des deutschen Fernsehmarkts aus dem Jahr 2007 in Prozent angegeben. ARD-Dritte ARD ZDF RTL Sat.1 ProSieben VOX
13,5 13,4 12,9 12,4 9,6 6,5 5,7
TV Rest RTL II kabel eins Super RTL KiKa DSF 3sat
4,1 3,9 3,6 2,6 1,2 1,1 1,0
Eurosport Phoenix N24 Das Vierte arte Tele 5 n-tv
1,0 0,9 0,9 0,8 0,8 0,8 0,7
NICK VIVA DMAX MTV ComedyCentral 9Live
0,7 0,6 0,5 0,3 0,3 0,2
a) Berechnen Sie die Lorenzkurve der 5 marktanteilst¨arksten TV-Sender, zeichnen Sie sie und berechnen Sie den Gini-Koeffizienten. b) Berechnen und beschreiben Sie qualitativ, wie sich die Lorenzkurve und der GiniKoeffizient aus Teilaufgabe a) ¨andern, wenn man die 20 marktanteilst¨arksten TV-Sender in die Konzentrationsanalyse mit einbezieht. c) Berechnen und beschreiben Sie qualitativ, wie sich die Lorenzkurve und der GiniKoeffizient aus Teilaufgabe b) ¨andern, wenn man alle TV-Sender in die Konzentrationsanalyse mit einbezieht.
74
1.4. KONZENTRATIONSMASSE d) Beschr¨anken Sie sich nun wieder auf die Teilmenge der 5 marktanteilst¨arksten TVSender und berechnen Sie den Herfindahl-Index. Geben Sie eine kurze Interpretation dieses Indexes. e) Betrachten Sie wiederum nur die 5 marktanteilst¨arksten TV-Sender und geben Sie die ¨ Konzentrationsrate f¨ ur g = 1 und g = 2 an. Uberlegen Sie sich hierbei auch, wie Sie die Konzentrationsrate an der schon berechneten Lorenzkurve ablesen k¨onnen. f) Berechnen Sie nun die Konzentrationsrate f¨ ur g = 1 und g = 5 basierend auf allen 27 erfassten TV-Sendern. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 41
(L¨osung auf Seite 84, R-Code auf Seite 192)
Bei einem exklusiven Lotteriespiel wird eine Gesamtsumme von e 1.000.000 an 10 Spieler als Gewinn ausgesch¨ uttet. Zur graphischen Darstellung der Konzentration soll die Lorenzkurve benutzt werden. a) Skizzieren Sie die Gestalt der Lorenzkurve f¨ ur den Fall der h¨ochst m¨oglichen Konzentration. b) Welcher der folgenden Punkte liegt niemals auf einer Lorenzkurve? (0/0)
(0, 5/0, 5)
(0, 5/0, 8)
(0, 8/0, 5)
(1/1)
c) Falls f¨ ur das Lotteriebeispiel der Punkt (0, 5/0, 2) auf der Lorenzkurve liegt, so bedeutet dies: e 500.000 wurden auf 20 % der Mitspieler mit den geringsten Gewinnen verteilt. e 200.000 wurden auf 50 % der Mitspieler mit den h¨ochsten Gewinnen verteilt. Die H¨alfte der Mitspieler erhielt einen Gewinn von jeweils e 200.000. e 800.000 wurden auf 50 % der Mitspieler mit den h¨ochsten Gewinnen ausgesch¨ uttet. ¨ d) Uber die Gewinnverteilung in der Ziehung A ist nun bekannt: - Ein Spieler erhielt den Hauptgewinn von e 500.000. - Zwei weitere Spieler bekamen eine Gewinnauszahlung von je e 250.000. - Der Rest der 10 Spieler ging leer aus. Zeichnen Sie die zugeh¨orige Lorenzkurve und berechnen Sie den Gini-Koeffizienten.
75
KAPITEL 1. DESKRIPTIVE STATISTIK e) In einer Ziehung B werden erneut e 1.000.000 an die 10 Spieler verteilt. Anstelle der Lorenzkurve wird nun die Konzentration der Gewinnverteilung mit dem Gini-Koeffizienten gemessen. Ein h¨oherer Ginikoeffizient bei Ziehung A als bei Ziehung B bedeutet: Die Konzentration der Gewinnverteilung bei Ziehung A ist st¨arker als bei Ziehung B. Die Konzentration der Gewinnverteilung bei Ziehung B ist st¨arker als bei Ziehung A. Unabh¨angig von den Gini-Koeffizienten ist die Konzentration der Gewinnverteilung bei beiden Ziehungen gleich, weil der Gesamtgewinn gleich ist. Ein Vergleich der beiden Konzentrationen ist ohne zus¨atzliche Information nicht m¨oglich. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 42
(L¨osung auf Seite 85)
In dem kleinen Land Ginistan wurde von der UNO eine Untersuchung der Einkommensverteilung unter den 20.000 Angeh¨origen der Landbev¨olkerung durchgef¨ uhrt. Es ergab sich die folgende Tabelle: Einkommen (in e 1.000) Relative H¨aufigkeit
[0, 1] 0,5
(1, 2] 0,3
(2, 3] 0,1
(3, 4] 0,05
(4, 8] 0,05
a) Zeichnen Sie die empirische Verteilungsfunktion und bestimmen Sie das untere und das obere Quartil. b) Man interessiert sich nun f¨ ur die Einkommenskonzentration. Berechnen Sie die Werte der Lorenzkurve und zeichnen Sie diese. Berechnen und interpretieren Sie auch ein geeignetes Konzentrationsmaß. c) Interpretieren Sie den Wert der Lorenzkurve an der Stelle (u, v) f¨ ur u = 0, 8. ¨ d) Uberlegen Sie nun, wie die relativen H¨aufigkeiten der einzelnen Einkommensklassen aussehen m¨ ussten, wenn in Ginistan eine Nullkonzentration der Einkommen vorl¨age. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
1.4. KONZENTRATIONSMASSE
Lo ¨sung zu Aufgabe 38 auf Seite 73 a) Lorenzkurve: Lorenzkurve der Immobilienvermögen 1.0
1 2 3 4 5
ui =
i n
0,2 0,4 0,6 0,8 1,0
xi 0 0 20 60 120 200
i j=1
xj
0 0 20 80 200
0.8
vi 0 0 0,1 0,4 1,0 1,5
0.6 vi
i
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
b)
(0, 1/0, 6) Dieser Punkt kann niemals auf einer Lorenzkurve liegen, da er sich oberhalb der Winkelhalbierenden befindet. Die Lorenzkurve ist so definiert, dass jeder Punkt auf der Lorenzkurve auf oder unterhalb der Winkelhalbierenden im Koordinatensystem liegt. Der Gini-Koeffizient beschreibt das Verh¨altnis zwischen der Fl¨ache, die die Winkelhalbierende mit der Lorenzkurve einschließt, und der Fl¨ache zwischen der Winkelhalbierenden und der ui -Achse.
c) Die relative Konzentration der Immobilienverm¨ogen kann anhand des Gini-Koeffizienten G bestimmt werden. Um diese Maßzahl besser interpretieren zu k¨onnen, teilt man den Gini-Koeffizienten durch den Wert, den er bei maximaler relativer Konzentration annehmen kann, Gmax = n−1 . Dadurch erh¨alt man den normierten Gini-Koeffizienten G . n 5+1 2 − · 1, 5 = 1, 2 − 0, 4 · 1, 5 = 0, 6 5 5 5 G = · 0, 6 = 0, 75 4
G ∈ [0; 0, 8]
G=
G ∈ [0; 1]
Es besteht eine relativ starke Konzentration der Immobilienverm¨ogen auf der Insel. d) Der Gini-Koeffizient bleibt gleich, da er dimensionsunabh¨angig ist. e)
x1 = x2 = x3 = x4 = 100 Bei Nullkonzentration ist das gesamte Verm¨ogen gleichm¨aßig auf alle Familien verteilt.
77
KAPITEL 1. DESKRIPTIVE STATISTIK f) Ver¨anderte Lorenzkurve: Lorenzkurve der Immobilienvermögen nach Umverteilung 1.0
1 2 3 4 5
ui = 0,2 0,4 0,6 0,8 1,0
i n
xi 6,667 6,667 6,667 60 120 200
i j=1
xj
vi
6,667 13,333 20 80 200
0.8
0,033 0,067 0,1 0,4 1,0 1,6
0.6 vi
i
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
Berechnung des neuen (normierten) Gini-Koeffizienten: 5+1 2 5 G= − · 1, 6 = 0, 56, G ∈ [0; 0, 8] G = · 0, 56 = 0, 7, G ∈ [0; 1] 5 5 4 Die Konzentration der Immobilienverm¨ogen ist niedriger als in Teilaufgabe a), da das Verm¨ogen besser auf die Merkmalstr¨ager verteilt ist. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 39 auf Seite 73 a) Zu Beginn des Spiels hat jeder Spieler gleich viel Geld, deshalb liegt eine Nullkonzentration vor. Der Gini-Koeffizient betr¨agt G = G = 0. Die Lorenzkurve entspricht der Winkelhalbierenden. Lorenzkurve zu Beginn des Spiels 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6 ui
78
0.8
1.0
1.4. KONZENTRATIONSMASSE b) Um die relative Geldkonzentration nach einer Stunde bestimmen zu k¨onnen, m¨ ussen die Merkmalsauspr¨agungen aufsteigend nach ihrer relativen H¨aufigkeit sortiert werden. Damit ergibt sich die folgende Lorenzkurve: Lorenzkurve nach einer Stunde 1.0
A D B C E
ui
xi
0,2 0,4 0,6 0,8 1
50 100 150 200 500 1.000
k i=1
xi
50 150 300 500 1.000
0.8
vi 0,05 0,15 0,3 0,5 1 2
0.6 vi
i
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
Gini-Koeffizient nach einer Stunde: 6 2 G = − · 2 = 0, 4 5 5 0, 4 = 0, 5 G = 0, 8
G ∈ [0; 0, 8] G ∈ [0; 1]
Nach einer Stunde Pokern besteht eine mittelm¨aßig starke relative Geldkonzentration. c) Wenn der Punkt (0,8/0) auf der Lorenzkurve liegt, ist die Geldkonzentration bei 5 Spielern maximal. Spielerin E besitzt nun $ 1.000, die anderen Spieler besitzen nichts mehr. Bei maximaler Konzentration ist G = 0, 8 und G = 1. Lorenzkurve am Ende des Spiels 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
79
KAPITEL 1. DESKRIPTIVE STATISTIK d) Einkommensverh¨altnisse von Familien: i arm mittel reich
fi
fi ai
0,2 0,75 0,05
k i=1
1 3 10
fi ai
ui 1 14 4 14
1 4 14
= 0, 071 = 0, 286 1
vi
v¯i
0,2 0,95 1
1 = 0, 0357 28 5 = 0, 179 28 18 = 0, 643 28
Berechnung des Gini-Koeffizienten aus H¨aufigkeitsdaten: 5 18 1 + 0, 75 · + 0, 05 · = 0, 654 G = 1 − 2 · 0, 2 · 28 28 28 Das Einkommen ist unter den Familien mittelm¨aßig stark konzentriert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 40 auf Seite 74 a) Konzentration unter den 5 marktanteilst¨arksten TV-Sendern: TV-Sender Sat.1 RTL ZDF ARD ARD-Dritte Summe
ui
xi
0,2 0,4 0,6 0,8 1,0
9,6 12,4 12,9 13,4 13,5 61,8
k i=1
xi
9,6 22 34,9 48,3 61,8
vi 0,155 0,356 0,565 0,782 1,0 2,858
Berechnung des Gini-Koeffizienten und des normierten Gini-Koeffizienten: 6 2 − · 2, 858 ≈ 0, 0568 5 5 0, 0568 = 0, 071 G = 0, 8 G=
G ∈ [0; 0, 8] G ∈ [0; 1]
Es liegt eine geringe relative Konzentration vor, d.h. die Marktanteile sind relativ gleichm¨aßig auf die 5 gr¨oßten TV-Sender verteilt.
80
1.4. KONZENTRATIONSMASSE Lorenzkurve der 5 marktanteilstärksten TV−Sender 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
b) Konzentration unter den 20 marktanteilst¨arksten TV-Sendern: xi 0,8 0,8 0,8 0,9 0,9 1,0 1,0 1,1 1,2 2,6 3,9 3,9 4,1 5,7 6,5 9,6 12,4 12,9 13,4 13,5
ui 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,0
vi 0,008 0,016 0,024 0,033 0,042 0,052 0,062 0,073 0,085 0,112 0,149 0,189 0,231 0,290 0,357 0,456 0,584 0,717 0,856 1,0 5,402
Lorenzkurve der 20 marktanteilstärksten TV−Sender 1.0
0.8
0.6 vi
TV-Sender Tele 5 arte Das Vierte N24 Phoenix Eurosport 3sat DSF KiKa Super RTL kabel eins RTL II TV Rest VOX ProSieben Sat.1 RTL ZDF ARD ARD-Dritte Summe
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
81
KAPITEL 1. DESKRIPTIVE STATISTIK Gini-Koeffizient und normierter Gini-Koeffizient:
19 G ∈ 0; 20
2 21 − · 5, 402 ≈ 0, 5097 20 20 20 G = · 0, 5097 = 0, 5365 19 G=
G ∈ [0; 1]
Bei Betrachtung der 20 marktanteilst¨arksten TV-Sender wird die Lorenzkurve st¨arker nach unten gew¨olbt und der Gini-Koeffizient gr¨oßer (G ≈ 0, 5097). Das Beispiel zeigt die Abh¨angigkeit der Lorenzkurve und des Gini-Koeffizienten und ihrer Interpretation von der Anzahl der betrachteten TV-Sender. c) Konzentration aller TV-Sender:
82
xi 0,2 0,3 0,3 0,5 0,6 0,7 0,7 0,8 0,8 0,8 0,9 0,9 1,0 1,0 1,1 1,2 2,6 3,9 3,9 4,1 5,7 6,5 9,6 12,4 12,9 13,4 13,5 100
ui 0,037 0,074 0,111 0,148 0,185 0,222 0,259 0,296 0,333 0,370 0,407 0,444 0,481 0,518 0,555 0,592 0,629 0,666 0,703 0,740 0,777 0,814 0,851 0,888 0,925 0,963 1,0
vi 0,002 0,005 0,008 0,013 0,019 0,026 0,033 0,041 0,049 0,057 0,066 0,075 0,085 0,095 0,106 0,118 0,144 0,183 0,221 0,262 0,319 0,384 0,480 0,604 0,733 0,865 1,0 5,993
Lorenzkurve aller TV−Sender 1.0
0.8
0.6 vi
TV-Sender 9Live ComedyCentral MTV DMAX VIVA NICK n-tv Tele 5 arte Das Vierte N24 Phoenix Eurosport 3sat DSF KiKa Super RTL kabel eins RTL II TV Rest VOX ProSieben Sat.1 RTL ZDF ARD ARD-Dritte Summe
0.4
0.2
0.0 0.0
0.2
0.4
0.6 ui
0.8
1.0
1.4. KONZENTRATIONSMASSE (Normierter) Gini-Koeffizient: 26 G ∈ 0; 27
2 28 − · 5, 993 ≈ 0, 5931 27 27 27 G = · 0, 5931 = 0, 6159 26 G=
G ∈ [0; 1]
Bei Betrachtung aller TV-Sender wird die Lorenzkurve noch st¨arker nach unten gew¨olbt und der Gini-Koeffizient gr¨oßer (G ≈ 0, 5931). Das Beispiel unterstreicht die Abh¨angigkeit der Lorenzkurve und des Gini-Koeffizienten und ihrer Interpretation von der Anzahl der betrachteten TV-Sender, d.h. je mehr Merkmalstr¨ager in die Konzentrationsanalyse einbezogen werden, desto gr¨oßer wird die relative Konzentration. d) Berechnung des Herfindahl-Index f¨ ur die 5 st¨arksten TV-Sender: TV-Sender
xi
Sat.1 RTL ZDF ARD ARD-Dritte Summe
9,6 12,4 12,9 13,4 13,5 61,8
pi =
xi n P xj
p2i
j=1
H=
n
p2i = 0, 203
0,155 0,201 0,209 0,217 0,218 1
0,024 0,040 0,044 0,047 0,048 0,203
H ∈ [0, 2; 1]
i=1
Es liegt eine sehr schwache absolute Konzentration, gemessen durch den HerfindahlIndex, vor. 13, 5 13, 5 + 13, 4 ≈ 0, 218 CR2 = ≈ 0, 435 61, 8 61, 8 Allgemein gilt: CR1 = 1 − v4 = 1− Wert der Lorenzkurve an u4 .
e) CR1 =
f) CR1 =
13, 5 ≈ 0, 135 100
CR5 =
61, 8 ≈ 0, 618 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 41 auf Seite 75 a) H¨ochstm¨ogliche Konzentration bedeutet, dass ein Spieler die gesamte Gewinnsumme n−1 = 0, 9 und G∗ = 1. erh¨alt, alle anderen gehen leer aus. Man erh¨alt Gmax = n Lorenzkurve bei maximaler Konzentration 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
b)
(0, 5; 0, 8) Dieser Punkt kann niemals auf einer Lorenzkurve liegen, da er sich oberhalb der Winkelhalbierenden befindet.
c)
e 800.000 wurden auf 50 % der Mitspieler mit den h¨ochsten Gewinnen ausgesch¨ uttet. Die erste Koordinate des Punktes gibt den Anteil der Merkmalstr¨ager an der Gesamtzahl der Merkmalstr¨ager an, hier den Anteil der Spieler. Die zweite Koordinate gibt den kumulierten Anteil an der Merkmalssumme an, hier den Gewinnanteil, der auf die Spieler mit den h¨ochsten Gewinnen f¨allt.
d) H¨aufigkeitstabelle und Lorenzkurve: ai 0 250.000 500.000 Summe 84
hi 7 2 1 10
fi 0,7 0,2 0,1 1
ui 0,7 0,9 1
ai hi 0 500.000 500.000 1.000.000
vi 0 0,5 1
1.4. KONZENTRATIONSMASSE Lorenzkurve der Gewinnverteilung 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
Berechnung des Gini-Koeffizienten: G = 1 − 2 · (0, 7 · 0 + 0, 2 · 0, 25 + 0, 1 · 0, 75) = 1 − 2 · 0, 125 = 0, 75 0, 75 G = = 0, 833 0, 9
G ∈ [0; 0, 9] G ∈ [0; 1]
Es besteht eine relativ hohe relative Konzentration der Gewinnverteilung in Ziehung A. e)
Die Konzentration der Gewinnverteilung bei Ziehung A ist st¨arker als bei Ziehung B. Ein gr¨oßerer Gini-Koeffizient bedeutet, dass die Konzentration h¨oher ist.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 42 auf Seite 76 a) Zur Bestimmung von Histogramm und Verteilungsfunktion wird die folgende Hilfstabelle erstellt: Klasse ci relative H¨aufigkeit fi kumulierte relative H. Fi H¨ohe
[0, 1] 0,5 0,5 0,5
(1, 2] 0,3 0,8 0,3
(2, 3] 0,1 0,9 0,1
(3, 4] 0,05 0,95 0,05
(4, 8] 0,05 1 0,0125
85
KAPITEL 1. DESKRIPTIVE STATISTIK Man erh¨alt das folgende Histogramm (links) und die Verteilungsfunktion (rechts):
Histogramm der Einkommensverteilung 1.0
Verteilungsfunktion der Einkommensverteilung
0.8
0.5
0.6 0.4
F(x)
0.3
0.2
0.2
f(x) * 1000
0.4
0.0
0.1
0 0
1
2
3
4
8
0
1
2
3
4
8
Einkommen (in 1.000 EUR)
x (Einkommen in 1.000 EUR)
Berechnung des unteren und des oberen Quartils: 0, 25 − 0 = 0, 5 0, 5
x0,25 = 0 +
x0,75 = 1 +
und
0, 75 − 0, 5 = 1, 833 0, 3
25 % der Landbev¨olkerung verdienen h¨ochstens e 500. 75 % der Landbev¨olkerung verdienen h¨ochstens e 1833,33. b) Gini-Koeffizient und Lorenzkurve:
ci
fi
uj
c¯i
fi · c¯i
[0, 1] (1, 2] (2, 3] (3, 4] (4, 8] Summe
0,5 0,3 0,1 0,05 0,05
0,5 0,8 0,9 0,95 1
500 1.500 2.500 3.500 6.000
250 450 250 175 300 1.425
G = 1−2
k
k i=1
fi · c¯i
250 700 950 1.125 1.425
vj
v¯j
fi · v¯j
0,175439 0,491228 0,666667 0,789474 1
0,0877 0,3333 0,5789 0,728 0,8947
0,0439 0,1 0,0579 0,0364 0,0447 0,28289
fj · v¯j = 1 − 2 · 0, 28289 = 0, 43422
G ∈ [0; 0, 99995]
j=1
Es besteht eine mittelm¨aßig stark ausgepr¨agte relative Konzentration des Einkommens der Landbev¨olkerung in Ginistan. 86
1.4. KONZENTRATIONSMASSE Lorenzkurve der Einkommensverteilung 1.0
0.8
vi
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
ui
c) Der Punkt (0, 8/0, 491228) bedeutet, dass sich die ¨armsten 80 % der Landbev¨olkerung 49,123 % des Einkommens teilen bzw., dass sich die reichsten 20 % der Landbev¨olkerung 50,877 % des Einkommens teilen. d) Nullkonzentration bedeutet, dass alle das gleiche Einkommen haben. H¨atte z.B. jeder ein Einkommen von e 2.000, dann w¨are die relative H¨aufigkeit in der Klasse (1, 2] = 1 und in allen anderen Klassen = 0. Analog l¨asst sich die Tabelle f¨ ur jedes m¨ogliche Einkommen bestimmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
KAPITEL 1. DESKRIPTIVE STATISTIK
1.5
Deskriptive Zeitreihenanalyse und Indexzahlen
Aufgabe 43
(L¨osung auf Seite 93, R-Code auf Seite 193)
In der folgenden Zeitreihe sind (fiktive) Quartalsdaten f¨ ur den Gesamtumsatz (in Mrd. £) in der Elektroindustrie in Großbritannien gegeben. Die erste Zahl stammt aus dem 1. Quartal (Januar bis M¨arz) 2005. 5 6 9 15 13 14 17 23 a) Stellen Sie die Zeitreihe graphisch dar. b) Wie lautet das additive Komponentenmodell zur Beschreibung dieser Zeitreihe? c) Nehmen Sie einen linearen Trend an und bestimmen Sie die beste Anpassung mittels der Kleinste-Quadrate-Methode. Zeichnen Sie die Trendfunktion in die Graphik aus a) ein. d) Geben Sie die Werte der trendbereinigten Zeitreihe an und stellen Sie diese in einer neuen Graphik dar. e) Unterstellen Sie eine konstante Saisonfigur der Periodizit¨at l = 4 und sch¨atzen Sie dann die Saisonkomponente. f) Geben Sie die Werte der gesch¨atzten Zeitreihe an und tragen Sie diese (in einer anderen Farbe) in die Graphik aus a) ein. g) Prognostizieren Sie den Umsatz f¨ ur die ersten beiden Quartale des Jahres 2007. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 44
(L¨osung auf Seite 95)
Die folgende Zeitreihe gibt Quartalsdaten u ¨ber den Umsatz (in Mio. Euro) eines mittelst¨andischen Unternehmens der Bekleidungsbranche wieder. Die erste Zahl stammt aus dem 1. Quartal 2005, die letzte aus dem 4. Quartal 2006. 12 11 13 15 16 14 16 19 a) Berechnen Sie die durchschnittliche Umsatzsteigerung in den 8 beobachteten Quartalen. b) Bei der Modellierung dieser Zeitreihe wird von einem additiven Komponentenmodell ausgegangen. Sch¨atzen Sie die Trendfunktion und beurteilen Sie die Anpassungsg¨ ute. c) Stellen Sie die Zeitreihe und die Trendfunktion graphisch dar. Achten Sie dabei auf eine korrekte Beschriftung der Achsen. d) Unterstellen Sie eine konstante Saisonfigur der Periodizit¨at l = 4 und sch¨atzen Sie dann die Saisonkomponente. Bestimmen Sie die gesch¨atzte Zeitreihe und zeichnen Sie diese in die Graphik aus c) ein. e) Prognostizieren Sie den Umsatz f¨ ur das zweite Quartal des Jahres 2007. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN
Aufgabe 45
(L¨osung auf Seite 98, R-Code auf Seite 194)
F¨ ur einen Mobiltelefonanbieter entwickelt sich die Anzahl der Anschl¨ usse (in 100.000), die im Zeitraum von Dezember 2006 bis April 2007 abgeschlossen werden, folgendermaßen: Dez. 2006 10
Jan. 2007 11,5
Febr. 2007 13,5
M¨arz 2007 15,5
April 2007 18
a) Stellen Sie die Zeitreihe graphisch dar und beschreiben Sie deren Verlauf. b) Setzen Sie zur Beschreibung dieser Zeitreihe ein exponentielles Trendmodell an. Berechnen Sie die Koeffizienten der zugeh¨origen Trendfunktion und zeichnen Sie die Trendfunktion in Ihre Graphik aus a) mit ein. c) Was k¨onnen Sie anhand der Trendfunktion u ¨ber die durchschnittliche monatliche Zuwachsrate sagen? d) Geben Sie die Werte der trendbereinigten Zeitreihe an und beurteilen Sie die Anpassungsg¨ ute. e) Prognostizieren Sie die Anzahl der Anschl¨ usse f¨ ur Mai und Juni 2007. Ist diese Entwicklung realistisch? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 46
(L¨osung auf Seite 100)
Der Preis eines Gutes entwickelte sich in den Jahren 2002 bis 2006 wie folgt: Jahr Preis (in $)
2002 10
2003 12
2004 12
2005 15
2006 20
a) Stellen Sie die Preise graphisch als Zeitreihe dar. b) Berechnen Sie die durchschnittliche j¨ahrliche Wachstumsrate der Preise und interpretieren Sie Ihr Ergebnis in einem Satz. Wie lautet Ihre Prognose f¨ ur den Preis im Jahr 2007? c) Passen Sie ein exponentielles Trendmodell an Ihre Zeitreihe aus Teilaufgabe a) an. d) Prognostizieren Sie mit Ihrem Modell aus der vorigen Teilaufgabe die Wachstumsrate und den Preis f¨ ur das Jahr 2007 und vergleichen Sie es mit Ihren Ergebnissen aus Teilaufgabe b). e) Angenommen, der Preis des Gutes w¨are in einem Jahr um 8 % gestiegen und im Folgejahr um 8 % gefallen. Um wie viel Prozent h¨atte sich der Preis dann insgesamt ver¨andert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 47
(L¨osung auf Seite 102)
F¨ ur einen Warenkorb bestehend aus 3 G¨ utern sind f¨ ur 2 Jahre jeweils Jahresverbrauch pro Konsument und Preise angegeben.
Gut Alter Gouda (100 g) Australischer Rotwein (0,75 l) Landbrot (1 kg)
2004 Menge Preis 50 1,35 150 4,29 75 2,10
2005 Menge Preis 55 1,39 200 3,99 70 2,30
a) Berechnen Sie den Preisindex nach Laspeyres mit Basisperiode 2004 und Berichtsperiode 2005 und interpretieren Sie das Resultat in einem Satz. b) Betrachten Sie den nominalen Wert des Warenkorbes in der Berichtsperiode 2005 und berechnen Sie den realen Wert in Preisen von 2004 mit Hilfe einer exakten Preisbereinigung. c) Warum wird in der amtlichen Statistik haupts¨achlich das Schema von Laspeyres zur Berechnung von Preisindizes benutzt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 48
(L¨osung auf Seite 102)
F¨ ur einen Warenkorb bestehend aus 3 G¨ utern sind f¨ ur 3 Jahre jeweils Jahresverbrauch (pro Studierendem) und Preise angegeben. Gut K¨asebr¨otchen (St¨ uck) Cola (l) Kaugummip¨ackchen
2001 q0i p0i 250 0,49 370 0,35 62 0,56
2002 q1i p1i 235 0,53 360 0,35 67 0,57
2003 q2i p2i 260 0,53 355 0,40 70 0,58
a) Berechnen Sie die Preisindizes nach Paasche mit 2001 als Basisjahr. b) Basieren Sie die Zeitreihe der Preisindizes aus a) auf das Jahr 2002 um. c) Berechnen Sie den Preisindex nach Paasche f¨ ur das Jahr 2003 mit 2002 als Basis und vergleichen Sie diesen Index mit dem umbasierten Index aus b). d) Gegeben ist eine Weiterf¨ uhrung der Preisindizes f¨ ur die Jahre 2003, 2004 und 2005: 2, 04; 2, 05; 2, 09. Verkn¨ upfen Sie diese Zeitreihe mit jener aus a) sowohl als Fortf¨ uhrung der alten als auch durch R¨ uckrechnung der neuen Reihe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN
Aufgabe 49
(L¨osung auf Seite 103)
Der bayerische Warenkorb besteht bekanntlich aus Weißwurst, Senf, Brezen und Bier. Folgende Daten sind bekannt: Umsatz 2005 (in Mio. e ) Weißwurst Senf Brezen Bier
400 5 150 5.000
Mengenmesszahl q2005 q2004 1,10 0,90 1,05 1,20
a) Berechnen Sie aus diesen Angaben einen geeigneten Mengenindex f¨ ur das Berichtsjahr 2005 zur Basis 2004. b) Der Gesamtumsatz f¨ ur die G¨ uter des bayerischen Warenkorbes betrug 2004 e 5,4 Milliarden. Berechnen Sie einen geeigneten Preisindex f¨ ur das Berichtsjahr 2005 zur Basis 2004. c) F¨ ur unseren bayerischen Warenkorb ist u ¨ber die Ver¨anderungen von Preisen und Mengen von 2000 bis 2005 außerdem Folgendes bekannt:
Weißwurst Senf Brezen Bier
Preis¨anderung (in Prozent) +15 +10 +5 +10
Mengen¨anderung (in Prozent) +5 0 -5 +5
Um wie viel Prozent hat sich der Umsatz des bayerischen Warenkorbes von 2000 bis 2005 insgesamt, sowie durchschnittlich pro Jahr ver¨andert? d) Berechnen Sie f¨ ur den bayerischen Warenkorb den Preisindex und den Mengenindex nach Laspeyres f¨ ur das Berichtsjahr 2005 zur Basis 2000. e) Wie groß ist der Umsatz des bayerischen Warenkorbes 2005 in Preisen von 2000? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
KAPITEL 1. DESKRIPTIVE STATISTIK
Aufgabe 50
(L¨osung auf Seite 104)
In einem Unternehmen gibt es 3 Hierarchieebenen. In den Jahren 1990, 1995 und 2000 ergab sich die folgende Entwicklung der Bruttogeh¨alter (in 1.000 DM pro Jahr und Mitarbeiter) und der Zahl der Mitarbeiter in jeder Ebene: Ebene 1 2 3
Gehalt 30 80 200
1990 Mitarbeiter 1.000 200 5
Gehalt 32 85 220
1995 Mitarbeiter 800 200 6
Gehalt 35 90 300
2000 Mitarbeiter 900 220 8
a) Berechnen Sie f¨ ur die Jahre 1995 und 2000 einen Laspeyres-Index mit Basis 1990, der die Entwicklung des Gehaltsniveaus im Unternehmen verdeutlicht. Interpretieren Sie Ihre Ergebnisse in einem Satz. b) Berechnen Sie einen Index f¨ ur die Lohnkosten des Unternehmens in den Jahren 1995 und 2000 zur Basis 1990. c) Wie hoch war der durchschnittliche Gehaltsanstieg pro Jahr (1990-2000) in der h¨ochsten Ebene in DM und prozentual? d) Basieren Sie Ihre Indexzahlen aus Teilaufgabe a) auf das Jahr 1995 um. e) Angenommen, alle Geh¨alter werden in Euro umgerechnet (zur Vereinfachung: 1 Euro = 2 DM). Wie ¨andern sich jeweils Ihre Ergebnisse in den Teilaufgaben a) bis d)? f) Nennen und beschreiben Sie kurz die allgemeine Eigenschaft von Indexzahlen, die Sie sich bei der vorigen Teilaufgabe zunutze machen k¨onnen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN
Lo ¨sung zu Aufgabe 43 auf Seite 88 a) Darstellung der Zeitreihe und des gesch¨atzten Trends gˆt :
15 0
5
10
Umsatz
20
25
30
Gesamtumsatz pro Quartal: Zeitreihe und lineare Trendfunktion
1
2
3
4
5
6
7
8
Zeit
b) Additives Komponentenmodell: xt = gt + st + zt gt bezeichnet die Trendkomponente, d.h. die langfristige systematische Ver¨anderung des mittleren Niveaus. Die Saisonkomponente st steht f¨ ur zyklische Schwankungen, die sich regelm¨aßig wiederholen. Die Restkomponente zt ist der nicht durch das Modell erfassbare Rest. c) Linearer Trend: gt = b0 + b1 · t n
t · xt = 556
x¯ = 12, 75
t=1
6 · 12, 75 12 · 556 − = 2, 3095 8 · (82 − 1) 8−1 8+1 b0 = 12, 75 − 2, 3095 · = 2, 3571 2
b1 =
Lineare Trendfunktion: gˆt = 2, 3571 + 2, 3095 · t d) Trendbereinigte Zeitreihe: xt − gˆt t xt gˆt xt − gˆt
1 5 4,67 0,33
2 6 6,98 -0,98
3 9 9,29 -0,29
4 15 11,6 3,4
5 13 13,9 -0,9
6 14 16,21 -2,21
7 17 18,52 -1,52
8 23 20,83 2,17 93
KAPITEL 1. DESKRIPTIVE STATISTIK
−2
−1
0
1
2
3
Trendbereinigte Zeitreihe
1
2
3
4
5
6
7
8
Zeit
e) Sch¨atzung der Saisonkomponenten aus der trendbereinigten Zeitreihe: Es wird eine konstante Saisonfigur mit Periodizit¨at l = 4 unterstellt, das heißt, man nimmt an, dass die jeweiligen Quartale u ¨ber die Jahre die gleichen additiven Auswirkungen auf den Umsatz haben. Die konstanten Saisonkomponenten werden berechnet, indem man f¨ ur jedes Quartal die Mittelwerte der Residuen (Wert der Zeitreihe minus gesch¨atzter Trend) bildet. Die Zahlen sind in der folgenden Tabelle zusammengestellt.
Jahr 2005 2006 sˆl
1 0,33 -0,9 -0,29
2 -0,98 -2,21 -1,6
3 -0,29 -1,52 -0,9
4 3,4 2,17 2,79
f) Gesch¨atzte Zeitreihe mit Saisonfigur: xˆt = gˆt + sˆt
t xˆt
94
1 4,38
2 5,38
3 8,38
4 14,38
5 13,62
6 14,62
7 17,62
8 23,62
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN
15 0
5
10
Umsatz
20
25
30
Zeitreihe, lineare Trendfunktion und Schätzung mit konstanter Saisonfigur
1
2
3
4
5
6
7
8
Zeit
g) Prognose f¨ ur die ersten beiden Quartale des Jahres 2007: xˆ9 = gˆ9 + sˆ1 = 2, 35714 + 2, 30952 · 9 − 0, 29 ≈ 22, 85 xˆ10 = gˆ10 + sˆ2 = 2, 35714 + 2, 30952 · 10 − 1, 6 ≈ 23, 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 44 auf Seite 88 a) Gesamtumsatzsteigerung:
19 12
= 1, 583
Der Umsatz ist von 2005 bis 2006 insgesamt um 58,3 % gestiegen. = 1, 06785 Durchschnittlich pro Quartal: 7 19 12 Der Umsatz ist durchschnittlich pro Quartal um 6,79 % gestiegen. b) Sch¨atzung der Trendgeraden: gt = β0 + β1 · t t xt
1 12
2 11
3 13
4 15
5 16
6 14
7 16
8 19
t · xt
12
22
39
60
80
84
112
152
n
x¯ = 14, 5
t=1
t · xt = 561
12 · 561 6 · 14, 5 − = 0, 929 8 · (82 − 1) 8−1 8+1 = 10, 32 βˆ0 = 14, 5 − 0, 929 · 2
βˆ1 =
95
KAPITEL 1. DESKRIPTIVE STATISTIK Daraus folgt die angepasste Trendgerade: gˆt = 10, 32 + 0, 929 · t Bestimmtheitsmaß:
0, 9292 · (82 − 1) = 0, 788 12 · 5, 75 Die Trendgerade passt sich relativ gut an die Zeitreihe an. R2 =
c) Zeitreihe und Trendfunktion:
15 10 0
5
Umsatz (in Mio. EUR)
20
Gesamtumsatz pro Quartal: Zeitreihe und lineare Trendfunktion
1
2
3
4
5
6
7
8
Zeit
d) Trendbereinigte Zeitreihe: t xt − gˆt
1 0,751
2 -1,178
3 -0,107
4 0,964
5 1,035
6 -1,894
0.5 0.0 −0.5 −1.0 −2.0
−1.5
Umsatz (in Mio. EUR)
1.0
Trendbereinigte Zeitreihe
1
2
3
4
5 Zeit
96
6
7
8
7 -0,823
8 1,248
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN Sch¨atzung der Saisonkomponente mit Periodizit¨at l = 4: Jahr 2005 2006 sˆj
1. Quartal 0,751 1,035 0,893
2. Quartal -1,178 -1,894 -1,536
3. Quartal -0,107 -0,823 -0,465
4. Quartal 0,964 1,248 1,106
Gesch¨atzte Zeitreihe: xˆt = gˆt + sˆt t xt xˆt
1 12 12,142
2 11 10,642
3 13 12,642
4 15 15,142
5 16 15,858
6 14 14,358
7 16 16,358
8 19 18,858
15 10 0
5
Umsatz (in Mio. EUR)
20
Zeitreihe, lineare Trendfunktion und Schätzung mit konstanter Saisonfigur
1
2
3
4
5
6
7
8
Zeit
e) Prognosen: 1. Quartal 2007: t = 9
⇒
xˆ9 = 10, 32 + 0, 929 · 9 + 0, 893 = 19, 574
2. Quartal 2007: t = 10
⇒
xˆ10 = 10, 32 + 0, 929 · 10 − 1, 536 = 18, 074
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 45 auf Seite 89 a) Zeitreihe der monatlichen Mobiltelefonanschl¨ usse:
16 14 12 10 8
Anschlüsse (in 100.000)
18
20
Monatliche Anschlüsse
1
2
3
4
5
Zeit
b) Exponentielles Trendmodell: xt = gt = β0 · β1t Durch Logarithmieren wird das exponentielle in ein lineares Trendmodell u uhrt: ¨berf¨ xt = gt = β0 + t · β1 , mit xt = ln xt , gt = ln gt , β0 = ln β0 und β1 = ln β1 . t 1 2 3 4 5
xt 10 11,5 13,5 15,5 18
xt = ln xt 2,303 2,442 2,603 2,741 2,890 12,979
t · xt 2,303 4,884 7,809 10,964 14,452 40,411
Damit erh¨alt man f¨ ur die Koeffizienten und die angepasste Trendfunktion: 12 · 40, 411 6 · 2, 5958 − ≈ 0, 1474 βˆ1 = 5 · (25 − 1) 4 βˆ = 2, 5958 − 0, 1473 · 3 ≈ 2, 1535 0
⇒ ⇒ 98
gˆt = ln gˆt = 2, 1535 + 0, 1474 · t gˆt = e2,1535 + e0,1474t = 8, 6154 · 1, 1588t
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN
2.7 2.6 2.5 2.3
2.4
log(Anschlüsse)
2.8
2.9
Monatliche Anschlüsse (logarithmiert) im exponentiellen Trendmodell
1
2
3
4
5
Zeit
c) Die durchschnittliche monatliche Zuwachsrate l¨asst sich mit Hilfe von βˆ1 bestimmen: βˆ1 − 1 = 1, 1588 − 1 = 15, 88 % Die Anzahl der Mobilfunkanschl¨ usse stieg monatlich um ca. 16 %. d) Trendbereinigte Zeitreihe: xt − gˆt bzw. xt /ˆ gt t 1 2 3 4 5
xt 10 11,5 13,5 15,5 18
xt 2,303 2,442 2,603 2,741 2,890 12,979
t · xt 2,303 4,884 7,809 10,964 14,45 40,41
xt − gˆt 0,0016 -0,0060 0,0069 -0,0023 -0,0002
xt /ˆ gt 1,0016 0,9940 1,0069 0,9977 0,9998
G¨ ute der Anpassung f¨ ur die logarithmierte Zeitreihe: 0, 14742 · 5 · (25 − 1) ≈ 0, 9996 12 · (33, 9074 − 5 · 2, 59582) Das exponentielle Trendmodell passt sich fast perfekt an die beobachteten Daten an. R2 =
e) Prognosen: Mai 2007: t = 6 ⇒ xˆ6 = 8, 6184 · 1, 15876 = 20, 857 Juni 2007: t = 7 ⇒ xˆ7 = 8, 6184 · 1, 15877 = 24, 167 Die Entwicklung ist in kurzer Frist vielleicht realistisch, auf l¨angere Sicht ist sie allerdings eher unrealistisch. Da vermutlich eine S¨attigung eintreten wird, kann sich das starke Wachstum nicht auf Dauer halten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 46 auf Seite 89 a) Graphische Darstellung:
5
10
Preis
15
20
Zeitreihe der Preise
2002
2003
2004
2005
2006
b) Durchschnittliche j¨ahrliche Wachstumsrate und Prognose: 4 20 x¯geo = = 0, 1892 10 Pˆ2007 = P2006 · (1 + x¯geo ) = 20 · 1, 1892 = 23, 78 Die Preise stiegen von 2002 bis 2006 j¨ahrlich um durchschnittlich 18 %. Auf Basis dieser durchschnittlichen Wachstumsrate kann man im Jahr 2007 mit einem Preis von $23, 78 rechnen. c) Das exponentielle Trendmodell gt = β0 · β1t kann durch Logarithmierung in ein lineares Modell u uhrt werden. ¨berf¨ t 1 2 3 4 5 xt 10 12 12 15 20 ln xt 2,303 2,4849 2,4849 2,708 2,9957 12,9765 t ln xt 2,303 4,9698 7,4547 10,832 14,9785 40,538 12, 9765 = 2, 5953 5 12 · 40, 538 6 · 2, 5953 ln βˆ1 = − = 0, 16085 5 · (25 − 1) 5−1 5+1 = 2, 112 ln βˆ0 = 2, 5953 − 0, 16085 · 2 ln xt =
100
⇒ βˆ1 = 1, 1745 ⇒ βˆ0 = 8, 271
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN Damit erh¨alt man die gesch¨atzte Trendfunktion gˆt = 8, 271 · 1, 1745t.
2.7 2.6 2.3
2.4
2.5
log(Preis)
2.8
2.9
3.0
Preis (logarithmiert) im exponentiellen Trendmodell
2002
2003
2004
2005
2006
d) Prognose f¨ ur 2007: • Wachstumsrate: rˆ = βˆ1 − 1 = 0, 1745 Aus dem angepassten exponentiellen Trendmodell ergibt sich eine Wachstumsrate f¨ ur 2007 von 17, 45 %. • Preis: Pˆ2007 = 8, 271 · 1, 17456 = 21, 711 Durch Einsetzen von t = 6 in das exponentielle Trendmodell erh¨alt man f¨ ur das Jahr 2007 einen prognostizierten Preis von $21, 71. Dieser weicht von der Prognose aus Teilaufgabe b) ab, da er nicht auf Basis einer durchschnittlichen j¨ahrlichen Wachstumsrate berechnet wurde, in die nur die erste und letzte Beobachtung eingingen. e) Im ersten Jahr ist der Preis des Gutes um 8 % gestiegen, d.h. der Wachstumsfaktor betr¨agt 1,08. Im zweiten Jahr ist der Preis um 8 % gefallen, der Wachsfaktor betr¨agt 0,92. Die gesamte Preisver¨anderung erh¨alt man durch folgende Berechnung: 1, 08 · 0, 92 − 1 = −0, 0064 Der Preis des Gutes ist also insgesamt um 0, 64 % gefallen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
101
KAPITEL 1. DESKRIPTIVE STATISTIK
L¨ osung zu Aufgabe 47 auf Seite 90 a) Preisindex nach Laspeyres: L P04,05 =
50 · 1, 39 + 150 · 3, 99 + 75 · 2, 30 840, 5 = ≈ 0, 968 = 96, 8 % 50 · 1, 35 + 150 · 4, 29 + 75 · 2, 10 868, 5
Die Preise des Warenkorbes von 2004 sind von 2004 bis 2005 um 3, 2 % gesunken. b) Nominaler Wert: V05 = 55 · 1, 39 + 200 · 3, 99 + 70 · 2, 30 = 1.035, 45 Realer Wert durch direkte Berechnung: R05 = 55 · 1, 35 + 200 · 4, 29 + 70 · 2, 10 = 1.079, 25 Exakte Preisbereinigung mit Hilfe des Preisindex nach Paasche: P = P04,05
55 · 1, 39 + 200 · 3, 99 + 70 · 2, 30 1.035, 45 = ≈ 0, 959 55 · 1, 35 + 200 · 4, 29 + 70 · 2, 10 1.079, 25
ergibt den realen Wert: R05 =
V05 = 1.079, 25 P P04,05
c) Beim Preisindex nach Laspeyres bleibt das Gewichtungsschema u ¨ber die Zeit konstant. Deshalb spiegelt dieser Index die Auswirkungen der reinen Preisver¨anderungen wider und erleichtert die Vergleichbarkeit u ¨ber die Zeit. F¨ ur den Preisindex nach Laspeyres m¨ ussen in den Berichtsperioden nur die Preise, nicht jedoch die Mengen erhoben werden. Dies bedeutet einen geringeren Aufwand im Vergleich zu anderen Preisindizes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 48 auf Seite 90 a) Preisindizes nach Paasche: P P01,01 =1 0, 53 · 235 + 0, 35 · 360 + 0, 57 · 67 P ≈ 1, 036 = P01,02 0, 49 · 235 + 0, 35 · 360 + 0, 56 · 67 0, 53 · 260 + 0, 40 · 355 + 0, 58 · 70 P = P01,03 ≈ 1, 102 0, 49 · 260 + 0, 35 · 355 + 0, 56 · 70 P b) Zeitreihe aus a): P01,01 =1 Umbasiert auf 2002: P = P02,01
102
P P01,02 = 1, 036
P P01,01 1 = = 0, 965 P P01,02 1, 036
P =1 P02,02
P P01,03 = 1, 102
P P02,03 =
P P01,03 1, 102 = = 1, 063 P P01,02 1, 036
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN c) Berechnung des Preisindex nach Paasche aus dem Warenkorb: P = P02,03
0, 53 · 260 + 0, 40 · 355 + 0, 58 · 70 ≈ 1, 061 0, 53 · 260 + 0, 35 · 355 + 0, 57 · 70
Der exakt berechnete Preisindex ist aufgrund von Rundungsdifferenzen geringf¨ ugig verP schieden vom umbasierten Index P02,03 . d) Verkn¨ upfung der Zeitreihen: Weiterf¨ uhrung der alten Reihe 1 1,036 1,102 2, 05 · 1, 102/2, 04 = 1, 107 2, 09 · 1, 102/2, 04 = 1, 129
R¨ uckrechnung der neuen Reihe 1 · 2, 04/1, 102 = 1, 85 1, 036 · 2, 04/1, 102 = 1, 92 2,04 2,05 2,09
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 49 auf Seite 91 a) Es ist sinnvoll, den Mengenindex nach Paasche zu berechnen, da im Z¨ahler der Umsatz des Berichtsjahres steht. Der Nenner ergibt sich durch Division des Umsatzes durch die jeweilige Mengenmesszahl: QP04,05 =
400 + 5 + 150 + 5.000 5.555 = 1, 1873 400 5 150 5.000 = 4.678, 72 + + + 1,1 0,9 1,05 1,2
Die Mengen sind – zu Preisen von 2005 – um 18, 73 % gestiegen. b) Es empfiehlt sich, den Preisindex nach Laspeyres zu berechnen. Der Nenner ist der Umsatz des Jahres 2004. Der Z¨ahler enspricht dem Nenner des Mengenindexes nach Paasche. 1. M¨oglichkeit: L P04,05 =
2. M¨oglichkeit: Wertindex W =
4.678, 72 ≈ 0, 8664 5.400
Umsatz 2005 Umsatz 2004
L W04,05 = P04,05 · QP04,05
⇒
= P L · QP L P04,05 =
5.555 1 · ≈ 0, 8664 5.400 1, 1873
Die Preise des Warenkorbes von 2004 sind von 2004 bis 2005 um ca. 13, 36 % gefallen.
103
KAPITEL 1. DESKRIPTIVE STATISTIK c) Berechnung der Umsatzver¨anderung: Gut Weißwurst Senf Brezen Bier
Umsatz 05 400 5 150 5.000 5.555
Wachstumsfaktor 00 auf 05 1,15 · 1,05 = 1,2075 1,10 · 1,00 = 1,1 1,05 · 0,95 = 0,9975 1,10 · 1,05 = 1,155
Umsatz 00 331,263 4,545 150,376 4.329,004 4.815,184
Umsatzsteigerung: 5.555 − 1 = 0, 1536 = 15, 36 % • insgesamt: 4.815,184 5.555 − 1 = 0, 029 = 2, 9 % • pro Jahr: 5 4.815,184
Der Umsatz des bayrischen Warenkorbes ist von 2000 bis 2005 insgesamt um ca. 15,36 % sowie durchschnittlich pro Jahr um ca. 2,9 % gestiegen. d) Preis- und Mengenindex nach Laspeyres von 2000 auf 2005: L = P00,05
QL00,05 =
400 1,05
+ 51 +
150 0,95
400 1,15
4.815, 184 5 150 + 1,1 + 1,05 +
+
5.000 1,05
4.815, 184
=
5.000 1,1
5.305, 752 ≈ 1, 10188 4.815, 184
=
5.040, 683 ≈ 1, 0468 4.815, 184
Die Preise des Warenkorbes sind von 2000 bis 2005, bei konstanten Preisen von 2000, um ca. 10,2 % gestiegen. Die Mengen sind, zu Preisen von 2000, von 2000 bis 2005 um ca. 4,68% gestiegen. e) Der Umsatz des bayerischen Warenkorbes aus dem Jahr 2005 in Preisen von 2000 betr¨agt e 5.040,683 Mio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 50 auf Seite 92 a) Da die Entwicklung des Gehaltsniveaus ermittelt werden soll, muss ein Preisindex nach Laspeyres berechnet werden. 50.100 32 · 1.000 + 85 · 200 + 220 · 5 = = 1, 066 30 · 1.000 + 80 · 200 + 200 · 5 47.000 35 · 1.000 + 90 · 200 + 300 · 5 54.500 = = = 1, 16 30 · 1.000 + 80 · 200 + 200 · 5 47.000
L P1990,1995 = L P1990,2000
Das Gehaltsniveau ist von 1990 bis 1995 um 6, 6 % und bis 2000 um 16 % gestiegen. 104
1.5. DESKRIPTIVE ZEITREIHENANALYSE UND INDEXZAHLEN b) Die Lohnkosten des Unternehmens ergeben sich durch Multiplikation der Anzahl der Mitarbeiter mit dem Gehaltsniveau der jeweiligen Hierarchieebene. Der Index f¨ ur die Entwicklung der Lohnkosten entspricht somit einem Wertindex (auch: Umsatz- oder Ausgabenindex). 43.920 32 · 800 + 85 · 200 + 220 · 6 = = 0, 9345 30 · 1.000 + 80 · 200 + 200 · 5 47.000 35 · 900 + 90 · 220 + 300 · 8 53.700 = = = 1, 143 30 · 1.000 + 80 · 200 + 200 · 5 47.000
W1990,1995 = W1990,1995
Die Lohnkosten des Unternehmens sind von 1990 bis 1995 um 6, 55 % gesunken und von 1990 bis 2000 um 14, 3 % gestiegen. c) Berechnung des durchschnittlichen Gehaltsanstiegs pro Jahr in der h¨ochsten Hierarchieebene: = 1, 0414 • prozentual: x¯geo = 10 300 200 • absolut:
300−200 10
= 10
Das Gehalt ist in der h¨ochsten Hierarchieebene durchschnittlich um 4, 14 % bzw. um 10.000 DM pro Jahr gestiegen. d) Umbasierung der Gehaltsindizes auf das Jahr 1995: Das Jahr 1995 entspricht dem neuen Basisjahr und hat somit einen neuen Index von 1. Die anderen beiden Indizes m¨ ussen durch den alten Index von 1995 dividiert werden. Basisjahr 1990 Basisjahr 1995
1 1,066
1 = 0, 938
1,066 =1
1,066 1,066
1,16 1,066
1,16 = 1, 088
e) Wenn alle Geh¨alter in Euro umgerechnet werden, ¨andern sich die Ergebnisse aus den Teilaufgaben a), b) und d) nicht, da Indexzahlen Verh¨altniszahlen sind. In Teilaufgabe c) bleibt der prozentuale durchschnittliche Gehaltsanstieg pro Jahr gleich; das Gehalt ist durchschnittlich um ca. e 5.000 pro Jahr gestiegen. f) Indexzahlen sind dimensionslos, da sie Verh¨altniszahlen sind. Es ist egal, in welcher Einheit Mengen und Preise gemessen werden, da sich die Einheiten im Z¨ahler und Nenner jeweils herausk¨ urzen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
Kapitel 2 Wahrscheinlichkeitsrechnung und induktive Statistik Die Untersuchung allgemeiner Gesetzm¨aßigkeiten kann nur in wenigen seltenen F¨allen mit allen hierf¨ ur relevanten statistischen Einheiten erfolgen. Gr¨ unde daf¨ ur sind bspw. die hohen Erhebungskosten, ein großer Zeitaufwand oder die Zerst¨orung der relevanten Merkmalstr¨ager bei der Beobachtung. Daher versucht man in F¨allen, in denen eine Totalerhebung unm¨oglich bzw. nicht sinnvoll erscheint, auf Basis einer Stichprobe R¨ uckschl¨ usse auf Gesetzm¨aßigkeiten der Grundgesamtheit zu ziehen. Dieses Verfahren, vom Speziellen auf das Allgemeine zu schließen, bezeichnet man als Induktion. Jede Induktion von einer Stichprobe auf ihre Grundgesamtheit ist mit einer bestimmten Unsicherheit behaftet. Abh¨angig von dem bei der Stichprobenziehung angewendeten Verfahren l¨asst sich mit Hilfe von Wahrscheinlichkeitsberechnungen die Unsicherheit des Ergebnisses bestimmen. Die Urspr¨ unge der induktiven Statistik liegen in der Wahrscheinlichkeitstheorie, die auf die Berechnung von Chancen bei Gl¨ ucksspielen zur¨ uckgeht. Zur Berechnung der Unsicherheit geht man von einer bekannten Grundgesamtheit aus und abstrahiert auf die gezoge¨ ne Stichprobe. Ein wichtiger Anwendungsbereich der induktiven Statistik ist die Uberpr¨ ufung des Erkl¨arungsgehalts empirischer Hypothesen, bzw. der Ausschluss zwischen konkurrierenden Hypothesen im Rahmen der Testtheorie. Weiterhin tragen induktive statistische Verfahren zur L¨osung von Entscheidungsproblemen unter Unsicherheit und der Sch¨atzung von unbekannten nummerischen Parametern bei. ¨ In diesem Kapitel finden sich Ubungsaufgaben zur Wahrscheinlichkeitsrechnung und zur schließenden Statistik, die in die Abschnitte Grundlagen der Wahrscheinlichkeitsrechnung, diskrete Verteilungsmodelle, mehrstufige Zufallsversuche, stetige Verteilungsmodelle sowie Konfidenzintervalle und Signifikanztests gegliedert sind. Die mehrstufigen Zufallsversuche beschr¨anken sich dabei auf die Analyse von 2 Zufallsvariablen.
107
C. Schäfer, Jens-Uwe Scheer, Statistisches Tutorium für Wirtschaftswissenschaftler, DOI 10.1007/978-3-8349-8784-6_2, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
2.1
Grundlagen der Wahrscheinlichkeitsrechnung
Aufgabe 51
(L¨osung auf Seite 110)
Betrachten Sie das einmalige W¨ urfeln mit einem fairen W¨ urfel, dessen Seitenfl¨achen mit den Zahlen von 1 bis 6 beschriftet sind. a) Mit welcher Wahrscheinlichkeit wird eine 6 gew¨ urfelt? b) Mit welcher Wahrscheinlichkeit ist die gew¨ urfelte Augenzahl gerade? c) Mit welcher Wahrscheinlichkeit ist die Augenzahl kleiner als 3? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 52
(L¨osung auf Seite 110)
Wie groß ist die Wahrscheinlichkeit, dass beim einmaligen Werfen zweier fairer M¨ unzen verschiedene Seiten oben liegen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 53
(L¨osung auf Seite 110)
Im Jahr 1654 stellte der Chevalier de Mer´e an die beiden Mathematiker Pascal und Fermat folgende Frage: Ist es wahrscheinlicher, mindestens eine 6 bei 4 W¨ urfen mit einem fairen W¨ urfel oder mindestens eine Doppel-6 (6er-Pasch) bei 24 W¨ urfen mit zwei fairen W¨ urfeln zu erhalten? Auf den ersten Blick scheinen die beiden Ereignisse gleichwahrscheinlich zu sein, denn das Werfen einer Doppel-6 ist zwar 6 Mal unwahrscheinlicher als das Werfen einer 6, aber daf¨ ur hat man ja auch 6 Mal so viele Versuche. Aufgrund seiner Erfahrung vom Spieltisch vermutete der Chevalier de Mer´e jedoch, dass die beiden Ereignisse nicht gleichwahrscheinlich sind. Beantworten Sie die Frage des Chevalier de Mer´e, indem Sie die Wahrscheinlichkeit beider Ereignisse berechnen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 54
(L¨osung auf Seite 111, R-Code auf Seite 195)
In Ihrem Bekanntenkreis wird eifrig das Zahlenlotto 6 aus 49 gespielt. Da der Jackpot an diesem Wochenende wieder besonders hoch ist, u ¨berlegen Sie, ob Sie nicht auch einen Tipp abgeben sollten. Aus Interesse rechnen Sie sich vorab Ihre Gewinnwahrscheinlichkeiten aus. a) Mit welcher Wahrscheinlichkeit f¨ uhrt die Abgabe Ihres Tippscheins mit einem Tipp zu 6 Richtigen im Lotto? b) Wie hoch ist die Wahrscheinlichkeit, dass Sie u ¨berhaupt etwas gewinnen, d.h. dass Sie mindestens drei Zahlen richtig tippen? c) Mit welcher Wahrscheinlichkeit gewinnen Sie den Lottojackpot, wenn man dazu zus¨atzlich die gezogene Superzahl richtig haben muss? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
2.1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
Aufgabe 55
(L¨osung auf Seite 112, R-Code auf Seite 196)
Bei einem Gl¨ ucksspielautomaten gibt es die folgenden Auszahlungen mit den angegebenen Wahrscheinlichkeiten: Auszahlung (in e ) Wahrscheinlichkeit
1 0,3
4 0,45
10 0,25
a) Wie groß ist die erwartete Auszahlung an dem Automaten? Berechnen Sie auch die Varianz der Auszahlung. b) Mit welcher Wahrscheinlichkeit ist der mittlere Gewinn aus 2 Spielen kleiner als e 4,20? c) Mit welcher Wahrscheinlichkeit ist (approximativ) der mittlere Gewinn aus 100 Spielen kleiner als e 4,20? (Hinweis: Zur L¨osung dieser Teilaufgabe ben¨otigen Sie den Zentralen Grenzwertsatz.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 56
(L¨osung auf Seite 113)
Sie lassen sich von einer zuf¨allig ausgesuchten Person eine 1-Euro-M¨ unze in 50-, 20- und 10Cent-St¨ ucke wechseln. Dieses Zufallsexperiment soll als Laplace-Modell formalisiert werden, d.h. alle m¨oglichen Wechselgeldergebnisse werden als gleichwahrscheinlich betrachtet. a) Wie viele Elemente hat der zugeh¨orige Grundraum, d.h. wie viele m¨ogliche Wechselgeldergebnisse gibt es? b) Wie viele verschiedene Ereignisse gibt es in diesem Modell? c) Es bezeichne A das Ereignis, dass mindestens ein 50-Cent-St¨ uck im Wechselgeld enthalten ist. Berechnen Sie die Wahrscheinlichkeit von A und erl¨autern Sie kurz, wie im Laplace-Modell Wahrscheinlichkeiten von Ereignissen berechnet werden. Die Zufallsvariable X bezeichne die Anzahl der 50-Cent-St¨ ucke im Wechselgeld. d) Geben Sie die Wahrscheinlichkeitsverteilung der Zufallsvariablen X an. e) Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariablen X. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
109
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 51 auf Seite 108 Beim einmaligen Werfen eines faires W¨ urfels erh¨alt man folgende Wahrscheinlichkeiten: Augenzahl Wahrscheinlickeit
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
a) Die Wahrscheinlichkeit, mit einem fairen W¨ urfel in einem Wurf eine 6 zu w¨ urfeln, betr¨agt P( Werfen einer 6“) = 16 . ” b) Die Wahrscheinlichkeit, in einem Wurf eine gerade Augenzahl, d.h. eine 2, 4 oder 6 zu werfen, betr¨agt P( Augenzahl gerade“) = 16 + 16 + 16 = 36 = 12 . ” c) Die Wahrscheinlichkeit f¨ ur das Werfen einer Augenzahl kleiner als 3 entspricht dem Werfen einer 1 oder einer 2: P( Augenzahl kleiner 3“) = 16 + 16 = 26 = 13 . ” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 52 auf Seite 108 Beim Werfen einer M¨ unze kann entweder Kopf oder Zahl oben liegen. Beim Werfen von zwei (unterschiedlichen) M¨ unzen kann entweder zweimal Kopf oder zweimal Zahl oder einmal Kopf und einmal Zahl oben liegen. Zun¨achst listet man zur Vereinfachung die m¨oglichen Ereignisse des Zufallsexperiments Werfen von 2 fairen M¨ unzen“ und die zugeh¨origen Wahrscheinlich” keiten tabellarisch auf. Dabei stellt man sich vor, dass die beiden M¨ unzen unterscheidbar sind. Ergebnisse Wahrscheinlichkeiten
(K, K) 1/4
(K, Z) 1/4
(Z, K) 1/4
(Z, Z) 1/4
Die Wahrscheinlichkeit f¨ ur das Ereignis, dass zwei verschiedene Seiten oben liegen, erh¨alt man dann durch Addition der Wahrscheinlichkeiten der beiden Ergebnisse (K, Z) und (Z, K): 1 1 1 P( ungleich“) = P((K, Z) oder (Z, K)) = P((K, Z)) + P((Z, K)) = + = ” 4 4 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 53 auf Seite 108 Betrachtet werden die Ereignisse A = mindestens eine 6 bei 4 W¨ urfen“ und B = minde” ” stens eine (6,6) bei 24 W¨ urfen“. Der Aufgabe liegt die Annahme zugrunde, dass es sich um faire W¨ urfel handelt, d.h. das Zufallsexperiment l¨asst sich als Laplace-Modell modellieren. Die Wahrscheinlichkeit, in einem Wurf eine 6 zu werfen, betr¨agt somit 16 , und die Wahrscheinlich1 keit, mit zwei W¨ urfeln einen 6er-Pasch zu werfen, betr¨agt 36 . Es wird die Wahrscheinlichkeit berechnet, bei vier W¨ urfen eines fairen W¨ urfels mindestens eine 6 zu werfen, indem man die Wahrscheinlichkeit ermittelt, in vier W¨ urfen keine 6 zu werfen, und dann die Gegenwahrscheinlichkeit dazu bildet: 1 4 ≈ 0, 518. P(A) = 1−P( keine 6 bei 4 W¨ urfen“) = 1−(1−P( 6 bei 1 Wurf“))4 = 1− 1 − ” ” 6 110
2.1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG Die Wahrscheinlichkeit, mindestens einen 6er-Pasch bei 24 W¨ urfen mit zwei fairen W¨ urfeln zu erzielen, erh¨alt man durch analoge Berechnung: P(B) = 1 − P( kein 6er-Pasch bei 24 W¨ urfen“) = 1 − P( kein 6er-Pasch bei 1 Wurf“)24 ” ” 24 24 1 35 24 = 1 − (1 − P( 6er-Pasch bei 1 Wurf“)) = 1 − 1 − =1− ≈ 0, 491. ” 36 36 Es ist also wahrscheinlicher, in 4 Versuchen eine 6 zu werfen, als in 24 Versuchen eine Doppel6 zu w¨ urfeln. An der kleinen Differenz der beiden Wahrscheinlichkeiten sieht man, welch eifriger Spieler der Chevalier de Mer´e gewesen sein muss, um den Unterschied am Spieltisch wahrzunehmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 54 auf Seite 108 Bei dem Zufallsexperiment Zahlenlotto 6 aus 49“ handelt es sich um eine Ziehung ohne ” Zur¨ ucklegen. Die gesuchten Wahrscheinlichkeiten k¨onnen mit Hilfe der hypergeometrischen Verteilung berechnet werden. Wenn X die Anzahl der richtig getippten Zahlen bezeichnet, dann gilt: M k
P(X = k) =
N −M
Nn−k n
mit M = 6 richtigen Zahlen, n = 6 gezogenen Zahlen und N = 49 Kugeln insgesamt. a) Die Wahrscheinlichkeit daf¨ ur, 6 Richtige zu tippen, erh¨alt man durch Einsetzen von k = 6 in die obige Wahrscheinlichkeitsfunktion: 6 43 · 1 1 P( 6 Richtige“) = 6 496−6 = 49! = ” 13.983.816 6!·43! 6
Die Wahrscheinlichkeit f¨ ur 6 richtig getippte Zahlen im Lotto 6 aus 49 betr¨agt ungef¨ahr 1 zu 14 Millionen. b) Die Wahrscheinlichkeit, mit einem Tipp u ¨berhaupt etwas zu gewinnen, d.h. mindestens 3 richtige Zahlen zu tippen, erh¨alt man durch Berechnung der Wahrscheinlichkeit, weniger als 3 Zahlen richtig zu tippen, und anschließender Berechnung der Gegenwahrscheinlichkeit. Dazu setzt man nacheinander k = 0, 1, 2 in die Wahrscheinlichkeitsfunktion ein. P( mindestens 3 Richtige“) = 1 − P( weniger als 3 Richtige“) ” ” = 1 − (P(X = 0) + P(X = 1) + P(X = 2)) ≈ 1 − (0, 436 + 0, 413 + 0, 132) = 1 − 0, 981 = 0, 019 Die Wahrscheinlichkeit, dass Sie beim Lotto mit einem Tipp u ¨berhaupt etwas gewinnen, betr¨agt ca. 1, 9%. 111
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK c) Um die Wahrscheinlichkeit zu berechnen, den Lottojackpot zu gewinnen, d.h. 6 Richtige getippt und die Superzahl richtig zu haben, muss man die Wahrscheinlichkeit f¨ ur 6 Richtige mit der Wahrscheinlichkeit f¨ ur die richtige Superzahl multiplizieren: P( 6 Richtige + Superzahl“) = P( 6 Richtige“) · P( richtige Superzahl“) ” ” ” 1 1 1 = · = 13.983.816 10 139.838.160 Die Wahrscheinlichkeit, mit einem Tipp den Lottojackpot zu knacken, betr¨agt also ungef¨ahr 1 zu 140 Millionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 55 auf Seite 109 a) Die erwartete Auszahlung berechnet sich wie folgt: E(X) = 1 · 0, 3 + 4 · 0, 45 + 10 · 0, 25 = 4, 6 Die erwartete Auszahlung am Gl¨ ucksspielautomaten betr¨agt e 4,60. F¨ ur die Varianz gilt: Var(X) = E(X 2 ) − E(X)2 = 12 · 0, 3 + 42 · 0, 45 + 102 · 0, 25 − 4, 62 = 11, 34 b) Der mittlere Gewinn aus zwei Spielen X 2 ist kleiner als e 4,20, wenn die Gewinnsumme aus zwei Spielen kleiner als e 8,40 ist. Die Gewinnsumme aus zwei unabh¨angigen Spielen ist bei den Ergebnispaaren (1, 1), (1, 4), (4, 1), (4, 4) kleiner als e 8,40. Damit gilt f¨ ur die gesuchte Wahrscheinlichkeit: P(X 2 < 4, 2) = P(1, 1) + P(1, 4) + P(4, 1) + P(4, 4) = 0, 3 · 0, 3 + 0, 3 · 0, 45 + 0, 45 · 0, 3 + 0, 45 · 0, 45 = 0, 5625 Mit einer Wahrscheinlichkeit von 56,25% ist der mittlere Gewinn aus 2 Spielen kleiner als e 4,20. c) Wegen des Zentralen Grenzwertsatzes ist die Verteilung des mittleren Gewinns aus 100 Spielen approximativ normalverteilt. Der mittlere Gewinn aus 100 Spielen hat approxi1 mativ die Verteilung X 100 ∼ N(E(X); 100 · Var(X)), d.h. X 100 ∼ N(4, 6; 0, 1134). 4, 2 − 4, 6 P(X 100 < 4, 2) ≈ Φ √ = Φ(−1, 1878) = 1 − Φ(1, 1878) ≈ 0, 117 0, 1134 Approximativ ist der mittlere Gewinn aus 100 Spielen mit einer Wahrscheinlichkeit von 11,7% kleiner als e 4,20. Die exakte Berechnung dieser Wahrscheinlichkeit liefert den Wert P(X 100 < 4, 2) = 0, 1137. Der Vergleich zeigt, dass der wesentlich leichter berechnete approximative Wert nur geringf¨ ugig vom exakten Wert abweicht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
2.1. GRUNDLAGEN DER WAHRSCHEINLICHKEITSRECHNUNG
Lo ¨sung zu Aufgabe 56 auf Seite 109 a) Der zugeh¨orige Grundraum dieses Wahrscheinlichkeitsexperiments hat insgesamt 10 Elemente, denn es sind folgende Wechselgeldkonstellationen m¨oglich: (50,50), (50,20,20,10), (50,20,10,10,10), (50,10,10,10,10,10), (20,20,20,20,20), (20,20,20,20,10,10), (20,20,20,10,10,10,10), (20,20,10,10,10,10,10,10), (20,10,10,10,10,10,10,10,10), (10,10,10,10,10,10,10,10,10,10). b) In einem 10-elementigen Grundraum k¨onnen 210 = 1024 verschiedene Ereignisse beschrieben werden. c) Die Wahrscheinlichkeit, mindestens ein 50-Cent-St¨ uck im Wechselgeld zu haben, betr¨agt 4 P( mindestens ein 50-Cent-St¨ uck“) = 10 , denn es gibt insgesamt 10 m¨ogliche Ausg¨ange, ” von denen in 4 F¨allen mindestens ein 50-Cent-St¨ uck im Wechselgeld enthalten ist. Allgemein kann man in einem Laplace-Modell die Wahrscheinlichkeit f¨ ur das Eintreten eines beliebigen Ereignisses berechnen, indem man die Anzahl aller Ausg¨ange, die f¨ ur das Ereignis g¨ unstig sind, durch die Anzahl aller m¨oglichen Ausg¨ange dividiert. Dies liegt daran, dass alle m¨oglichen Ausg¨ange im Modell gleichwahrscheinlich sind. d) Die Zufallsvariable X kann nur die Werte 2, 1 und 0 annehmen. Durch Abz¨ahlen erh¨alt 1 3 6 man die Werte P(X = 2) = 10 , P(X = 1) = 10 und P(X = 0) = 10 . e) Die erwartete Anzahl an 50-Cent-St¨ ucken ergibt sich durch folgende Berechnung: E(X) = 2 ·
1 3 6 1 +1· +0· = 10 10 10 2
Entsprechend erh¨alt man f¨ ur die Varianz Var(X) = E(X 2 ) − E(X)2 = 22 ·
1 3 6 + 12 · + 02 · − 10 10 10
2 2 1 1 7 − = = 0, 45. 2 10 2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
113
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
2.2
Diskrete Verteilungsmodelle
Aufgabe 57
(L¨osung auf Seite 118, R-Code auf Seite 197)
Eine Pr¨ ufung wird als Multiple-Choice-Test abgehalten. Es werden 10 Multiple-Choice-Fragen mit jeweils 5 m¨oglichen Antworten vorgelegt, von denen jeweils genau 1 Antwort richtig ist. a) Sie haben keine Ahnung von dem abgefragten Stoff und kreuzen bei jeder Frage jeweils eine Antwort rein zuf¨allig an. Mit welcher Wahrscheinlichkeit haben Sie danach k = 0, 1, 2, 3, . . . , 10 Fragen richtig beantwortet? b) Mit welcher Wahrscheinlichkeit bestehen Sie mit dieser Strategie die Pr¨ ufung, wenn dazu mindestens 5 Fragen richtig beantwortet sein m¨ ussen? c) Mit welcher Wahrscheinlichkeit bestehen Sie die Pr¨ ufung, wenn Sie ganz sicher bei jeder Frage 3 Alternativen ausschließen k¨onnen und zwischen den verbleibenden beiden Alternativen zuf¨allig w¨ahlen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 58
(L¨osung auf Seite 119, R-Code auf Seite 197)
Aus einer Gruppe von 20 Personen, die aus 8 Frauen und 12 M¨annern besteht, werden per Los 5 Personen als Mitglieder eines Ausschusses bestimmt. a) Wie ist die Zufallsvariable X = Anzahl der Frauen im Ausschuss“ verteilt? ” b) Wie groß ist die Wahrscheinlichkeit, dass genau 1 Frau in den Ausschuss gelost wird? c) Mit welcher Wahrscheinlichkeit sind in dem Ausschuss mehr Frauen als M¨anner vertreten? d) Wie viele Frauen werden im Mittel in den Ausschuss gew¨ahlt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 59
(L¨osung auf Seite 119, R-Code auf Seite 197)
Ein Student startet morgens sein betagtes Auto, das mit der Wahrscheinlichkeit von p = 0, 33 anspringt. a) Mit welcher Wahrscheinlichkeit braucht der Student genau 4 Versuche, um sein Auto zu starten? b) Mit welcher Wahrscheinlichkeit springt das Auto nach h¨ochstens 4 Versuchen an? c) Mit welcher Wahrscheinlichkeit braucht er mehr als 4 Versuche? d) Wie viele Versuche braucht er im Mittel, um morgens sein Auto zu starten? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
2.2. DISKRETE VERTEILUNGSMODELLE
Aufgabe 60
(L¨osung auf Seite 120, R-Code auf Seite 198)
An einer Kreuzung ereignet sich im Mittel 1 Unfall pro Woche. Nehmen Sie an, dass Sie die Anzahl der Unf¨alle an dieser Kreuzung in einem bestimmten Zeitintervall durch eine Poissonverteilte Zufallsvariable beschreiben k¨onnen. a) Mit welcher Wahrscheinlichkeit ereignen sich an dieser Kreuzung in einer Woche mehr als 2 Unf¨alle? b) Mit welcher Wahrscheinlichkeit ereignen sich in den n¨achsten 10 Tagen weniger als 3 Unf¨alle? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 61
(L¨osung auf Seite 121, R-Code auf Seite 199)
Im n¨achsten Jahr feiert ein großer Betrieb seinen 100. Geburtstag. Die Direktion beschließt, allen Kindern von Betriebsangeh¨origen, die am Jubil¨aumstag geboren werden, ein Konto von 5.000 Euro anzulegen. a) Gehen Sie davon aus, dass 584 Kinder von Betriebsangeh¨origen im n¨achsten Jahr geboren werden und die Geburten an den einzelnen 365 Tagen des Jahres gleichwahrscheinlich sind. Wie viel Euro Auslagen hat die Firma f¨ ur diese Aktion dann zu erwarten? b) Modellieren Sie die Anzahl der geborenen Kinder am Jubil¨aumstag durch eine Zufallsvariable und geben Sie konkret deren Verteilung an. (Mit kurzer Erl¨auterung.) c) Wie groß ist die Wahrscheinlichkeit, dass am Jubil¨aumstag kein Kind geboren wird? d) Um Zufallsschwankungen zu ber¨ ucksichtigen, werden f¨ ur diese Aktion 20.000 Euro eingeplant. Wie groß ist die Wahrscheinlichkeit, dass das Geld nicht reicht? e) Der Parameter in Ihrem Modell soll jetzt gesch¨atzt werden. Dazu benutzen Sie die Geburtenzahlen von Betriebsangeh¨origen in den letzten 3 Jahren: 560, 510, 570. Sch¨atzen Sie damit den Parameter in Ihrem Modell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
Aufgabe 62
(L¨osung auf Seite 122, R-Code auf Seite 199)
In einer Telefonzentrale gehen durchschnittlich 45 Anrufe pro Stunde ein. Die Zufallsvariable X soll die Anzahl der Anrufe im 2-Minuten-Intervall beschreiben. Mit welcher Wahrscheinlichkeit geht innerhalb von 2 Minuten genau/h¨ochstens/mehr als ein Anruf ein? a) Unterstellen Sie, dass jeder der 45 Anrufe unabh¨angig von den anderen und mit der gleichen Wahrscheinlichkeit in ein 2-Minuten-Intervall f¨allt, und berechnen Sie die gesuchten Wahrscheinlichkeiten mit Hilfe der Binomialverteilung. b) Unterstellen Sie jetzt, dass X einer Poisson-Verteilung folgt, und berechnen Sie wieder die gesuchten Wahrscheinlichkeiten. c) Vergleichen Sie die Ergebnisse aus den vorherigen beiden Teilaufgaben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 63
(L¨osung auf Seite 122, R-Code auf Seite 200)
F¨ ur die Einrichtung eines neuen Regionalkrankenhauses ben¨otigt man Daten f¨ ur die Kapazit¨at der Notfallstation. Die in den letzten Jahren vorgenommenen Z¨ahlungen f¨ ur den Einzugsbereich des Regionalkrankenhauses ergaben die folgenden Werte: Jahr Anzahl Notf¨alle pro Jahr Anzahl Tage pro Jahr
2004 444 365
2005 432 365
2006 438 365
a) Die Zufallsvariable X beschreibt die Anzahl der Notf¨alle pro Tag. Geben Sie ein geeignetes Modell an. b) Sch¨atzen Sie den Parameter aus den angegebenen Daten. c) Nehmen Sie im Folgenden an, dass der Wert Ihres Parameters 1,2 betr¨agt. Berechnen Sie die Wahrscheinlichkeitsverteilung und die Verteilungsfunktion f¨ ur Werte von X zwischen 0 und 7. d) Die neue Notfallstation des Regionalkrankenhauses soll prinzipiell auch f¨ ur Spitzenbelastungen gen¨ ugend groß sein. Als Toleranzgrenze legt man fest, dass h¨ochstens in einem von 100 F¨allen ein Patient in ein anderes Krankenhaus umgeleitet werden darf. Auf wie viele Notf¨alle pro Tag ist die Planung auszurichten, wenn obige Toleranzgrenze eingehalten werden soll? Anders ausgedr¨ uckt, wie viele Betten muss die Notfallstation des Regionalkrankenhauses mindestens haben, damit mit 99-prozentiger Wahrscheinlichkeit kein Notfallpatient an ein anderes Krankenhaus verwiesen werden muss? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
116
2.2. DISKRETE VERTEILUNGSMODELLE
Aufgabe 64
(L¨osung auf Seite 123, R-Code auf Seite 200)
Beim Biathlon wird auf 5 Scheiben geschossen, wobei man zun¨achst 5 Schuss zur Verf¨ ugung hat. Eine Biathletin hat eine gemessene Trefferwahrscheinlichkeit von p = 0, 85, und zwar unabh¨angig davon, auf welche Scheibe sie schießt. a) Mit welcher Wahrscheinlichkeit trifft die Sch¨ utzin alle 5 Scheiben? b) Mit welcher Wahrscheinlichkeit erzielt die Sch¨ utzin weniger als 4 Treffer? c) Zus¨atzlich d¨ urfen 2 Schuss nachgeladen werden. Mit welcher Wahrscheinlichkeit trifft die Sch¨ utzin noch alle 5 Scheiben, wenn Sie nach den ersten 5 Versuchen bereits 4 Treffer hatte? Der Reporter Harry nimmt als Gast am Schießtraining der Biathleten teil. Von fr¨ uheren Reportagen ist bekannt, dass Harrys Trefferwahrscheinlichkeit p = 0, 28 betr¨agt, und zwar unabh¨angig davon, auf welche Scheibe er schießt. d) Harry darf so lange schießen, bis er zum ersten Mal irgendeine Scheibe getroffen hat. Mit welcher Wahrscheinlichkeit braucht er dazu h¨ochstens 5 Versuche? e) Mit welcher Wahrscheinlichkeit trifft er bei 5 Versuchen (wie im Wettkampf) genau 2 Scheiben? f) Wie viel Schuss Munition m¨ usste man Harry mindestens geben, damit er mit einer Wahrscheinlichkeit von mindestens 92% mindestens 1 Scheibe trifft? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
117
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 57 auf Seite 114 a) Da es sich bei dem Zufallsexperiment um ein Modell mit Zur¨ ucklegen handelt, d.h. eine unabh¨angige Wiederholung des gleichen Experiments, k¨onnen die gesuchten Wahrscheinlichkeiten mit Hilfe der Binomialverteilung berechnet werden. Die Wahrscheinlichkeit, eine von n = 10 Aufgaben zuf¨allig richtig zu beantworten, betr¨agt p = 15 = 0, 2. Durch Einsetzen von k = 0, 1, . . . , 10 in die Wahrscheinlichkeitsfunktion der Binomialverteilung erh¨alt man f¨ ur die jeweiligen Wahrscheinlichkeiten
P(X = k) =
k 0 1 2 3 4 5 6 7 8 9 10
10 · 0, 2k · 0, 810−k k
P (X = k) 0, 107 0, 268 0, 302 0, 201 0, 088 0, 026 0, 006 0, 0008 7, 373 · 10−5 4, 096 · 10−6 1, 024 · 10−7
b) Die Wahrscheinlichkeit, mindestens 5 Fragen richtig zu beantworten, betr¨agt P( mind. 5 richtig“) = P (X ≥ 5) = ”
10
P (X = k)
k=5
= P (X = 5) + P (X = 6) + · · · + P (X = 9) + P (X = 10) ≈ 0, 0328 Die Wahrscheinlichkeit, durch Raten den Multiple-Choice-Test zuf¨allig zu bestehen, betr¨agt nur ca. 3, 28%. c) Da Sie nun nur noch zwischen zwei m¨oglichen Antworten w¨ahlen m¨ ussen, betr¨agt die neue Trefferwahrscheinlichkeit p = 0, 5. Sie m¨ ussen wiederum mindestens 5 Fragen richtig beantworten, d.h. P (X ≥ 5) =
10 10 k=5
k
· 0, 5k · 0, 510−k =
10 10 k=5
k
· 0, 510
≈ 0, 2461 + 0, 2051 + 0, 1172 + 0, 0439 + 0, 00977 + 0, 000977 ≈ 0, 623 Die Wahrscheinlichkeit, nun die Pr¨ ufung zu bestehen, betr¨agt ca. 62, 3%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
118
2.2. DISKRETE VERTEILUNGSMODELLE
Lo ¨sung zu Aufgabe 58 auf Seite 114 a) Die Zufallsvariable X bezeichnet die Anzahl der Frauen im Ausschuss und ist hypergeometrisch verteilt, X ∼ H(5; 8; 20), da eine bereits geloste Person nicht erneut in den Ausschuss gelost werden kann. Dies entspricht dem Modell ohne Zur¨ ucklegen. b) F¨ ur die Wahrscheinlichkeit, dass genau 1 Frau in den Ausschuss gelost wird, erh¨alt man 8 20 − 8 8 12 · 11 · 10 · 9 · · 165 1 5−1 4·3·2·1 P(X = 1) = = ≈ 0, 2554. = 1 20 · 19 · 18 · 17 · 16 20 646 5·4·3·2·1 5 c) Gesucht wird die Wahrscheinlichkeit, dass mehr Frauen als M¨anner im Ausschuss vertreten sind, d.h. die Zufallsvariable X muss einen Wert gr¨oßer oder gleich 3 annehmen. Da P(X = 1) bereits in Teilaufgabe b) berechnet wurde, kann die gesuchte Wahrscheinlichkeit mit Hilfe der Gegenwahrscheinlichkeit und der Rekursionsformel aus der Formelsammlung auf Seite 235 ermittelt werden. Es gilt: P(X ≥ 3) = 1 − P(X < 3) = 1 − P(X = 0) − P(X = 1) − P(X = 2). P(X = 1) 5 8 1 165 33 = · =5 ⇒ P(X = 0) = · = ≈ 0, 051 P(X = 0) 1 20 − 8 − 4 5 646 646 4 7 14 14 165 385 P(X = 2) = · = ⇒ P(X = 2) = · = ≈ 0, 3973 P(X = 1) 2 20 − 8 − 3 9 9 646 969 Man erh¨alt somit f¨ ur die gesuchte Wahrscheinlichkeit 33 165 385 287 P(X ≥ 3) = 1 − P(X < 3) = 1 − − − = ≈ 0, 2962 646 646 969 969 Die Wahrscheinlichkeit, dass mehr Frauen als M¨anner im Ausschuss vertreten sind, betr¨agt ca. 29, 6%. d) Der Erwartungswert der hypergeometrisch verteilten Zufallsvariablen X berechnet sich M 8 durch E(X) = n · = 5· = 2. Im Mittel muss man mit 2 Frauen im Ausschuss N 20 rechnen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 59 auf Seite 114 Die Zufallsvariable X soll die Wartezeit“ auf den ersten Erfolg“, d.h. das Anspringen des Au” ” tos, beschreiben. Dann kann man annehmen, dass X geometrisch verteilt ist, X ∼ Geo(0, 33). F¨ ur die einzelnen Wahrscheinlichkeiten gilt: P(X = k) = 0, 67k · 0, 33 f¨ ur k = 0, 1, 2, 3, . . .. Einer Wartezeit von k entspricht ein erster Erfolg im (k+1)−ten Versuch, bzw. k Fehlversuche. a) P( genau 4 Versuche“) = P( 3 Mal warten“) = P(X = 3) = 0, 673 · 0, 33 ≈ 0, 0993. ” ” Mit einer Wahrscheinlichkeit von ca. 9, 93% braucht der Student genau 4 Versuche, um sein betagtes Auto zu starten.
119
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK b) Zun¨achst gilt: P( h¨ochstens 4 Versuche“) = P( weniger als 4 Mal warten“). ” ” Also P(X < 4) = 1 − 0, 674 ≈ 0, 798. Die Wahrscheinlichkeit, dass der Student zum Starten seines Autos h¨ochstens 4 Versuche ben¨otigt, betr¨agt ca. 79, 8%. c) Zun¨achst gilt: P( mehr als 4 Versuche“) = P( mindestens 4 Mal warten“). ” ” Also P(X ≥ 4) = 1 − P(X < 4) = 0, 674 ≈ 1 − 0, 798 = 0, 202. Die Wahrscheinlichkeit, dass der Student zum Starten seines Autos mehr als 4 Versuche ben¨otigt, betr¨agt ca. 20, 2%. d) Die mittlere Wartezeit bis zum erfolgreichen Start des Autos ist der Erwartungswert 1 ≈ 3, 03. Der Student braucht im Mittel also ca. 4 der Zufallsvariablen X: E(X) = 0,33 Versuche, um sein Auto zu starten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 60 auf Seite 115 Die Zufallsvariable X = Anzahl Unf¨alle in einer Woche“ kann als Poisson-verteilt mit dem ” Parameter λ = 1 angenommen werden, X ∼ Po(1). F¨ ur die einzelnen Wahrscheinlichkeiten gilt dann: λk ur k = 0, 1, 2, . . . P(X = k) = e−λ f¨ k! a) Durch Einsetzen in die Wahrscheinlichkeitsfunktion der Poisson-Verteilung erh¨alt man P( mehr als 2 Unf¨alle in 1 Woche“) = P(X > 2) = 1 − P(X ≤ 2) ” = 1 − (P(X = 0) + P(X = 1) + P(X = 2)) 1 = 1 − e−1 + e−1 + e−1 = 1 − 0, 92 ≈ 0, 08 2 Mit einer Wahrscheinlichkeit von ca. 8% ereignen sich binnen einer Woche an dieser Kreuzung mehr als 2 Unf¨alle. b) Die Zufallsvariable Y = Anzahl Unf¨alle in den n¨achsten 10 Tagen“ ist ebenfalls Poisson” verteilt. Hier muss zun¨achst der Parameter λ bestimmt werden. Einem erwarteten Unfall erwartete Unf¨alle in 10 Tagen, d.h. Y ∼ Po( 10 ). Damit pro Woche entsprechen λ = 10 7 7 erh¨alt man: P( weniger als 3 Unf¨alle in 10 Tagen“) = P(Y = 0) + P(Y = 1) + P(Y = 2) ” 2 10 10 10 10 10 1 = e− 7 + e− 7 + · e− 7 ≈ 0, 8266. 7 2 7 Mit einer Wahrscheinlichkeit von ca. 83% geschehen an der Kreuzung in 10 Tagen weniger als 3 Unf¨alle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
120
2.2. DISKRETE VERTEILUNGSMODELLE
Lo ¨sung zu Aufgabe 61 auf Seite 115 a) Die Anzahl der Geburten pro Tag soll als gleichwahrscheinlich angenommen werden, 1 . Wenn das Unternehmen davon d.h. P( 1 Kind wird am Jubil¨aumstag geboren“) = 365 ” ausgeht, dass im kommenden Jahr 584 Kinder von Betriebsangeh¨origen geboren werden, 1 betr¨agt die erwartete Anzahl an Geburten am Jubil¨aumstag E(X) = 365 · 584 = 1, 6. Die Firma muss also mit Auslagen in H¨ohe von 5.000 · 1, 6 = 8.000 Euro rechnen. b) Das Ereignis Geburt am Jubil¨aumstag“ kann als seltenes Ereignis betrachtet werden. ” Die Zufallsvariable X, die die Anzahl der geborenen Kinder am Jubil¨aumstag beschreibt, kann somit als Poisson-verteilt angenommen werden, X ∼ Po(λ). Der Parameter λ einer Poisson-Verteilung entspricht dem Erwartungswert der Zufallsvariablen, weswegen hier λ = E(X) = 1, 6. c) Die Wahrscheinlichkeit, dass am Jubil¨aumstag kein Kind geboren wird, erh¨alt man durch Einsetzen von k = 0 in die Wahrscheinlichkeitsfunktion der Poisson-Verteilung: 1, 60 −1,6 = e−1,6 ≈ 0, 2019 ·e 0! Die Wahrscheinlichkeit, dass am 100. Geburtstag des Unternehmens kein Kind eines Betriebsangeh¨origen geboren wird, betr¨agt ca. 20, 2%. P(X = 0) =
Die Aufgabe kann auch mit Hilfe der Binomialverteilung gel¨ost werden. Falls man die 1 Zufallsvariable X als binomialverteilt modelliert, X ∼ B(584; 365 ), erh¨alt man 584 1 P(X = 0) = 1 − ≈ 0, 2015. 365 d) Da das Unternehmen f¨ ur jedes am Jubil¨aumstag geborene Kind ein Konto mit e 5.000 anlegen m¨ochte, w¨ urden die geplanten e 20.000 f¨ ur genau 4 Kinder reichen. Gesucht ist also die Wahrscheinlichkeit, dass an diesem Tag mehr als 4 Kinder geboren werden. P(X > 4) = 1 − P(X ≤ 4) = 1 − P(X = 0) − P(X = 1) − P(X = 2) − P(X = 3) − P(X = 4) = 1 − 0, 2019 − 0, 3230 − 0, 2584 − 0, 1378 − 0, 0551 ≈ 0, 0237 Die Wahrscheinlichkeit, dass die geplante R¨ ucklage von e 20.000 nicht reicht, betr¨agt ca. 2, 4%. 1 ) rechnet, erh¨alt man den Wert Wenn man mit der Binomialverteilung X ∼ B(584; 365 P(X > 4) ≈ 0, 0235.
e) Der Parameter λ, der bei der Poisson-Verteilung dem Erwartungswert der Zufallsvariablen entspricht, wird anhand des arithmetischen Mittels aus den Daten gesch¨atzt. ˆ = x¯ · 1 = 560 + 510 + 570 · 1 ≈ 1, 5 λ 365 3 365 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 62 auf Seite 116 a) Die Zufallsvariable X bildet die Anzahl der Anrufe im 2-Minuten-Intervall ab. Es wird angenommen, dass jeder der 45 Anrufe unabh¨angig von den anderen mit der gleichen 2 1 1 Wahrscheinlichkeit von p = 60 = 30 in ein 2-Minuten-Intervall f¨allt, d.h. X ∼ B(45; 30 ). Damit erh¨alt man f¨ ur die gesuchten Wahrscheinlichkeiten: 1 44 29 45 1 · = 0, 3375 · 30 30 1 P( h¨ochstens 1 Anruf“) = P(X ≤ 1) = P(X = 0) + P(X = 1) ” = 0, 2175 + 0, 3375 = 0, 555 P( mehr als 1 Anruf“) = P(X > 1) = 1 − P(X ≤ 1) = 1 − 0, 555 = 0, 445 ” P( genau 1 Anruf“) = P(X = 1) = ”
b) Nun wird angenommen, dass X eine Poisson-verteilte Zufallsvariable ist. Im Mittel gehen 45 Anrufe pro Stunde ein, weshalb λ = 45 · 2 = 1, 5 gilt. 60 Damit erh¨alt man f¨ ur die gesuchten Wahrscheinlichkeiten: P(X = 1) = 1, 5 · e−1,5 = 0, 3347 P(X ≤ 1) = e−1,5 + 1, 5 · e−1,5 = 0, 5578 P(X > 1) = 0, 4422 c) Wenn man die Wahrscheinlichkeiten in den beiden Modellen vergleicht, stellt man nur kleine Unterschiede fest. Das liegt daran, dass Werte der Binomialverteilung B(n; p) f¨ ur kleines p, großes n und λ = n · p nicht zu groß sehr gut durch Werte der PoissonVerteilung mit λ = n · p approximiert werden k¨onnen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 63 auf Seite 116 a) Da unbekannt ist, wann im Laufe der Zeit ein Notfall eingeht, und das Eingehen der Notf¨alle als unabh¨angig voneinander angesehen werden kann, wird die Zufallsvariable X als Poisson-verteilt angenommen, X ∼ Po(λ). b) Da λ = E(X), wird der Parameter mit Hilfe des arithmetischen Mittels x ¯ gesch¨atzt. ˆ = x¯ = 1 · λ 3
444 432 438 + + 365 365 365
= 1, 2
c) In der nachstehenden Tabelle sind die gesuchten Wahrscheinlichkeiten f¨ ur λ = 1, 2 aufgef¨ uhrt: 122
2.2. DISKRETE VERTEILUNGSMODELLE k 0 1 2 3 4 5 6 7
P(X = k) 0,3012 0,3614 0,2169 0,0867 0,026 0,006246 0,001249 0,000214
P(X ≤ k) 0,3012 0,6626 0,8795 0,9662 0,9922 0,9984 0,9997 1
Diese Wahrscheinlichkeiten k¨onnen leicht rekursiv berechnet werden. Ausgehend von P(X = 0) = e−1,2 ≈ 0, 3012 erh¨alt man mit λ = 1, 2: P(X = 1) = P(X = 0) ·
λ = 0, 3012 1
und
P(X = k + 1) = P(X = k) ·
λ k+1
d) Gesucht ist die minimale Anzahl Notf¨alle k, auf die das Krankenhaus vorbereitet sein muss, damit die entsprechende Wahrscheinlichkeit kleiner als 0,01 ist. P(X > k) ≤ 0, 01
⇔
1 − P(X > k) ≥ 1 − 0, 01
⇔
P(X ≤ k) ≥ 0, 99
Anhand der Tabelle aus Teilaufgabe c) sieht man, dass der Wert der Verteilungsfunktion f¨ ur k = 4 zum ersten Mal gr¨oßer als 0, 99 ist. Die Notfallstation muss daher auf mindestens 4 Notf¨alle am Tag ausgerichtet sein, um die Toleranzgrenze einzuhalten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 64 auf Seite 116 a) Die Zufallsvariable X bezeichnet die Anzahl der getroffenen Scheiben und ist binomialverteilt, X ∼ B(5; 0, 85). 5 P(X = 5) = · 0, 855 · (1 − 0, 85)5−5 = 0, 855 = 0, 4437 5 Die Wahrscheinlichkeit, dass die Biathletin alle 5 Scheiben trifft, betr¨agt 44, 37 %. b) Die Wahrscheinlichkeit, weniger als 4 Treffer zu erzielen, entspricht der Wahrscheinlichkeit, 0, 1, 2 oder 3 Treffer zu erzielen. P(X < 4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) = 0, 0000759 + 0, 0021516 + 0, 0243844 + 0, 1381781 = 0, 1648 oder, da P(X = 5) bereits bekannt ist: P(X < 4) = 1 − P(X ≥ 4) = 1 − P(X = 4) − P(X = 5) = 1 − 0, 3915 − 0, 4437 = 1 − 0, 8352 = 0, 1648 Mit einer Wahrscheinlichkeit von ca. 16,5 % trifft die Biathletin weniger als 4 Scheiben. 123
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK c) Gesucht ist die Wahrscheinlichkeit, mit dem ersten oder dem zweiten zus¨atzlichen Schuss die 5. Scheibe zu treffen. Die Zufallsvariable, die den Erfolg bei einem Schuss beschreibt, ist in diesem Fall Bernoulli-verteilt mit dem Parameter p = 0, 85. P( trifft beim 1. Mal oder trifft beim 2. Mal und nicht beim 1. Mal“) ” = P( trifft beim 1. Mal“) + P( trifft beim 2. Mal und nicht beim 1. Mal“) ” ” =p + (1 − p) · p = 0, 85 + 0, 15 · 0, 85 = 0, 9775 Alternativ kann die Aufgabe durch Berechnung der Komplement¨arwahrscheinlichkeit gel¨ost werden: P( trifft mind. einmal in 2 Versuchen“) = 1 − P( trifft nicht in 2 Versuchen“) ” ” = 1 − (1 − p) · (1 − p) = 1 − 0, 152 = 0, 9775 d) Die Zufallsvariable Y bezeichnet die Wartezeit bis zum ersten Treffer. Sie ist geometrisch verteilt, Y ∼ Geo(0, 28). Gesucht ist die Wahrscheinlichkeit, dass Harry nach h¨ochstens 5 Versuchen eine der Scheiben getroffen hat, d.h. die Wartezeit muss kleiner als 5 sein. P(Y < 5) = 1 − (1 − 0, 28)5 = 0, 8065 e) Die Zufallsvariable ist nun wieder binomialverteilt, X ∼ B(5; 0, 28). 5 P(X = 2) = · 0, 282 · (1 − 0, 28)5−2 = 0, 2926 2 Mit einer Wahrscheinlichkeit von 29,26 % trifft Harry bei 5 Versuchen genau 2 Scheiben. f) Die Zufallsvariable Z beschreibt die Anzahl der Treffer bei n Versuchen. Gesucht ist die Anzahl der Versuche n, sodass die Trefferwahrscheinlichkeit p = 0, 92 u ¨bersteigt, d.h. gesucht ist das minimale n, f¨ ur das P(Z ≥ 1) ≥ 0, 92 gilt. Die Wahrscheinlichkeit f¨ ur n Fehlversuche betr¨agt P(Z = 0) = 0, 72n , also ist P(Z ≥ 1) = 1 − P(Z = 0) = 1 − 0, 72n . Die minimale Anzahl an Versuchen berechnet man damit wie folgt: 1 − 0, 72n ≥ 0, 92
⇔
ln(0, 08) ≥ n · ln(0, 72)
⇔
7, 6886 ≤ n
Da ln(0, 72) kleiner als 0 ist, wird bei der Division durch ln(0, 72) das Ungleichheitszeichen umgedreht. Man m¨ usste Harry mindestens 8 Schuss Munition geben, damit er mit einer Wahrscheinlichkeit von mindestens 92 % mindestens einmal trifft. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
124
2.3. MEHRSTUFIGE ZUFALLSVERSUCHE
2.3
Mehrstufige Zufallsversuche
Aufgabe 65
(L¨osung auf Seite 128)
Eine Person bietet gegen jeweils 50 Cent Einsatz folgende Spiele an: Spiel 1: W¨ urfeln mit drei idealen W¨ urfeln. Das Augenprodukt wird in Eurocent ausgezahlt. Spiel 2: W¨ urfeln mit drei idealen W¨ urfeln. Die f¨ unffache Augensumme wird in Eurocent ausgezahlt. a) Berechnen Sie den Erwartungswert der beiden Spiele. b) Berechnen Sie f¨ ur beide Spiele die Varianz und die Standardabweichung. c) Welches Spiel w¨ urden Sie bevorzugen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 66
(L¨osung auf Seite 129)
Die Zufallsvariablen X und Y beschreiben die Gewinnauszahlungen bei einem Automatenspiel. Ihre gemeinsame Wahrscheinlichkeitsverteilung ist in der folgenden Tabelle angegeben: X\Y 1 2 3 RV X 1 0,1 0,2 0,3 2 0 0,2 0,2 RV Y a) Sind die Zufallsvariablen X und Y stochastisch unabh¨angig? Begr¨ unden Sie Ihre Antwort. b) Berechnen Sie die Erwartungswerte von X und von Y . c) Geben Sie die Verteilung von X unter der Bedingung Y = 3 an. d) Berechnen Sie die Varianzen von X und Y sowie die Kovarianz zwischen den Zufallsvariablen X und Y . e) Geben Sie die Wahrscheinlichkeitsverteilung der Summe X + Y an. f) Berechnen Sie den Erwartungswert und die Varianz der Zufallsvariablen Z = 3·X −2·Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 67
(L¨osung auf Seite 130)
¨ Uber die gemeinsame Verteilung der beiden diskreten Zufallsvariablen X und Y ist folgendes bekannt: X\Y -2 0 3 RV X -1 0,05 0,3 1 p RV Y 0,15 0,2
125
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK a) Welchen Wert muss p annehmen, sodass X und Y unkorreliert sind? b) Sind X und Y unabh¨angig? Begr¨ unden Sie Ihre Antwort. Welcher Zusammenhang besteht allgemein zwischen Unabh¨angigkeit und Unkorreliertheit zweier Zufallsvariablen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 68
(L¨osung auf Seite 131)
Ihnen stehen zwei Anlagem¨oglichkeiten zur Verf¨ ugung, deren zuk¨ unftige Renditen abh¨angig davon sind, wie die n¨achste Ernte ausf¨allt.
Wahrscheinlichkeit Rendite von Anlage A (in %) Rendite von Anlage B (in %)
gute Ernte 0,2 7 12
mittelm¨aßige Ernte 0,5 4 5
schlechte Ernte 0,3 2 1
Die erwarteten Renditen√von Anlage A und Anlage √ B sind μA = 4 und μB = 5, 2 mit Standardabweichungen σA = 3 ≈ 1, 732 und σB = 14, 56 ≈ 3, 816. a) Zeigen Sie, wie die Standardabweichung der Rendite von Anlage A berechnet wurde. b) In Ihrem Portfolio haben Sie 70% in Anlage A und 30% in Anlage B investiert. Berechnen Sie die erwartete Rendite und die Standardabweichung der Rendite Ihres Portfolios, wenn Sie annehmen, dass die Renditen der beiden Anlagen unabh¨angig sind. c) Ein Analyst liefert Ihnen die Information, dass die Renditen dieser beiden Anlagen nicht unabh¨angig, sondern mit rA,B = −0, 6 korreliert sind. Berechnen Sie wieder die erwartete Rendite und die Standardabweichung der Rendite Ihres Portfolios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 69
(L¨osung auf Seite 132)
Eine Krankheit kommt bei 4% der Bev¨olkerung vor. Ein diagnostisches Testverfahren liefert sowohl bei 90% der Kranken als auch bei 20% der Gesunden ein positives Testergebnis. a) Mit welcher Wahrscheinlichkeit ist eine zuf¨allig ausgew¨ahlte Person tats¨achlich krank, wenn der Test einen positiven Befund geliefert hat? b) Mit welcher Wahrscheinlichkeit ist jemand bei negativem Befund dennoch erkrankt? c) Wie viele zuf¨allig und unabh¨angig ausgew¨ahlte Personen muss man mindestens untersuchen, um mit einer Wahrscheinlichkeit von mindestens 95% mindestens einen Erkrankten zu finden? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
2.3. MEHRSTUFIGE ZUFALLSVERSUCHE
Aufgabe 70
(L¨osung auf Seite 133)
Eine Alarmanlage in einem Kaufhaus ist so eingebaut, dass bei einem Einbruch mit einer Wahrscheinlichkeit von 20% kein Alarm bei der Polizei ausgel¨ost wird. In einer Nacht ohne Einbruch l¨ost sie dagegen mit einer Wahrscheinlichkeit von 5% den Alarm aus. Aus langj¨ahriger Erfahrung weiß man, dass die Einbruchswahrscheinlichkeit bei 1% (pro Nacht) liegt. a) Berechnen Sie die Wahrscheinlichkeit, dass der Alarm ausgel¨ost wird. b) Wie groß ist die Wahrscheinlichkeit, dass tats¨achlich ein Einbruch stattfindet, wenn der Alarm ausgel¨ost wurde? c) Wie groß ist die Wahrscheinlichkeit, dass in einer Nacht weder der Alarm ausgel¨ost wird noch ein Einbruch stattfindet? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 71
(L¨osung auf Seite 134)
Ein Student kann entweder mit dem Bus oder mit dem Fahrrad zur Uni fahren. Nimmt er den Bus, so kommt er mit einer Wahrscheinlichkeit von 0, 25 zu sp¨at in die Vorlesung. F¨ahrt er mit dem Fahrrad, so versp¨atet er sich nur mit einer Wahrscheinlichkeit von 0, 1. Der Student ist sportlich und nimmt doppelt so oft das Fahrrad wie den Bus. a) Mit welcher Wahrscheinlichkeit erscheint der Student an einem bestimmten Tag p¨ unktlich zur Vorlesung? b) An einem Tag kommt er zu sp¨at. Mit welcher Wahrscheinlichkeit hat er an diesem Tag das Fahrrad benutzt? c) An einem anderen Tag kommt er p¨ unktlich. Wie wahrscheinlich ist es, dass er mit dem Bus gekommen ist? d) In welchem Verh¨altnis m¨ usste sich der Student f¨ ur Bus fahren“ bzw. Fahrrad fahren“ ” ” entscheiden, damit ein versp¨atetes Erscheinen des Studenten in der Vorlesung keinen R¨ uckschluss auf die Wahl des Bef¨orderungsmittels zul¨asst? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
127
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 65 auf Seite 125 Die Zufallsvariablen X1 , X2 , X3 beschreiben die Augenzahl der W¨ urfel und damit auch den Auszahlungsbetrag in Eurocent. Sie sind stochastisch unabh¨angig. a) Der Erwartungswert der Zufallsvariable Xi betr¨agt E(Xi ) =
1 · (1 + 2 + 3 + 4 + 5 + 6) = 3, 5. 6
F¨ ur die Erwartungswerte der jeweiligen Spiele gilt wegen der Unabh¨angigkeit: Spiel 1: E(X1 · X2 · X3 ) = E(X1 ) · E(X2 ) · E(X3 ) = 3, 53 = 42, 875 Spiel 2: E(5 · (X1 + X2 + X3 )) = 5 · E(X1 + X2 + X3 ) = 5 · (E(X1 ) + E(X2 ) + E(X3 )) = 5 · (3, 5 + 3, 5 + 3, 5) = 52, 5 b) Die Varianz und die Standardabweichung der Zufallsvariable Xi berechnen sich wie folgt: 1 Var(Xi ) = ·(12+22 +32 +42 +52 +62 )−3, 52 = 2, 917 6
⇒
σ(Xi ) =
Var(Xi ) = 1, 708
F¨ ur die Varianz und die Standardabweichung der beiden Spiele gilt: Spiel 1: Var(X1 · X2 · X3 ) = Var(X1 ) · Var(X2 ) · Var(X3 ) = 2, 9173 = 24, 812
σ(X1 · X2 · X3 ) = 24, 812 = 4, 981 Spiel 2: Var(5 · (X1 + X2 + X3 )) = 52 · Var(X1 + X2 + X3 ) = 52 · (Var(X1 ) + Var(X2 ) + Var(X3 )) = 25 · (2, 917 + 2, 917 + 2, 917) = 218, 75
σ(5 · (X1 + X2 + X3 )) = 218, 75 = 14, 79 c) Die Gewinnerwartung liegt bei Spiel 1 unter der von Spiel 2, weshalb Spiel 2 bevorzugt wird. Bei diesem Spiel liegt der Erwartungswert sogar u ¨ber dem Einsatz von 50 Cent, und daher wird mit sehr großer Wahrscheinlichkeit Gewinn erzielt, wenn das Spiel lange genug dauert. Allerdings muss man aufgrund der großen Varianz auch eine hohe Schwankung in Kauf nehmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
128
2.3. MEHRSTUFIGE ZUFALLSVERSUCHE
Lo ¨sung zu Aufgabe 66 auf Seite 125 a) Bei stochastischer Unabh¨angigkeit entsprechen die gemeinsamen Verteilungen dem Produkt der beiden Randverteilungen, d.h. P(X = ai , Y = bj ) = P(X = ai ) · P(Y = bj ). Dazu wird zun¨achst die Tabelle vervollst¨andigt: X\Y 1 2 RV Y
1 0,1 0 0,1
2 0,2 0,2 0,4
3 0,3 0,2 0,5
RV X 0,6 0,4 1
Falls die beiden Zufallsvariablen stochastisch unabh¨angig sind, m¨ usste z.B. gelten: 0, 1 = 0, 1 · 0, 6. Da dies nicht der Fall ist, sind die beiden Zufallsvariablen nicht stochastisch unabh¨angig. b) Der Erwartungswert der Zufallsvariablen wird mit Hilfe der jeweiligen Randverteilung berechnet: E(X) = 1 · 0, 6 + 2 · 0, 4 = 1, 4
E(Y ) = 1 · 0, 1 + 2 · 0, 4 + 3 · 0, 5 = 2, 4
c) Die Verteilung von X unter der Bedingung Y = 3 erh¨alt man, indem man die gemeinsame Wahrscheinlichkeit durch den entsprechenden Wert der Randverteilung von Y dividiert: P(X = 1, Y = 3) 0, 3 = = 0, 6 P(Y = 3) 0, 5 P(X = 2, Y = 3) 0, 2 P(X = 1|Y = 3) = = = 0, 4 P(Y = 3) 0, 5 P(X = 1|Y = 3) =
d) F¨ ur die Varianzen von X und Y erh¨alt man Var(X) = 12 · 0, 6 + 22 · 0, 4 − 1, 42 = 0, 24 Var(Y ) = 12 · 0, 1 + 22 · 0, 4 + 32 · 0, 5 − 2, 42 = 0, 44 Die Kovarianz zwischen den beiden Zufallsvariablen berechnet sich wie folgt: Cov(X; Y ) = E(X · Y ) − E(X) · E(Y ) = (1 · 1 · 0, 1 + 1 · 2 · 0, 2 + 1 · 3 · 0, 3 + 2 · 1 · 0 + 2 · 2 · 0, 2 + 2 · 3 · 0, 2) − 1, 4 · 2, 4 = 3, 4 − 1, 4 · 2, 4 = 0, 04 e) Die Verteilung der Summe X + Y erh¨alt man durch Ablesen und Addition der entsprechenden Wahrscheinlichkeiten in der gegebenen Tabelle, z.B. P(X + Y = 2) = P(X = 1, Y = 1) = 0, 1 und P(X + Y = 4) = P(X = 1, Y = 3) + P(X = 2, Y = 2) = 0, 3 + 0, 2 = 0, 5.
129
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK So fortfahrend ergibt sich die folgende Tabelle: k P(X + Y = k)
2 0,1
3 0,2
4 0,5
5 0,2
f) Es wird eine neue Zufallsvariable Z definiert, die sich durch lineare Transformation der beiden Zufallsvariablen X und Y ergibt: Z = 3 · X − 2 · Y . Als Erwartungswert und als Varianz der Zufallsvariablen Z erh¨alt man E(Z) = 3 · E(X) − 2 · E(Y ) = 3 · 1, 4 − 2 · 2, 4 = −0, 6 Var(Z) = 32 · Var(X) + 22 · Var(Y ) − 2 · 3 · 2 · Cov(X; Y ) = 9 · 0, 24 + 4 · 0, 44 − 12 · 0, 04 = 3, 44 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 67 auf Seite 125 a) Zun¨achst wird die Kontingenztafel vervollst¨andigt. Der Wert P(X = −1, Y = −2) kann berechnet werden, da P(X = −1, Y = −2) + p = 0, 15 sein muss, d.h. P(X = −1, Y = −2) = 0, 15 − p. Die weiteren Werte ergeben sich durch folgende Berechnungen: P(X = −1, Y P(X = 1, Y P(Y P(X = 1, Y P(X
= 3) = 0, 3 − (0, 15 − p) − 0, 05 = 0, 1 + p = 0) = 0, 2 − 0, 05 = 0, 15 = 3) = 1 − 0, 15 − 0, 2 = 0, 65 = 3) = 0, 65 − (0, 1 + p) = 0, 55 − p = 1) = 1 − 0, 3 = 0, 7
Man erh¨alt somit die vollst¨andige Kontingenztafel: X\Y -1 1 RV Y
-2 0,15-p p 0,15
0 0,05 0,15 0,2
3 0,1+p 0,55-p 0,65
RV X 0,3 0,7 1
Damit eine Wahrscheinlichkeitsverteilung vorliegt, muss p zwischen 0 und 0,15 liegen. Berechnung der Erwartungswerte: E(X) = (−1) · P(X = −1) + 1 · P(X = 1) = (−1) · 0, 3 + 1 · 0, 7 = 0, 4 E(Y ) = (−2) · P(Y = −2) + 0 · P(Y = 0) + 3 · P(Y = 3) = (−2) · 0, 15 + 0 · 0, 2 + 3 · 0, 65 = 1, 65 E(X · Y ) = 2 · (0, 15 − p) + (−3) · (0, 1 + p) + (−2) · p + 3 · (0, 55 − p) = 0, 3 − 2p − 0, 3 + 3p − 2p + 1, 65 − 3p = 1, 65 − 10p 130
2.3. MEHRSTUFIGE ZUFALLSVERSUCHE Damit Zufallsvariablen unkorreliert sind, muss die Kovarianz Null sein. Cov(X; Y ) = E(X · Y ) − E(X) · E(Y ) = 1, 65 − 10p − 0, 4 · 1, 65 = 0, 99 − 10p Cov(X; Y ) = 0 ⇒ 0, 99 − 10p = 0 ⇒ p = 0, 099 F¨ ur p = 0,099 sind die beiden Zufallsvariablen unkorreliert. b) Die Zufallsvariablen X und Y sind unabh¨angig, falls die gemeisame Wahrscheinlichkeit dem Produkt der Randwahrscheinlichkeiten entspricht: P(X = i, Y = j) = P(X = i) · P(Y = j)
f¨ ur alle i,j,
z.B. P(X = 1, Y = −2) = 0, 099 = 0, 105 = P(X = 1) · P(Y = −2). Aus der Unabh¨angigkeit folgt immer die Unkorreliertheit, aber die Umkehrung gilt im Allgemeinen nicht! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 68 auf Seite 126 a) Berechnung der Standardabweichung der Rendite von Anlage A: Var(A) = 72 · 0, 2 + 42 · 0, 5 + 22 · 0, 3 − 42 = 3
⇒
σA = 1, 732
b) Gesucht sind die erwartete Rendite und die Standardabweichung des Portfolios, wenn die Anlagen A und B unabh¨angig sind. Die Rendite des Portfolios kann als Zufallsvariable dargestellt werden, die sich linear aus den beiden Anlagen ergibt: C = 0, 7 · A + 0, 3 · B. E(C) = 0, 7 · E(A) + 0, 3 · E(B) = 0, 7 · 4 + 0, 3 · 5, 2 = 4, 36 Var(C) = 0, 72 · Var(A) + 0, 32 · Var(B) = 0, 72 · 3 + 0, 32 · 14, 56 = 2, 7804 ⇒ σC = 1, 66745 c) Gesucht sind nun die erwartete Rendite und die Standardabweichung des Portfolios, wenn die beiden Anlagen A und B mit rAB = −0, 6 korreliert sind. Die erwartete Rendite E(C) = 4, 36 ist unabh¨angig von der Korrelation zwischen den beiden Anlagen. Die Varianz h¨angt jedoch von der Korrelation rAB ab und berechnet sich jetzt wie folgt: Var(C) = 0, 72 · Var(A) + 0, 32 · Var(B) + 2 · 0, 7 · 0, 3 · Cov(A; B) = 0, 72 · Var(A) + 0, 32 · Var(B) + 2 · 0, 7 · 0, 3 · rA,B · σA · σB = 0, 72 · 3 + 0, 32 · 14, 56 + 2 · 0, 7 · 0, 3 · (−3, 965) = 1, 1151 ⇒ σC = 1, 06 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 69 auf Seite 126 a) Bezeichne K das Ereignis, dass eine zuf¨allig ausgew¨ahlte Person krank ist, und B das Ereignis, dass der Test einen positiven Befund liefert. Aus der Aufgabenstellung sind die folgenden Wahrscheinlichkeiten bekannt: P(K) = 0, 04,
P(K) = 0, 96,
P(B|K) = 0, 9,
P(B|K) = 0, 2
Damit kann man mit Hilfe der Rechenregeln f¨ ur bedingte Wahrscheinlichkeiten die Vierfeldertafel vervollst¨andigen. Es gilt: P(B ∩ K) = P(B|K) · P(K) = 0, 036
P(B ∩ K) = P(B|K) · P(K) = 0, 192
P(B ∩ K) = P(K) − P(B ∩ K) = 0, 004
P(B ∩ K) = P(K) − P(B ∩ K) = 0, 768
positiv B negativ B krank K 0, 036 0, 004 0, 04 nicht krank K 0, 192 0, 768 0, 96 0, 228 0, 772 1 Daraus erh¨alt man f¨ ur die gesuchte Wahrscheinlichkeit, dass eine zuf¨allig ausgew¨ahlte Person tats¨achlich krank ist, wenn der Test einen positiven Befund geliefert hat: P(K|B) =
P(K ∩ B) 0, 036 = ≈ 0, 1579 P(B) 0, 228
Die Wahrscheinlichkeit, bei positivem Testbefund krank zu sein, betr¨agt nur ca. 16%. Alternativ kann man die Wahrscheinlichkeit mit Hilfe der Formeln von der Totalen Wahrscheinlichkeit und des Satzes von Bayes berechnen: P(K|B) =
P(B|K) · P(K) 0, 04 · 0, 9 = ≈ 0, 1579 P(B) 0, 04 · 0, 9 + 0, 96 · 0, 2
b) F¨ ur die Wahrscheinlichkeit, dass eine Person mit negativem Testbefund dennoch krank ist, erh¨alt man P(K ∩ B) 0, 004 ≈ 0, 00518. P(K|B) = = 0, 772 P(B) Es ist also bei negativem Befund fast ausgeschlossen, dennoch krank zu sein. Mit Hilfe der Formeln von der Totalen Wahrscheinlichkeit und des Satzes von Bayes erh¨alt man die L¨osung wie folgt: P(K|B) =
132
(1 − 0, 9) · 0, 04 P(B|K) · P(K) = ≈ 0, 005 (1 − 0, 9) · 0, 04 + (1 − 0, 2) · 0, 96 P(B)
2.3. MEHRSTUFIGE ZUFALLSVERSUCHE c) Gesucht ist die kleinste Stichprobengr¨oße n, sodass die Wahrscheinlichkeit f¨ ur mindestens einen Erkrankten unter den n zuf¨allig ausgew¨ahlten Personen gr¨oßer als 0,95 ist. Unterstellt man, dass es sich um eine sehr große Bev¨olkerung handelt, kann man n wie folgt berechnen: P( mindestens 1 Erkrankter unter n“) = 1 − P( kein Erkrankter unter n“) = 1 − 0, 96n ” ” Aus der Bedingung 0, 95 ≤ 1 − 0, 96n erh¨alt man 0, 96n ≤ 0, 05, woraus durch Logarithmieren n ≥ ln(0, 05)/ ln(0, 96) ≈ 73, 385 folgt. (Da ln(0, 96) < 0, wird das Ungleichheitszeichen bei der Division umgedreht!) Um die genannte Bedingung zu erf¨ ullen, muss die Stichprobe also mindestens einen Umfang von 74 Personen haben. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 70 auf Seite 127 A bezeichnet das Ereignis Alarm“ und E das Ereignis Einbruch“. Folgende Wahrscheinlich” ” keiten sind bekannt: P(A|E) = 0, 8
P(A|E) = 0, 05
P(E) = 0, 01
P(A|E) = 0, 2
P(A|E) = 0, 95
P(E) = 0, 99
Bestimmung der gemeinsamen Wahrscheinlichkeiten: P(A ∩ E) = P(A|E) · P(E) = 0, 008
P(A ∩ E) = P(A|E) · P(E) = 0, 002
P(A ∩ E) = P(A|E) · P(E) = 0, 0495
P(A ∩ E) = P(A|E) · P(E) = 0, 9405
Die gesuchten Wahrscheinlichkeiten k¨onnen der folgenden Tabelle entnommen oder alternativ mit Hilfe der totalen Wahrscheinlicheit und des Satzes von Bayes gel¨ost werden.
Einbruch (E) kein Einbruch (E)
a) P(A) = 0, 0575
Alarm (A) 0,008 0,0495 0,0575
kein Alarm (A) 0,002 0,9405 0,9425
0,01 0,99 1
oder
P(A) = P(A|E) · P(E) + P(A|E) · P(E) = 0, 8 · 0, 01 + 0, 05 · 0, 99 = 0, 0575 0, 008 P(A ∩ E) = = 0, 139 oder P(A) 0, 0575 P(A|E) · P(E) 0, 8 · 0, 01 P(E|A) = = = 0, 139 P(A) 0, 0575
b) P(E|A) =
c) P(E ∩ A) = 0, 9405
oder
P(E ∩ A) = P(E) · P(A|E) = 0, 99 · 0, 95 = 0, 9405
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 71 auf Seite 127 B bezeichnet das Ereignis Bus fahren“ und V das Ereignis Versp¨atung“. Es sind folgende ” ” Wahrscheinlichkeiten bekannt: 1 1 1 P(V |B) = P(B) = P(V |B) = 4 10 3 3 9 2 P(V |B) = P(B) = P(V |B) = 4 10 3 a) Gesucht ist die Wahrscheinlichkeit, dass der Student an einem bestimmten Tag p¨ unktlich in der Vorlesung erscheint. 3 1 9 2 17 P(V ) = P(V |B) · P(B) + P(V |B) · P(B) = · + · = = 0, 85 4 3 10 3 20 Der Student kommt mit einer Wahrscheinlichkeit von 85% an einem bestimmten Tag p¨ unktlich zur Uni. b) Zu berechnen ist die Wahrscheinlichkeit, dass der Student an einem Tag, an dem er zu sp¨at in der Vorlesung erscheint, das Fahrrad benutzt hat. 1 · 23 P(V |B) · P(B) P(V |B) · P(B) 4 = = 10 17 = ≈ 0, 444 P(V ) 9 1 − 20 1 − P(V ) An einem Tag, an dem der Student sich versp¨atet hat, ist er mit einer Wahrscheinlichkeit von 44, 4% mit dem Fahrrad gefahren.
P(B|V ) =
c) Gesucht ist die Wahrscheinlichkeit, dass der Student an einem Tag, an dem er p¨ unktlich in der Vorlesung erscheint, mit dem Bus gefahren ist. 3 1 · P(V |B) · P(B) 5 ≈ 0, 2941 = 4 17 3 = 17 P(V ) 20 Der Student ist an einem Tag, an dem er p¨ unktlich in der Uni ist, mit einer Wahrscheinlichkeit von ca. 29, 41% mit dem Bus gefahren.
P(B|V ) =
d) Gesucht ist das Verh¨altnis zwischen Busfahren und Fahrradfahren, sodass bei einer Versp¨atung des Studenten nicht auf dessen Fortbewegungsmittel geschlossen werden kann. Dies ist der Fall, wenn P(B|V ) = P(B|V ) erf¨ ullt ist. Einsetzen und Umformen ergibt: P(V |B) · P(B) = P(V |B) · P(B) 1 1 · P(B) = · P(B) 4 10 5 · P(B) = P(B) 2 Der Student m¨ usste 2,5 Mal h¨aufiger mit dem Fahrrad als mit dem Bus fahren, damit ein versp¨atetes Erscheinen nicht auf die Wahl seines Fortbewegungsmittels schließen l¨asst. Wenn man die Wahrscheinlichkeiten berechnet, erh¨alt man P(B) = 27 und P(B) = 57 und daraus ebenfalls das Verh¨altnis 5:2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
134
2.4. STETIGE VERTEILUNGSMODELLE
2.4
Stetige Verteilungsmodelle
Aufgabe 72
(L¨osung auf Seite 138, R-Code auf Seite 200)
Die Zufallsvariable X sei N (0; 1)-verteilt. Bestimmen Sie anhand der Tafel f¨ ur die Standardnormalverteilung: a ) Φ(1, 23) d ) Φ(−1, 76) g ) P(X ≥ 2, 75) j ) P(X ≥ x) = 0, 9910
b ) Φ(2, 08) e ) Φ(−2, 34) h ) P(X ≤ −4, 37)
c ) Φ(1, 76) f ) P(X ≥ 4, 93) i ) P(X ≤ x) = 0, 33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 73
(L¨osung auf Seite 138, R-Code auf Seite 201)
Die Zufallsvariable X sei binomialverteilt mit X ∼ B(225; 0, 5). Berechnen Sie n¨aherungsweise a)
P(X ≤ 108)
b)
P(X > 110)
c)
P(X = 115)
d)
P(100 < X < 110)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 74
(L¨osung auf Seite 139)
Ein Meinungsforschungsinstitut m¨ochte vor einer Wahl untersuchen, mit welchem Stimmenanteil eine bestimmte Partei rechnen kann. Wie viele Personen m¨ ussen befragt werden, damit die ermittelte relative H¨aufigkeit mit einer Wahrscheinlichkeit von mindestens 99% um h¨ochstens 0,05 vom tats¨achlichen Anteil abweicht? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 75
(L¨osung auf Seite 139, R-Code auf Seite 202)
Einem Pr¨ ufling werden 40 Fragen vorgelegt, bei denen jeweils von 4 Alternativen genau eine Antwort richtig ist. Wie viele richtige Antworten m¨ ussen vom Pr¨ ufer zum Bestehen der Pr¨ ufung mindestens gefordert werden, damit ein Kandidat durch rein zuf¨alliges Beantworten (Raten) mit mindestens 99%-iger Wahrscheinlichkeit nicht besteht, d.h. mit h¨ochstens 1% Wahrscheinlichkeit besteht? (Hinweis: Benutzen Sie eine Normalapproximation.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
135
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
Aufgabe 76
(L¨osung auf Seite 140)
Die F¨ ullmenge X (in ml) eines Getr¨ankeautomaten kann in guter N¨aherung als normalverteilt mit μ = 500 und σ = 6 modelliert werden. a) Wie viel Prozent Ausschuss sind zu erwarten, wenn die F¨ ullmenge um h¨ochstens ±10 ml vom Sollwert 500 ml abweichen darf? b) Wie muss man die Toleranzgrenzen 500 − c und 500 + c w¨ahlen, damit man h¨ochstens 4% Ausschuss erh¨alt? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 77
(L¨osung auf Seite 141, R-Code auf Seite 202)
Gegeben ist die Funktion f (x) mit
⎧ ⎪ ⎨0, 25x f (x) = 1 − 0, 25x ⎪ ⎩ 0
f¨ ur 0 ≤ x ≤ 2 f¨ ur 2 < x ≤ 4 sonst
Bemerkung: f (x) ist die Dichtefunktion einer sogenannten Dreiecksverteilung. a) Zeichnen Sie die Funktion. ¨ b) Uberpr¨ ufen Sie, ob f (x) eine Dichte ist. c) Ermitteln Sie die Verteilungsfunktion und zeichnen Sie diese. d) Eine Zufallsvariable X habe f als Dichtefunktion. Wie groß ist die Wahrscheinlichkeit, dass X einen Wert aus dem Intervall [1, 5; 4] annimmt? e) Berechnen Sie P(X ≤ 2) und P(X ≥ 3). f) Zeigen Sie, dass E(X) = 2 und Var(X) =
2 3
gilt.
(Hinweis: Hierzu sind Kenntnisse der Integralrechnung n¨otig!) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 78
(L¨osung auf Seite 143, R-Code auf Seite 202)
Die j¨ahrlichen Renditen zweier Fonds werden als unabh¨angige, normalverteilte Zufallsvariablen A und B mit den Mittelwerten μA = 11% und μB = 9% und den Standardabweichungen σA = 1, 5% und σB = 1% modelliert. a) Mit welcher Wahrscheinlichkeit ist die Rendite aus Fonds A kleiner als 8, 7%? b) Wie groß ist der Median der Renditeverteilung von Fonds B? c) Wie groß ist das untere Quartil der Renditeverteilung von Fonds A? d) Mit welcher Wahrscheinlichkeit ist die Rendite aus Fonds A gr¨oßer als die aus Fonds B? 136
2.4. STETIGE VERTEILUNGSMODELLE e) Ein Finanzanalyst hat herausgefunden, dass in der oben beschriebenen Situation die Zufallsvariablen A und B nicht unabh¨angig, sondern korreliert mit rA,B = 0, 4 sind. Wie groß ist die Standardabweichung der Renditeverteilung eines Portfolios, das zu gleichen Teilen in Fonds A und B investiert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 79
(L¨osung auf Seite 144, R-Code auf Seite 203)
Eine Ampel hat eine Rotphase von 3 Minuten. Angenommen, man kommt zu einem zuf¨alligen Zeitpunkt w¨ahrend der Rotphase an diese Ampel. Mit welcher Wahrscheinlichkeit muss man a) weniger als 30 Sekunden warten? b) mehr als 1 Minute warten? c) genau 90 Sekunden warten? d) zwischen 1 und 2 Minuten warten? e) Wie lange muss man im Mittel warten? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 80
(L¨osung auf Seite 145, R-Code auf Seite 203)
An einer Fakult¨at der Universit¨at in M ist immer mal wieder der einzige Kopierer defekt. Die Zeit X (in Stunden), die die stets herbeigerufene Technikerin zur Reparatur ben¨otigt, kann als exponentialverteilt mit Parameter λ = 3 angenommen werden. a) Die Technikerin hat einen Stundensatz von e 27 und berechnet pro Reparatur eine pauschale Geb¨ uhr von e 15. Wie viel kostet eine Reparatur im Schnitt? b) Mit welcher Wahrscheinlichkeit dauert eine Reparatur weniger als 10 Minuten? c) Mit welcher Wahrscheinlichkeit dauert eine Reparatur mehr als eine halbe Stunde, aber weniger als 40 Minuten? d) Mit welcher Wahrscheinlichkeit dauert eine Reparatur genau 10 Minuten? e) Sie haben beobachtet, dass die Technikerin bereits seit einer halben Stunde an dem Kopierer repariert. Mit welcher Wahrscheinlichkeit wird sie innerhalb der n¨achsten 10 Minuten fertig? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
137
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 72 auf Seite 135 Die Wahrscheinlichkeiten k¨onnen aus den jeweiligen Tabellen f¨ ur die Standardnormalverteilung auf den Seiten 261 und 262 entnommen werden. a ) Φ(1, 23) = 0, 8907 c ) Φ(1, 76) = 0, 9608 e ) Φ(−2, 34) = 1 − 0, 9904 = 0, 0096 g ) P(X ≥ 2, 75) = 0, 002980 i ) P(X ≤ x) = 0, 33 ⇒ x = −0, 44
b ) Φ(2, 08) = 0, 9812 d ) Φ(−1, 76) = 1 − 0, 9608 = 0, 0392 f ) P(X ≥ 4, 93) = 0, 0000004111 h ) P(X ≤ −4, 37) = 0, 000006212 j ) P(X ≥ x) = 0, 9910 ⇒ x = −2, 365
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 73 auf Seite 135 Da die Zufallsvariable X binomialverteilt ist, gilt E(X) = μ = n · p = 112, 5 und Var(X) = σ 2 = n · p · (1 − p) = 56, 25 Die Faustregel np · (1 − p) > 9 ist erf¨ ullt, weswegen die Binomialverteilung B(225; 0, 5) durch die Normalverteilung N (112, 5; 56, 25) approximiert werden kann. −4 108 + 0, 5 − 112, 5 √ ≈ Φ(−0, 53) = 1−0, 7019 = 0, 2981 =Φ a) P(X ≤ 108) ≈ Φ 7, 5 56, 25 Ohne Ber¨ ucksichtigung der sogenannten Stetigkeitskorrektur, d.h. die Korrektur 0, 5 wird weggelassen, ergibt sich f¨ ur die gesuchte Wahrscheinlichkeit der approximative Wert P(X ≤ 108) ≈ Φ(−0, 6) = 1−0, 7257 = 0, 2743. Mit Hilfe von R findet man den exakten Wert P(X ≤ 108) = 0, 296951. Durch die Ber¨ ucksichtigung der Stetigkeitskorrektur ist die Genauigkeit der Approximation also deutlich verbessert worden. −2 ≈ 1 − Φ(−0, 27) = Φ(0, 27) = 0, 6064 b) P(X > 110) = 1 − P(X ≤ 110) ≈ 1 − Φ 7, 5 Ohne Stetigkeitskorrektur erh¨alt man P(X > 110) ≈ Φ(0, 33) = 0, 6293, und der exakte Wert ist P(X > 110) = 0, 6051. 2 3 −Φ ≈ Φ(0, 4) − Φ(0, 27) = 0, 6554 − 0, 6064 = 0, 049 c) P(X = 115) ≈ Φ 7, 5 7, 5 Mit Hilfe der Dichtefunktion ϕ findet man den besseren approximativen Wert: 1 1 1 P(X = 115) ≈ · ϕ(0, 3333) = · √ · e−0,05556 ≈ 0, 050312. 7, 5 7, 5 2π Der exakte Wert ist P(X = 115) = 0, 050274. −12 −3 −Φ d) P(100 < X < 110) = P (X ≤ 109) − P (X ≤ 100) ≈ Φ 7, 5 7, 5 = Φ(−0, 4) − Φ(−1, 6) = 1 − 0, 6554 − 1 + 0, 9452 = 0, 2898
138
2.4. STETIGE VERTEILUNGSMODELLE Ohne Stetigkeitskorrektur berechnet man f¨ ur die gesuchte Wahrscheinlichkeit den Wert P(100 < X < 110) ≈ Φ(−0, 47) − Φ(−1, 67) = 0, 9525 − 0, 6808 = 0, 2717, und der exakte Wert ist P(100 < X < 110) = 0, 289928. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 74 auf Seite 135 Die Zufallsvariable Xi gibt an, ob eine Person i f¨ ur die Partei stimmt. Sie kann als Bernoulliverteilt, Xi ∼ B(1; p), angenommen werden, wobei p der unbekannte Stimmenanteil der Partei in der Bev¨olkerung ist. Befragt man n unabh¨angig und zuf¨allig ausgew¨ahlte Personen, so hat man mit Sn = X1 + · · · + Xn Stimmen f¨ ur die Partei zu rechnen. Sn ist binomialverteilt, Sn ∼ B(n; p), mit Erwartungswert E(Sn ) = n · p und Varianz Var(Sn ) = n · p · (1 − p). Die aus der Stichprobe ermittelte relative H¨aufigkeit ist Rn = n1 · Sn . Gesucht ist ein m¨oglichst kleiner Stichprobenumfang n, sodass die Bedingung P(p − 0, 05 ≤ Rn ≤ p + 0, 05) ≥ 0, 99 erf¨ ullt ist. Das ist ¨aquivalent zu der Bedingung P(np − 0, 05 · n ≤ Sn ≤ np + 0, 05 · n) ≥ 0, 99. Mit Hilfe der Approximation durch die Normalverteilung kann diese Wahrscheinlichkeit n¨aherungsweise berechnet werden: np − 0, 05 · n − np np + 0, 05 · n − np
−Φ P(np − 0, 05 · n ≤ Sn ≤ np + 0, 05 · n) ≈ Φ np · (1 − p) np · (1 − p) √ √ √ 0, 05 n −0, 05 n 0, 05 n =Φ −Φ =2·Φ −1 p · (1 − p) p · (1 − p) p · (1 − p) f¨ ur p ∈ [0; 1], kann der minimale Stichprobenumfang aus der Bedingung √ 0, 05 n P(np − 0, 05 · n ≤ Sn ≤ np + 0, 05 · n) ≈ 2·Φ −1 ≥ 0, 99 abgesch¨atzt werden: p · (1 − p) √ √ √ 0, 05 n 2, 5758 0, 05 n 2·Φ n≥ p(1 − p) − 1 ≥ 0, 99 ⇔ ≥ 2, 5758 ⇔ 0, 05 p(1 − p) p(1 − p) 2 = 25, 7582 = 663, 47 Wahlberechtigte zu befragen, um die Also reicht es, n ≥ 14 · 2,5758 0,05 gew¨ unschte Genauigkeit mit 99%-iger Wahrscheinlichkeit zu erf¨ ullen. L¨ost man die Aufgabe ohne Approximation und berechnet obige Wahrscheinlichkeit f¨ ur gegebenes n mit Hilfe der Binomialverteilung Sn ∼ B(n; p) als Funktion von p, so stellt man fest, dass man tats¨achlich mindestens n = 670 Wahlberechtigte befragen muss, um die geforderte Genauigkeit gleichm¨aßig f¨ ur alle p ∈ [0; 1] zu erf¨ ullen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weil p · (1 − p) ≤
1 4
L¨ osung zu Aufgabe 75 auf Seite 135 Die Zufallsvariable X, die die Anzahl der durch zuf¨alliges Raten richtig beantworteten Fragen unter den 40 vorgelegten beschreibt, kann als X ∼ B(40; 0, 25)-verteilt angenommen werden. Wenn k die Anzahl der vom Pr¨ ufer zum Bestehen geforderten richtigen Antworten ist, dann ist das minimale k gesucht, sodass P(X ≥ k) ≤ 0, 01 bzw. P(X < k) ≥ 0, 99 gilt. Durch Approximation mit der Normalverteilung wird die minimale Anzahl berechnet. Zun¨achst gilt 139
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK k − 10, 5 k − 1 + 0, 5 − 10 √ √ =Φ . Also kann k aus der P(X < k) = P(X ≤ k − 1) ≈ Φ 7, 5 7, 5 k − 10, 5 √ Bedingung Φ ≥ 0, 99 bestimmt werden. Dies ergibt: 7, 5 k − 10, 5 k − 10, 5 √ √ ≥ 0, 99 ⇔ Φ ≥ 2, 3263 ⇔ k ≥ 16, 87 7, 5 7, 5 Der Pr¨ ufer muss also mindestens 17 richtige Antworten fordern, damit ein Kandidat nur mit h¨ochstens 1% Wahrscheinlichkeit durch zuf¨alliges Raten besteht. Die exakte Rechnung mit der Binomialverteilung ergibt f¨ ur X ∼ B(40; 0, 25) die Wahrscheinlichkeiten P(X ≥ 17) = 0, 01156 und P(X ≥ 18) = 0, 00465. Ein ganz vorsichtiger Pr¨ ufer w¨ urde also k = 18 richtige Antworten zum Bestehen fordern und h¨atte damit die Wahrscheinlichkeit auf zuf¨alliges Bestehen sogar unter 0, 5% gesenkt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 76 auf Seite 136 a) Die F¨ ullmenge des Automaten kann als normalverteilte Zufallsvariable X ∼ N(500; 62 ) angenommen werden. Damit wird die Wahrscheinlichkeit, dass die tats¨achliche F¨ ullmenge von der Sollmenge abweicht, P( Ausschuss“) = 1 − P(490 ≤ X ≤ 510), berechnet. ” Zun¨achst ist 510 − 500 490 − 500 P( kein Ausschuss“) = P(490 ≤ X ≤ 510) = Φ −Φ ” 6 6 10 10 −Φ − = 2 · 0, 9525 − 1 = 0, 905 =Φ 6 6 Wenn die F¨ ullmenge um h¨ochstens ±10 ml vom Sollwert abweichen darf, sind also ca. 1 − 0, 905 = 9, 5% Ausschuss zu erwarten. b) Gesucht ist die minimale Abweichung c in ml vom Sollwert, sodass der Ausschuss h¨ochstens 4% betr¨agt. Die Bedingung 1 − P(500 − c ≤ X ≤ 500 + c) ≤ 0, 04 ist gleichbedeutend mit P(500 − c ≤ X ≤ 500 + c) ≥ 0, 96. Die Berechnung dieser Wahrscheinlichkeit ergibt zun¨achst: 500 + c − 500 500 − c − 500 P(500 − c ≤ X ≤ 500 + c) ≈ Φ −Φ 6 6 c c c =Φ −Φ − = 2Φ −1 6 6 6 c Das minimale c kann nun aus der Bedingung 2Φ 6 − 1 ≥ 0, 96 bestimmt werden: c c c − 1 ≥ 0, 96 ⇔ Φ ≥ 0, 98 ⇔ ≥ 2, 06 ⇔ c ≥ 12, 36 2Φ 6 6 6 Um einen Ausschuss von h¨ochstens 4% zu erhalten, darf die F¨ ullmenge um nicht mehr als 12, 36 ml von der Sollmenge abweichen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
140
2.4. STETIGE VERTEILUNGSMODELLE
Lo ¨sung zu Aufgabe 77 auf Seite 136 a) Das folgende Bild zeigt die graphische Darstellung der Funktion f (x):
0.0
0.1
0.2
f(x)
0.3
0.4
0.5
Dichtefunktion der Dreiecksverteilung
−1
0
1
2
3
4
5
x
b) Damit f (x) eine Dichtefunktion ist, m¨ ussen die folgenden beiden Eigenschaften erf¨ ullt sein: ur alle x, • fX (x) ≥ 0, d.h die Wahrscheinlichkeiten sind nicht negativ f¨ ∞ • f (x) dx = 1, d.h. die Wahrscheinlichkeiten summieren sich zu 1. −∞
Man stellt fest, dass die Eigenschaft fX (x) ≥ 0 erf¨ ullt ist. Insbesondere ist fX (x) nur im Intervall [0;4] positiv. ¨ Zur Uberpr¨ ufung der zweiten Eigenschaft berechnet man die Fl¨ache, die die Dichtefunktion mit der x-Achse einschließt. Diese ist ein Dreieck mit H¨ohe 0, 5 und L¨ange der Grundseite 4, woraus f¨ ur den Fl¨acheninhalt 12 · 0, 5 · 4 = 1 folgt. Alternativ kann man dies mit Hilfe der Integralrechnung l¨osen:
4
4 4 2 x 1 dx + (4 − x)dx f (x)dx + f (x)dx = 0 2 0 4 2 4 2 2 4 x2 1 x 1 + x− = + (4 − 2) − (2 − ) = 1 = 8 0 8 2 2 2
2
f (x)dx = 0
141
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK c) Der Wert der Verteilungsfunktion F (x) = P (X ≤ x) entspricht der Fl¨ache unter der Dichtefunktion bis x. Damit gilt zun¨achst F (x) = 0 f¨ ur x < 0 und F (x) = 1 f¨ ur x > 4. F¨ ur 0 ≤ x ≤ 2 entspricht P(X ≤ x) der Fl¨ache des Dreiecks mit Grundseite x und 2 ur 0 ≤ x ≤ 2. Analog erh¨alt man f¨ ur H¨ohe f (x), d.h. F (x) = 12 · x · 0, 25x = x8 f¨ 2 < x ≤ 4 die Fl¨ache des Dreiecks mit Grundseite 4 − H¨ohe f (x), die von 1 zu 1 x und subtrahieren ist: F (x) = 1 − 2 · (4 − x) · (1 − 0, 25x) = − 18 x2 + x − 1 f¨ ur 2 < x ≤ 4. Die Verteilungsfunktion lautet also: ⎧ f¨ ur x < 0 ⎪ ⎪0 2 ⎪ ⎨x f¨ ur 0 ≤ x ≤ 2 F (x) = 8 1 2 ⎪ − x + x − 1 f¨ ur 2 < x ≤ 4 ⎪ ⎪ ⎩ 8 1 f¨ ur x > 4
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Verteilungsfunktion der Dreiecksverteilung
−1
0
1
2
3
4
5
x
Alternativ kann man die Verteilungsfunktion mit Hilfe der Integralrechnung bestimmen. F¨ ur die beiden relevanten Abschnitte erh¨alt man so: 2 x x x t t x2 dt = f¨ ur 0 ≤ x ≤ 2 F (x) = f (t) dt = = 8 0 8 0 0 4 und f¨ ur 2 < x ≤ 4
142
x x 1 1 f (t) dt = F (2) + f (t) dt = + (1 − t) dt 2 4 0 2 2 x t2 x2 4 x2 1 1 −2+ =− +x−1 = + t− = +x− 2 8 2 2 8 8 8
F (x) =
x
2.4. STETIGE VERTEILUNGSMODELLE d) Um die Wahrscheinlichkeit zu bestimmen, dass X einen Wert aus dem Intervall [1, 5; 4] annimmt, m¨ ussen die Werte als Ober- bzw. Untergrenze in die oben bestimmte Verteilungsfunktion eingesetzt werden. P(1, 5 ≤ X ≤ 4) = P(X ≤ 4) − P(X < 1, 5) = F (4) − F (1, 5) 23 1, 52 = = 0, 71875 =1− 8 32 Mit einer Wahrscheinlichkeit von ca. 71, 9% liegt der Wert von X zwischen 1, 5 und 4. e) Die Wahrscheinlichkeiten k¨onnen durch Einsetzen von x in die oben ermittelte Verteilungsfunktion berechnet werden. P(X ≤ 2) = F (2) =
1 2
P(X ≥ 3) = 1 − F (3) = 1 −
und
7 1 = 8 8
f) Berechnung des Erwartungswertes: 1 1 x(1 − x)dx = 4 4 0 2 1 1 1 8 = · (8 − 0) + · (16 − 4) − · (64 − 8) = + 12 2 12 12
E(X) =
xf (x)dx =
2
1 x xdx + 4
4
2 2 4 3 4 x x 1 − · x3 + 3 2 12 2 2 0 72 56 − =2 12 12
Berechnung der Varianz: 2 4 1 1 x2 xdx + x2 (1 − x)dx − 4 Var(X) = E(X 2 ) − E(X)2 = x2 f (x)dx − 4 = 4 4 0 2 2 3 4 4 4 x x 1 1 4 · x + − −4 = 4 4 3 2 16 2 0 1 1 1 56 240 2 = · (16 − 0) + · (64 − 8) − · (256 − 16) − 4 = 1 + − −4= 16 3 16 3 16 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 78 auf Seite 136 Die beiden Zufallsvariablen A und B beschreiben die Renditen der Fonds A und B und sind normalverteilt, A ∼ N(11; 1, 52 ) und B ∼ N(9; 12 ). a) Gesucht ist die Wahrscheinlichkeit, dass die Rendite aus Fonds A kleiner als 8, 7% ist. 8, 7 − 11 P(A ≤ 8, 7) = Φ = Φ(−1, 53) = 1 − 0, 937 = 0, 063 1, 5 Die Wahrscheinlichkeit, dass die Rendite aus Fonds A kleiner als 8, 7% ist, betr¨agt 6, 3%. b) Bei einer normalverteilten Zufallsvariablen entspricht der Median der Zufallsvariablen ihrem Erwartungswert, d.h. xmed (B) = μB = 9%. 143
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK c) Das untere Quartil der Renditeverteilung von Fonds A wird folgendermaßen berechnet: x0,25 (A) = μA + σA · z0,25 . Es gilt Φ(z0,25 ) = 0, 25 bzw. Φ(−z0,25 ) = 1 − 0, 25. Somit erh¨alt man z0,25 ≈ −0, 676. F¨ ur das untere Quartil erh¨alt man somit x0,25 (A) = 11 + 1, 5 · (−0, 676) = 9, 986. Mit einer Wahrscheinlichkeit von 25% betr¨agt die Rendite aus Fonds A h¨ochstens 9, 986%. d) Gesucht ist die Wahrscheinlichkeit P(A > B). Diese kann auch als P(A − B > 0) ausgedr¨ uckt werden. Die Zufallsvariable D = A−B ist ebenfalls normalverteilt mit Mittelwert 2 μD = μA −μB = 2 und Varianz σD = σA2 +(−1)2 ·σB2 = 1, 52 +12 = 3, 25, D ∼ N(2; 3, 25). Damit folgt f¨ ur die gesuchte Wahrscheinlichkeit: −2 = Φ(1, 11) = 0, 8665 P(A > B) = P(D > 0) = 1 − Φ √ 3, 25 Mit einer Wahrscheinlichkeit von ca. 87% erzielt Fonds A eine h¨ohere Rendite als Fonds B. e) Es ist bekannt, dass die Renditen der beiden Fonds mit rA,B = 0, 4 korreliert sind. Die Standardabweichung der Rendite des Portfolios Z = A + B berechnet sich damit nach der folgenden Formel: Var(Z) = Var(A) + Var(B) + 2 · Cov(A; B) = Var(A) + Var(B) + 2 · rA,B · σA · σB = 1, 52 + 12 + 2 · 0, 4 · 1, 5 · 1 = 4, 45
⇒ σZ = 4, 45 = 2, 1095. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 79 auf Seite 137 Wenn die Zufallsvariable U die Wartezeit an der Ampel beschreibt, kann man annehmen, dass U eine stetige Gleichverteilung auf dem Intervall [0; 3] hat. Damit berechnet man die gesuchten Wahrscheinlichkeiten wie folgt: 0, 5 − 0 ≈ 0, 1667 3−0 Mit einer Wahrscheinlichkeit von ca. 17% wartet man weniger als 30 Sekunden.
a) P(U < 0, 5) =
1−0 ≈ 0, 6667 3−0 Die Wahrscheinlichkeit, dass man l¨anger als 1 Minute an der roten Ampel warten muss, betr¨agt ca. 67%.
b) P(U > 1) = 1 − P(U ≤ 1) = 1 −
144
2.4. STETIGE VERTEILUNGSMODELLE c) P(U = 1, 5) = 0, denn die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einen bestimmten Wert annimmt, ist 0. 1 · (2 − 1) ≈ 0, 3333 3 Mit einer Wahrscheinlichkeit von 33% muss man zwischen 1 und 2 Minuten an der roten Ampel warten.
d) P(1 < U < 2) = P(U < 2) − P(U ≤ 1) =
3+0 = 1, 5 Minuten warten. 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e) Im Mittel muss man E(U) =
L¨ osung zu Aufgabe 80 auf Seite 137 a) Die Zufallsvariable X beschreibt die Zeit in Stunden, die die Technikerin zur Reparatur ben¨otigt, und ist exponentialverteilt, X ∼ Ex(3). Die Zufallsvariable Z = 15 + 27 · X bezeichnet die Kosten einer Reparatur. Um die durchschnittlichen Reparaturkosten zu bestimmen, muss der Erwartungswert von Z berechnet werden. E(Z) = E(15 + 27 · X) = 15 + 27 · E(X) = 15 + 27 ·
1 = 24 3
Die Reparatur kostet im Schnitt 24 Euro. 1 1 b) P X < = 1 − e−3· 6 ≈ 0, 393 6 2 1 2 2 1 1 <X< =P X< −P X ≤ = 1 − e−3· 3 − 1 − e−3· 2 ≈ 0, 088 c) P 2 3 3 2 d) P(X = 16 ) = 0, denn die Wahrscheinlichkeit, dass eine stetige Zufallsvariable einen bestimmten Wert annimmt, ist 0. e) Gesucht ist die Wahrscheinlichkeit, dass die Technikerin h¨ochstens noch 10 Minuten f¨ ur die Reparatur ben¨otigt, wenn sie bereits seit 30 Minuten den Kopierer repariert. Das entspricht der bedingten Wahrscheinlichkeit P(Y < 23 |Y > 12 ). Bei einer exponentialverteilten Zufallsvariablen gilt f¨ ur die bedingte Wahrscheinlichkeit P(Y < t + s|Y > t) = P(Y < s), denn
t, s > 0,
P(t < Y < t + s) 1 − e−λ(t+s) − (1 − e−λt ) = P(Y > t) e−λt = 1 − e−λs = P(Y < s).
P(Y < t + s|Y > t) =
Die Wahrscheinlichkeit, dass die Technikerin innerhalb der n¨achsten 10 Minuten den Defekt behoben hat, wenn sie schon seit 30 Minuten repariert, entspricht also der Wahrscheinlichkeit aus Aufgabenstellung b), d.h. P(Y < 23 |Y > 12 ) = P(Y < 16 ) = 0, 393. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
145
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
2.5
Konfidenzintervalle und Signifikanztests
Aufgabe 81
(L¨osung auf Seite 156, R-Code auf Seite 204)
Die Abf¨ ullmenge eines Getr¨ankeautomaten unterliegt Schwankungen. Um zu u ufen, ob ¨berpr¨ die Maschine neu justiert werden muss, soll die mittlere F¨ ullmenge gesch¨atzt werden. Dazu wird eine Stichprobe von n = 10 Abf¨ ullungen an diesem Automaten entnommen. Es ergeben sich die folgenden Werte (in cl): 30 30, 6 29 28, 3 28, 8 29, 5 31 32, 3 32, 4 33, 1 a) Welchen Sch¨atzwert bekommen Sie aus der Stichprobe f¨ ur die mittlere F¨ ullmenge des Automaten? b) Unterstellen Sie, dass die Abf¨ ullmenge dieses Automaten als normalverteilte Zufallsvariable X modelliert werden kann. Es ist weiterhin bekannt, dass bei Automaten dieses Typs die Standardabweichung der F¨ ullmenge σ = 1, 2 betr¨agt. Berechnen Sie ein 95%Konfidenzintervall f¨ ur die mittlere F¨ ullmenge. c) Nehmen Sie nun an, dass Sie keine Information u ull¨ber die Standardabweichung der F¨ menge dieses Automaten haben. Sch¨atzen Sie die Standardabweichung aus der Stichprobe und geben Sie wieder ein 95%-Konfidenzintervall f¨ ur die mittlere F¨ ullmenge an. d) Geben Sie ein 95%-Konfidenzintervall f¨ ur die Varianz bzw. Standardabweichung der mittleren F¨ ullmenge an. e) Nehmen Sie an, dass eine neue Stichprobe den Umfang n = 41 hat, aber (zuf¨allig) die gleichen gesch¨atzten Werte f¨ ur den Mittelwert und die Standardabweichung ergibt. Berechnen Sie alle Konfidenzintervalle aus den vorherigen Teilaufgaben und vergleichen Sie die Ergebnisse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 82
(L¨osung auf Seite 157, R-Code auf Seite 205)
Die Bundesregierung beauftragt ein Institut, den Anteil der Bef¨ urworter der großen Koalition unter den Wahlberechtigten zu ermitteln. In einer Stichprobe von 1.000 Befragten votierten 430 f¨ ur die große Koalition. a) Geben Sie einen Sch¨atzwert f¨ ur den Anteil der Bef¨ urworter unter den Wahlberechtigten an. b) Geben Sie ein (approximatives) 95%-Konfidenzintervall f¨ ur den Anteil der Bef¨ urworter an. c) Geben Sie ein (approximatives) 99%-Konfidenzintervall f¨ ur den Anteil der Bef¨ urworter an. 146
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS d) Geben Sie ein 100%-Konfidenzintervall f¨ ur den Anteil der Bef¨ urworter an. K¨onnen Sie damit etwas anfangen? e) Wie viele Wahlberechtigte m¨ usste das Institut mindestens befragen, damit das resultierende approximative 95%-Konfidenzintervall in jedem Fall bis auf 2 Prozentpunkte genau ist? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 83
(L¨osung auf Seite 158)
Die Inhaberin einer Modeboutique ist an dem durchschnittlichen Alter ihrer Kundinnen interessiert. Basierend auf einer Stichprobe von 41 Kundinnen ergab sich ein Mittel von x = 36. a) Als Insider der Modebranche wissen Sie, dass das Alter der (potentiellen) Kundinnen normalverteilt ist, und Sie kennen sogar die Standardabweichung, die σ = 10 betr¨agt. Geben Sie ein 99%-Konfidenzintervall f¨ ur das mittlere Alter der (potentiellen) Kundinnen an. b) Wie groß h¨atte die Stichprobe (mindestens) gew¨ahlt werden m¨ ussen, damit das dann konstruierte 99%-Konfidenzintervall nur die halbe Breite des in Teilaufgabe a) berechneten hat? c) Wie ¨andert sich das Konfindenzintervall im Allgemeinen, wenn der Stichprobenumfang n bzw. die Irrtumswahrscheinlichkeit α erh¨oht werden? d) In einem Fachjournal lesen Sie, dass die Standardabweichung des Alters der potentiellen Kundinnen m¨oglicherweise gar nicht σ = 10 betr¨agt. Sie sch¨atzen daraufhin die Standardabweichung aus der Stichprobe und finden zuf¨allig σ ˆ = 10. Die Inhaberin hat Ihnen bei Ihren Berechnungen zugesehen und ist der Meinung, dass damit das Konfidenzintervall aus Teilaufgabe a) korrekt sei. Was antworten Sie? Da die Inhaberin sehr skeptisch ist, ist eine genaue Begr¨ undung bzw. Erl¨auterung erforderlich! e) Durch Ihre Ausf¨ uhrungen nachdenklich geworden, wirft die Inhaberin jetzt ein, dass das Alter der potentiellen Kundinnen eigentlich gar nicht exakt normalverteilt sein k¨onne. Wie m¨ ussen Sie jetzt Ihre Konfidenzintervalle aus den Teilaufgaben a) und d) anpassen bzw. was erkl¨aren Sie der Inhaberin? f) Geben Sie (wieder unter Annahme einer Normalverteilung) ein 95%-Konfidenzintervall f¨ ur die in Teilaufgabe d) gesch¨atzte Varianz an. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
147
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
Aufgabe 84
(L¨osung auf Seite 159, R-Code auf Seite 206)
Der Durchmesser (in mm) der auf einer Maschine hergestellten Schrauben kann als normalverteilt mit μ = 3 und σ = 0, 02 modelliert werden. a) Mit welcher Wahrscheinlichkeit hat eine zuf¨allig der Produktion entnommene Schraube einen Durchmesser kleiner als 2,94 mm? b) Mit welcher Wahrscheinlichkeit haben zwei zuf¨allig der Produktion entnommene Schrauben den gleichen Durchmesser? c) Wie viel Prozent der Produktion sind Ausschuss, wenn bei der Qualit¨atskontrolle der Durchmesser um h¨ochstens 0, 05 mm vom Erwartungswert abweichen darf? d) Der Produktion wird eine Zufallsstichprobe von n = 30 Schrauben entnommen. Es ergibt sich ein mittlerer Durchmesser von x¯ = 2, 99 und eine Standardabweichung von σ ˆ = 0, 018. Testen Sie, ob sich die Maschine signifikant dejustiert hat. e) Geben Sie ein m¨oglichst gutes Intervall f¨ ur den p-Wert Ihres Tests an. f) Geben Sie ein realisiertes 95%-Konfidenzintervall f¨ ur die Standardabweichung des Schraubendurchmessers an. g) Bei einer zweiten Zufallsstichprobe vom Umfang n = 500 Schrauben ergab sich ein mittlerer Durchmesser von x¯ = 3, 0014 und eine Standardabweichung von σˆ = 0, 0205. Testen Sie, ob sich der Schraubendurchmesser gegen¨ uber dem Sollwert signifikant erh¨oht hat. Formulieren Sie die Hypothesen und benutzen Sie danach den p-Wert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 85
(L¨osung auf Seite 160, R-Code auf Seite 207)
Anhand eines Signifikanztests soll untersucht werden, ob eine vorgelegte M¨ unze fair“ ist, d.h. ” ob es plausibel ist, dass sie beim zuf¨alligen Wurf mit gleicher Wahrscheinlichkeit auf jede der beiden Seiten Kopf“ oder Zahl“ f¨allt. Die M¨ unze wird n = 196 Mal wiederholt geworfen, ” ” wobei 114 Mal die Seite Kopf“ oben liegt. ” a) Berechnen Sie ein 95%-Konfidenzintervall f¨ ur die Wahrscheinlichkeit p = P( Kopf“). ” b) F¨ uhren Sie einen Signifikanztest zum Niveau α = 5% durch, um zu testen, ob die M¨ unze fair“ ist. ” c) Wie k¨onnen Sie anhand des in Teilaufgabe a) berechneten Konfidenzintervalls den Test aus Teilaufgabe b) durchf¨ uhren? d) Geben Sie den p-Wert des Tests aus Teilaufgabe b) an und interpretieren Sie ihn. e) Geben Sie den Ablehnungsbereich des exakten Binomialtests f¨ ur das Testproblem aus Teilaufgabe b) an. Wie entscheidet der Test angesichts der beobachteten Daten? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
148
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Aufgabe 86
(L¨osung auf Seite 161)
Sie wissen, dass das Alter von Studenten im 5. Semester gut durch eine Normalverteilung ufen, angen¨ahert werden kann und es ist bekannt, dass die Varianz σ 2 = 4 ist. Um zu u ¨berpr¨ ob der Erwartungswert gleich 25 Jahre ist, befragen Sie 20 zuf¨allig ausgew¨ahlte Studenten. a) Formulieren Sie das Testproblem und geben Sie den Ablehnungsbereich (in Abh¨angigkeit von α) an. b) Angenommen, Sie haben aus Ihrer Stichprobe den Wert x = 26 erhalten. Zu welcher Testentscheidung kommen Sie beim Niveau α = 0, 05? Wie lautet der p-Wert? c) Zu welcher Testentscheidung w¨aren Sie jeweils gekommen, wenn die p-Werte Ihres Tests p1 = 0, 061, p2 = 0, 033, p3 = 0, 009 gewesen w¨aren? d) Wie groß ist der Fehler 2. Art in Teilaufgabe b), wenn der tats¨achliche Erwartungswert μ = 23 betr¨agt? e) Angenommen, die Varianz ist unbekannt, wird aber aus der Stichprobe auf σ ˆ 2 = 4, 5 gesch¨atzt. F¨ uhren Sie einen geeigneten Test zum Niveau α = 0, 05 durch. Geben Sie ein m¨oglichst genaues Intervall f¨ ur den p-Wert an. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 87
(L¨osung auf Seite 163, R-Code auf Seite 208)
Gl¨ uhbirnen zweier verschiedener Hersteller wurden auf ihre Brenndauer (in Stunden) untersucht. Dabei ergaben sich die folgenden Werte: Hersteller A B
Anzahl getesteter Gl¨ uhbirnen 15 25
mittlere Brenndauer 1.430 1.510
Streuung σ ˆ 90 110
Kann man aufgrund dieser Ergebnisse mit einer Irrtumswahrscheinlichkeit von α = 0, 01 bzw. α = 0, 05 behaupten, die von B hergestellten Gl¨ uhbirnen bes¨aßen eine l¨angere Brenndauer? a) Testen Sie die Behauptung, dass die von Produzent B hergestellten Gl¨ uhbirnen eine signifikant l¨angere Brenndauer haben als die von Produzent A. Es kann nicht unterstellt werden, dass die Varianzen der Brenndauer bei beiden Herstellern gleich sind. Geben Sie auch ein m¨oglichst gutes Intervall f¨ ur den p-Wert Ihres Tests an. b) Nehmen Sie jetzt vereinfachend an, dass die Varianzen der Brenndauer bei beiden Herstellern gleich sind. Welchen Test wenden Sie jetzt an und wie lautet Ihre Testentscheidung? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
Aufgabe 88
(L¨osung auf Seite 164, R-Code auf Seite 209)
Bei 52 Studenten, von denen bei einer medizinischen Untersuchung ihres allgemeinen Gesundheitszustandes 28 der Klasse A und 24 der Klasse B zugeteilt wurden, wurde in der Klasse A eine mittlere K¨orpergr¨oße von 180 cm bei einer Standardabweichung von 5 cm, in der Klasse B von 177 cm bei einer Standardabweichung von 7,5 cm festgestellt. Besteht ein signifikanter Unterschied zwischen den Durchschnittsgr¨oßen beider Klassen (Signifikanzniveau α = 0, 05)? (Es kann angenommen werden, dass die K¨orpergr¨oßen ann¨ahernd normalverteilt sind.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 89
(L¨osung auf Seite 165, R-Code auf Seite 209)
Die w¨ochentlichen Ums¨atze (in 10.000 EUR) von 6 Filialen einer Handelskette vor und nach einer Werbekampagne betrugen: Filiale vor der Werbekampagne: X nach der Werbekampagne: Y
1 18,5 20,2
2 15,6 16,6
3 20,1 19,8
4 17,2 19,3
5 21,1 21,9
6 19,3 19,0
F¨ ur die Mittelwerte ergeben sich die Werte x ¯ = 18, 63 und y¯ = 19, 47. Testen Sie, ob die Werbekampagne erfolgreich war, d.h. testen Sie, ob nach Durchf¨ uhrung der Werbekampagne signifikant h¨ohere Ums¨atze erzielt wurden als vorher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 90
(L¨osung auf Seite 166, R-Code auf Seite 209)
Bei 10 zuf¨allig ausgew¨ahlten Studierenden wurde an zwei Tagen die Anzahl der Anschl¨age pro Minute an einer Computertastatur gez¨ahlt. Am 1. Tag erhielten sie keine Getr¨anke, am 2. Tag wurden vorher 200 mg Koffein, d.h. mehrere Tassen Kaffee, verabreicht. Die Anzahl der Anschl¨age pro Student an den beiden Tagen k¨onnen der nachfolgenden Tabelle entnommen werden: Tag 1: X 2: Y
1 242 246
2 245 248
3 244 250
4 248 252
5 247 248
6 248 250
7 242 246
8 244 248
9 246 245
10 242 250
a) Testen Sie, ob es im Mittel einen signifikanten Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koffein gibt. In einem zweiten Experiment wurde wiederum die Anzahl der Anschl¨age pro Minute an einer Computertastatur gez¨ahlt. Diesmal wurden zwei Gruppen mit jeweils 10 ausgew¨ahlten Studenten gebildet. Die erste Gruppe erhielt keine Getr¨anke, der zweiten Gruppe wurden wiederum vorher 200 mg Koffein, d.h. mehrere Tassen Kaffee, verabreicht.
150
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Die Anzahl der Anschl¨age pro Student in der jeweiligen Gruppe k¨onnen der nachfolgenden Tabelle entnommen werden: Gruppe 1 2 3 4 5 6 7 8 9 10 1: X 242 245 244 248 247 248 242 244 246 242 2: Y 246 248 250 252 248 250 246 248 245 250 b) Testen Sie erneut, ob es im Mittel einen signifikanten Unterschied zwischen der Schreibgeschwindigkeit mit und ohne Koffein gibt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 91
(L¨osung auf Seite 167, R-Code auf Seite 210)
Der Oberb¨ urgermeister einer Stadt erhielt bei seiner letzten Wahl 60% der Stimmen. Bei einer Befragung vor der n¨achsten Wahl bevorzugten von 100 zuf¨allig ausgew¨ahlten wahlberechtigten Personen 48 den Amtsinhaber. Kann man hieraus schließen, dass sich sein Stimmenanteil seit der letzten Wahl signifikant ver¨andert hat? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 92
(L¨osung auf Seite 167, R-Code auf Seite 210)
Ein sportmedizinisches Institut will heraufinden, ob ein Zusammenhang zwischen Skifahren und dem Auftreten von Gelenksch¨aden besteht. Die Daten einer einfachen Zufallsstichprobe von 340 Erwachsenen sind in der folgenden Tabelle dargestellt: X\Y Skifahrer kein Skifahrer RV Y
Gelenkschaden 102 85 187
kein Gelenkschaden 68 85 153
RV X 170 170 340
a) Testen Sie zum Niveau 5%, ob das Auftreten von Gelenksch¨aden und Skifahren unabh¨angig ist. F¨ uhren Sie einen Signifikanztest durch und interpretieren Sie Ihr Testergebnis in einem Satz. b) Geben Sie ein m¨oglichst genaues Intervall f¨ ur den p-Wert an. c) Berechnen Sie den p-Wert exakt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 93
(L¨osung auf Seite 168, R-Code auf Seite 211)
Ein W¨ urfel soll daraufhin gepr¨ uft werden, ob alle Augenzahlen gleichwahrscheinlich sind, d.h. ob f¨ ur die Augenzahlen eine diskrete Gleichverteilung vorliegt. Ein Stichprobe vom Umfang n = 300 lieferte die folgenden absoluten H¨aufigkeiten: Augenzahl H¨aufigkeiten
1 45
2 65
3 55
4 35
5 40
6 60
151
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK Testen Sie, ob es sich um einen gef¨alschten W¨ urfel handelt. a) Formulieren Sie Nullhypothese und Alternative, f¨ uhren Sie einen Test zum Niveau α = 5% durch und interpretieren Sie Ihr Ergebnis in einem Satz. b) Bestimmen Sie ein m¨oglichst gutes Intervall f¨ ur den p-Wert. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 94
(L¨osung auf Seite 169, R-Code auf Seite 211)
Ein Meinungsforschungsinstitut stellt unabh¨angig ausgew¨ahlten Wahlberechtigten die Frage, welche Partei sie w¨ahlen w¨ urden, wenn am n¨achsten Sonntag Bundestagswahl w¨are. a) In einer Stichprobe von 9.000 Wahlberechtigten erkl¨arten 1.440, dass sie die Partei A w¨ahlen w¨ urden. Geben Sie ein realisiertes 95%-Konfidenzintervall f¨ ur den Stimmenanteil der Partei A an und interpretieren Sie Ihr Ergebnis in einem Satz. b) Testen Sie, ob der Anteil der Partei A signifikant von 14% abweicht. c) Mit welcher Wahrscheinlichkeit liegt der wahre Stimmenanteil von Partei A außerhalb des 95%-Konfidenzintervalls? (Begr¨ undung bzw. Rechnung!) d) Mit welcher Wahrscheinlichkeit liegt der wahre Stimmenanteil von Partei A außerhalb des realisierten 95%-Konfidenzintervalls? (Begr¨ undung bzw. Rechnung!) e) Nach der Wahl stellt sich heraus, dass der wahre Anteil von Partei A 15% ist. Mit welcher Wahrscheinlichkeit haben Sie angesichts dieser Information bei Ihrem Test in Teilaufgabe b) einen Fehler 1. Art begangen? (Mit kurzer Erl¨auterung!) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 95
(L¨osung auf Seite 170, R-Code auf Seite 211)
In einem weltweit agierenden Unternehmen wird der Nutzen des firmenweiten Traineeprogramms angezweifelt. 25 zuf¨allig ausgew¨ahlte Teilnehmer eines Jahrgangs werden jeweils zum Beginn und am Ende des Traineeprogramms einer genormten Pr¨ ufung unterzogen. F¨ ur die in beiden Pr¨ ufungen erzielten Punkte ergaben sich die folgenden Differenzen (nachher - vorher): 16, 9 46, 1 57, 1 16, 4 52, 5 12, 8 34, 6 24, 1 38, 7 8, 1 47, 5 57, 6 36, 9 45, 6 27, 9 35, 3 25, 3 48, 7 15, 3 65, 4 37, 9 15, 9 26, 9 43, 8 27, 1 Testen Sie, ob das Traineeprogramm signifikant einen durchschnittlichen Anstieg von mehr als 30 Punkten bewirkt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Aufgabe 96
(L¨osung auf Seite 171, R-Code auf Seite 212)
Die Verwendung von Superentkalker reduziert angeblich den Wasserverbrauch bei Waschmaschinen. Um das zu testen, wird auf je n = 18 zuf¨allig ausgew¨ahlten Waschmaschinen einmal mit bzw. einmal ohne Superentkalker gewaschen und der Wasserverbrauch gemessen. Die folgenden Werte wurden aus den Stichproben gesch¨atzt: mit Superentkalker ohne Superentkalker
Umfang 18 18
Mittelwert 40 41
Standardabweichung 4 3
a) Testen Sie, ob der Wasserverbrauch mit Superentkalker im Mittel signifikant niedriger ist. b) Beschreiben Sie kurz, wann Sie konkret bei diesem Test einen Fehler 2. Art gemacht haben. c) Angenommen, jede der beiden Stichproben h¨atte den Umfang n = 120 gehabt und man h¨atte die gleichen Mittelwerte und Varianzen gesch¨atzt wie oben. Bestimmen Sie n¨aherungsweise den p-Wert, den ein Computer ausgibt, wenn Sie den gleichen Test wie in Teilaufgabe a) durchf¨ uhren. d) Angenommen, man h¨atte zur Ermittlung der Daten die gleichen Waschmaschinen einmal mit und danach einmal ohne Superentkalker laufen lassen und jeweils den Wasserverbrauch gemessen. H¨atten Sie den gleichen Test wie oben benutzt? Begr¨ unden Sie Ihre Antwort bzw. geben Sie an, welchen anderen Test Sie benutzt h¨atten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 97
(L¨osung auf Seite 172, R-Code auf Seite 212)
Regelm¨aßig nach der Vorlesung gehen 4 Studierende einer Lerngruppe zum Essen in die Mensa, wo sie ihr Gericht an 4 Theken ausw¨ahlen k¨onnen. Angenommen, jeder der 4 Studierenden trifft unabh¨angig von den anderen und jeweils rein zuf¨allig seine Entscheidung, an welcher Theke er sein Mittagessen holt. Diese Situation soll im Folgenden als Laplace-Modell formalisiert werden. a) Nennen Sie ein Ergebnis dieses Experiments und geben Sie an, wie viele Ergebnisse es insgesamt im Modell gibt. b) Wie viele verschiedene Ereignisse sind in diesem Modell abbildbar? c) Geben Sie das Ereignis A = Alle gehen an die gleiche Theke“ in aufz¨ahlender Form an ” und berechnen Sie seine Wahrscheinlichkeit im Modell. d) Mit welcher Wahrscheinlichkeit holen die 4 Studierenden ihr Essen alle an verschiedenen Theken? 153
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK Die Zufallsvariable X bezeichnet nun die Anzahl der Studierenden der Lerngruppe, die an Theke 3 ihr Essen holen. e) Geben Sie konkret die Verteilung dieser Zufallsvariablen X an. (Mit kurzer Begr¨ undung bzw. allen evtl. Parametern.) f) Was ist die erwartete Anzahl von Studierenden der Lerngruppe, die an Theke 3 ihr Essen holen? Es gibt Zweifel daran, dass die Mitglieder der Lerngruppe sich gleich wahrscheinlich auf die Theken aufteilen. In der folgenden Tabelle sind die beobachteten H¨aufigkeiten nach 30 Mensabesuchen aufgef¨ uhrt. Theke Nr. H¨aufigkeit an der Theke
1 22
2 40
3 34
4 24
g) Testen Sie, ob man von einer Gleichverteilung an den Theken ausgehen kann. F¨ uhren Sie einen Signifikanztest zum Niveau α = 5% durch und interpretieren Sie kurz Ihr Ergebnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 98
(L¨osung auf Seite 173, R-Code auf Seite 212)
Um den Ger¨ uchten entgegenzutreten, dass Mitglieder einer bestimmten Partei es einfacher ¨ h¨atten, h¨ohere ¨offentliche Amter zu besetzen, hat der B¨ urgermeister einer westdeutschen Großstadt ein unabh¨angiges Institut mit einer Untersuchung beauftragt. Das Institut erstellt daraufhin eine Statistik u ¨ber die Einstellung von insgesamt 150 Kommunalbeamten in den letzten 5 Jahren. Partei A mittlere Posten gehobene Posten h¨ochste Posten Stadtdirektor Summe
15 15 19 1 50
andere Partei / ohne Parteibuch 60 30 10 0 100
Summe 75 45 29 1 150
¨ Kann aus den zur Verf¨ ugung stehenden Daten auf eine Abh¨angigkeit zwischen Amtervergabe und Parteizugeh¨origkeit geschlossen werden? (α = 0, 05) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 99
(L¨osung auf Seite 174, R-Code auf Seite 213)
In einer Studie zur Untersuchung von Herzkreislauferkrankungen wurden bei 6 M¨annern der BodyMassIndex = Gewicht in kg / (K¨orpergr¨oße in cm)2 (X) und der systolische Blutdruck ¨ (Y) ermittelt. Es wird vermutet, dass Ubergewicht Bluthochdruck hervorruft. F¨ ur die Stichprobe von 6 M¨annern erhielt man folgende Werte: 154
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS BMI xi 26 23 27 28 24 25 Blutdruck yi 170 150 160 175 155 150 Nehmen Sie an, dass sich der Zusammenhang zwischen BMI und Blutdruck durch das Modell der linearen Einfachregression beschreiben l¨asst. a) Bestimmen Sie die Kleinste-Quadrate-Sch¨atzer f¨ ur β0 und β1 . b) Stellen Sie die Daten und die Ausgleichsgerade graphisch dar. c) Geben Sie die Streuungszerlegung an und beurteilen Sie die Anpassungsg¨ ute des Modells. d) Geben Sie jeweils 95%-Konfidenzintervalle f¨ ur β0 und β1 an. e) Testen Sie die Hypothese H0 : β1 = 0 gegen H1 : β1 = 0 und interpretieren Sie Ihr Ergebnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aufgabe 100
(L¨osung auf Seite 176, R-Code auf Seite 213)
Ein Landwirt besitzt 7 Parzellen, auf denen er eine unterschiedliche Menge an D¨ unger verwendet. Er interessiert sich nun daf¨ ur, ob sich die Menge an eingesetztem D¨ unger auf seinen Ernteertrag auswirkt. Dazu hat er die D¨ ungerkonzentration und den Ernteertrag in einer Tabelle zusammengestellt: D¨ ungerkonzentration X Ernteertrag Y
100 40
200 50
300 50
400 70
500 65
600 65
700 80
Der Landwirt vermutet, dass sich der Zusammenhang zwischen D¨ ungerkonzentration und Ernteertrag anhand des Modells der linearen Einfachregression beschreiben l¨asst. a) Analysieren Sie den Einfluss der D¨ ungerkonzentration auf den Ernteertrag, indem Sie die Kleinste-Quadrate-Sch¨atzer f¨ ur die Parameter im Modell bestimmen. b) Stellen Sie die Daten graphisch dar und zeichnen Sie die Ausgleichsgerade ein. c) Geben Sie die Streuungszerlegung an. Wie gut passt sich Ihr Modell an die Daten an? d) Geben Sie f¨ ur die Modellparameter jeweils ein 95%-Konfidenzintervall an. ¨ e) Uberpr¨ ufen Sie die Vermutung des Landwirts, dass es einen linearen Zusammenhang zwischen D¨ ungerkonzentration und Ernteertrag gibt, indem Sie einen geeigneten Hypothesentest anwenden. f) Mit welchem Ernteertrag kann der Landwirt bei einer D¨ ungerkonzentration von 800 auf seiner Parzelle rechnen? Geben Sie ein 95%-Konfidenzinterall f¨ ur Ihre Prognose an. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
155
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 81 auf Seite 146 a) Den Sch¨atzwert f¨ ur den Erwartungswert μ erh¨alt man durch Berechnung des arithmetischen Mittels x¯ aus der Stichprobe, x¯ = 30, 5. Die gesch¨atzte mittlere F¨ ullmenge des Getr¨ankeautomaten betr¨agt also 30, 5 cl. b) Die F¨ ullmenge des Getr¨ankeautomaten kann als normalverteilte Zufallsvariable modelliert werden. Zus¨atzlich wird die Standardabweichung der F¨ ullmenge mit σ = 1, 2 als bekannt angenommen, d.h. X ∼ N(μ; 1, 22). Man erh¨alt das realisierte 95%-Konfidenzintervall f¨ ur μ, wenn σ 2 bekannt ist, durch folgende Berechnung: 1, 2 σ σ 1, 2 x¯ − z1− α2 · √ ; x¯ + z1− α2 · √ = 30, 5 − 1, 96 · √ ; 30, 5 + 1, 96 · √ n n 10 10 = [29, 756 ; 31, 244] c) Es wird nun unterstellt, dass die Standardabweichung unbekannt ist und deshalb aus der Stichprobe gesch¨atzt werden muss. Man erh¨alt 1 (xi − x¯)2 = 2, 789 = 1, 672 n − 1 i=1 n
σ ˆ2 =
F¨ ur das realisierte 95%-Konfidenzintervall f¨ ur μ, wenn σ 2 unbekannt ist, erh¨alt man σ ˆ 1, 67 = [29, 305 ; 31, 695] x¯ ± t1− α2 ;n−1 · √ = 30, 5 ± 2, 2622 · √ n 10 Da die Standardabweichung als weiterer Parameter im Modell gesch¨atzt werden musste, ist das realisierte Konfidenzintervall zum selben Niveau jetzt tendenziell breiter. d) Nun soll ein 95%-Konfidenzintervall f¨ ur die Varianz bzw. die Standardabweichung angegeben werden. Realisiertes 95%-Konfidenzintervall f¨ ur σ2 : (n − 1)ˆ σ2 (n − 1)ˆ σ2 9 · 2, 789 9 · 2, 789 ; = [1, 3195 ; 9, 2953] ; = χ21− α ;n−1 χ2α ;n−1 19, 023 2, 7004 2
2
√ √ Realisiertes 95%-Konfidenzintervall f¨ ur σ: [ 1, 3195 ; 9, 2953] = [1,1487 ; 3,0488] e) Es sollen im Weiteren die Konfidenzintervalle der Teilaufgaben b), c) und d) f¨ ur eine Stichprobe vom Umfang n = 41 berechnet werden. Dabei wird unterstellt, dass die Sch¨atzwerte μ ˆ und σ ˆ den Sch¨atzwerten aus der Stichprobe mit n = 10 entsprechen. Realisiertes 95%-Konfidenzintervall f¨ ur μ, wenn σ 2 = 1, 22 bekannt ist: σ 1, 2 = [30, 133 ; 30, 867] x¯ ± z1− α2 · √ = 30, 5 ± 1, 96 · √ n 41 156
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Realisiertes 95%-Konfidenzintervall f¨ ur μ, wenn σ 2 unbekannt ist: σ ˆ 1, 67 = [29, 973 ; 31, 027] x¯ ± t1− α2 ;n−1 · √ = 30, 5 ± 2, 0211 · √ n 41 Realisiertes 95%-Konfidenzintervall f¨ ur σ 2 : (n − 1)ˆ σ 2 (n − 1)ˆ σ2 40 · 2, 789 40 · 2, 789 ; = ; = [1, 88 ; 4, 566] χ21− α ;n−1 χ2α ;n−1 59, 342 24, 433 2
2
√ √ Realisiertes 95%-Konfidenzintervall f¨ ur σ : [ 1, 88 ; 4, 566] = [1, 3711 ; 2, 1368] Wenn man die Konfidenzintervalle f¨ ur n = 41 mit den entsprechenden Konfidenzintervallen f¨ ur n = 10 vergleicht, stellt man fest, dass bei einer gr¨oßeren Stichprobe die Konfidenzintervalle schmaler werden. Eine gr¨oßere Stichprobe hat also bei gleichem Signifikanzniveau eine genauere Intervallsch¨atzung zur Folge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 82 auf Seite 146 a) Der Sch¨atzer f¨ ur den Anteil der Bef¨ urworter unter den Wahlberechtigten ist der Anteil der Bef¨ urworter in der Stichprobe. Somit erh¨alt man einen Sch¨atzwert von pˆ =
430 = 0, 43 1.000
b) Als realisiertes (approximatives) 95%-Konfidenzintervall f¨ ur den Anteil der Bef¨ urworter der großen Koalition erh¨alt man pˆ(1 − pˆ) pˆ(1 − pˆ) α α pˆ − z1− 2 ; pˆ + z1− 2 n n 0, 43 · 0, 57 0, 43 · 0, 57 ; 0, 43 + 1, 96 · = 0, 43 − 1, 96 · 1000 1000 = [0, 3993; 0, 4607] c) Als realisiertes (approximatives) 99%-Konfidenzintervall f¨ ur den Anteil der Bef¨ urworter der großen Koalition erh¨alt man 0, 43 · 0, 57 0, 43 · 0, 57 0, 43 − 2, 5758 · = [0, 3897 ; 0, 4703] ; 0, 43 + 2, 5758 · 1000 1000 d) Das realisierte 100%-Konfidenzintervall f¨ ur den Anteilswert betr¨agt [0 ; 1], d.h. der Anteil der Bef¨ urworter der großen Koalition liegt mit Sicherheit zwischen 0 und 1. Das wusste man schon vorher laut Modellannahme, und ein 100%-Konfidenzintervall hat dar¨ uber hinaus keine Aussagekraft mehr. 157
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK e) Die Breite Δ des (approximativen) 95%-Konfidenzintervalls ist: pˆ(1 − pˆ) 1 1 ≤ 2 · z0,975 · · √ Δ = 2 · z0,975 · n 2 n Dabei gilt die letzte Absch¨atzung, weil f¨ ur 0 ≤ pˆ ≤ 1 der Ausdruck pˆ · (1 − pˆ) genau f¨ ur pˆ = 12 maximal wird und den Wert 14 annimmt. Damit die vorgegebene Genauigkeit erf¨ ullt ist, sollte jedenfalls Δ ≤ 0, 04 gelten. Das ist gleichbedeutend mit einer Toleranz von 2 Prozentpunkten nach oben“ und nach unten“. ” ” Der minimale Stichprobenumfang folgt aus: 1 2 · z0,975 · √ ≤ 0, 04 2 n
⇔
1 2 · 1, 96 · √ ≤ 0, 04 2 n
⇔
n ≥ 2401
Man muss also mindestens 2.401 Wahlberechtigte befragen, damit das resultierende approximative 95%-Konfidenzintervall bis auf 2 Prozentpunkte genau ist. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 83 auf Seite 147 a) Gesucht ist ein Konfidenzintervall f¨ ur das mittlere Alter der potentiellen Kundinnen der Modeboutique mit n = 41, α = 0, 01, σ = 10: 10 σ 10 x ± z1− α2 · √ = 36 ± z0,995 · √ = 36 ± 2, 5758 · √ n 41 41 = [36 ± 4, 023] = [31, 977 ; 40, 023] b) Um die Breite des Konfidenzintervalls zu halbieren, muss die Stichprobe vervierfacht werden, da n im Intervall im Nenner unter der Wurzel steht. 1 10 σ σ 1 x¯ ± z1− α2 · √ = x¯ ± · z1− α2 · √ = 36 ± · 2, 5758 · √ 2 n 2 4n 41 = [36 ± 2, 0115] = [33, 9885 ; 38, 0115] c) Eine Erh¨ohung des Stichprobenumfangs f¨ uhrt zu einer h¨oheren Sch¨atzgenauigkeit, das Konfidenzintervall wird also schmaler. Eine Vervierfachung der Stichprobe f¨ uhrt zu einer Halbierung des Konfidenzintervalls. Wenn die Irrtumswahrscheinlichkeit erh¨oht wird, wird das Konfindenzniveau 1 − α kleiner, und damit auch z1− α2 . Insgesamt wird das Konfindenzintervall also schmaler. Umgekehrt geht ein niedrigeres Signifikanzniveau mit einer gr¨oßeren Ungenauigkeit einher. d) Da nun die Standardabweichung gesch¨atzt wird, muss zur Berechnung des Konfidenzintervalls f¨ ur den Erwartungswert die t-Verteilung angewendet werden. σˆ 10 10 x ± t1− α2 ;n−1 · √ = 36 ± t0,995;40 · √ = 36 ± 2, 7045 · √ n 41 41 = [36 ± 4, 224] = [31, 776 ; 40, 224] 158
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Das Konfidenzintervall ist aufgrund der gr¨oßeren Unsicherheit breiter als das aus Teilaufgabe a), da ein zus¨atzlicher Parameter gesch¨atzt wurde. e) Die Konfidenzintervalle in den Teilaufgaben a) und d) k¨onnen unver¨andert bleiben, denn aufgrund des Zentralen Grenzwertsatzes approximiert die Normalverteilung (fast) jede andere Verteilung. f) Realisiertes 95%-Konfindenzintervall f¨ ur σ 2 : 40 · 102 40 · 102 4000 4000 ; = ; = [67, 406 ; 163, 713] χ20,975;40 χ20,025;40 59, 342 24, 433 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 84 auf Seite 148 a) Der Durchmesser einer zuf¨allig der Produktion entnommenen Schraube kann als norur malverteilte Zufallsvariable X ∼ N(3; 0, 022 ) modelliert werden. Damit ergibt sich f¨ die gesuchte Wahrscheinlichkeit: 2, 94 − 3 X −3 < = Φ(−3) = 1 − 0, 9987 = 0, 0013 P(X < 2, 94) = P 0, 02 0, 02 b) Weil es sich im Modell um stetig verteilte Zufallsvariablen handelt, ist die Wahrscheinlichkeit, dass zwei zuf¨allig der Produktion entnommene Schrauben exakt den gleichen Durchmesser haben, gleich 0. c) Die Wahrscheinlichkeit daf¨ ur, dass eine zuf¨allig der Produktion entnommene Schraube zum Ausschuss geh¨ort, ist |X − 3| 0, 05 P( Ausschuss“) = P(|X − 3| > 0, 05) = P > ” 0, 02 0, 02 = 2 · P(Z > 2, 5) = 2 · 0, 006210 = 0, 01242 mit Z ∼ N(0; 1) Bei diesen Toleranzgrenzen muss mit ca. 1,2% Ausschuss gerechnet werden. d) Weil die Varianz aus der Stichprobe gesch¨atzt wurde, wird mit dem zweiseitigen t-Test die folgende Hypothese getestet: H0 : μ = 3
gegen
H1 : μ = 3
F¨ ur den realisierten Wert der Teststatistik bekommt man: √ 2, 99 − 3 = −3, 0429 tbeob = 30 · 0, 018 Unter H0 ist die Teststatistik t-verteilt mit 29 Freiheitsgraden. Der kritische Wert zum Niveau α = 5% ist t1− α2 ;n−1 = t0,975;29 = 2, 0452. Da |tbeob | = 3, 0429 > 2, 0452 = t0,975;29 , wird die Nullhypothese abgelehnt. Man muss also angesichts der Stichprobe davon ausgehen, dass sich die Maschine signifikant dejustiert hat. 159
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK e) In der Tabelle der Quantile der t-Verteilung findet man f¨ ur n = 29 die beiden Werte: t0,995;29 = 2, 7564 < |tbeob | < 3, 3962 = t0,999;29 . Also liegt der p-Wert zwischen 0,002 und 0,01. Das Testergebnis ist damit sogar hochsignifikant. Mit Hilfe von R findet man den exakten p-Wert = 0, 00494. f) Das realisierte 95%-Konfidenzintervall f¨ ur die Varianz σ 2 des Schraubendurchmessers hat die Grenzen 29 · 0, 0182 29 · 0, 0182 0, 009396 0, 009396 = [0, 01432 ; 0, 02422] ; = ; χ20,975;29 χ20,025;29 45, 722 16, 047 Daraus ergibt sich [0, 0143 ; 0, 0242] als realisiertes 95%-Konfindezintervall f¨ ur die Standardabweichung σ der Schraubendurchmesser. g) Wegen des großen Stichprobenumfangs kann jetzt trotz der gesch¨atzten Varianz der einseitige Gauß-Test auf die folgende Hypothese angewandt werden: H0 : μ = 3
gegen
H1 : μ > 3
Der realisierte Wert der Teststatistik und der kritische Wert sind: √ 3, 0014 − 3 = 1, 527 und z0,95 = 1, 6449 zbeob = 500 · 0, 0205 Da zbeob = 1, 527 > 1, 6449 = z0,95 , kann die Nullhypothese nicht abgelehnt werden, und man kann nicht davon ausgehen, dass sich der Durchmesser gegen¨ uber dem Sollwert signifikant erh¨oht hat. F¨ ur den p-Wert erh¨alt man p-Wert = P(Z > 1, 527) ≈ 0, 063. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 85 auf Seite 148 a) Bestimmt wird ein approximatives 95%-Konfidenzintervall f¨ ur den Anteilswert p. Aus ≈ 58, 16%. Da die Bedingung der Stichprobe ergibt sich der Sch¨atzwert pˆ = 114 196 nˆ p · (1 − pˆ) ≈ 47, 69 > 9 erf¨ ullt ist, gilt f¨ ur das realisierte approximative 95%-Konfidenzintervall: pˆ · (1 − pˆ) pˆ · (1 − pˆ) ; pˆ + z0,975 · pˆ − z0,975 · n n 0, 5816 · 0, 4184 0, 5816 · 0, 4184 = 0, 5816 − 1, 96 · ; 0, 5816 − 1, 96 · 196 196 = [0, 5125 ; 0, 6507] b) Getestet wird zum Niveau α = 5% mit Hilfe des zweiseitigen approximativen Binomialtests die folgende Hypothese: H0 : p = p0 = 0, 5 gegen H1 : p = 0, 5 160
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Der realisierte Wert der Teststatistik ist √ √ pˆ − p0 0, 5816 − 0, 5 = 196 · √ = 2, 2848 zbeob = n · 0, 5 · 0, 5 p0 · (1 − p0 ) Da 2, 2848 > z0,975 = 1, 96, wird die Nullhypothese zum Niveau 5% abgelehnt. Man muss also davon ausgehen, dass die M¨ unze nicht fair“ ist. ” c) Da es sich um einen zweiseitigen Test handelt, f¨ uhrt er hier genau dann zur Ablehnung, wenn 0, 5, d.h. der Wert von p unter der Nullhypothese, nicht im realisierten 95%Konfindenzintervall enthalten ist. Mit dieser Entscheidungsregel kommt man auf das gleiche Testergebnis wie in der vorherigen Teilaufgabe. d) Der p-Wert des Tests aus Teilaufgabe b) ist durch die Wahrscheinlichkeit gegeben, dass die Teststatistik Z ∼ N(0; 1) unter der Nullhypothese einen extremeren Wert als f¨ ur die gegebene Stichprobe annimmt, d.h. 2 · P (Z ≥ |zbeob |), Z ∼ N(0; 1). Hier erh¨alt man p-Wert = 2 · P (Z ≥ 2, 2848) ≈ 2 · 0, 01115 = 0, 0223. Da 0, 01 < p-Wert < 0, 05, ist das Testergebnis zwar signifikant, aber nicht hochsignifikant, d.h. ein Test zum Niveau 1% w¨ urde nicht zur Ablehnung der Nullhypothese f¨ uhren. e) Der exakte Binomialtest geht auch von der Modellvorstellung einer binomialverteilten Zufallsvariablen aus, vermeidet aber die Approximation durch die Normalverteilung. Unter der Nullhypothese gilt exakt: Sn ∼ B(n, p0 ), wobei Sn = X1 + · · ·+ Xn die Anzahl der Treffer“ in der Stichprobe X1 , . . . , Xn ist. Laut Modellannahme sind die einzelnen ” Xi unabh¨angig und Bernoulli-verteilt, Xi ∼ B(1; p). Zu gegebenem Niveau α wird damit der Ablehnungsbereich [0, su ] ∪ [so , n] so bestimmt, dass P (su < Sn < so ) ≥ 1 − α gilt, d.h. die Grenzen su und so werden Quantile der Binomialverteilung B(n; p0 ). Mit Hilfe der Verteilungsfunktion der Binomialverteilung B(196; 0, 5) erh¨alt man den Ablehnungsbereich als Vereinigung der beiden Intervalle [0 ; 83] und [113 ; 196]. Die Irrtumswahrscheinlichkeit ist dann α = 0, 019+0, 01902 = 0, 038, d.h das Signifikanzniveau wird nicht vollst¨andig ausgesch¨opft. Der beobachtete Wert 114 f¨ uhrt auch hier zur Ablehnung der Nullhypothese. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 86 auf Seite 149 a) Es soll getestet werden, ob der Erwartungswert μ des Alters der Studenten im 5. Semester 25 Jahre betr¨agt. Wegen der Annahme der Normalverteilung und der bekannten Varianz von σ 2 = 4 kann der zweiseitige Gauß-Test auf das folgende Testproblem angewandt werden: H0 : μ = 25 gegen H1 : μ = 25 √ √ X−μ und ist unter der Die Teststatistik ist gegeben durch Z = n · σ = 20 · X−25 2 Nullhypothese H0 standardnormalverteilt, Z ∼ N(0; 1). Zum Niveau α = 0, 05 geh¨oren die beiden Quantile ±z1− α2 = ±z0,975 = ±1, 96. Daraus ergibt sich, dass die Nullhypothese H0 (zum Niveau 5%) abgelehnt wird, falls der realisierte Wert der Teststatistik außerhalb des Intervalls (−1, 96; 1, 96) liegt. Folglich besteht 161
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK der Ablehnungsbereich des Tests aus der Vereinigung der beiden Intervalle (−∞; −1, 96] und [1, 96; ∞). b) Der beobachtete Mittelwert x¯ = 26 liefert den realisierten Wert der Teststatistik: zbeob =
√ 26 − 25 √ 20 · = 5 ≈ 2, 236 2
Der kritische Wert ist z0,975 = 1, 96. Da 2, 236 = |zbeob | > z0,975 = 1, 96, wird die Nullhypothese abgelehnt. Man kann also davon ausgehen, dass das mittlere Alter signifikant von 25 Jahren abweicht. Zur gleichen Entscheidung kommt man, wenn man bemerkt, dass zbeob in den Ablehnungsbereich aus der vorherigen Teilaufgabe f¨allt. Der p-Wert ist die Wahrscheinlichkeit, mit der die Teststatistik einen extremeren Wert als f¨ ur die gegebenen Daten annimmt. Hier ergibt sich: p-Wert = 2 · P(Z ≥ |zbeob |) = 2 · (1 − P(Z ≤ 2, 236)) = 2 · (1 − 0, 9873) = 0, 0254 Das Signifikanzniveau α = 0, 05 ist gr¨oßer als der p-Wert, d.h. man kann die Nullhypothese verwerfen. Da der p-Wert gr¨oßer als 0, 01 ist, kann die Nullhypothese zum Niveau α = 1% nicht abgelehnt werden. Das Ergebnis des Tests ist signifikant (Ablehnung zum Niveau 5%), aber nicht hochsignifikant (keine Ablehnung zum Niveau 1%). c) Beim p-Wert p1 = 0, 061 ist das Testergebnis nicht signifikant. H0 wird zum Niveau 5% nicht abgelehnt. Beim p-Wert p2 = 0, 033 ist das Testergebnis signifikant, aber nicht hochsignifikant. H0 wird zum Niveau 5% abgelehnt, aber zum Niveau 1% nicht abgelehnt. Beim p-Wert p3 = 0, 009 ist das Testergebnis hochsignifikant. H0 wird zum Niveau 1% abgelehnt. d) Der Fehler 2. Art bedeutet, dass eine Nullhypothese angenommen wird, obwohl diese falsch ist. Zur Berechnung der Wahrscheinlichkeit f¨ ur den Fehler 2. Art muss man also etwas u ¨ber die Verteilung der Teststatistik wissen, wenn die Nullhypothese H0 nicht gilt. Hier soll angenommen werden, dass der wahre“ Wert μ = 23 ist. Unter dieser √ Annahme ” ist die Teststatistik wieder normalverteilt, aber mit Mittelwert E(Z) = 20 · 23−25 = 2 √ Varianz Var(Z) = 1. Wenn der wahre Mittelwert μ = 23 ist, dann gilt − 20 und √ Z ∼ N(− 20; 1). Mit diesen Vorbereitungen kann die Wahrscheinlichkeit f¨ ur den Fehler 2. Art (wenn μ = 23 ist) berechnet werden: √ P( Fehler 2. Art“) = P(−1, 96 < Z < 1, 96) und Z ∼ N(− 20; 1) ” √ √ √ = P(−1, 96 + 20 < Z + 20 < 1, 96 + 20) √ √ √ = Φ(1, 96 + 20) − Φ(−1, 96 + 20) weil Z + 20 ∼ N(0; 1) ≈ Φ(6, 43) − Φ(2, 51) = 1 − 0, 994 = 0, 006 162
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Einen Fehler 1. Art begeht man, wenn die Nullhypothese f¨alschlicherweise abgelehnt wird. Weil bei richtiger Nullhypothese Z ∼ N(0; 1), ergibt sich f¨ ur die Wahrscheinlichkeit f¨ ur den Fehler 1. Art: P( Fehler 1. Art“) = P(|Z| > 1, 96) und Z ∼ N(0; 1) ” = 1 − P(−1, 96 < Z < 1, 96) = 1 − (Φ(1, 96) − Φ(−1, 96)) = 0, 05 Wie nach Konstruktion des Tests nicht anders zu erwarten war, bekommt man genau das Signifikanzniveau α = 5% als Ergebnis. e) Da nun die Varianz unbekannt ist und zus¨atzlich gesch¨atzt werden muss, wird der zweiseitige t-Test auf das gleiche Testproblem wie oben angewandt. Wegen σ ˆ 2 = 4, 5 wird der realisierte Wert der Teststatistik: tbeob =
√ 26 − 25 20 · √ ≈ 2, 108 4, 5
F¨ ur den kritischen Wert bekommt man t1− α2 ;n−1 = t0,975;19 = 2, 093. Weil |tbeob | = 2, 108 > 2, 093 = t0,975;19 , wird die Nullhypothese auch in diesem Fall abgelehnt. Ein Intervall f¨ ur den p-Wert bekommt man, indem man in der Tabelle der Quantile der t-Verteilung bei n = 19 nachschaut, welche Quantile tbeob einschließen. Man findet t0,975;19 = 2, 093 < |tbeob | < 2, 5395 = t0,99;19 . Daraus folgt, dass der p-Wert des zweiseitigen Tests zwischen 0,02 und 0,05 liegt. Mit Hilfe von R findet man den exakten p-Wert = 0, 0485. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 87 auf Seite 149 Getestet wird, ob die Gl¨ uhbirnen von Hersteller B signifikant l¨anger brennen als die von Hersteller A. Mit Hilfe eines einseitigen t-Tests wird die folgende Hypothese getestet: H0 : μA − μB = 0
gegen
H1 : μ A − μ B < 0
a) Es soll zun¨achst ein Zwei-Stichproben-Test mit unbekannten, nicht gleichen Varianzen angewandt werden. Die Pr¨ ufgr¨oße ist t-verteilt, T ∼ t(k). An − B m T = S2 SA2 + B n m Um den kritischen Wert der Teststatistik bestimmen zu k¨onnen, muss zun¨achst die Anzahl der Freiheitsgrade k berechnet werden: 2 2 2 2 2 σ ˆA σ ˆB 90 1102 n + m 15 + 25 (540 + 484)2 k≤ = = 34, 279 2 2 2 2 = 1 902 2 2 2 2 5402 1 σ ˆA σ ˆB + 484 1 1 · 15 + 24 · 110 14 24 + m−1 14 25 n−1 n m 163
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK Die Teststatistik hat somit unter H0 die Verteilung T ∼ t(34). Als kritische Werte erh¨alt man t0,05;34 = −t0,95,34 = −1, 6909 und t0,01;34 = −t0,99,34 = −2, 4411. Aus der Stichprobe berechnet man den realisierten Wert der Teststatistik: −80 1.430 − 1.510 −80 = tbeob = =√ = −2, 5 32 902 1102 540 + 484 + 25 15 Der realisierte Wert der Teststatistik tbeob = −2, 5 ist kleiner als t0,05;34 = −1, 6909 und kleiner als t0,01;34 = −2, 4411. Die Nullhypothese wird also sowohl zum Niveau 5% als auch zum Niveau 1% abgelehnt. Man kann davon ausgehen, dass die Gl¨ uhbirnen von Hersteller B hochsignifikant l¨anger brennen als jene von Hersteller A. Aus der Tabelle der Quantile der t-Verteilung mit 34 Freiheitsgraden liest man die Werte t0,005;34 = −2, 7284 < −2, 5 < −2, 4411 = t0,01;34 ab. Also liegt der p-Wert zwischen 0, 005 und 0, 01. Mit Hilfe von R erh¨alt man den exakten p-Wert von 0, 0087. b) Wenn man einen t-Test f¨ ur 2 Stichproben mit gleichen Varianzen anwendet, lautet die Teststatistik: T =
An − B m 1 1 S· + n m
mit
T ∼ t(n + m − 2) unter H0
Man erh¨alt f¨ ur die gesch¨atzte Varianz σˆ 2 = 14 · 902 + 24 · 1102 ≈ 10.626, 316 und als 38 38 realisierten Wert der Teststatistik tbeob = −80/33, 667 = −2, 376. Die kritischen Werte sind t0,05;38 = −1, 686 und t0,01;38 = −2, 4286. Da tbeob = −2, 376 < −1, 686 = t0,05;38 und tbeob = −2, 376 < −2, 4286 = t0,01;38 , wird in diesem Fall die Nullhypothese zum Niveau 5% abgelehnt, aber nicht zum Niveau 1%. Mit Hilfe von R berechnet man den exakten p-Wert = 0, 0113. Dieser ist nur etwas gr¨oßer als 0,01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 88 auf Seite 150 Es soll getestet werden, ob die Mittelwerte der K¨orpergr¨oßen in beiden Klassen gleich sind. Die Varianzen der K¨orpergr¨oßen sind unbekannt, k¨onnen aber vereinfachend als gleich angenommen werden. Getestet wird mit Hilfe eines t-Tests die folgende Hypothese: H0 : μA − μB = 0
gegen
H1 : μA − μB = 0
Unter der Nullhypothese hat die Teststatistik eine t-Verteilung mit n + m − 2 = 50 Freiheitsgraden, T ∼ t(50). F¨ ur den kritischen Wert der Teststatistik erh¨alt man t1− α2 ;n+m−2 = t0,975;50 = 2, 0086. Die Nullhypothese wird abgelehnt, falls |tbeob | > t0,975;50 . Um den realisierten Wert der Teststatistik zu berechnen, muss zun¨achst die gesch¨atzte Varianz ermittelt werden. σ ˆ2 = 164
2 + (m − 1) · σ ˆY2 (n − 1) · σˆX 27 · 52 + 23 · 7, 52 1968, 75 = = = 39, 375 n+m−2 28 + 24 − 2 50
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Daraus folgt f¨ ur den berechneten Wert der Teststatistik tbeob =
x¯ − y¯ σ ˆ · n1 +
= 1 m
180 − 177 1 6, 275 · 28 +
= 1 24
3 3 √ = 1, 718 = 1, 746 6, 275 · 0, 0774
Da |1, 718| > 2, 0086, kann H0 nicht abgelehnt werden. Es gibt damit keinen signifikanten Gr¨oßenunterschied zwischen den beiden Klassen. Falls die vereinfachende Annahme der gleichen Varianzen nicht getroffen wird, muss zun¨achst die Anzahl der Freiheitsgrade k bestimmt werden. Man erh¨alt k = 39, 0359, und damit hat die Teststatistik in diesem Fall die Verteilung T ∼ t(39). Als kritischen Wert erh¨alt man t0,975;39 = 2, 02, und als realisierter Wert der Teststatistik ergibt sich tbeob = 1, 6675. Da tbeob = 1, 6675 > 2, 02 = t0,975;39 , kann auch im Falle ungleicher Varianzen die Nullhypothese nicht abgelehnt werden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 89 auf Seite 150 Es wird ein t-Test f¨ ur verbundene Stichproben durchgef¨ uhrt. Es soll getestet werden, ob die Ums¨atze nach der Werbekampagne signifikant h¨oher sind als vorher, d.h. das Signifikanzniveau betr¨agt α = 5%. Getestet wird die Hypothese H0 : μX − μY = 0
gegen
H1 : μ X − μ Y < 0
Dazu ermittelt man zuerst die Tabelle der Differenzen di = xi − yi . Filiale D =X −Y
1 2 3 4 5 6 -1,7 -1,0 0,3 -2,1 -0,8 0,3
Zur Berechnung des realisierten Wertes der Teststatistik m¨ ussen zun¨achst Erwartungswert ˆD = 0, 995. und Varianz der Variablen D = X − Y gesch¨atzt werden: d = −0, 833 und σ Daraus ergeben sich f¨ ur den realisierten Wert der Teststatistik und den kritischen Wert tbeob =
√
n·
√ −0, 833 d = 6· = −2, 051 und tα;n−1 = t0,05;5 = −t0,95;5 = −2, 015 σ ˆD 0, 995
Unter der Nullhypothese ist die Teststatistik t-verteilt mit 5 Freiheitsgraden, T ∼ t(5). Die Nullhypothese muss verworfen werden, falls tbeob < tα;n−1 . Der realisierte Wert der Teststatistik ist kleiner als der kritische Wert, tbeob = −2, 051 < −2, 015 = t0,05;5 . Man kann also davon ausgehen, dass die Ums¨atze nach der Werbekampagne signifikant gestiegen sind. Weil tbeob = −2, 051 < −3, 3649 = t0,01;5 , kann die Nullhypothese zum Niveau 1% nicht abgelehnt werden. Man erh¨alt also kein hochsignifikantes Ergebnis. Dies sieht man auch am mit Hilfe von R berechneten p-Wert P(T < −2, 051) = 0, 0478, der nur etwas kleiner als 0,05 ist. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
165
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK
L¨ osung zu Aufgabe 90 auf Seite 150 a) Es muss ein t-Test f¨ ur verbundene Stichproben angewendet werden, da der gleichen Gruppe von Studierenden am 2. Tag Koffein verabreicht wurde. Getestet wird zum Signifikanzniveau α = 0, 05 die folgende Hypothese: H0 : μ X − μY = 0
gegen
H1 : μX − μY = 0
Dazu wird zun¨achst die Tabelle der Differenzen di = xi − yi ermittelt und anschließend daraus d und σˆD berechnet. Student D = X −Y
1 2 3 4 5 6 7 8 9 10 -4 -3 -6 -4 -1 -2 -4 -4 1 -8
ˆD = 2, 506. Daraus ergeben sich f¨ ur den realsierten Wert Man erh¨alt d = −3, 5 und σ der Teststatistik und den kritischen Wert √ √ d −3, 5 tbeob = n · = 10 · = −4, 417 und t1− α2 ;n−1 = t0,975;9 = 2, 2622 σ ˆD 2, 506 Die Nullhypothese wird abgelehnt, da |tbeob | = 4, 417 > 2, 2622 = t0,975;9 . Man kann also davon ausgehen, dass sich die Zufuhr von Koffein signifikant auf die Schreibgeschwindigkeit auswirkt. Weil |tbeob | = 4, 417 > 3, 2498 = t0,995;9 , kann die Nullhypothese auch zum Niveau 1% abgelehnt werden. Das Testergebnis ist sogar hochsignifikant. Mit Hilfe von R findet man den p-Wert = 2 · P(T > 4, 417) = 0, 0017. b) Im zweiten Experiment wird der Test mit zwei verschiedenen Gruppen durchgef¨ uhrt. Die Stichproben sind nun nicht mehr verbunden, deshalb muss ein t-Test f¨ ur zwei Stichproben mit unbekannten Varianzen durchgef¨ uhrt werden. Zum Niveau α = 0, 05 testet man wiederum die Hypothese H0 : μX − μY = 0
gegen
H1 : μX − μY = 0
2 Zuerst werden die Mittelwerte μX und μY sowie die Varianzen σX und σY2 aus den beiden 2 2 Stichproben gesch¨atzt: x¯ = 244, 8, σˆX = 5, 733, y¯ = 248, 3, σˆY = 4, 9. Daraus kann dann der Wert der Teststatistik ermittelt werden: 244, 8 − 248, 3 x¯ − y¯ = −3, 395 tbeob = = 2 2 5, 733 + 4, 9 ˆY σ ˆX σ + 10 n m F¨ ur den kritischen Wert gilt 2 2 2 σ ˆX σ ˆY + n m T ∼ t(k), wobei k die gr¨oßte ganze Zahl ist mit k ≤ 2 2 2 2 σ ˆX σ ˆY 1 1 + m−1 n−1 n m 2 5, 733 + 4, 9 10 Man erh¨alt k≤ 2 2 = 17, 891, 4, 9 5, 733 1 + · 9 10 10
166
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS und damit die Verteilung f¨ ur den kritischen Wert, T ∼ t(17), womit t0,975;17 = 2, 1098 gilt. Die Nullhypothese muss abgelehnt werden, da |tbeob | = 3, 395 > 2, 1098 = t0,975;17 . Auch im Zwei-Stichproben-Fall kann man also annehmen, dass sich Kaffeekonsum signifikant auf die Schreibgeschwindigkeit auswirkt. Weil sogar |tbeob | = 3, 395 > 2, 8982 = t0,995;17 , ist das Testergebnis hochsignifikant. Falls man vereinfachend die Annahme trifft, dass die unbekannten Varianzen gleich sind, dann ergibt sich der gleiche realisierte Wert der Teststatistik, aber die kritischen Werte t1− α2 ;2n−2 = t0,975;18 = 2, 1009 und t0,995;18 = 2, 8784, was ebenfalls zur Ablehnung der Nullhypothese und sogar zu einem hochsignifikanten Ergebnis f¨ uhrt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 91 auf Seite 151 Es handelt sich um einen zweiseitigen Test, da eine signifikante Ver¨anderung des Stimmenanteils nach oben und unten m¨oglich ist. Man testet H0 : p = p0 = 0, 6
gegen
H1 : p = 0, 6
Da n · p0 · (1 − p0 ) = 24 > 9 ist, kann der approximative Binomialtest angewandt werden. Die Berechnung des realisierten Wertes der Teststatistik und des p-Wertes ergibt: √ √ pˆ − p0 0, 48 − 0, 6 = −2, 4494 zbeob = n · = 100 · √ 0, 6 · 0, 4 p0 · (1 − p0 ) p-Wert = P(|Z| ≥ 2, 45) = 2 − 2 · Φ(2, 45) = 2 − 2 · 0, 9929 = 0, 0142 Anhand des p-Wertes sieht man, dass man bis zu einem Signifikanzniveau von 1, 42% die Nullhypothese ablehnen k¨onnte, also insbesondere auf dem Signifikanzniveau von 5%. Man kann also davon ausgehen, dass sich der Stimmenanteil des bisherigen B¨ urgermeisters zum Zeitpunkt der Umfrage signifikant ver¨andert hat. Allerdings ist das Testergebnis nicht hochsignifikant. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 92 auf Seite 151 a) Es soll getestet werden, ob ein Zusammenhang zwischen Skifahren (X) und dem Auftreten von Gelenksch¨aden (Y ) besteht. Da es sich um zwei kategoriale Merkmale handelt, uft. Man testet: wird die Vermutung anhand eines χ2 -Unabh¨angigkeitstests u ¨berpr¨ gegen
H0 : X und Y sind voneinander unabh¨angig. H1 : X und Y sind nicht unabh¨angig.
Um den realisierten Wert der Teststatistik berechnen zu k¨onnen, wird zun¨achst eine Tabelle mit den erwarteten H¨aufigkeiten bei Unabh¨angigkeit der beiden Merkmale aufgestellt. Bei Unabh¨angigkeit entsprechen die gemeinsamen H¨aufigkeiten dem Produkt der hi• h•j 187 · 170 = = jeweiligen Werte der Randverteilung: hunabhg , z.B. hunabhg = 93, 5. 11 ij n 340 167
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK X\Y Skifahrer kein Skifahrer RV Y
Gelenkschaden 93,5 93,5 187
kein Gelenkschaden 76,5 76,5 153
RV X 170 170 340
Daraus berechnet sich der realisierte Wert der Teststatistik wie folgt: 2 h h l k hij − i•n •j χ2beob = hi• h•j i=1 j=1
n
(102 − 93, 5)2 (68 − 76, 5)2 (85 − 93, 5)2 (85 − 76, 5)2 + + + = 93, 5 76, 5 93, 5 76, 5 = 2 · 0, 7727 + 2 · 0, 9444 = 3, 4343 Die Nullhypothese wird abgelehnt, falls χ2beob > χ21−α;(k−1)·(l−1) , wobei k und l die Anzahl der Spalten bzw. Zeilen der Tabelle bezeichnen. In diesem Fall gilt χ2beob = 3, 4343 < χ20,95;1 = 3, 8415, d.h. die Nullhypothese kann zum Niveau α = 5% nicht verworfen werden. Es ist also kein signifikanter Zusammenhang zwischen Skifahren und dem Auftreten von Gelenksch¨aden feststellbar. b) Ein Intervall f¨ ur den gesuchten p-Wert findet man, indem man nachschaut, zwischen welchen Grenzen der Wert von χ2beob = 3, 4343 in der Tabelle der Quantile der χ2 Verteilung mit n = 1 Freiheitsgrad liegt. In diesem Fall findet man in der 1. Zeile der Tabelle χ20,9;1 = 2, 7055 < χ2beob < 3, 8415 = χ20,95;1 . Also liegt der p-Wert zwischen 0, 05 und 0, 1. c) Laut Definition hat eine χ2 (1)-verteilte Zufallsvariable die gleiche Verteilung wie eine Z 2 -verteilte Zufallsvariable mit Z ∼ N(0; 1). Daraus kann der p-Wert des Testproblems aus Teilaufgabe a) wie folgt berechnet werden:
p-Wert = P(χ2 (1) > 3, 4343) = P(Z 2 > 3, 4343) = P(|Z| > 3, 4343) ≈ 2 · P(Z > 1, 85) = 2 · 0, 03216 = 0, 06432 Die Berechnung des p-Wertes f¨ uhrt ebenfalls zu dem Ergebnis, dass man die Nullhypothese zum Niveau α = 5% nicht ablehnen kann. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 93 auf Seite 151 a) Mit Hilfe eines χ2 -Anpassungstests f¨ ur kategoriale Merkmale wird u uft, ob f¨ ur ¨berpr¨ die Zufallsvariable X = Augenzahl“ eine diskrete Gleichverteilung vorliegt. Die Wahr” scheinlichkeit f¨ ur das W¨ urfeln einer bestimmten Augenzahl mit einem fairen“ W¨ urfel ” betr¨agt P(X = ai ) = pi = 16 . Die Null- und die Alternativhypothese lauten also: H0 : P(X = ai ) = 168
1 6
gegen
H1 : P(X = ai ) =
1 6
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Unter der Nullhypothese h¨atte jede Augenzahl n · pi = 300 urfelt werden 6 = 50 Mal gew¨ m¨ ussen. Dadurch erh¨alt man als realisierten Wert der Teststatistik χ2beob =
k (hi − npi )2 i=1
npi
1 · (45 − 50)2 + (65 − 50)2 + (55 − 50)2 + (35 − 30)2 + (40 − 50)2 + (60 − 50)2 50 1 = · 2 · (25 + 225 + 100) = 14 50 =
Der kritische Wert der Teststatistik ist χ21−α;k−1 = χ20,95;5 = 11, 07. Da χ2beob = 14 > 11, 07 = χ20,95;5 , wird die Nullhypothese zum Niveau α = 5% abgelehnt. Die Zufallsvariable ist also nicht gleichverteilt, d.h. man kann aufgrund der Stichprobe signifikant davon ausgehen, dass es sich nicht um einen fairen“ W¨ urfel handelt. ” b) Ein Intervall f¨ ur den gesuchten p-Wert findet man, indem man nachschaut, zwischen welchen Grenzen der Wert von χ2beob = 14 in der Tabelle der Quantile der χ2 -Verteilung mit n = 5 Freiheitsgraden liegt. In diesem Fall findet man in der 5. Zeile der Tabelle χ20,975;5 = 12, 833 < χ2beob < 15, 086 = χ20,99;5 . Also liegt der p-Wert zwischen 0, 01 und 0, 025. Der exakte p-Wert kann f¨ ur die χ2 (5)-Verteilung nicht einfach mit Hilfe der Normalverteilung berechnet werden. Mit Hilfe von R findet man den exakten Wert 0, 0156. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 94 auf Seite 152 a) F¨ ur den Stimmenanteil von Partei A erh¨alt man mit n = 9.000, α = 0, 05, pˆ = 0, 16 ein approximatives realisiertes 95%-Konfindenzintervall von: 0, 16 · 0, 84 0, 16 · 0, 84 0, 16 − 1, 96 · ; 0, 16 + 1, 96 · = [0, 152 ; 0, 168] 9.000 9.000 b) Es gibt verschiedene M¨oglichkeiten zu testen, ob der Anteil der Partei signifikant von 14% abweicht. 1. M¨oglichkeit: Da p0 = 0, 14 nicht im oben berechneten realisierten 95%-Konfidenzintervall liegt, weicht der Stimmenanteil signifikant von 14% ab. Eine 2. M¨oglichkeit ist die Anwendung eines approximativen Binomialtests mit den zu testenden Hypothesen H0 : p = p0 = 0, 14
gegen
H1 : p = p0 = 0, 14
Als realisierten Wert der Teststatistik erh¨alt man: √ 0, 16 − 0, 14 = 5, 468 zbeob = 9.000 · √ 0, 14 · 0, 86 169
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK F¨ ur den Ablehnungsbereich der Nullhypothese gilt |zbeob | > z0,975 , hier ist 5, 468 > 1, 96. Der Anteil der Partei weicht signifikant von 14% ab, die Nullhypothese muss zum Niveau α = 5% verworfen werden. c) Der wahre Stimmanteil liegt mit einer Wahrscheinlichkeit von 5% außerhalb des 95%Konfidenzintervalls. α gibt die Irrtumswahrscheinlichkeit und somit die Wahrscheinlichkeit f¨ ur einen Fehler 1. Art an. d) Das realisierte 95%-Konfidenzintervall hat feste Grenzen, da sich der Zufall realisiert hat. Aussagen u ¨ber Wahrscheinlichkeiten sind hier sinnlos. Der (unbekannte) wahre Stimmenanteil liegt entweder innerhalb oder außerhalb des realisierten Konfidenzintervalls. e) Das Testverfahren ist so angelegt, dass man vor der Realisierung des Tests mit einer Wahrscheinlichkeit von (h¨ochstens) 5% einen Fehler 1. Art begeht. Nach Durchf¨ uhrung des Tests hat man einen Fehler 1. Art begangen oder nicht. In diesem Fall hat man keinen Fehler 1. Art begangen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 95 auf Seite 152 Da es sich um eine verbundene Stichprobe handelt, kann ein einseitiger t-Test auf die Hypothese H0 : μD = 30 gegen H1 : μD > 30 angewandt werden. Weil hier auf eine mittlere Differenz von 30 Punkten getestet werden soll, wird der einseitige t-Test f¨ ur verbundene Stichproben auf die neuen Differenzen D∗ = D − 30 zum Testen der Hypothese H0 : μD∗ = 0 gegen H1 : μD∗ > 0 benutzt. Sch¨atzer f¨ ur Mittelwert und Varianz von D ∗ ergeben sich aus der Stichprobe zu d∗ = d − 30 =
864, 4 2 2 ˆD = 247, 5919 − 30 = 4, 576 und σ ˆD ∗ = σ 25
Damit folgt f¨ ur den realisierten Wert der Teststatistik und den kritischen Wert zum Niveau 5%: √ 4, 576 tbeob = 25 · √ = 1, 454 und t0,95;24 = 1, 7109 247, 5919 Weil tbeob = 1, 454 > 1, 7109 = t0,95;24 , kann die Nullhypothese zum Niveau 5% nicht abgelehnt werden. Man kann also nicht davon ausgehen, dass das Traineeprogramm zu einem signifikanten Anstieg von mehr als 30 Punkten f¨ uhrt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
170
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Lo ¨sung zu Aufgabe 96 auf Seite 153 a) Da zum Testen des Superentkalkers jeweils 18 Waschmaschinen benutzt werden, liegen unverbundene Stichproben vor. Deshalb wird ein t-Test angewendet; die unbekannten Varianzen werden als gleich angenommen. H0 : μmit − μohne = 0
H1 : μmit − μohne < 0
gegen
F¨ ur die gesch¨atzte gemeinsame Varianz erh¨alt man: σ ˆ2 =
17 · 42 + 17 · 32 = 12, 5 34
und daraus als realisierten Wert der Teststatistik: 40 − 41 tbeob = √ 1 12, 5 · 18 +
1 18
= −0, 8485
Unter der Nullhypothese ist die Teststatistik t-verteilt, T ∼ t(18 + 18 − 2) = t(34). Somit erh¨alt man einen kritischen Wert von t0,05;34 = −1, 6909. Die Nullhypothese kann angesichts der Daten zum Niveau α = 5% nicht abgelehnt werden, da tbeob = −0, 8485 ≮ t0,05;34 = −1, 6909. Aufgrund der vorliegenden Daten kann nicht davon ausgegangen werden, dass der Wasserverbrauch der Waschmaschinen mit Superentkalker signifikant niedriger ist als der Wasserverbrauch der Waschmaschinen ohne Superentkalker. b) Ein Fehler 2. Art tritt auf, wenn die Nullhypothese f¨alschlicherweise beibehalten wird, obwohl die Alternative H1 wahr ist. Bei diesem Test ginge man dann davon aus, dass der Wasserverbrauch mit Superentkalker gleich oder h¨oher ist, obwohl er in Wirklichkeit niedriger ist. c) Da die Zahl der Freiheitsgrade nun df = 120 + 120 − 2 = 238 betr¨agt, wird die tVerteilung durch die Standardnormalverteilung approximiert, um den p-Wert (n¨aherungsweise) zu berechnen. tbeob = √
40 − 41 1 12, 5 · 120 +
1 120
= −2, 1909
Berechnung des p-Wertes: p-Wert = P (Z < −2, 19) = P (Z > 2, 19) = 1 − Φ(2, 19) = 1 − 0, 9857 = 0, 0143 In diesem Fall h¨atte man ein signifikantes Ergebnis erhalten. 171
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK d) Falls die gleichen Waschmaschinen eingesetzt worden w¨aren, h¨atte man einen t-Test f¨ ur verbundene Stichproben benutzt. Dann h¨atte man die Differenzen der Stichprobenergebnisse ausrechnen k¨onnen, die f¨ ur diesen Test ben¨otigt werden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lo ¨sung zu Aufgabe 97 auf Seite 153 a) Ein Ergebnis dieses Experiments ist z.B. (2, 3, 1, 4), d.h. Student 1 geht an Theke 2, Student 2 geht an Theke 3, Student 3 geht an Theke 1 und Student 4 geht an Theke 4. Es gibt insgesamt 4 · 4 · 4 · 4 = 256 Ergebnisse. b) Es gibt 2256 ≈ 1, 158 · 1077 Ereignisse im Modell. c) A = {(1, 1, 1, 1), (2, 2, 2, 2), (3, 3, 3, 3), (4, 4, 4, 4)} oder verbal: A = {Alle gehen an Theke 1, . . . , Alle gehen an Theke 4} Da es sich um ein Laplace-Modell handelt, betr¨agt die Wahrscheinlichkeit, dass alle an die gleiche Theke gehen: P(A) =
Anzahl g¨ unstiger Ergebnisse #A 4 = = = 0, 015625 Anzahl m¨oglicher Ergebnisse #Ω 256
Mit einer Wahrscheinlichkeit von ca. 1, 56% gehen alle 4 Studenten an die gleiche Mensatheke. d) Es bezeichne B das Ereignis Die 4 Studierenden gehen an verschiedene Theken“. Dies ” entspricht einem Modell ohne Zur¨ ucklegen, denn nachdem der 1. Student sich f¨ ur eine von vier Theken entschieden hat, hat der 2. Student noch drei Theken zur Auswahl, der 3. Student noch zwei, und der 4. Student geht an die verbleibende Mensatheke. P(B) =
#B 4·3·2·1 = = 0, 09375 #Ω 256
Die Wahrscheinlichkeit, dass alle 4 Studenten an unterschiedliche Mensatheken gehen, betr¨agt ca. 9, 38%. e) Es handelt sich um eine unabh¨angige Wiederholung des gleichen Experiments. Die Zufallsvariable ist binomialverteilt, X ∼ B(4; 0, 25), denn n = 4 Studierende holen unabh¨angig voneinander mit der gleichen Wahrscheinlichkeit von p = 0, 25 ihr Essen an Theke 3. f) E(X) = n · p = 4 · 0, 25 = 1 g) Es wird ein χ2 -Anpassungstest durchgef¨ uhrt. Bei einer Gleichverteilung h¨atten an jeder Mensatheke 30 Studenten sein m¨ ussen. Die Hypothesen lauten: 1 4 1 H1 : P(X = ai ) = 4
H0 : P(X = ai ) =
172
f¨ ur i = 1, 2, 3, 4 f¨ ur mindestens ein i
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS Als realisierten Wert der Pr¨ ufgr¨oße erh¨alt man χ2beob =
(22 − 30)2 (40 − 30)2 (34 − 30)2 (24 − 30)2 + + + = 7, 2 30 30 30 30
Unter der Nullhypothese ist die Pr¨ ufgr¨oße χ2 (3)-verteilt. Die Nullhypothese wird abgelehnt, falls χ2beob > χ20,95;3 = 7, 8147. Da 7, 2 ≯ 7, 8147, kann die Nullhypothese zum Niveau α = 5% nicht abgelehnt werden. Aufgrund der vorliegenden Daten kann man also eine Gleichverteilung an den Mensatheken nicht in Zweifel ziehen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 98 auf Seite 154 Um zu u ufen, ob das ¨offentliche Amt von der Parteizugeh¨origkeit unabh¨angig ist, wendet ¨berpr¨ man den χ2 -Unabh¨angigkeitstest auf folgende Hypothese an: H0 : Parteizugeh¨origkeit und Einstellung sind voneinander unabh¨angig H1 : Parteizugeh¨origkeit und Einstellung sind nicht unabh¨angig h h
Zun¨achst ermittelt man die erwarteten H¨aufigkeiten hij = i•n •j bei Unabh¨angigkeit. Treten bei den erwarteten H¨aufigkeiten Gr¨oßen kleiner als 5 auf, m¨ ussen diese sinnvoll zusammengefasst werden. h1• h•1 n h2• h•1 n h3• h•1 n h4• h•1 n
75 · 50 = 25, 150 45 · 50 = = 15, 150 29 · 50 = = 9, 6666, 150 1 · 50 = = 0, 333< 5!, 150 =
h1• h•2 n h2• h•2 n h3• h•2 n h4• h•2 n
75 · 100 = 50, 150 45 · 100 = = 30, 150 29 · 100 = = 19, 333, 150 1 · 100 = = 0, 666< 5! 150 =
Zusammenfassung von 3. und 4. Zeile: 30 · 50 h3• h•1 = = 10; n 150
h3• h•2 30 · 100 = = 20 n 150
Berechnung des realisierten Wertes der Teststatistik: 2 h h 2 3 hij − i•n •j χ2beob = hi• h•j i=1 j=1
n
(15 − 25)2 (60 − 50)2 (15 − 15)2 (30 − 30)2 (20 − 10)2 (10 − 20)2 = + + + + + 25 50 15 30 10 20 100 100 100 100 + +0+0+ + = 4 + 10 + 2 + 5 = 21 = 25 50 10 20 173
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK Die Pr¨ ufgr¨oße ist χ2 ((k − 1)(l − 1))-verteilt mit k = 3, da die 3. und 4. Zeile zusammengefasst wurden, und l = 2. Damit ist die Teststatistik χ2 (2)-verteilt. Da χ20,95,2 = 5, 9915 < 21 = χ2beob , muss die Nullhypothese abgelehnt werden. Man kann also davon ausgehen, dass ein signifikanter Zusammenhang zwischen der Parteizugeh¨origkeit und der Einstellung in ein ¨offentliches Amt besteht. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 99 auf Seite 154 a) Mit den Variablen Y = Blutdruck“ und X = BMI“ wird das Modell der linearen ” ” Einfachregression: Y = β0 + β1 · X + . Berechnung der Kleinste–Quadrate–Sch¨atzer f¨ ur die Parameter β0 und β1 : 6
βˆ1 =
i=1
(xi − x¯)(yi − y¯) 6
= (xi − x¯)2
13, 3333 = 4, 5714 2, 9167
i=1
βˆ0 = y¯ − βˆ1 · x¯ = 160 − 4, 5714 · 25, 5 = 43, 4286 b) Die folgende Abbildung zeigt den Scatterplot und die Ausgleichsgerade f¨ ur BMI (X) und Blutdruck (Y ):
160 140
150
Blutdruck
170
180
Lineare Regression: Blutdruck auf BMI
23
24
25
26 BMI
174
27
28
29
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS c) Berechnung der Streuungszerlegung: n
(yi − y¯)2 =
i=1
Gesamtstreuung
Gesamtstreuung:
6
n
(yˆi − y¯)2 +
i=1
n
(yi − yˆi )2
i=1
erkl¨ arte Streuung
Residualstreuung
(yi − y¯)2 = 550
i=1
erkl¨arte Streuung:
6
2 (yˆi − y¯)2 = βˆ1 ·
i=1
6
(xi − x¯)2 = 4, 57142 · 17, 5 = 365, 7143
i=1
Residualstreuung = Gesamtstreuung - erkl¨arte Streuung = 184, 2857 Das Bestimmtheitsmaß kann mit Hilfe der Streuungszerlegung berechnet werden: R2 =
erkl¨arte Streuung 365, 7143 = = 0, 6649 Gesamtstreuung 550
0 ≤ R2 ≤ 1
Das Modell passt sich also relativ gut an die Daten an. d) F¨ ur das realisierte Konfindenzintervall f¨ ur β0 gilt:
βˆ0 ± vˆ0 · t1− α2 ;n−2
σ ˆ2
mit
vˆ02
= n
n i=1
n i=1
x2i
(xi − x¯)2
Zun¨achst wird die Varianz σ ˆ 2 f¨ ur den Fehlerterm gesch¨atzt, um mit Hilfe dieses Sch¨atzwertes den Wert f¨ ur vˆ0 berechnen zu k¨onnen: σˆ 2 =
1 184, 2857 (yi − yˆi )2 = = 46, 0714 n − 2 i=1 4
vˆ02 =
46, 0714 · 3919 = 1719, 56 6 · 17, 5
n
⇒ vˆ0 = 41, 4676
Damit erh¨alt man das realisierte 95%-Konfidenzintervall f¨ ur β0 : βˆ0 ± vˆ0 · t0,975;4 = [43, 4286 ± 41, 4676 · 2, 7764] = [−71, 7039 ; 158, 5611] F¨ ur das Konfindenzintervall f¨ ur β1 gilt: βˆ1 ± vˆ1 · t1− α2 ;n−2
mit vˆ12 = n i=1
σ ˆ2 (xi − x¯)2 175
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK Die Varianz σ ˆ 2 wurde bereits oben gesch¨atzt und kann in die Formel zur Berechnung 2 von vˆ1 eingesetzt werden: vˆ12 =
46, 0714 = 2, 6326 17, 5
⇒ vˆ1 = 1, 6225
Als realisiertes 95%-Konfidenzintervall f¨ ur β1 erh¨alt man damit: βˆ1 ± vˆ1 · t0,975;4 = [4, 5714 ± 1, 6225 · 2, 7764] = [0, 0665 ; 9, 0763] e) Es wird getestet, ob die Steigung der Ausgleichsgeraden signifikant von Null abweicht und damit ein Zusammenhang zwischen BMI und Blutdruck vermutet werden kann. Die Hypothesen f¨ ur das vorliegende Testproblem lauten: H0 : β1 = 0
gegen
H1 : β1 = 0
Realisierter Wert der Teststatistik und kritischer Wert: tbeob =
βˆ1 4, 5714 = 2, 8174 und t1− α2 ;n−2 = t0,975;4 = 2, 7764 = vˆ1 1, 6225
Da tbeob = 2, 8174 > 2, 7764 = t0,975;4 , wird die Nullhypothese abgelehnt. Dies sieht man auch daran, dass das realisierte 95%-Konfidenzintervall nicht den Wert 0 enth¨alt. Die ¨ Daten legen also die Vermutung nahe, dass sich Ubergewicht (ein hoher BMI) signifikant auf den Blutdruck auswirkt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
L¨ osung zu Aufgabe 100 auf Seite 155 a) Mit den Variablen Y = Ernteertrag und X = D¨ ungerkonzentration ergibt sich das Modell der linearen Einfachregression zu Y = β0 + β1 · X + . Die Sch¨atzer f¨ ur die beiden Parameter β0 und β1 minimieren die Summe der quadrierten 7 Differenzen Q(β0 , β1 ) = (yi − β0 − β1 xi )2 . i=1
F¨ ur die gegebenen Daten erh¨alt man die Sch¨atzwerte: 7
βˆ1 =
i=1
(xi − x¯)(yi − y¯) 7 i=1
= (xi − x¯)2
2.357, 143 = 0, 059 40.000
βˆ0 = y¯ − βˆ1 x¯ = 60 − 0, 059 · 400 = 36, 429 Mit den gesch¨atzten Parametern erh¨alt man die angepasste Ausgleichsgerade des lineaungerkonzentration um ren Modells: yˆi = 36, 429 + 0, 059 · xi. Erh¨oht der Landwirt die D¨ 100 Einheiten, ergibt sich ein durchschnittlicher Erntezuwachs von 5,9 Einheiten. 176
2.5. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS b) Der folgende Scatterplot zeigt die beobachteten Daten und die angepasste Ausgleichsgerade:
60 20
40
Ernte
80
100
Lineare Regression: Ernteertrag auf Düngerkonzentration
0
200
400
600
800
Dünger
c) Berechnung der Streuungszerlegung: n n n (yi − y¯)2 = (ˆ yi − y¯)2 + (yi − yˆi )2 i=1
Gesamtstreuung:
7
i=1
i=1
(yi − y¯)2 = 1.150
i=1
erkl¨arte Streuung:
7 i=1
2 (yˆi − y¯)2 = βˆ1 ·
7
(xi − x¯)2 = 0, 0592 · 280.000 = 972, 321
i=1
Residualstreuung = Gesamtstreuung - erkl¨arte Streuung = 177, 679 Die Anpassungsg¨ ute des gesch¨atzten Modells wird mit Hilfe des Bestimmtheitsmaßes (Determinationskoeffizient) bestimmt, der das Verh¨altnis zwischen erkl¨arter Streuung und Gesamtstreuung angibt: R2 =
erkl¨arte Streuung 972, 321 = = 0, 845 Gesamtstreuung 1.150
0 ≤ R2 ≤ 1
Das gesch¨atzte Modell passt sich sehr gut an die beobachteten Daten an. 177
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG UND INDUKTIVE STATISTIK d) Um das Konfidenzintervall f¨ ur β0 bestimmen zu k¨onnen, wird zun¨achst die Varianz σ ˆ2 der Fehlerterme gesch¨atzt und dann der Wert f¨ ur vˆ0 berechnet: 1 177, 679 (yi − yˆi)2 = = 35, 536 n − 2 i=1 5 n
σ ˆ2 =
35, 536 · 1.400.000 = 25, 383 ⇒ vˆ0 = 5, 038 72 · 40.000 Damit erh¨alt man mit t0,975;5 = 2, 5706 als realisiertes 95%-Konfidenzintervall f¨ ur β0 : vˆ02 =
[36, 429 ± 2, 5706 · 5, 038] = [23, 478 ; 49, 38] Zur Bestimmung des Konfidenzintervalls f¨ ur β1 wird zun¨achst der Wert von vˆ1 berechnet: 35, 536 = 0, 0001269 ⇒ vˆ1 = 0, 0113 vˆ12 = 7 · 40.000 F¨ ur das realisierte 95%-Konfidenzintervall f¨ ur β1 erh¨alt man: [0, 059 ± 2, 5706 · 0, 0113] = [0, 03 ; 0, 088] e) Getestet wird anhand eines zweiseitigen t-Tests die Hypothese H0 : β1 = 0 gegen H1 : β1 = 0 Wenn die Steigung der Ausgleichgeraden signifikant von Null abweicht, kann ein Zusammenhang zwischen D¨ ungerkonzentration und Ernteertrag vermutet werden. Als realisierten Wert der Teststatistik berechnet man βˆ1 0, 059 = 5, 221. tbeob = = vˆ1 0, 0113 Der kritische Wert der Teststatistik ist t1− α2 ;n−2 = t0,975;5 = 2, 5706. Da 5, 221 = tbeob > t0,975;5 = 2, 5706, muss die Nullhypothese abgelehnt werden. Der Landwirt kann also davon ausgehen, dass sich der Einsatz von D¨ unger auf den Ernteertrag auswirkt. Zu dem gleichen Schluss kommt man, wenn man bemerkt, dass der Wert 0 nicht im realisierten 95%-Konfidenzintervall f¨ ur den Parameter β1 enthalten ist. f) Man erh¨alt einen gesch¨atzten Wert f¨ ur den Ernteertrag bei einer D¨ ungerkonzentration von 800, indem man x0 = 800 in die Ausgleichsgerade einsetzt: yˆ0 = 36, 429 + 0, 059 · 800 = 83, 629. Der Landwirt kann bei einer D¨ ungerkonzentration von 800 mit einem Ernteertrag von 83,629 auf seiner Parzelle rechnen. Berechnung des 95%-Konfidenzintervalls f¨ ur die Prognose: 1 (800 − 400)2 = [63, 566 ; 103, 692] 83, 629 ± 2, 5706 · 5, 961 · 1 + + 7 7 · 40.000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
178
Kapitel 3 Programmbeispiele in R 3.1
Einfu ¨ hrung in R
R ist ein Programmpaket, welches f¨ ur ein breites Anwendungsspektrum statistischer Fragestellungen bestens geeignet ist. Es basiert auf einer objektorientierten Programmiersprache und ist frei verf¨ ugbar, was es im Vergleich zu anderen statistischen Programmpaketen gerade f¨ ur den Einsatz im Bereich der Lehre und den studentischen und privaten Einsatz interessant macht. Der Anwender kann auf eine große Bibliothek von Funktionen zur statischen Analyse und graphischen Darstellung von Daten zur¨ uckgreifen. Diese Bibliothek steht allen Anwendern auf der offiziellen Homepage des R-Projektes www.r-project.org zur freien Verf¨ ugung und wird laufend durch Beitr¨age von R-Anwendern weiterentwickelt. Da es zahlreiche gute B¨ ucher zur Anwendung von R gibt, wird in dem vorliegenden Buch lediglich eine kurze Einf¨ uhrung in R gegeben, um dem interessierten Leser grundlegende Funktionsweisen des Programmpaketes zu vermitteln. F¨ ur weitergehende Informationen zur Programmiersprache R wird auf die angef¨ uhrte Online-Dokumentation bzw. Fachliteratur verwiesen. • An Introduction to R“; Man kann diese Dokumentation als die offizielle Einf¨ uhrung ” in R ansehen, wie sie von dem R Core Team“ als Einf¨ uhrung auf der R-Homepage ” heruntergeladen werden kann: www.r-project.org → Documentation → Manuals • Programmieren mit R“, U. Ligges (2006), Springer. ” • Angewandte Statistik: Methodensammlung mit R“, L. Sachs, J. Hedderich (2006), ” Springer. • Statistische Auswertungen mit R“, R. Schlittgen (2004), Oldenburg-Verlag. ” Um R benutzen zu k¨onnen, m¨ ussen Sie sich zun¨achst die Installationsdatei von der Homepage www.r-project.org → CRAN auf Ihren Computer herunterladen und dort in einem neuen Verzeichnis ausf¨ uhren. Die Installation kann einige Zeit in Anspruch nehmen, da automatisch die wichtigsten Bibliotheken von R mitinstalliert werden. 179
C. Schäfer, Jens-Uwe Scheer, Statistisches Tutorium für Wirtschaftswissenschaftler, DOI 10.1007/978-3-8349-8784-6_3, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 3. PROGRAMMBEISPIELE IN R
3.2
Hilfefunktion in R
Wenn man nicht alle Argumente einer Funktion auswendig weiß, kann man sich der Hilfsfunktion help()“ bedienen. M¨ochte man sich z.B. zur Histogrammfunktion genauere Einstellungen ” ansehen, gibt man in die Programmzeile help(hist)“ ein und erh¨alt alle Anpassungs- und ” ¨ Einstellungsm¨oglichkeiten zu diesem Funktionstyp in einer Ubersicht. Oft ist es auch hilfreich, sich ein Beispiel, das auf der help-Seite angef¨ uhrt wird, anzuschauen. Dies kann man in R auch automatisch ausf¨ uhren, indem man die Funktion example(hist)“ verwendet. Der ” Quellcode der Beispiele wird in R angezeigt und die Beispiel-Graphiken erzeugt. Genauso liefern beispielsweise help(mean)“ und example(mean)“ Hilfe zur Anwendung des Befehls ” ” mean()“ und einige leichte Berechnungsbeispiele. ” ¨ Eine hilfreiche Ubersicht u ¨ber wichtige Befehle und Funktionen in R erh¨alt man außerdem u ber den Link cran.r-project.org/doc/contrib/Short-refcard.pdf. ¨
3.3
Einlesen von Daten in R
Im Folgenden werden einige grundlegende Funktionen aus der Programmiersprache R anhand eines einfachen Beispiels vorgestellt, um die Bearbeitung einfacher Datens¨atze zu erm¨oglichen. Bevor mit der Auswertung begonnen werden kann, muss ein Datensatz zun¨achst in R eingelesen werden. Um den Datensatz der Punktzahlen in den F¨achern VWL, BWL, Statistik und Recht (13, 12, 15, 10) der Variablen Student1“ f¨ ur das System verf¨ ugbar zu machen, ” wird dieser mit Hilfe des Befehls Student2 8 #OUTPUT: VWL BWL Statistik Recht 9 #OUTPUT: TRUE FALSE TRUE FALSE F¨ ur das n¨achste Beispiel nehmen wir die bereits oben erw¨ahnten Daten der Eruptionsdauer des Old Faithful Geysirs. Zur Bestimmung des arithmetischen Mittels benutzt man die Funktion mean()“, f¨ ur den Median median()“, f¨ ur das Maximum max()“, f¨ ur das Minimum min()“ ” ” ” ” und eine Zusammenfassung der Daten bekommt man mit fivenum()“. Bei der Varianz und ” der Standardabweichung muss beachtet werden, dass die Befehle var()“ und sd()“ nicht ” ” die empirische Varianz und die empirische Standardabweichung ausgeben, sondern die Varianz und die Standardabweichung aus der Stichprobe, wie sie bei der induktiven Statistik verwendet werden. Die empirische Varianz und die empirische Standardabweichung k¨onnen aber in R mit Hilfe einer einfachen eigenen Funktion berechnet werden, wie sie beispielsweise im R-Code zu Aufgabe 15 auf Seite 183 angegeben ist. Zur graphischen Darstellung der Daten bieten sich hier z.B. ein Boxplot oder ein Histogramm an. Beides ist in R leicht umzusetzen, wie das folgende Listing zeigt. Listing 3.3: Einfache Graphiken 1 2 3 4 5 6 7 8
data(faithful) Eruptionsdauer←faithful$eruptions mean(Eruptionsdauer) var(Eruptionsdauer) fivenum(Eruptionsdauer) boxplot(Eruptionsdauer, main="Eruptionen des Old Faithful Geysirs") hist(Eruptionsdauer, main="Eruptionen des Old Faithful Geysirs") hist(Eruptionsdauer, breaks=20, main="Eruptionen des Old Faithful Geysirs") 181
KAPITEL 3. PROGRAMMBEISPIELE IN R
3.5
R-Quellcodes
¨ In diesem Abschnitt sind zu vielen Ubungsaufgaben die R-Quellcodes zur Berechnung der Ergebnisse oder der Erstellung von Graphiken aufgef¨ uhrt. Vor erl¨auternden Kommentaren zu den einzelnen Aufgabenteilen oder Funktionen steht bei jedem Listing jeweils das Zeichen #“. Zeilen, die mit #“ beginnen, m¨ ussen nicht in das R-Programmfenster u ¨bernommen wer” ” den, wenn Sie die Aufgaben auf Ihrem eigenen Computer nachvollziehen. Die Quellcodes f¨ ur verschiedene Graphiken ergeben in einzelnen F¨allen optisch nicht exakt das Ergebnis, das als Musterl¨osung zur entsprechenden Aufgabe angegeben ist. Aus drucktechnischen Gr¨ unden mussten meist Anpassungen in der Schriftgr¨oße oder der Liniendicke vorgenommen werden. Qualitativ sind die in der Musterl¨osung abgebildeten Graphiken mit dem Ergebnis des angegebenen Quellcodes im zugeh¨origen R-Listing jedoch gleichwertig. Der Leser ist eingeladen, selbst mit den vielf¨altigen Optionen der Graphik-Funktionen zu experimentieren. Im Folgenden sind R-interne Funktionen oder eigene Funktionen bei ihrem ersten Auftreten ausf¨ uhrlicher erkl¨art bzw. kommentiert worden und bei den meisten Funktionen ist auch der Aufruf zur R-Hilfe eingef¨ ugt worden. Bei der Auswahl der Code-Listings ist nicht die gr¨oßte Allgemeinheit angestrebt worden, sondern eine m¨oglichst einfache, zielgerichtete L¨osung der ¨ konkreten Aufgabenstellung. Anhand der Musterl¨osung der Ubungsaufgabe sollen verschiedene grundlegende R-Funktionen einf¨ uhrend vorgestellt werden, und zwar so, dass eine schnelle Bearbeitung typischer Aufgaben der deskriptiven und induktiven Statistik m¨oglich wird. Der interessierte Leser wird auf die R-Hilfe und die weiterf¨ uhrende Literatur verwiesen, um weitere M¨oglichkeiten der verwendeten Funktionen zu ergr¨ unden oder neue Anwendungsgebiete zu entdecken.
R-Code zu Aufgabe 9, Seite 10, L¨ osung auf Seite 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
182
# Eingabe der Daten: Anteile der TV-Sender in Prozent fx←c(12.9, 26.9, 12.4, 9.6, 38.2 ) names(fx)←c("ZDF","ARD+Dritte","RTL","Sat1","Sonstige") # Absolute Zuschauerzahlen in Millionen hx←fx/100∗20 # Berechnung der Winkel winkel← fx / sum(fx) ∗ 360 # Zusammenfassung zu einer Matrix und Darstellung in Tabellenform: myT←rbind(hx, fx, winkel) rownames(myT)←c("Zuschauer in Mio.","Anteile in %","Winkel in Grad") myT # S¨ aulendiagramm help( barplot ) # R Hilfe barplot(fx, ylim=c(0,40) ) title(main="Marktanteile in Prozent") # Titel hinzuf¨ ugen # Kreisdiagramm help( pie ) # R Hilfe pie(fx) title(main="Marktanteile in Prozent")
3.5. R-QUELLCODES
R-Code zu Aufgabe 11, Seite 11, Lo ¨sung auf Seite 22 1 2 3
4 5 6 7 8 9 10 11 12 13 14
15
# Eingabe der Daten: Absolute H¨ aufigkeiten hi←c(8,20,30,40,22) names(hi)←c("ohne", "Hauptschule", "Mittlere Reife", "Abitur", " Universit¨ at") # Berechnung der H¨ aufigkeitstabelle fi←hi / sum(hi) # relative H¨ aufigkeiten Fi←cumsum(fi) # kumulierte H¨ aufigkeiten HT←rbind(hi, fi, Fi) HT # H¨ aufigkeitstabelle # Darstellung wie in der Aufgabenl¨ osung: # Rundung auf 3 Stellen und Vertauschung von Zeilen und Spalten t(round(HT, 3)) # S¨ aulendiagramm (angepasste Abst¨ ande wegen der langen Bezeichner) barplot(hi, ylim=c(0,40), space=0.15, cex.names=0.9, names.arg=c("ohne","Hauptschule","Mittlere\nReife","Abitur"," Universit¨ at") ) title(main="Absolute H¨ aufigkeitsverteilung")
R-Code zu Aufgabe 14, Seite 12, L¨ osung auf Seite 27 1 2 3 4 5 6 7 8 9 10 11 12 13
# Eingabe der Daten: Absolute H¨ aufigkeiten hx←c(48,28,24) names(hx)←c("Physik","Biologie","Chemie") # H¨ aufigkeiten und Berechnung der Winkel im Kreisdiagramm fx←hx / sum(hx) winkel←hx / sum(hx) ∗ 360 HT←rbind(hx,fx,winkel) rownames(HT)←c("abs. H¨ aufigkeiten","rel. H¨ aufigkeiten","Winkel") round(HT, 3) # S¨ aulendiagramm der absoluten H¨ aufigkeiten barplot(hx, ylim=c(0,50), main="Absolute H¨ aufigkeiten") # Kreisdiagramm der absoluten H¨ aufigkeiten pie(hx, main="Relative H¨ aufigkeiten")
R-Code zu Aufgabe 15, Seite 13, L¨ osung auf Seite 28 1 2
4 5 6
# Eingabe der Daten: Urliste x←c(rep(3,25),rep(4,35),rep(5,15),rep(6,10),rep(7,10),rep(8,5)) # L¨ osung zu den Teilaufgaben d) und e) # Tabelle der H¨ aufigkeiten hi←table(x) # absolute H¨ aufigkeiten 183
KAPITEL 3. PROGRAMMBEISPIELE IN R 7 8 9 10 11 12 13 14 15 16 17
18 19 20 21 22 23 24
26 27 28 29 30 31 32 33 34 35 36 37
fi←hi/sum(hi) # relative H¨ aufigkeiten Fi←cumsum(fi) # kumulierte H¨ aufigkeiten HT←rbind(hi,fi,Fi) rownames(HT)←paste(c("abs.","rel.","kum."),"H¨ aufigkeiten") HT # S¨ aulendiagramm barplot(fi, ylim=c(0,0.35), xlab="Familiengr¨ oße (Personen)", ylab="f(x)") title(main="Relative H¨ aufigkeiten") # Empirische Verteilungsfunktion (diskret) ecdfx←ecdf(x) plot.stepfun(ecdfx,lty=1,verticals=F,xlim=c(0,10),ylim=c(0,1),main="",ylab="F (x)",xlab="x") plot.stepfun(ecdfx,lty=2,verticals=T,add=T,main="") title(main="Empirische Verteilungsfunktion (diskret)") # Um die vertikalen Linien gestrichelt darstellen zu k¨ onnen, # wird das Ergebnis der Funktion ecdf() mittels plot.stepfun() # zweimal u ¨bereinander ausgegeben. help( ecdf ) # R Hilfe help( plot.stepfun ) # R Hilfe # L¨ osung zu den Teilaufgaben g) und h) mean(x) # Mittelwert median(x) # Median # R gibt bei var() und sd() die Stichprobenvarianz bzw. # die Standardabweichung aus der Stichprobe aus. var(x) sd(x) # Um die emp. Varianz zu bekommen, muss man var() skalieren, # wozu eine einfache Funktion hilfreich ist: empvar←function(x){var(x)∗(length(x)−1)/length(x)} empvar(x) # emp. Varianz sqrt(empvar(x)) # emp. Standardabweichung
R-Code zu Aufgabe 16, Seite 14, L¨ osung auf Seite 29 1 2 3
5 6 7 8 9
184
# Eingabe der Daten: xA = Wagen A, xB = Wagen B xA←c(rep(5,1),rep(5.5,3),rep(6,8),rep(6.4,15),rep(6.9,17),rep(7.5,4),rep(7.8,2)) xB←c(4.2,rep(4.8,3),rep(5.4,6),rep(5.9,6),rep(6.0,3),6.5) # L¨ osung zu Teilaufgabe a): H¨ aufigkeitstabelle f¨ ur Wagen B hi←table(xB) # absolute H¨ aufigkeiten fi←hi/sum(hi) # relative H¨ aufigkeiten Fi←cumsum(fi) # kumulierte H¨ aufigkeiten htB←rbind(hi,fi,Fi)
3.5. R-QUELLCODES 10 11 12 13 14
16 17 18
20 21 22 23
24 25 26 27
28 29 30
rownames(htB)←paste(c("abs.","rel.","kum."),"H¨ aufigkeiten") htB # S¨ aulendiagramm der relativen H¨ aufigkeiten barplot(fi,beside=T,ylab="f(x)",xlab="Benzinverbrauch Wagen B") title(main="Relative H¨ aufigkeiten") # L¨ osung zu Teilaufgabe b): Mediane median(xA) median(xB) # L¨ osung zu Teilaufgabe d): Emp. Verteilungsfunktionen par(mfrow=c(1,2)) # beide Verteilungsfunktionen nebeneinander ecdfxA←ecdf(xA) # Empirische Verteilungsfunktion Wagen A plot.stepfun(ecdfxA,lty=1,verticals=F,xlim=c(3,9),ylim=c(0,1),main="",ylab="F (x)",xlab="x") plot.stepfun(ecdfxA,lty=2,verticals=T,add=T,main="") title(main="Empirische Verteilungsfunktion (Wagen A)") ecdfxB←ecdf(xB) # Empirische Verteilungsfunktion Wagen B plot.stepfun(ecdfxB,lty=1,verticals=F,xlim=c(3,9),ylim=c(0,1),main="",ylab="F (x)",xlab="x") plot.stepfun(ecdfxB,lty=2,verticals=T,add=T,main="") title(main="Empirische Verteilungsfunktion (Wagen B)") par(mfrow=c(1,1)) # nur eine Graphik im Fenster
R-Code zu Aufgabe 17, Seite 14, Lo ¨sung auf Seite 31 1 2
3
5 6 7 8
9 10 11 12
14 15
# Eingabe der Daten: Abs. H¨ aufigkeiten und Klassengrenzen EK←c(rep(900,20),rep(1350,20),rep(1800,80),rep(2400,60),rep(2850,10),rep (3250,10)) EKclasses←c(6,12,15,21,27,30,35)∗100 # Histogramm der Einkommensverteilung help( hist ) # R Hilfe par(mfrow=c(1,2)) histx←hist(EK, breaks=EKclasses, plot=T, freq=F, main="",xlab="",ylab="", ylim=c(0,0.0008), xaxt="n",yaxt="n") title(main="Histogramm der Einkommensverteilung") title(xlab="x (Einkommen in 1.000 EUR)", ylab="f(x) ∗ 1000") axis(1, at=EKclasses, labels=EKclasses/1000) axis(2, at=seq(0,0.0008,length.out=5), labels=seq(0,0.0008,length.out=5)∗ 1000,las=1) # Empirische Verteilungsfunktion der Einkommen tableEK←table(EK) # H¨ aufigkeitstabelle 185
KAPITEL 3. PROGRAMMBEISPIELE IN R 16 17 18 19 20
21
22 23 24
Fx←cumsum(tableEK/sum(tableEK)) # kumulierte H¨ aufigkeiten Fx←c(0, 0, Fx, 1) # Erg¨ anzung von Randwerten xx←c(0, EKclasses, 4000)/1000 # Erg¨ anzung von Randwerten und Skalierung # Graphische Darstellung als Kombination aus Linien und Punkten plot(xx, Fx, type="l",xaxt="n",main="", ylab="F(x)",ylim=c(0,1), lwd=3, xlab="x (Einkommen in 1.000 EUR)" ) points(xx[2:(length(xx)−1)], Fx[2:(length(Fx)−1)], lwd=5 ) # Ohne Randpunkte axis(1,at=xx) title(main="Verteilungsfunktion der Einkommen") par(mfrow=c(1,1))
R-Code zu Aufgabe 23, Seite 19, L¨ osung auf Seite 39 1 2 3
5 6 7 8 9
11 12 13 14 15 16 17 18 19 20 21 22
24 25 26 27
186
# Eingabe der Daten: x1 = Kasse 1, x2 = Kasse 2 x1←c(35,45,15,36,68,75,12,9,35,23,45,25,28,67,46) x2←c(76,21,49,63,47,48,69,62,52,41,68,79,45,32,11,12,16,45,23,7) # L¨ osung zu den Teilaufgaben a) und b) mean(x1) mean(x2) var(x1)∗(length(x1)−1)/length(x1) # emp. Varianz var(x2)∗(length(x2)−1)/length(x2) # emp. Varianz # L¨ osung zu Teilaufgabe c) quantile(x1, type=2) quantile(x2, type=2) # Andere Werte f¨ ur "type" benutzen verschiedenen Interpolationsregeln # und fivenum(x1) stimmt deswegen nur approximativ mit der # Aufgabenl¨ osung u ¨berein. Das gleiche gilt f¨ ur den Quartilsabstand: # IQR() liefert leicht abweichende Werte. IQR(x1) quantile(x1, 0.75, type=2)−quantile(x1, 0.25, type=2) IQR(x2) quantile(x2, 0.75, type=2)−quantile(x2, 0.25, type=2) boxplot(x1,x2,names=c("Kasse 1","Kasse 2"),main="Boxplots der Bedienungszeiten", xlab="Zeit in Sekunden",horizontal=T) # L¨ osung zu Teilaufgabe d) xGes←c(x1,x2) mean(xGes) # Gesamtmittel var(xGes)∗(length(xGes)−1)/length(xGes) # emp. Gesamtvarianz
3.5. R-QUELLCODES
R-Code zu Aufgabe 24, Seite 19, Lo ¨sung auf Seite 40 1 2 3 4
6 7 8 9 10
12 13 14 15
17 18 19 20 21 22 23 24 25 26 27 28
30 31 32 33
# Eingabe der Daten: xF = Zeiten der Frauen, xM = Zeiten der M¨ anner xF←c(11,15,18,19,22,23,31,32,45,97) xM←c(16,22,25,29,31,31,33,34,46,48) Parkzeiten←data.frame(ZeitenFrauen=xF, ZeitenM¨anner=xM) # L¨ osung zu Teilaufgabe b) apply(Parkzeiten, 2, mean) # oder einfacher: mean(Parkzeiten) apply(Parkzeiten, 2, var) # Stichprobenvarianz! var(xF)∗(length(xF)−1)/length(xF) # Emp. Varianz var(xM)∗(length(xM)−1)/length(xM) # Emp. Varianz # L¨ osung zu den Teilaufgaben c) und d) apply(Parkzeiten, 2, quantile, type=2) # 5-Punkte-Zusammenfassung apply(Parkzeiten, 2, fivenum) # fivenum() liefert hier das gleiche boxplot(Parkzeiten,main="Boxplots der Einparkzeiten", xlab="Zeit in Sekunden",horizontal=T) # L¨ osung zu Teilaufgabe e) # Der Quartilskoeffizient der Schiefe kann leicht mit Hilfe # der Funktion quantile() als eigene Funktion definiert werden: schiefeQ←function(x){ oben←quantile(x,0.75,type=2)−quantile(x,0.5,type=2) unten←quantile(x,0.5,type=2)−quantile(x,0.25,type=2) result←(oben−unten)/(oben+unten) names(result)←"Quartilskoef. der Schiefe" return(result) } schiefeQ(xF) schiefeQ(xM) # L¨ osung zu Teilaufgabe f) xGes←c(xF,xM) mean(xGes) var(xGes)∗(length(xGes)−1)/length(xGes) # emp. Varianz
R-Code zu Aufgabe 30, Seite 47, Lo ¨sung auf Seite 61 1 2 3 4 5
# Eingabe der Daten x←matrix( c(19,27,4,7,8,5,1,13,16), nrow=3, byrow=T ) rownames(x)←c("Kampagne A","Kampagne B","Kampagne C") colnames(x)←c("stark","mittel","schwach") x
187
KAPITEL 3. PROGRAMMBEISPIELE IN R 7 8 9
11 12 13
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
# L¨ osung zu Teilaufgabe a) barplot(t(x), beside=T,main="Absatzwachstum | Werbekampgane", legend.text=T,ylim=c(0,30),col=c("black","gray","white")) # L¨ osung zu Teilaufgabe b): Randverteilungen margin.table(x, 1) margin.table(x, 2) # L¨ osung zu Teilaufgabe c) # Mit der Funktion chisq.test() (vgl. Kapitel 2, Chi-Quadrat-Test) help( chisq.test ) # R Hilfe chisq.test(x)$expected # Kontingenztafel unter Unabh¨ angigkeit chisq.test(x)$statistic # Wert von Chi^2 # Damit kann die Berechnung der anderen Kennzahlen # in einer Funktion zusammengefasst werden: Zusammenhang←function(x){ Chi2←chisq.test(x)$statistic # Chi2 M←min( dim(x) ) # Minimum(Zeilen, Spalten) Chi2max←sum(x)∗(M−1) # Maximales Chi2 K ←sqrt( Chi2 / ( sum(x) + Chi2 ) ) # Kontingenzkoeffizient K Kmax← sqrt( ( M−1 ) / M ) # Maximales K Kstar←K / Kmax # Normiertes K: K∗ V←sqrt( Chi2 / Chi2max ) # Maß von Cramer result←c(Chi2,Chi2max,M,K,Kmax,Kstar,V) # alles zusammenfassen names(result)←c("Chi2","Chi2max","M","K","Kmax","K∗","V") return(result) } # Alle Ergebnis gerundet auf 3 Stellen: round(Zusammenhang(x), 3)
R-Code zu Aufgabe 31, Seite 47, L¨ osung auf Seite 62 1 2 3
5 6 7 8
10 11
188
# Eingabe der Daten: pA = Punkte von A, pB = Punkte von B pA←c(9,10,7,12,11,8) pB←c(44,49,63,72,64,62) # L¨ osung zu Teilaufgabe a) # Korrelationskoeffizient nach Bravais-Pearson cor(pA,pB) cor(pA,pB,method="pearson") # ist der Default # L¨ osung zu Teilaufgabe b) cor(5∗pA−3, pA) # ergibt = 1
3.5. R-QUELLCODES 13 14 15
17 18 19 20
# L¨ osung zu Teilaufgabe c) # Korrelationskoeffizient nach Spearman cor(pA,pB,method="spearman") # L¨ osung zu Teilaufgabe d) # Skalieren der Punktzahlen von A a¨ndert nichts cor(5∗pA,pB) cor(5∗pA,pB,method="spearman")
R-Code zu Aufgabe 34, Seite 49, L¨ osung auf Seite 67 1 2 3 4
6 7 8 9
11 12 13 14 15 16
17
# Eingabe der Daten: x = Alter, y = Verkaufswert x←c(0,1,3,5,6) y←c(65,45,40,30,20) Auto←data.frame(Alter=x,Verkaufswert=y) # L¨ osung zu den Teilaufgaben b) und c) cor(x, y, method="spearman") cor(x, y, method="pearson") # oder einfacher: cor(x, y) # oder direkt mit cor(Auto, method="spearman") bzw. cor(Auto) # L¨ osung zu den Teilaufgaben a), d) und e) help(lm) # R Hilfe zur linearen Regression fm←lm( Verkaufswert ∼Alter , data = Auto) coef(fm) # Koeffizienten der Ausgleichsgeraden # Graphische Darstellung: Scatterplot und Ausgleichsgerade plot(Auto,lwd=8,main="Zusammenhang zwischen Alter und Verkaufswert", ylim=c(0,70)) abline(fm,lwd=3)
R-Code zu Aufgabe 35, Seite 50, L¨ osung auf Seite 68 1 2 3 4
6 7 8
10 11
# Eingabe der Daten: x = Offene Stellen, y = Arbeitslose x←c(3.0,3.4,4.0,2.4,2.2) y←c(15,16,10,18,20) Arbeit←data.frame(OffeneStellen=x,Arbeitslose=y) # L¨ osung zu Teilaufgabe a): Berechnung der Ausgleichsgeraden fm←lm( Arbeitslose ∼OffeneStellen , data = Arbeit) coef(fm) # bzw. komplette Information (vgl. Kapitel 2) mit summary(fm) # L¨ osung zu Teilaufgabe c): graphische Darstellung plot(Arbeit,lwd=8,ylim=c(0,25),xlim=c(1.5, 4.5),main="",xlab="",ylab="") 189
KAPITEL 3. PROGRAMMBEISPIELE IN R 12
13 14
16 17
19 20 21 22 23 24
title(main="Lineare Regression:\n Anzahl Arbeitslose auf offene Stellen") title(xlab="Offene Stellen (in 1000)",ylab="Arbeitslose (in 1000)") abline(fm,lwd=3) # L¨ osung zu Teilaufgabe d): Bestimmtheitsmaß summary(fm)$r.squared # L¨ osung zu Teilaufgabe e) # Prognose f¨ ur x=2 (Tausend) offene Stellen prognose←predict.lm( fm, data.frame(OffeneStellen=c(2)) ) prognose # Hinzuf¨ ugen der Prognose zur Graphik points( c(2),prognose, lwd=8, col="gray")
R-Code zu Aufgabe 36, Seite 51, L¨ osung auf Seite 69 1 2 3 4 5
7 8
10 11 12 13 14 15
17 18
19
21 22 23
190
# Eingabe der Daten: X = Tabak, Y = Alkohol x←c(6.47,6.13,6.19,4.89,5.63,4.52,5.89,4.79,5.27,6.08,4.02) y←c(4.03,3.76,3.77,3.34,3.47,2.92,3.20,2.71,3.53,4.51,4.56) Ausgaben←data.frame(AusgabenTabak=x, AusgabenAlkohol=y) rownames(Ausgaben)←c("North","Yorkshire","North East","East Midlands" ,"West Midlands","East Anglia","Southeast","Southwest","Wales"," Scotland","Northern Ireland") # L¨ osung zu Teilaufgabe a): Korrelationskoeffizient cor(x,y) # oder auch: cor(Ausgaben) # L¨ osung zu Teilaufgabe b): Berechnung der Ausgleichgeraden fm←lm( AusgabenAlkohol ∼AusgabenTabak, data = Ausgaben) # Ausgabe der Koeffizienten und des Determinationskoeffizienten: coef( fm ) summary(fm)$r.squared # Ausgabe aller Informationen (vgl. Kapitel 2) mit: summary(fm) # L¨ osung zu Teilaufgabe c): graphische Darstellung plot(Ausgaben,lwd=8,main="Lineare Regression: Ausgaben f¨ ur Alkohol auf Tabak",ylim=c(0,5),xlab="Ausgabenanteil f¨ ur Tabak", ylab=" Ausgabenanteil f¨ ur Alkohol") abline(fm,lwd=3) # L¨ osung zu Teilaufgabe d): Regression ohne Nordirland (Zeile 11): cor(x[−11],y[−11]) fm.N←lm( AusgabenAlkohol ∼AusgabenTabak, data = Ausgaben[−11,])
3.5. R-QUELLCODES 24 25 26 27
28
coef(fm.N) summary(fm.N)$r.squared # bzw. summary(fm.N) # graphische Darstellung plot(Ausgaben[−11,],lwd=8,main="Lineare Regression: Ausgaben f¨ ur Alkohol auf Tabak\n(ohne Nordirland)",ylim=c(0,5),xlab=" Ausgabenanteil f¨ ur Tabak", ylab="Ausgabenanteil f¨ ur Alkohol") abline(fm.N,lwd=3)
R-Code zu Aufgabe 38, Seite 73, L¨ osung auf Seite 77 1 2 3
5 6 7 8 9 10 11 12
14 15 16 17 18 19 20
22 23 24 25 26 27 28
# Laden des Paketes "ineq", das die Funktionen f¨ ur die # Lorenzkurve Lc() und den Gini-Koeffizienten enth¨ alt. library(ineq) # L¨ osung zu Teilaufgabe a) x←c(0,0,20,60,120) # Berechnung der relevanten Werte der Lorenzkurve Lcx←Lc(x) Lcx help( Lc ) # R-Hilfe # graphische Darstellung: Lc(x,plot=T) als Default, oder plot.Lc(Lcx, main="Lorenzkurve \n der Immobilienverm¨ ogen", xlab= expression(u[i]), ylab=expression(v[i])) # L¨ osung zu Teilaufgabe c) Gini(x) # korrigierter Gini-Koeffizient als eigene Funktion: GiniKorrigiert←function(x){ ifelse(length(x)==1, NA, Gini(x) / (1−1/length(x))) } GiniKorrigiert(x) # L¨ osung zu Teilaufgabe f) xNeu←c(20/3,20/3,20/3,60,120) LcxNeu←Lc(xNeu) LcxNeu Gini(xNeu) GiniKorrigiert(xNeu) plot.Lc(LcxNeu, main="Lorenzkurve der Immobilienverm¨ ogen\n nach Umverteilung", xlab=expression(u[i]), ylab=expression(v[i]))
191
KAPITEL 3. PROGRAMMBEISPIELE IN R
R-Code zu Aufgabe 40, Seite 74, L¨ osung auf Seite 80 1 2 3 4
6 7
8
10 11 12 13 14
16 17 18 19 20
22 23 24 25
27 28
30 31
33 34
192
# Laden des Paketes ineq. # Danach stehen u.a. die Funktionen Gini(), Herfindahl() und # Lc() zum Berechnen und Plotten einer Lorenzkurve zur Verf¨ ugung library(ineq) # Eingabe der Daten: Anteile aller TV-Sender x←c(0.2,0.3,0.3,0.5,0.6,0.7,0.7,0.8,0.8,0.8,0.9,0.9,1.0, \1.0,1.1,1.2,2.6,3.9,3.9,4.1,5.7,6.5,9.6,12.4,12.9,13.4,13.5) names(x)←c("9Live","ComedyCentral","MTV","DMAX","VIVA","NICK","n-tv"," Tele5","arte","Das Vierte","N24","Phoenix","Eurosport","3sat","DSF"," KiKa","Super RTL","Kabel Eins","RTL II","TV Rest","VOX","ProSieben"," Sat.1","RTL","ZDF","ARD","ARD-Dritte") # L¨ osung zu Teilaufgabe a) x5←x[(length(x)−4):length(x)] Lc(x5) Gini(x5) plot.Lc(Lc(x5),main="Lorenzkurve\n der 5 marktanteilst¨ arksten TVSender",xlab=expression(u[i]), ylab=expression(v[i])) # L¨ osung zu Teilaufgabe b) x20←x[(length(x)−19):length(x)] Lc(x20) Gini(x20) plot.Lc(Lc(x20),main="Lorenzkurve\n der 20 marktanteilst¨ arksten TVSender",xlab=expression(u[i]), ylab=expression(v[i])) # L¨ osung zu Teilaufgabe c) Lc(x) Gini(x) plot.Lc(Lc(x),main="Lorenzkurve aller TV-Sender",xlab=expression(u[i]), ylab=expression(v[i])) # L¨ osung zu Teilaufgabe d) Herfindahl(x5) # L¨ osung zu Teilaufgabe e) 1−Lc(x5)$L # Konzentrationsrate direkt aus der Lorenzkurve # L¨ osung zu Teilaufgabe f) (1−Lc(x)$L) # Konzentrationsrate direkt aus der Lorenzkurve
3.5. R-QUELLCODES
R-Code zu Aufgabe 41, Seite 75, Lo ¨sung auf Seite 84 1 2 3
4
6 7 8 9 10 11 12 13 14 15
# L¨ osung zu Teilaufgabe a) xMax←c(1000,rep(0,9)) plot.Lc(Lc(xMax),main="Lorenzkurve bei maximaler Konzentration",xlab= expression(u[i]),ylab=expression(v[i])) Gini(xMax) # L¨ osung zu Teilaufgabe d) x←c(500,250,250,rep(0,7)) Lc(x) plot.Lc(Lc(x),main="Lorenzkurve",xlab="",ylab="") title(xlab=expression(u[i]),ylab=expression(v[i])) Gini(x) # korrigierter Gini-Koeffizient als eigene Funktion: GiniKorrigiert←function(x){ ifelse(length(x)==1, NA, Gini(x) / (1−1/length(x)))} GiniKorrigiert(x)
R-Code zu Aufgabe 43, Seite 88, L¨ osung auf Seite 93 1 2 3
4
6 7 8 9
10 11 12 13 14 15 16
18 19 20
21
# Eingabe der Daten xt←c(5,6,9,15,13,14,17,23) names(xt)←c("Q1.05","Q2.05","Q3.05","Q4.05","Q1.06","Q2.06","Q3.06","Q4 .06") mydata←data.frame( Zeit=1:length(xt), Umsatz=xt) # L¨ osungen zu Teilaufgabe a) und c) # graphische Darstellung der Zeitreihe plot( mydata, type="b", lwd=3,ylim=c(0,30), xaxt="n", main="") title(main="Gesamtumsatz pro Quartal:\n Zeitreihe und lineare Trendfunktion") axis(1,at=mydata$Zeit, labels=rownames(mydata)) # Sch¨ atzung des linearen Trendmodells fm←lm( Umsatz ∼Zeit, data = mydata) # Darstellung der Trendgeraden abline(fm,lwd=3) # Koeffizienten coef( fm ) # L¨ osung zu Aufgabe d) residuals(fm) plot( residuals(fm), lwd=3, type="b", main="Trendbereinigte Zeitreihe", ylab="",xlab="Zeit", xaxt="n") axis(1,at=mydata$Zeit, labels=rownames(mydata)) 193
KAPITEL 3. PROGRAMMBEISPIELE IN R 22 23 24 25 26 27 28 29 30
32 33
34 35 36 37
38 39 40
42 43 44 45 46 47 48
# L¨ osung zu Teilaufgabe e) # Umsortieren der Residuen in Matrixform Resid←matrix( residuals(fm), nrow=4 ) rownames(Resid)←paste("Q",1:4,sep="") colnames(Resid)←2005:2006 round( Resid, 2) # Sch¨ atzung der Saisonkomponente als Quartalsmittel saisont←apply( Resid, c(1), mean) round( saisont, 2) # L¨ osung zu Teilaufgabe f) # Werte der gesch¨ atzten Zeitreihe = gesch¨ atzter Trend + gesch¨ atzte Saison in jedem Jahr ghat←fitted(fm)+rep( saisont, 2 ) signif( ghat, 3) plot(mydata, type="b", lwd=2,ylim=c(0,30), main="",xaxt="n") title(main="Zeitreihe, lineare Trendfunktion\n und Sch¨ atzung mit konstanter Saisonfigur") abline(fm,lwd=2, col="gray") lines( ghat, lwd=3) axis(1, at=mydata$Zeit, labels=rownames(mydata)) # L¨ osung zu Teilaufgabe g) # Prognose des Umsatzes f¨ ur Q1.07 und Q2.07 predict.trend←predict( fm, data.frame(Zeit=c(9,10)) ) predict.saison←saisont[1:2] prognose←predict.trend+predict.saison names(prognose)←c("Q1.07","Q2.07") round(prognose, 2)
R-Code zu Aufgabe 45, Seite 89, L¨ osung auf Seite 98 1 2 3 4
6 7
8
10 11
194
# Eingabe der Daten xt←c(10,11.5,13.5,15.5,18) mydata←data.frame( Zeit=1:length(xt), Anschl¨ usse=xt) rownames(mydata)←c("Dez.06","Jan.07","Feb.07","M¨ ar.07","Apr.07") # L¨ osung zu Teilaufgabe a): graphische Darstellung plot( mydata, type="b", lwd=3, ylim=c(7,20), main="Monatliche Anschl¨ usse" ,ylab="Anschl¨ usse (in 100.000)" , xaxt="n") axis( 1, at=mydata$Zeit, labels=rownames(mydata) ) # L¨ osung zu Teilaufgabe b): Exponentielles Trendmodell # = linearer Trend auf den logarithmierten Daten
3.5. R-QUELLCODES 12 13 14
15 16 17 18 19 20
22 23 24 25 26 27 28
30 31 32 33 34
logmydata←data.frame( Zeit=1:length(xt), logAnschl¨ usse=log(xt) ) fm←lm( logAnschl¨ usse ∼Zeit, data = logmydata) plot( logmydata, type="b", main="Monatliche Anschl¨ usse (logarithmiert)\ n im expon. Trendmodell",ylab="log(Anschl¨ usse)", lwd=3, xaxt="n") axis( 1, at=mydata$Zeit, labels=rownames(mydata) ) abline( fm, lwd=3,col="gray") # gesch¨ atzte Koeffizienten des Modells coef(fm) # Koeffizienten in der urspr¨ uglichen Skala, expo. Trendmodell exp( coef(fm) ) # L¨ osung zu Teilaufgabe d) # Residuen im logarithmierten Modell residuals(fm) # bzw. im urspr¨ unglichen Modell exp( residuals(fm) ) # Die Anpassungsg¨ ute R^2 ist "multiple R-squared" in der summary summary(fm)$r.squared # L¨ osung zu Teilaufgabe e) predict.log←predict(fm, data.frame(Zeit=c(6,7))) prognose←exp(predict.log) names(prognose)←c("Mai.07","Jun.07") prognose # leichte Abweichung durch Rundungsungenauigkeit
R-Code zu Aufgabe 54, Seite 108, L¨ osung auf Seite 111 1 2 3 4 5 6
8 9 10 11 12 13 14 15 16
# Hypergeometrische Verteilung: dhyper(x, m, n, k) # x: Anzahl der richtigen unter den gezogenen Zahlen # m: Anzahl der richtigen (=gezogenen) Zahlen, hier 6 # n: Anzahl der nicht gezogenen Zahlen, hier 49-6 # k: Anzahl der gezogenen Zahlen, hier 6 help( dhyper ) # R Hilfe # Wahrscheinlichkeiten ph←dhyper(0:6, 6, 49−6, 6) names(ph)←0:6 barplot(ph, main="Wahrscheinlichkeiten dhyper(x, 6, 49-6, 6)" ) # (kumulierte) Wahrscheinlichkeiten wh←rbind( dhyper(0:6, 6, 49−6, 6), phyper(0:6, 6, 49−6, 6) ) colnames(wh)←0:6 rownames(wh)←c("P(X = k)", "P(X b
(b − a)2 12
f¨ ur 0 < p < 1
• Eigenschaft: F¨ ur V ∼ U(a; b) gilt: U =
V −a b−a
∼ U(0; 1).
• Spezialfall: Gleichverteilung auf [0; 1], U ∼ U(0; 1) E(U) =
1 2
Var(U) =
1 12
ur 0 < p < 1 up = p f¨
Exponentialverteilung • Notation: X ∼ Ex(λ), mit λ > 0 • Dichte- und Verteilungsfunktion: " ur x ≥ 0 λe−λx f¨ fX (x) = 0 sonst
" 0 FX (t) = P(X ≤ t) = 1 − e−λt
• Erwartungswert und Varianz: E(X) = • p–Quantile:
xp =
− ln(1 − p) λ
1 λ
Var(X) =
1 λ2
f¨ ur 0 < p < 1
• Berechnung der bedingten Wahrscheinlichkeit: P(X ≤ s + t|X ≥ t) = P(X ≤ s) f¨ ur s, t > 0
242
f¨ ur t < 0 f¨ ur t ≥ 0
4.9. STETIGE VERTEILUNGSMODELLE
Standardnormalverteilung • Notation: Z ∼ N(0; 1) • Dichte- und Verteilungsfunktion: 2 1 x f¨ ur x ∈ R ϕ(x) = √ exp − 2 2π
1 Φ(z) = P(Z ≤ z) = √ 2π
• Erwartungswert und Varianz: E(Z) = 0 • p–Quantile: zp mit Φ(zp ) = p,
2 t dt exp − 2 −∞
z
Var(Z) = 1
zp = −z1−p
f¨ ur 0 < p < 1
• Wahrscheinlichkeiten: P(Z ≤ b) = Φ(b)
P(a ≤ Z ≤ b) = Φ(b) − Φ(a)
Φ(−z) = 1 − Φ(z)
Normalverteilung (Gauß-Verteilung) • Notation: X ∼ N(μ; σ2 ), mit σ 2 > 0 • Definition: X ist normalverteilt mit Erwartungswert μ und Varianz σ 2 , falls X−μ X −μ d.h. falls Z = ∼ N (0; 1) P(X ≤ x) = Φ σ σ • Dichte- und Verteilungsfunktion: 1 (x − μ)2 exp − fX (x) = √ 2σ 2 2πσ
1 FX (t) = √ 2πσ
• Erwartungswert und Varianz: E(X) = μ • Wahrscheinlichkeiten: P(a ≤ X ≤ b) = Φ • p–Quantile: xp = μ + σ zp , Φ(zp ) = p
b−μ σ
t
(x − μ)2 exp − 2σ 2 −∞
dx
Var(X) = σ2
−Φ
a−μ σ
f¨ ur 0 < p < 1
243
KAPITEL 4. FORMELSAMMLUNG
Rechenregeln fu ¨r normalverteilte Zufallsvariablen • Lineare Transformation einer Zufallsvariablen X ∼ N(μ; σ 2) F¨ ur a, b ∈ R und Y = a · X + b
⇒
Y ∼ N(a · μ + b; a2 · σ 2 )
2 ), Y ∼ N(μY ; σY2 ) • Zwei unabh¨ angige Zufallsvariablen X ∼ N(μX ; σX 2 X + Y ∼ N(μX + μY ; σX + σY2 )
F¨ ur c1 , c2 ∈ R
2 c1 · X + c2 · Y ∼ N(c1 · μX + c2 · μY ; c21 · σX + c22 · σY2 )
• n unabh¨ angige Zufallsvariablen: Xi ∼ N(μi , σi ) X1 + · · · + Xn ∼ N(μ1 + · · · + μn ; σ12 + · · · + σn2 ) F¨ ur ci ∈ R c1 · X1 + · · · + cn · Xn ∼ N(c1 · μ1 + · · · + cn · μn ; c21 · σ12 + · · · + c2n · σn2 )
Approximation der Binomialverteilung durch eine Normalverteilung • Binomialverteilte Zufallsvariable: S ∼ B(n; p) (Faustregel: np · (1 − p) > 9 ist erf¨ ullt) • Approximation (mit Stetigkeitskorrektur, d.h. Korrektursummanden ±0, 5): a − 0, 5 − np b + 0, 5 − np −Φ P(a ≤ S ≤ b) ≈ Φ np · (1 − p) np · (1 − p) • Approximation (ohne Stetigkeitskorrektur): a − np b − np −Φ P(a ≤ S ≤ b) ≈ Φ np · (1 − p) np · (1 − p) • Approximation der Wahrscheinlichkeiten P(S = k): 1. M¨oglichkeit: Mit Stetigkeitskorrektur und a = b = k 1 2 2. M¨oglichkeit: Mit Hilfe der Dichtefunktion ϕ(x) = √ e−x /2 2π 1 k − np P(S = k) ≈ ϕ np · (1 − p) np · (1 − p)
244
4.9. STETIGE VERTEILUNGSMODELLE
χ2 -Verteilung • Definition: Wenn Z1 , . . . , Zn unabh¨angig und N (0; 1)-verteilt sind, dann heißt die Verteilung von χ2 = Z12 + · · · + Zn2 Chi-Quadrat-Verteilung mit n Freiheitsgraden“. ” • Notation: χ2 ∼ χ2 (n) • Erwartungswert und Varianz: E(χ2 ) = n
Var(χ2 ) = 2n
ur p = 0, 005; 0, 01; . . . ; 0, 99; 0, 995 • p–Quantile: χ2p;n tabelliert f¨ • Approximation durch die Normalverteilung: ur Quantile gilt: χ2p;n ≈ F¨ ur n > 30 ist χ2 (n) ≈ N (n; 2n) und f¨
1 2
· (zp +
√
2n − 1)2
t-Verteilung, Student-Verteilung • Definition: Wenn X∼ N(0; 1) und S ∼ χ2 (n) unabh¨angig sind, dann heißt die Verteilung von T = X/
S n
t-Verteilung mit n Freiheitsgraden“. ”
• Notation: T ∼ t(n) • Erwartungswert und Varianz: E(T ) = 0 (n > 1)
Var(T ) =
n n−2
(n > 2)
ur p = 0, 6; 0, 8; . . . ; 0, 999; 0, 9995 tp;n = −t1−p;n • p–Quantile: tp;n tabelliert f¨ • Approximation durch die Normalverteilung: F¨ ur n > 100 ist t(n) ≈ N (0; 1) und f¨ ur Quantile gilt: tp;n ≈ zp
Verteilung von X n Wenn X1 , . . . , Xn unabh¨angige und N (μ; σ 2 )-verteilte Zufallsvariablen sind, dann sind 1 Xi n i=1 n
Xn =
2 1 Xi − X n n − 1 i=1 n
(Mittelwert) und Sn2 =
(Varianz)
unabh¨angige Zufallsvariablen und es gelten: σ2 (n − 1) 2 X n ist N μ; Sn ist χ(n − 1)-verteilt -verteilt und n σ2 √ Xn − μ √ Xn − μ Z = n· ist t(n − 1)-verteilt ist N (0; 1)-verteilt und T = n · σ Sn
245
KAPITEL 4. FORMELSAMMLUNG
Zentraler Grenzwertsatz Wenn X1 , . . . , Xn unabh¨angig und identisch verteilte Zufallsvariablen mit Mittelwert E(Xi ) = μ und Varianz Var(Xi ) = σ 2 > 0 sind, dann gilt f¨ ur großes n: 1 Xn = Xi n i=1 n
⇒
4.10
Zn =
σ2 -verteilt ist approximativ N μ; n
√ Xn − μ n· σ
ist approximativ N (0; 1)-verteilt, d.h. P(Zn ≤ z) ≈ Φ(z)
Konfidenzintervalle und Signifikanztests
Approximatives Konfidenzintervall fu ¨r einen Anteilswert • Statistisches Modell: – X1 , . . . , Xn unabh¨angig und identisch verteilt, – Beobachtete (realisierte) Werte: x1 , . . . xn
Xi ∼ Bernoulli(p)
mit xi = 0 oder xi = 1
– Großer Stichprobenumfang; Faustregel: n > 30, np · (1 − p) > 9 • Parametersch¨ atzung f¨ ur p: 1 Xi n i=1 n
– Sch¨ atzer: Rn =
1 1 xi = · Anzahl 1 in der Stichprobe n i=1 n n
– Sch¨ atzwert: pˆ =
• Approximatives (1 − α)-Konfidenzintervall f¨ ur p: Rn (1 − Rn ) Rn (1 − Rn ) Rn − z1− α2 , Rn + z1− α2 n n
1 Xi n i=1 n
mit Rn =
• Realisiertes approximatives (1 − α)-Konfidenzintervall f¨ ur p: n pˆ(1 − pˆ) pˆ(1 − pˆ) 1 xi pˆ − z1− α2 , pˆ + z1− α2 mit pˆ = n n n i=1
246
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Intervallsch¨ atzung fu ¨ r μ und σ 2 • Statistisches Modell: – X1 , . . . Xn einfache Zufallsstichprobe, unabh¨angig und identisch verteilt wie X – X ∼ N(μ; σ 2 ) (exakt oder approximativ) oder großer Stichprobenumfang n – Beobachtete (realisierte) Werte: x1 , . . . , xn • Parametersch¨ atzung: Parameter
Sch¨ atzer n 1 Xn = Xi n i=1 n 1 Sn2 = (Xi − X n )2 n − 1 i=1
μ σ2
Sch¨ atzwert n 1 μ ˆ = x¯ = xi n i=1 n 1 σ ˆ2 = (xi − x¯)2 n − 1 i=1
• (1 − α)–Konfidenzintervalle: f¨ ur μ, wenn σ2 bekannt
σ σ X n − z1− α2 √ ; X n + z1− α2 √ n n
2
f¨ ur μ, wenn σ unbekannt
f¨ ur σ 2
S S √n ; X n + t1− α2 ;n−1 √n Xn − t n n (n − 1)Sn2 (n − 1)Sn2 ; χ21− α ;n−1 χ2α ;n−1
1− α ;n−1 2
2
2
• Realisierte (1 − α)–Konfidenzintervalle: f¨ ur μ, wenn σ 2 bekannt f¨ ur μ, wenn σ 2 unbekannt
f¨ ur σ 2
σ σ x¯ − z1− α2 √ ; x¯ + z1− α2 √ n n σ ˆ σ ˆ α α √ √ x¯ − t1− 2 ;n−1 ; x¯ + t1− 2 ;n−1 n n σ2 (n − 1)ˆ σ 2 (n − 1)ˆ ; χ21− α ;n−1 χ2α ;n−1 2
2
247
KAPITEL 4. FORMELSAMMLUNG
Gauß-Test • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Xi ∼ N(μ; σ 2 ) (exakt bzw. approximativ) oder großer Stichprobenumfang n – Bekannte Varianz σ 2 – Beobachtete Werte (Stichprobe): x1 , . . . , xn • Hypothesen: (1) H0 : μ = μ0 gegen H1 : μ = μ0 (2) H0 : μ = μ0 gegen H1 : μ > μ0 (3) H0 : μ = μ0 gegen H1 : μ < μ0 • Teststatistik und realisierter Wert: Z=
√
n·
X n − μ0 σ
• Verteilung von Z unter H0 :
zbeob =
√ x¯ − μ0 n· σ
Z ∼ N(0; 1)
• Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |zbeob | > z1− α2 (2) zbeob > z1−α (3) zbeob < zα ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur Z ∼ N(0; 1) (1) p-Wert = 2 · P(Z ≥ |zbeob |) (2) p-Wert = P(Z ≥ zbeob ) (3) p-Wert = P(Z ≤ zbeob ) Anmerkung: Bei den einseitigen Tests (2) bzw. (3) wird auch getestet: (2) H0 : μ ≤ μ0 gegen H1 : μ > μ0 (3) H0 : μ ≥ μ0 gegen H1 : μ < μ0 Dies gilt im folgenden sinngem¨aß f¨ ur alle einseitigen Tests.
248
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
t-Test (Ein-Stichproben-Fall) • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Xi ∼ N(μ; σ2 ) (exakt bzw. approximativ) oder großer Stichprobenumfang n – Unbekannte, zu sch¨atzende Varianz σ 2 – Beobachtete Werte (Stichprobe): x1 , . . . , xn • Hypothesen: (1) H0 : μ = μ0 gegen H1 : μ = μ0 (2) H0 : μ = μ0 gegen H1 : μ > μ0 (3) H0 : μ = μ0 gegen H1 : μ < μ0 • Teststatistik und realisierter Wert: T = tbeob =
√
n·
X n − μ0 SX
√ x¯ − μ0 n· σ ˆX
• Verteilung von T unter H0 :
2 mit SX =
1 (Xi − X n )2 n − 1 i=1
2 mit σ ˆX =
1 (xi − x¯)2 n − 1 i=1
n
n
T ∼ t(n − 1)
• Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < tα;n−1 ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(n − 1) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob )
249
KAPITEL 4. FORMELSAMMLUNG
Approximativer Binomialtest • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Xi ∼ Bernoulli(p) – Großer Stichprobenumfang; bzw. Faustregel: np0 (1 − p0 ) > 9 – Beobachtete Werte (Stichprobe): x1 , . . . , xn
mit xi = 0 oder xi = 1
• Hypothesen: (1) H0 : p = p0 gegen H1 : p = p0 (2) H0 : p = p0 gegen H1 : p > p0 (3) H0 : p = p0 gegen H1 : p < p0 • Teststatistik und realisierter Wert: √ Rn − p0 n· p0 (1 − p0 ) √ pˆ − p0 = n· p0 (1 − p0 )
Z= zbeob
mit Rn = X n mit pˆ = x¯
• Approximative Verteilung von Z unter H0 : Z ∼ N(0; 1) • Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |zbeob | > z1− α2 (2) zbeob > z1−α (3) zbeob < zα ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur Z ∼ N(0, 1) (1) p-Wert = 2 · P(Z ≥ |zbeob |) (2) p-Wert = P(Z ≥ zbeob ) (3) p-Wert = P(Z ≤ zbeob ) • Anmerkung: Unter H0 gilt exakt: nRn ∼ B(n; p0 ). Mit den entsprechenden Quantilen der Binomialverteilung erh¨alt man den sogenannten exakten Binomialtest.
250
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Vergleich der Erwartungswerte, bekannte Varianzen • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Y1 , . . . , Ym unabh¨angig und identisch verteilt – X1 , . . . , Xn , Y1 , . . . Ym unabh¨angig 2 ), Yj ∼ N(μY ; σY2 ) (exakt bzw. approximativ) – Xi ∼ N(μX ; σX oder große Stichprobenumf¨ange m, n 2 – Bekannte Varianzen σX und σY2
– Beobachtete Werte (Stichproben): x1 , . . . , xn und y1 , . . . , ym • Hypothesen: (1) H0 : μX − μY = 0 gegen H1 : μX − μY = 0 (2) H0 : μX − μY = 0 gegen H1 : μX − μY > 0 (3) H0 : μX − μY = 0 gegen H1 : μX − μY < 0 • Teststatistik und realisierter Wert: Xn − Y m Z= 2 σ2 σX + Y n m • Verteilung von Z unter H0 :
zbeob =
x¯ − y¯ 2 σ ˆ2 σ ˆX + Y n m
Z ∼ N(0; 1)
• Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |zbeob | > z1− α2 (2) zbeob > z1−α (3) zbeob < zα ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur Z ∼ N(0; 1) (1) p-Wert = 2 · P(Z ≥ |zbeob |) (2) p-Wert = P(Z ≥ zbeob ) (3) p-Wert = P(Z ≤ zbeob )
251
KAPITEL 4. FORMELSAMMLUNG
t-Test (Zwei-Stichproben-Fall), gleiche Varianzen • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Y1 , . . . , Ym unabh¨angig und identisch verteilt – X1 , . . . , Xn , Y1, . . . Ym unabh¨angig 2 ), Yj ∼ N(μY ; σY2 ) (exakt bzw. approximativ) – Xi ∼ N(μX ; σX oder große Stichprobenumf¨ange m, n 2 – Unbekannte (aber als gleich angenommene) Varianzen σX = σY2
– Beobachtete Werte (Stichproben): x1 , . . . , xn und y1 , . . . , ym • Hypothesen: (1) H0 : μX − μY = 0 gegen H1 : μX − μY = 0 (2) H0 : μX − μY = 0 gegen H1 : μX − μY > 0 (3) H0 : μX − μY = 0 gegen H1 : μX − μY < 0 • Teststatistik und realisierter Wert: Xn − Y m 1 1 + S· n m x¯ − y¯ = 1 1 σ ˆ· + n m
T =
tbeob
mit S 2 =
2 (n − 1) · SX + (m − 1) · SY2 n+m−2
mit σ ˆ2 =
2 + (m − 1) · σ ˆY2 (n − 1) · σ ˆX n+m−2
• Verteilung von T unter H0 : T ∼ t(n + m − 2) • Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;n+m−2 (2) tbeob > t1−α;n+m−2 (3) tbeob < tα;n+m−2 ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(n + m − 2) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob )
252
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
t-Test (Zwei-Stichproben-Fall), unbekannte Varianzen • Annahmen: – X1 , . . . , Xn unabh¨angig und identisch verteilt – Y1 , . . . , Ym unabh¨angig und identisch verteilt – X1 , . . . , Xn , Y1 , . . . Ym unabh¨angig 2 – Xi ∼ N(μX ; σX ), Yj ∼ N(μY ; σY2 ) (exakt bzw. approximativ) oder große Stichprobenumf¨ange m, n 2 – Unbekannte Varianzen σX und σY2
– Beobachtete Werte (Stichproben): x1 , . . . , xn und y1 , . . . , ym • Hypothesen: (1) H0 : μX − μY = 0 gegen H1 : μX − μY = 0 (2) H0 : μX − μY = 0 gegen H1 : μX − μY > 0 (3) H0 : μX − μY = 0 gegen H1 : μX − μY < 0 • Teststatistik und realisierter Wert: Xn − Y m T = 2 SX S2 + Y n m
tbeob =
x¯ − y¯ 2 σ ˆX σ ˆ2 + Y n m
• Approximative Verteilung von T unter H0 : 2 2 σˆX σ ˆ2 + Y n m wobei k gr¨oßte ganze Zahl mit k ≤ 2 2 2 2 1 σ ˆX σ ˆY 1 + n−1 n m−1 m
T ∼ t(k)
• Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;k (2) tbeob > t1−α;k (3) tbeob < tα;k ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(k) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob )
253
KAPITEL 4. FORMELSAMMLUNG
t-Test (verbundene Stichproben) • Annahmen: – (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨angig und identisch verteilt – Xi hat Erwartungswert μX ; Yi hat Erwartungswert μY – Di = Xi −Yi normalverteilt (exakt bzw. approximativ) oder großer Stichprobenumfang n – Beobachtete Werte (Stichproben): x1 , . . . , xn und y1 , . . . , yn • Hypothesen: (1) H0 : μX − μY = 0 gegen H1 : μX − μY = 0 (2) H0 : μX − μY = 0 gegen H1 : μX − μY > 0 (3) H0 : μX − μY = 0 gegen H1 : μX − μY < 0 • Teststatistik und realisierter Wert: T = tbeob =
√ Dn n SD √
n
d¯ σ ˆD
2 mit SD =
1 (Di − Dn )2 , n − 1 i=1
2 mit σ ˆD =
1 ¯ 2, (di − d) n − 1 i=1
n
Di = Xi − Yi
n
• Verteilung von T unter H0 :
di = xi − yi
T ∼ t(n − 1)
• Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < tα;n−1 ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(n − 1) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob )
254
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
χ2 -Unabh¨ angigkeitstest • Annahmen: – Zufallsvariable X mit Auspr¨agungen {a1 , . . . , ak } – Zufallsvariable Y mit Auspr¨agungen {b1 , . . . , bl } – (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨angig und identisch verteilt wie (X, Y ) – Realisierungen (x1 , y1 ), . . . , (xn , yn ) gruppiert in eine (k × l) Kontingenztabelle mit absoluten H¨aufigkeiten hij und Randh¨aufigkeiten hi• = hi1 + · · · + hil bzw. h•j = h1j + · · · + hkj • Hypothese: H0 : X und Y sind voneinander unabh¨angig“ ” gegen H1 : X und Y sind nicht unabh¨angig“ ” • Realisierter Wert der Teststatistik: 2 hi• h•j − h k l ij n χ2beob = hi• h•j i=1 j=1 n • Approximativer Ablehnungsbereich bzw. Testentscheidung zum Niveau α: χ2beob > χ21−α;(k−1)(l−1)
falls
hi• h•j ≥ 5 f¨ ur alle i, j n
¨ • Uberschreitungswahrscheinlichkeit: F¨ ur χ2 ∼ χ2 ((k − 1)(l − 1)) p-Wert = P(χ2 ≥ χ2beob ) • Teststatistik:
2 hi• h•j n χ2 = hi• h•j i=1 j=1 n hij = zuf¨allige Anzahl Paare (Xs , Ys ) die den Wert (ai , bj ) annehmen.
k l
hij −
• Approximative Verteilung von χ2 unter H0 : χ2 ∼ χ2 ((k − 1)(l − 1))
falls
hi• h•j ≥ 5 f¨ ur alle i, j n
255
KAPITEL 4. FORMELSAMMLUNG
χ2 -Anpassungstest (bei kategorialem Merkmal) • Annahmen: – Zufallsvariable X mit Auspr¨agungen {a1 , . . . , ak } – X1 , . . . , Xn unabh¨angig und identisch verteilt wie X – Realisierungen x1 , . . . , xn gruppiert in k Gruppen mit absoluten H¨aufigkeiten hi Auspr¨agungen H¨aufigkeiten
··· ···
a1 h1
ai hi
··· ···
ak hk
• Hypothese: H0 : P(X = ai ) = pi , i = 1, . . . , k “ ” gegen H1 : P (X = ai ) = pi f¨ ur mindestens ein i“ ” • Realisierter Wert der Teststatistik: χ2beob =
k (hi − npi )2 i=1
npi
• Approximativer Ablehnungsbereich bzw. Testentscheidung zum Niveau α: χ2beob > χ21−α;(k−1) ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur χ2 ∼ χ2 (k − 1) p-Wert = P(χ2 ≥ χ2beob ) • Teststatistik: χ2 =
k (hi − npi )2 i=1
npi
hi = zuf¨allige Anzahl der Xs mit Auspr¨agung ai . • Approximative Verteilung von χ2 unter H0 : χ2 ∼ χ2 (k − 1) falls npi ≥ 5 f¨ ur alle i
256
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Lineare Einfachregression • Modell und Daten: Yi = β0 + β1 xi + i ,
i = 1, . . . , n
– Zufallsvariablen Y1 , . . . , Yn ; beobachte Realisierungen y1 , . . . , yn – x1 , . . . , xn gegebene deterministische Werte oder Realisierungen einer metrischen Zufallsvariablen X – Fehlervariablen: 1 , . . . , n i ∼ N(0; σ 2 ) (exakt bzw. approximativ) oder großer Stichprobenumfang n • Modellparameter (aus den Daten zu sch¨atzen): β0 , β1 und σ2 . • Kleinste-Quadrate-Sch¨ atzer f¨ ur die Koeffizienten β0 und β1 : – Sch¨ atzwerte: n (x − x¯)(yi − y¯) i=1 n i ¯)2 i=1 (xi − x minimieren: Q(β0 , β1 ) = ni=1 (Yi − β0 − β1 xi )2 βˆ1 =
βˆ0 = y¯ − βˆ1 x¯
– Sch¨ atzer: n
(x − x¯)(Yi − i=1 n i ¯ )2 i=1 (xi − x
ˆ1 = β
ˆ ∼ N (β0 ; v2 ) – Eigenschaften: β 0 0 σ2 mit
n
Y)
ˆ 1 ∼ N (β1 ; v 2 ) β 1
und x2i
i=1
v02 = n
n
ˆ 1 x¯ ˆ0 = Y − β β
v12 =
(xi − x)2
i=1
• Ausgleichsgerade: yˆ = βˆ0 + βˆ1 x
σ2 n (xi − x)2 i=1
(als Sch¨atzer: Yˆ = βˆ0 + βˆ1 x)
• Angepasste Werte: Sch¨atzwerte: yˆi = βˆ0 + βˆ1 xi
Sch¨atzer: Yˆi = βˆ0 + βˆ1 xi
• Residuen: Sch¨atzwerte: ˆ i = yi − yˆi
Sch¨atzer: ˆi = Yi − Yˆi
• Sch¨ atzung der Varianz σ 2 : 1 2 ˆ n − 2 i=1 i n
Sch¨atzwerte: σ ˆ2 =
1 2 ˆ n − 2 i=1 i n
Sch¨atzer: σ ˆ2 =
257
KAPITEL 4. FORMELSAMMLUNG
Streuungszerlegung • Streuungszerlegung: n n n (yi − y¯)2 = (ˆ yi − y¯)2 + (yi − yˆi )2 i=1
i=1
i=1
n (yi − y¯)2 i=1 n
Gesamtstreuung
(ˆ yi − y¯)2 = βˆ2
i=1 n
n
(xi − x¯)2
durch Regression erkl¨arte Streuung
i=1
(yi − yˆi )2
Residualstreuung
i=1
• Determinationskoeffizient: n
erkl¨arte Streuung R = = i=1 n Gesamtstreuung
(ˆ yi − y¯)2 R2 ∈ [0; 1]
2
i=1
(yi −
y¯)2
Konfidenzintervalle fu ¨ r β0 und β1 • Realisierte (1 − α)-Konfidenzintervall f¨ ur β0 und β1 : βˆ1 ± vˆ1 · t1− α2 ;n−2
βˆ0 ± vˆ0 · t1− α2 ;n−2 σ ˆ2 mit
vˆ02 = n
n
n
x2i
i=1
vˆ12 =
(xi − x)2
i=1
σ ˆ2 n
(xi − x)2
i=1
• abgeleitet aus den Sch¨atzern: ˆ − β1 β 1 ∼ t(n − 2) ˆ1 v
258
und
ˆ 0 − β0 β ∼ t(n − 2) ˆ0 v
4.10. KONFIDENZINTERVALLE UND SIGNIFIKANZTESTS
Prognose von Y0 zu gegebenem x0 • Prognose von Y0 zu gegebenem x0 :
yˆ0 = βˆ0 + βˆ1 x0
• Realisiertes (1 − α)-Konfidenzintervall f¨ ur Y0 : ! (x0 − x)2 1 yˆ0 ± t1− α2 ;n−2 σ ˆ 1 + + n 2 n i=1 (xi − x)
t-Test bezu ¨glich der Steigung β1 der Regressionsgeraden • Annahme: Modell der linearen Einfachregression mit i ∼ N(0; σ 2 ) (exakt bzw approximativ) oder großer Stichprobenumfang n • Hypothesen: (1) H0 : β1 = 0 gegen H1 : β1 = 0 (2) H0 : β1 = 0 (bzw. H0 : β1 ≤ 0) gegen H1 : β1 > 0 (3) H0 : β1 = 0 (bzw. H0 : β1 ≥ 0) gegen H1 : β1 < 0 • Teststatistik und realisierter Wert: T =
ˆ β 1 ˆ1 v
ˆ1 = mit v
n i=1
tbeob =
βˆ1 vˆ1
mit vˆ1 =
(xi − x)2 σ ˆ
n i=1
• Verteilung von T unter H0 :
ˆ σ
(xi − x)2
T ∼ t(n − 2)
• Approximativer Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;n−2 (2) tbeob > t1−α;n−2 (3) tbeob < tα;n−2 ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(n − 2) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob ) 259
KAPITEL 4. FORMELSAMMLUNG
t-Test bezu ¨glich der Konstanten β0 der Regressionsgeraden • Annahme: – Modell der linearen Einfachregression mit – i ∼ N(0; σ 2 ) (exakt bzw approximativ) oder großer Stichprobenumfang n • Hypothesen: (1) H0 : β0 = 0 gegen H1 : β0 = 0 (2) H0 : β0 = 0 (bzw. H0 : β0 ≤ 0) gegen H1 : β0 > 0 (3) H0 : β0 = 0 (bzw. H0 : β0 ≥ 0) gegen H1 : β0 < 0 • Teststatistik und realisierter Wert: βˆ0 T = v ˆ0
ˆ σ ˆ0 = mit v
n i=1
x2i
n
(xi − x)2 n 2 xi σˆ
n
i=1
tbeob =
βˆ0 vˆ0
i=1
mit vˆ0 = n
n i=1
• Verteilung von T unter H0 :
(xi − x)2
T ∼ t(n − 2)
• Approximativer Ablehnungsbereich bzw. Testentscheidung zum Niveau α: (1) |tbeob | > t1− α2 ;n−2 (2) tbeob > t1−α;n−2 (3) tbeob < tα;n−2 ¨ • Uberschreitungswahrscheinlichkeit: F¨ ur T ∼ t(n − 2) (1) p-Wert = 2 · P(T ≥ |tbeob |) (2) p-Wert = P(T ≥ tbeob ) (3) p-Wert = P(T ≤ tbeob )
260
4.11. VERTEILUNGSTABELLEN
4.11
Verteilungstabellen
Verteilungsfunktion der N (0; 1)-Verteilung Ablesebeispiele: Φ(1.86) = P(Z ≤ 1.86) = 0.9686 Φ(−0.82) = P(Z ≤ −0.82) = 1 − Φ(0.82) = 1 − 0.7939 = 0.2061 Berechnung mit R: pnorm(q=1.86) und pnorm(q=-0.82) z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 Quantile:
0 .5 .5398 .5793 .6179 .6554 .6915 .7257 .758 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .999 .999 z Φ(z)
1 .504 .5438 .5832 .6217 .6591 .695 .7291 .7611 .791 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .992 .994 .9955 .9966 .9975 .9982 .9987 .9991 .9991
2 .508 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .983 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9991
3 .512 .5517 .591 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .937 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9991
4 .516 .5557 .5948 .6331 .67 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9992
5 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .996 .997 .9978 .9984 .9989 .9992 .9992
6 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .877 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .975 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9992
7 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .834 .8577 .879 .898 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .985 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9992
8 .5319 .5714 .6103 .648 .6844 .719 .7517 .7823 .8106 .8365 .8599 .881 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .998 .9986 .999 .9993 .9993
9 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .883 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .989 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .999 .9993 .9993
1.2816 1.6449 1.9600 2.3263 2.5758 3.0902 3.2905 0.9 0.95 0.975 0.99 0.995 0.999 0.9995 261
KAPITEL 4. FORMELSAMMLUNG
¨ Uberschreitungswahrscheinlichkeiten der N (0; 1)-Verteilung Ablesebeispiele: P(Z > 3.09) = .2 1001 = 0.001001 und P(Z < −4.03) = .4 2789 = 0.00002789 Berechnung mit R: pnorm(q=3.09, lower.tail=F) und pnorm(q=-4.03) z 0 1 2 3 4 5 6 7 8 9 1.5 .06681 .06552 .06426 .06301 .06178 .06057 .05938 .05821 .05705 .05592 1.6 .05480 .05370 .05262 .05155 .05050 .04947 .04846 .04746 .04648 .04551 1.7 .04457 .04363 .04272 .04182 .04093 .04006 .03920 .03836 .03754 .03673 1.8 .03593 .03515 .03438 .03362 .03288 .03216 .03144 .03074 .03005 .02938 1.9 .02872 .02807 .02743 .02680 .02619 .02559 .02500 .02442 .02385 .02330 2.0 .02275 .02222 .02169 .02118 .02068 .02018 .01970 .01923 .01876 .01831 2.1 .01786 .01743 .01700 .01659 .01618 .01578 .01539 .01500 .01463 .01426 2.2 .01390 .01355 .01321 .01287 .01255 .01222 .01191 .01160 .01130 .01101 2.3 .01072 .01044 .01017 .2 9903 .2 9642 .2 9387 .2 9137 .2 8894 .2 8656 .2 8424 2.4 .2 8198 .2 7976 .2 7760 .2 7549 .2 7344 .2 7143 .2 6947 .2 6756 .2 6569 .2 6387 2.5 .2 6210 .2 6037 .2 5868 .2 5703 .2 5543 .2 5386 .2 5234 .2 5085 .2 4940 .2 4799 2.6 .2 4661 .2 4527 .2 4396 .2 4269 .2 4145 .2 4025 .2 3907 .2 3793 .2 3681 .2 3573 2.7 .2 3467 .2 3364 .2 3264 .2 3167 .2 3072 .2 2980 .2 2890 .2 2803 .2 2718 .2 2635 2.8 .2 2555 .2 2477 .2 2401 .2 2327 .2 2256 .2 2186 .2 2118 .2 2052 .2 1988 .2 1926 2.9 .2 1866 .2 1807 .2 1750 .2 1695 .2 1641 .2 1589 .2 1538 .2 1489 .2 1441 .2 1395 3.0 .2 1350 .2 1306 .2 1264 .2 1223 .2 1183 .2 1144 .2 1107 .2 1070 .2 1035 .2 1001 3.1 .3 9676 .3 9354 .3 9043 .3 8740 .3 8447 .3 8164 .3 7888 .3 7622 .3 7364 .3 7114 3.2 .3 6871 .3 6637 .3 6410 .3 6190 .3 5976 .3 5770 .3 5571 .3 5377 .3 5190 .3 5009 3.3 .3 4834 .3 4665 .3 4501 .3 4342 .3 4189 .3 4041 .3 3897 .3 3758 .3 3624 .3 3495 3.4 .3 3369 .3 3248 .3 3131 .3 3018 .3 2909 .3 2803 .3 2701 .3 2602 .3 2507 .3 2415 3.5 .3 2326 .3 2241 .3 2158 .3 2078 .3 2001 .3 1926 .3 1854 .3 1785 .3 1718 .3 1653 3.6 .3 1591 .3 1531 .3 1473 .3 1417 .3 1363 .3 1311 .3 1261 .3 1213 .3 1166 .3 1121 3.7 .3 1078 .3 1036 .4 9961 .4 9574 .4 9201 .4 8842 .4 8496 .4 8162 .4 7841 .4 7532 3.8 .4 7235 .4 6948 .4 6673 .4 6407 .4 6152 .4 5906 .4 5669 .4 5442 .4 5223 .4 5012 3.9 .4 4810 .4 4615 .4 4427 .4 4247 .4 4074 .4 3908 .4 3747 .4 3594 .4 3446 .4 3304 4.0 .4 3167 .4 3036 .4 291 .4 2789 .4 2673 .4 2561 .4 2454 .4 2351 .4 2252 .4 2157 4.1 .4 2066 .4 1978 .4 1894 .4 1814 .4 1737 .4 1662 .4 1591 .4 1523 .4 1458 .4 1395 4.2 .4 1335 .4 1277 .4 1222 .4 1168 .4 1118 .4 1069 .4 1022 .5 9774 .5 9345 .5 8934 4.3 .5 854 .5 8163 .5 7801 .5 7455 .5 7124 .5 6807 .5 6503 .5 6212 .5 5934 .5 5668 4.4 .5 5413 .5 5169 .5 4935 .5 4712 .5 4498 .5 4294 .5 4098 .5 3911 .5 3732 .5 3561 4.5 .5 3398 .5 3241 .5 3092 .5 2949 .5 2813 .5 2682 .5 2558 .5 2439 .5 2325 .5 2216 4.6 .5 2112 .5 2013 .5 1919 .5 1828 .5 1742 .5 166 .5 1581 .5 1506 .5 1434 .5 1366 4.7 .5 1301 .5 1239 .5 1179 .5 1123 .5 1069 .5 1017 .6 968 .6 9211 .6 8765 .6 8339 4.8 .6 7933 .6 7547 .6 7178 .6 6827 .6 6492 .6 6173 .6 5869 .6 558 .6 5304 .6 5042 4.9 .6 4792 .6 4554 .6 4327 .6 4111 .6 3906 .6 3711 .6 3525 .6 3348 .6 3179 .6 3019 5.0 .6 2867 .6 2722 .6 2584 .6 2452 .6 2328 .6 2209 .6 2096 .6 1989 .6 1887 .6 179 5.1 .6 1698 .6 1611 .6 1528 .6 1449 .6 1374 .6 1302 .6 1235 .6 117 .6 1109 .6 1051 5.2 .7 9964 .7 9442 .7 8946 .7 8476 .7 8029 .7 7605 .7 7203 .7 6821 .7 6459 .7 6116 5.3 .7 579 .7 5481 .7 5188 .7 4911 .7 4647 .7 4398 .7 4161 .7 3937 .7 3724 .7 3523 5.4 .7 3332 .7 3151 .7 298 .7 2818 .7 2664 .7 2518 .7 2381 .7 225 .7 2127 .7 201 262
4.11. VERTEILUNGSTABELLEN
Quantile der t-Verteilung Ablesebeispiele: t0.99;20 = 2.528 und t0.05;15 = −t0.95;15 = −1.7531 Berechnung mit R: qt(p=0.99, df=20) und qt(p=0.05, df=15) np 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 50 60 70 80 100 ∞
0.6 0.32492 0.28868 0.27667 0.27072 0.26718 0.26483 0.26317 0.26192 0.26096 0.26018 0.25956 0.25903 0.25859 0.25821 0.25789 0.2576 0.25735 0.25712 0.25692 0.25674 0.25658 0.25643 0.2563 0.25617 0.25606 0.25595 0.25586 0.25577 0.25568 0.25561 0.25546 0.25534 0.25523 0.25513 0.25504 0.2547 0.25447 0.25431 0.25419 0.25402 0.2533
0.8 1.3764 1.0607 0.97847 0.94096 0.91954 0.9057 0.89603 0.88889 0.8834 0.87906 0.87553 0.87261 0.87015 0.86805 0.86624 0.86467 0.86328 0.86205 0.86095 0.85996 0.85907 0.85827 0.85753 0.85686 0.85624 0.85567 0.85514 0.85465 0.85419 0.85377 0.853 0.85232 0.85172 0.85118 0.8507 0.84887 0.84765 0.84679 0.84614 0.84523 0.8416
0.9 3.0777 1.8856 1.6377 1.5332 1.4759 1.4398 1.4149 1.3968 1.383 1.3722 1.3634 1.3562 1.3502 1.345 1.3406 1.3368 1.3334 1.3304 1.3277 1.3253 1.3232 1.3212 1.3195 1.3178 1.3163 1.315 1.3137 1.3125 1.3114 1.3104 1.3086 1.307 1.3055 1.3042 1.3031 1.2987 1.2958 1.2938 1.2922 1.2901 1.2816
0.95 6.3138 2.92 2.3534 2.1318 2.015 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973 1.6939 1.6909 1.6883 1.686 1.6839 1.6759 1.6706 1.6669 1.6641 1.6602 1.6449
0.975 12.706 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.306 2.2622 2.2281 2.201 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.093 2.086 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423 2.0369 2.0322 2.0281 2.0244 2.0211 2.0086 2.0003 1.9944 1.9901 1.984 1.9600
0.99 31.821 6.9646 4.5407 3.7469 3.3649 3.1427 2.998 2.8965 2.8214 2.7638 2.7181 2.681 2.6503 2.6245 2.6025 2.5835 2.5669 2.5524 2.5395 2.528 2.5176 2.5083 2.4999 2.4922 2.4851 2.4786 2.4727 2.4671 2.462 2.4573 2.4487 2.4411 2.4345 2.4286 2.4233 2.4033 2.3901 2.3808 2.3739 2.3642 2.3263
0.995 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.8314 2.8188 2.8073 2.7969 2.7874 2.7787 2.7707 2.7633 2.7564 2.75 2.7385 2.7284 2.7195 2.7116 2.7045 2.6778 2.6603 2.6479 2.6387 2.6259 2.5758
0.999 318.31 22.327 10.215 7.1732 5.8934 5.2076 4.7853 4.5008 4.2968 4.1437 4.0247 3.9296 3.852 3.7874 3.7328 3.6862 3.6458 3.6105 3.5794 3.5518 3.5272 3.505 3.485 3.4668 3.4502 3.435 3.421 3.4082 3.3962 3.3852 3.3653 3.3479 3.3326 3.319 3.3069 3.2614 3.2317 3.2108 3.1953 3.1737 3.0903
0.9995 636.62 31.599 12.924 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.437 4.3178 4.2208 4.1405 4.0728 4.015 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.646 3.6218 3.6007 3.5821 3.5657 3.551 3.496 3.4602 3.435 3.4163 3.3905 3.2906
263
KAPITEL 4. FORMELSAMMLUNG
Quantile der χ2 -Verteilung Ablesebeispiele: χ20.95;10 = 18.307 und χ20.05;15 = 7.2609 Berechnung mit R: qchisq(p=0.95, df=10) und qchisq(p=0.05, df=15) np 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
264
0.005 0.0000393 0.010025 0.071722 0.20699 0.41174 0.67573 0.98926 1.3444 1.7349 2.1559 2.6032 3.0738 3.565 4.0747 4.6009 5.1422 5.6972 6.2648 6.844 7.4338 8.0337 8.6427 9.2604 9.8862 10.52 11.16 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
0.01 0.000157 0.020101 0.11483 0.29711 0.5543 0.87209 1.239 1.6465 2.0879 2.5582 3.0535 3.5706 4.1069 4.6604 5.2293 5.8122 6.4078 7.0149 7.6327 8.2604 8.8972 9.5425 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.54 61.754 70.065
0.025 0.00098207 0.050636 0.2158 0.48442 0.83121 1.2373 1.6899 2.1797 2.7004 3.247 3.8157 4.4038 5.0088 5.6287 6.2621 6.9077 7.5642 8.2307 8.9065 9.5908 10.283 10.982 11.689 12.401 13.12 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222
0.05 0.0039321 0.10259 0.35185 0.71072 1.1455 1.6354 2.1673 2.7326 3.3251 3.9403 4.5748 5.226 5.8919 6.5706 7.2609 7.9616 8.6718 9.3905 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929
0.1 0.015791 0.21072 0.58437 1.0636 1.6103 2.2041 2.8331 3.4895 4.1682 4.8652 5.5778 6.3038 7.0415 7.7895 8.5468 9.3122 10.085 10.865 11.651 12.443 13.24 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358
0.9 2.7055 4.6052 6.2514 7.7794 9.2364 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 51.805 63.167 74.397 85.527 96.578 107.57 118.5
0.95 3.8415 5.9915 7.8147 9.4877 11.07 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.41 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 55.758 67.505 79.082 90.531 101.88 113.15 124.34
0.975 5.0239 7.3778 9.3484 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.92 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.17 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 59.342 71.42 83.298 95.023 106.63 118.14 129.56
0.99 6.6349 9.2103 11.345 13.277 15.086 16.812 18.475 20.09 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32. 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.98 44.314 45.642 46.963 48.278 49.588 50.892 63.691 76.154 88.379 100.43 112.33 124.12 135.81
0.995 7.8794 10.597 12.838 14.86 16.75 18.548 20.278 21.955 23.589 25.188 26.757 28.3 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.29 49.645 50.993 52.336 53.672 66.766 79.49 91.952 104.21 116.32 128.3 140.17