springer-Lehrbuch
Helge Toutenburg Michael Schomaker Malte WiBmann
Arbeitsbuch zur deskriptiven und induktiven Statistik Mit 58 Abbildungen
^ Spri ringer
Professor Dr. Dr. Helge Toutenburg Michael Schomaker Institut fur Statistik der Universitat Mtinchen AkademiestraBe 1 80799 Mlinchen
[email protected] [email protected] ISBN-10 ISBN-13
Dipl.-Volkswirt Malte WiBmann Universitat Basel WWZ Petersgraben 51 CH4003 Basel
[email protected] 3-540-32141-1 Springer Berlin H e i d e l b e r g N e w York 978-3-540-32141-5 Springer Berlin H e i d e l b e r g N e w York
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen NationalbibMografie; detaillierte bibliografische Daten sind im Internet uber abrufbar. Dieses Werk ist urheberrechtlich geschtitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsaniagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfaltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2006 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren und daher von jedermann benutzt werden diirften. Umschlaggestaitung: Design & Production, Heidelberg SPIN H.669418
154/3100YL 5 4 3 2 1 0 - Gedruckt auf saurefreiem Papier
Vorwort
Statistik ist die wichtigste Methode zur Datenanalyse - kombiniert mit statistischer Software. Das Fach Statistik gehort zum Grundstudium in vielen Fachrichtungen. Wegen des zum Teil abstrakten und mathematisch begriindeten Vorgehens haben Studenten haufig Probleme im Verstandnis der statistischen Methoden. Die Autoren - ein Professor, ein Student der Statistik kurz vor dem Diplom und ein Assistent fur Statistik - bieten mit diesem Arbeitsbuch eine Erganzung - keinen Ersatz! zu den beiden Lehrbiichern H.Toutenburg : ^'Deskriptive Statistik'^ Springer Verlag 2004 H. Toutenhurg : '^Induktive Statisti ^^, Springer Verlag 2005, deren voUer Stoffumfang klausurrelevant flir Haupt- und Nebenfachstudenten an deutschsprachigen Universitaten ist. Dieses Arbeitsbuch soil eine effektive Lernhilfe fiir die Statistik I und II Vorlesungen sein. Das didaktische Anliegen des Buches wird durch eine Vielzahl neuer und wie wir hoffen - origineller Beispiele unterstiitzt, die durch Fortsetzung den Stoff mehrerer Kapitel umfassen konnen. Dazu kommen Datensatze auf der Homepage, die zur Ubung allgemein und zu speziellen Aufgaben mit SPSS genutzt werden konnen. Sie finden Sie unter http://www.stat.uni-muejichen.de (Index -> AG Toutenburg) Wir hoffen, dass dieses Buch Anklang bei den Studenten findet. Fiir Verbesserungsvorschlage und Fehlermeldungen sind wir dankbar (E-mail:
[email protected]). Wir danken den Studenten, die das Manuskript gegengelesen haben.
Die Autoren Miinchen und Basel im Januar 2006
Inhaltsverzeichnis
Vorwort
V
1.
Grundlagen 1.1 Merkmal oder statistische Variable 1.1.1 Qualitative und Quantitative Merkmale 1.1.2 Diskrete und Stetige Merkmale 1.1.3 Skalierung von Merkmalen 1.2 Aufgaben
1 1 2 2 3 3
2.
Haufigkeitsverteilungen 2.1 Absolute und relative Haufigkeiten 2.2 Empirische Verteilungsfunktion 2.3 Grafische Darstellungen . . .^ 2.3.1 Stab- oder Balkendiagramme 2.3.2 Kreisdiagramme 2.3.3 Stamm-und-Blatt-Diagramme 2.3.4 Histogramme 2.4 Aufgaben
7 7 8 8 9 9 10 11 12
3.
MaBzahlen fiir eindimensionale Merkmale -^ 1 Lagemafie 3.1.1 Modus oder Modalwert 3.1.2 Median und Quantile 3.1.3 Arithmetisches Mittel 3.1.4 Geometrisches Mittel 3.2 Streuungsmafie 3.2.1 Spannweite und Quartilsabstand 3.2.2 Varianz und Standardabweichung 3.2.3 Variationskoeffizient 3.3 Box-Plots 3.4 KonzentrationsmaBe 3.4.1 Lorenzkurven 3.4.2 Gini-Koeffizient . 3.5 Aufgaben
17 17 17 17 20 21 22 22 23 24 25 26 27 27 29
VIII 4.
Inhaltsverzeichnis Analyse des Zusammenhangs zweier Merkmale 4.1 Darstellung der Verteilung zweidimensionaler Merkmale 4.1.1 Kontingenztafein bei diskreten Merkmalen 4.1.2 Grafische Darstellung bei diskreten Merkmalen 4.1.3 Grafische Darstellung der Verteilung stetiger bzw. gemischt stetig-diskreter Merkmale 4.2 Mafizahlen fiir den Zusammenhang zweier kategorialer Merkmale 4.2.1 Pearsons Chi-Quadrat-Statistik 4.2.2 Phi-Koeffizient . 4.2.3 Kontingenzmafi von Cramer 4.2.4 Kontingenzkoeffizient C 4.2.5 Der Odds-Ratio 4.2.6 Rangkorrelationskoeffizient von Spearman 4.3 Zusammenhang zwischen zwei stetigen Merkmalen 4.4 Aufgaben
45 45 45 46
5.
Lineare Regression 5.1 Einleitung 5.2 Plots 5.3 Prinzip der kleinsten Quadrate 5.3.1 Eigenschaften der Regressionsgeraden 5.4 Giite der Anpassung 5.4.1 Varianzanalyse 5.4.2 Korrelation 5.5 Lineare Regression mit kategorialen Regressoren 5.6 Aufgaben .
71 71 72 73 76 77 77 79 81 84
6.
Kombinatorik 6.1 Einleitung 6.2 Permutationen 6.2.1 Permutationen ohne Wiederholung 6.2.2 Permutationen mit Wiederholung 6.3 Kombinationen 6.3.1 Kombinationen ohne Wiederholung und ohne sichtigung der Reihenfolge 6.3.2 Kombinationen ohne Wiederholung, aber mit sichtigung der Reihenfolge 6.3.3 Kombinationen mit Wiederholung, aber ohne sichtigung der Reihenfolge 6.3.4 Kombinationen mit Wiederholung und mit sichtigung der Reihenfolge 6.4 Zusammenfassung 6.5 Aufgaben
91 91 92 92 93 93
47 49 50 50 51 51 52 53 54 56
Beriick94 Beriick94 Beriick95 Beriick96 96 97
Inhaltsverzeichnis
IX
7.
E l e m e n t e der Wahrscheinlichkeitsrechnung 7.1 Einleitung 7.2 Zufallige Ereignisse 7.3 Relative Haufigkeit und Laplacesche Wahrscheinlichkeit 7.4 Axiome der Wahrscheinlichkeitsrechnung 7.4.1 Folgerungen aus den Axiomen 7.4.2 Rechenregeln fiir Wahrscheinlichkeit en 7.5 Bedingte Wahrscheinlichkeit 7.5.1 Motivation und Definition 7.5.2 Der Satz von Bayes 7.6 Unabhangigkeit 7.7 Aufgaben
101 101 101 105 106 107 108 108 108 109 110 112
8.
Zufallsvariablen 117 8.1 Einleitung 117 8.2 Verteilungsfunktion einer Zufallsvariablen 117 8.3 Diskrete Zufallsvariablen und ihre Verteilungsfunktion 119 8.4 Stetige Zufallsvariablen und ihre Verteilungsfunktion 120 8.5 Erwartungswert und Varianz einer Zufallsvariablen 123 8.5.1 Erwartungswert 123 8.5.2 Rechenregeln fiir den Erwartungswert 124 8.5.3 Varianz 124 8.5.4 Rechenregeln fiir die Varianz 125 8.5.5 Standardisierte Zufallsvariablen 126 8.5.6 Erwartungswert und Varianz des arithmetischen Mittelsl26 8.5.7 Ungleichung von Tschebyschev 127 8.6 Zweidimensionale Zufallsvariablen 127 8.6.1 Zweidimensionale diskrete Zufallsvariablen 128 8.6.2 Zweidimensionale stetige Zufallsvariablen 129 8.6.3 Momente von zweidimensionalen Zufallsvariablen 131 8.6.4 Korrelationskoeffizient 133 8.7 Aufgaben 133
9.
Diskrete und stetige Standardverteilungen 9.1 Spezielle diskrete Verteilungen 9.1.1 Die diskrete Gleichverteilung 9.1.2 Die Einpunktverteilung 9.1.3 Die Null-Eins-Verteilung 9.1.4 Die Binomialverteilung 9.1.5 Die hypergeometrische Verteilung 9.2 Spezielle stetige Verteilungen 9.2.1 Die stetige Gleichverteilung 9.2.2 Die Normalverteilung 9.3 Weitere Verteilungen 9.3.1 Die Poissonverteilung
143 143 143 144 145 146 147 148 148 149 153 153
X
Inhaltsverzeichnis
9.4
9.5
9.3.2 Die Multinomialverteilung 9.3.3 Die Exponentialverteilung Priifverteilungen 9.4.1 Die x^-Verteilung 9.4.2 Die t-Verteilung 9.4.3 Die F-Verteilung Aufgaben
154 155 156 156 157 157 158
10. Schatzung von Parametern 167 10.1 Einleitung 167 10.2 Punktschatzung von Parametern 168 10.2.1 Punktschatzung flir /i bei einer normalverteilten Zufallsvariable 168 10.2.2 Punktschatzung fiir a^ bei einer normalverteilten Zufallsvariable 169 10.2.3 Punktschatzung von p bei einer binomialverteilten Zufallsvariable 169 10.3 Konfidenzschatzungen von Parametern 170 10.3.1 Grundlagen 170 10.3.2 Konfidenzschatzung des Erwartungswerts einer Normalverteilung 170 10.3.3 Konfidenzschatzung einer Binomialwahrscheinlichkeit . 172 10.4 Aufgaben 173 11. Priifen statistischer Hypothesen 11.1 Einleitung 11.2 Grundlegende Begriffe 11.2.1 Ein- und Zweistichprobenprobleme 11.2.2 Ein- und Zweiseitige Tests 11.2.3 Allgemeines Vorgehen 11.2.4 Fehler 1. und 2. Art 11.3 Einstichprobenprobleme 11.3.1 Priifen des Mittelwerts bei bekannter Varianz (einfacher Gauss-Test) 11.3.2 Priifung des Mittelwertes bei unbekannter Varianz (einfacher t-Test) 11.4 Zweistichprobenprobleme 11.4.1 Priifen der Gleichheit der Varianzen (F-Test) 11.4.2 Priifen der Gleichheit der Mittelwerte zweier unabhangiger normalverteilter Zufallsvariablen 11.4.3 Priifen der Gleichheit der Mittelwerte aus einer verbundenen Stichprobe (paired t-Test) 11.5 Priifen von Hypothesen iiber Binomialverteilungen 11.5.1 Priifen der Wahrscheinlichkeit fiir das Auftreten eines Ereignisses (Binomialtest fiir p)
177 177 177 177 178 179 179 180 180 183 184 184 187 189 190 190
Inhaltsverzeichnis
XI
11.5.2 Priifen der Gleichheit zweier Binomialwahrscheinlichkeiten 11.6 Testentscheidung mit p-values 11.7 Aufgaben
191 193 193
12. N i c h t p a r a m e t r i s c h e T e s t s 12.1 Einleitung 12.2 Anpassungstests 12.2.1 Chi-Quadrat-Anpassungstest 12.2.2 Kolmogorov-Smirnov-Anpassungstest 12.3 Homogenitatstests fiir zwei unabhangige Stichproben 12.3.1 Kolmogorov-Smirnov-Test im Zweistichprobenproblem 12.3.2 Mann-Whitney-[/-Test 12.4 Aufgaben
209 209 209 210 212 213 213 214 216
13. M u l t i p l e l i n e a r e R e g r e s s i o n 13.1 Einleitung 13.2 Modellannahmen der multiplen Regression 13.3 Schatzung der P a r a m e t e r 13.4 Priifen von linearen Hypothesen 13.5 Aufgaben
227 227 227 228 228 234
14. A n a l y s e v o n K o n t i n g e n z t a f e l n 14.1 Einleitung 14.2 Zweidimensionale kategoriale Zufallsvariablen 14.3 Unabhangigkeit 14.4 x^-Unabhangigkeitstest 14.5 Die Vierfeldertafel 14.6 Aufgaben
241 241 241 243 244 245 249
A.
253
Tabellenanhang
Literatur
265
Sachverzeichnis
267
1. Grundlagen
Statistik ist die wichtigste Methodik zur Datenanalyse. Daten werden von Behorden, Institutionen, Firmen und Forschern erhoben: Behorden => Steuereinnahmen, Geburten, Todesfalle, Einbiirgerungen,... Institute =^ Wetterdaten, Politbarometer, Exporterlose,... Firmen => Umsatz, Kosten, Werbung, Pensionskosten,... Forscher =^ klinische Daten bei Medikamentstudien, Ozonschicht, Erdbebenvorhersage,... Ausgangspunkt der Datenerhebung ist eine spezifische Fragestellung: • • • • • •
Ist ein Medikament A wirkungsvoller als ein Medikament B? Gefahrdet Rauchen die Gesundheit? Liefert eine Maschine M signifikant mehr Ausschufi als eine Maschine N? Bewirkt eine spezielle Diat tatsachlich eine Gewichtsabnahme? Ist das Heiratsalter bei Mannern hoher als bei Frauen? Verandert sich die Parteienpraferenz?
1.1 Merkmal oder statistische Variable Bei einer statistischen Aufgabenstellung ist zunachst die Datenbasis zu klaren. Die Objekte, auf die sich eine statistische Analyse bezieht, heifien Untersuchungseinheiten. Die Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit. Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man als Merkmal oder statistische Variable X. Beide Begriffe sind gleichwertig. Meist wird der Begriff Variable im Umgang mit konkreten Zahlen, also bei der Datenerhebung und -auswertung verwendet, wahrend der Begriff Merkmal im theoretischen Vorfeld, also bei der Begriffsbildung und bei der Planung der Erhebungstechnik verwendet wird. Bei jeder Untersuchungseinheit nimmt das Merkmal X eine mogliche Auspragung x aus dem Merkmalsraum (Menge der moglichen x-Werte) an.
2
1. Grundlagen
Beispiele. • Sei X der Familienstand, so sind mogliche Auspragungen: ledig, verheiratet, geschieden, verwitwet. • Sei X das Herstellungsland eines Autos, so sind beispielsweise "USA", "Japan" und "Europa" mogliche Auspragungen. • Beschreibt X das Studienfach, so sind mogliche Merkmalsauspragungen x: Medizin, Jura, Politik, etc. 1.1.1 Qualitative und Quantitative Merkmale Qualitative Merkmale werden auch als artmafiige Merkmale bezeichnet, da sie sich durch die verschiedenartigen Auspragungen charakterisieren lassen. Qualitative Merkmale sind zum Beispiel • die Augenfarbe einer Person • die Branchenzugehorigkeit eines Unternehmens • die Wahl des Verkehrsmittels auf dem Weg zur Arbeit. Quantitative Merkmale sind messbar und werden durch Zahlen erfasst. Wir bezeichnen sie daher auch als zahlenmafiige Merkmale. Die Auspragungen des Merkmals lassen sich in eine eindeutige Rangfolge bringen. Beispiele hierfiir waren • • • •
Schuhgrofie Wohnungsmiete Semesterzahl Umsatz eines Betriebes.
Anmerkung. Gelegenthch werden qualitative Merkmale durch Zahlen kodiert. So konnte man beispielsweise flir das Merkmal 'Geschlecht' die Auspragungen 'mannlich' und 'weiblich' mit '0' bzw. ' 1 ' kodieren. Solche Merkmale sind aber auf keinen Fall als quantitativ anzusehen, da die Auspragungen in keine eindeutige Reihenfolge gebracht werden konnen. 1.1.2 Diskrete und Stetige Merkmale Im Bereich der quantitativen Merkmale unterscheiden wir zwischen diskreten und stetigen Merkmalen. Bin Merkmal heifit diskret wenn die Anzahl der Auspragungen abzahlbar ist, ansonsten sprechen wir von stetigen Merkmalen. In Bezug auf unser vorheriges Beispiel wtirde dies heiCen, dass Schuhgrofie und Semesterzahl diskrete Merkmale sind, wahrend Wohnungsmiete und der Umsatz eines Betriebes stetig sind.
1.2 Aufgaben
Merkmale
Qualitative
Quantitative diskret
stetig
1.1.3 Skalierung von Merkmalen Nominalskala. Die Auspragungen eines nominalskalierten Merkmals konnen nicht geordnet werden (zum Beispiel: Merkmal 'Geschlecht einer Person' mit den Auspragungen 'mannlich' und 'weiblich'). Der einzig mogliche Vergleich ist die Priifung auf Gleichheit der Merkmals auspragungen zweier Untersuchungseinheiten =4> "Studienfach", "Herkunftsland". Ordinal- oder Rangskala. Die Merkmalsauspragungen konnen gemaB ihrer Intensitat geordnet werden. Eine Interpretation der Rangordnung ist moglich, Abstande zwischen den Merkmalsauspragungen konnen jedoch nicht interpretiert werden =4>"Schulnote". Metrische Skala. Unter den Merkmalsauspragungen kann eine Rangordnung definiert werden, zusatzlich konnen Abstande zwischen den Merkmalsauspragungen gemessen und interpretiert werden. Wir konnen die metrisch skalierten Merkmale weiter unterteilen in: Intervallskala. Es sind nur DifFerenzbildungen zwischen den Merkmalsauspragungen zulassig. Daher konnen nur Abstande vergHchen werden ^ "Temperatur". Verhdltnisskala. Es existiert zusatzlich ein natiirlicher NuUpunkt. Die Bildung eines Quotienten ist zulassig, Verhaltnisse sind damit sinnvoU interpretierbar =4> "Geschwindigkeit". Absolutskala. Es kommt zusatzlich eine natiirliche Einheit hinzu. Die Absolutskala ist damit ein Spezialfall der Verhaltnisskala =^ "Semesterzahl". Anmerkung. Mit Ausnahme der Nominalskala lassen sich die Werte xi von X der GroBe nach ordnen: X(i) < X(2) < ••• < ^(n)- Dabei wird X(i) als i-te Ordnungsstatistik bezeichnet.
1.2 Aufgaben Aufgabe 1.1: In einer Studie soil die Nachtaktivitat von Lowen untersucht werden. Dabei wurden mehrere Lowen eines Nationalparks mit einem Gerat
4
1. Grundlagen
ausgestattet, das K o r p e r t e m p e r a t u r und gelaufene Kilometer erfassen kann. Erlautern Sie a n h a n d dieses Beispiels die Begriffe Grundgesamtheit, Untersuchungseinheit, Merkmal und Auspragung! Losung: Die Grundgesamtheit ware in diesem Beispiel 'alle Lowen', die Untersuchungseinheit sind die mit einem Gerat ausgestatteten Lowen des Nationalparks. Die Merkmale, die im Zuge der Studie erhoben werden sind 'Korpert e m p e r a t u r ' bzw. 'gelaufene Kilometer'. Folglich waren mogliche Auspragungen '35 Grad Celsius, 36 G r a d Celsius, usw.' bzw '0.5 Kilometer, 1 Kilometer, usw.'. Aufgabe 1.2: Welche der folgenden Merkmale sind quantitativ, welche sind qualitativ? Welche der quantitativen Merkmale sind diskret, welche stetig? Schuhgrofie, Mensapreis fur ein Standardgericht, Parteienpraferenz, benotigte Fahrzeit bei Urlaubsfahrt, Augenfarbe, Geschlecht, Wellenlange des Lichtes. Losung: Qualitative Merkmale sind: Parteienpraferenz, Augenfarbe, Geschlecht Quantitativ diskret ist: Schuhgrofie Quantitativ und stetig sind: Fahrzeit, Mensapreis, Wellenlange
Aufgabe L3: Geben Sie an, auf welchem Skalenniveau die folgenden Untersuchungsmerkmale gemessen werden: a) b) c) d) e) f) g) h) i) j)
Parteienpraferenz bei einer Bundestagswahl Schwierigkeitsgrad bei einem Computerspiel Herstellungsdauer Alter von Tieren im Zoo Kalenderzeit ab Christi Geburt Preis einer Tiite Bonbons in E U R Matrikelnummer eines Studenten Platzierung bei einem Schonheitswettbewerb Intensitat von Luftstromungen Schulnoten
Losung: a) Die Parteienpraferenz kann als nominal angesehen werden. Beispiele fiir Kategorien sind: S P D , CDU, Griine, F D P , Linkspartei, Sonstige. b) Wir haben hier ein ordinalskaliertes Merkmal. Level 10 mu6 beispielsweise nicht doppelt so schwer sein wie Level 5.
1.2 Aufgaben
5
c) Das Skalenniveau des Merkmals 'Herstellungsdauer' ist metrisch (Verhaltnisskala). Gemessen wird in Zeiteinheiten (s, min, Tage, etc.). NuUpunkt ist dabei der Produktionsbeginn. d) Das Skalenniveau ist hier metrisch (Verhaltnisskala). Gemessen wird in Jahren, NuUpunkt ist die Geburt des Tieres. e) Das Skalenniveau fiir die Kalenderzeit ist metrisch (Intervallskala). Gemessen wird in Jahren. Da wir einen nicht natiirhchen NuUpunkt (Christi Geburt) haben, diirfen wir nicht die Verhaltnisskala verwenden. f) Das Skalenniveau ist metrisch (Verhaltnisskala). g) Das Niveau des Merkmals 'Matrikelnummer' ist nominal. Die Matrikelnummer selbst besteht zwar aus Zahlen, wir konnen jedoch nicht davon ausgehen, dass zum Beispiel die Nummer '112233' einen halb so groBen Nutzen oder Wert besitzt wie die Nummer '224466'. h) Das Skalenniveau ist hier ordinal, da beispielsweise die zweitplatzierte Teilnehmerin nicht doppelt so schon ist wie die Viertplatzierte. i) Auch dieses Merkmal ist ordinalskaliert. j) Schulnoten sind ebenfalls ordinalskaUert. Man kann nicht behaupten, dass die Note '2' doppelt so gut ist wie die Note '4'.
2. Haufigkeitsverteilungen
2.1 Absolute u n d relative Haufigkeiten Bei nominalen und ordinalen Merkmalen ist die Anzahl k der beobachteten Merkmalsauspragungen ay in der Regel viel kleiner als die Anzahl n der Beobachtungen. Anstatt die n Beobachtungen Xi,... ,Xn anzugeben, gehen wir dazu iiber, die Haufigkeiten der einzelnen Merkmalsauspragungen festzuhalten. Die absolute Haufigkeit Uj ist die Anzahl der Untersuchungseinheiten, die die Merkmalsauspragung a^, j = 1 , . . . , A: besitzen. Die Summe der absoluten Haufigkeiten aller Merkmalsauspragungen ergibt die Gesamtzahl n der Beobachtungen: J2i=i'^j — '^' Fiir den (vom Stichprobenumfang unabhangigen) Vergleich von Untersuchungen benotigt man die relativen Haufigkeiten 3'
fj = fM
= -n ,
j = l,---,k.
(2.1)
Sie geben den Anteil der Untersuchungseinheiten an, die die Auspragung aj besitzen. Bei stetigen Merkmalen ist die Anzahl k der beobachteten Merkmalsauspragungen sehr gro6 oder sogar gleich der Anzahl der Beobachtungen n, so dass die relativen Haufigkeiten fj in der Regel gleich ^ sind. Um eine interpretierbare Verteilung zu erhalten, fassen wir mehrere Merkmalsauspragungen zu einem Intervall zusammen. Als Reprasentant wahlt man z.B. aj als Klassenmitte. Die Haufigkeitstabelle stellt die Verteilung des Merkmals dar: ni
n2
...
Un
/l
/2
•••
fn
Dabei gelten die Restriktionen: n = Yli'^i ^^^ Ylifi
— 1-
Beispiel 2.1.1. Beschreibe das Merkmal X die Wahl des Studienfachs:
2. Haufigkeitsverteilungen Jura
Politik
400
300
0.20
0.15
Medizin 1300 0.65
Dabei ist n = Yli '^i ~ 2000 und ^^ fi = 1.
2.2 Empirische Verteilungsfunktion Sind die Beobachtungen xi,... ,Xn des Merkmals X der GroBe nach als X(i) < ^(2) ^ • • • ^ ^(n) geordnet und ist das Datenniveau mindestens ordinal (also nicht nominal), so ist die empirische Verteilungsfunktion an der Stelle x die kumulierte relative Haufigkeit aller Merkmalsauspragungen aj, die kleiner Oder gleich x sind:
^(^) = E /("i) •
(2.2)
aj <x
Beispiel 2.2.1. In der Saison 2004/2005 der Fufiball-Bundesliga wurden die geschossenen Tore aller 18 Mannschaften liber die Saison notiert. Fiir die Analyse wurde folgende ordinale Klassierung vorgeschlagen: 1 "Sehr wenig Tore" ([30,40)), 2 "Wenig Tore" ([40,50)), 3 "moderate Tore" ([50,60)), 4 "viele Tore" ([60,70)), 5 "sehr viele Tore" [70,80), Folgende Tabelle zeigt wieviele Mannschaften (TIJ) eine bestimmte Toranzahl (a^) geschossen haben: Tore (aj) rij
fj Fj
1 5
2 4
3 6
4 2
5 1
5/18 5/18
4/18 9/18
6/18 15/18
2/18 17/18
1/18
1
Die empirische Verteilungsfunktion fiir dieses Beispiel ist Abb. 2.1. Natiirlich ist die Anzahl der Tore ein quasi-stetiges Merkmal, ein Merkmal mit sehr vielen Auspragungen (hier alle natiirhchen Zahlen im Intervall [30,80]). Diese Merkmale werden anders als diskrete Merkmale mit wenig Auspragungen behandelt. Um die Ubersicht in der Haufigkeitstabelle zu wahren, werden sogenannten Klassen gebildet (siehe Kapitel 2.3.4). Die empirische Verteilungsfunktion ist bei solchen klassierten Daten stiickweise linear.
2,3 Grafische Darstellungen Die Haufigkeitstabelle ist eine erste Moglichkeit zur Veranschaulichung der Daten. Sie liefert leicht verstandliche Informationen 'auf einen Blick'. Bei der AchsenskaUerung von Grafiken soUte bei vergleichbaren Sachverhalten die gleiche AchsenskaUerung gewahlt werden.
2.3 Grafische Darstellungen
Abb. 2.1. Empirische Verteilungsfunktion fur das Beispiel 'geschossene Tore in der Saison" 2.3.1 Stab- oder Balkendiagramme Die einfachste grafische Darstellungsmoglichkeit ist das Stab- oder Balkendiagramm. Dieser Diagrammtyp lasst sich sinnvoU nur fiir qualitative und diskret quantitative Merkmale verwenden. Jeder Merkmalsauspragung wird ein Strich oder Balken zugeordnet, dessen Lange der absoluten oder relativen Haufigkeit entspricht. Die Anordnungsreihenfolge der Balken ist bei qualitativen Merkmalen beliebig. Bei mindestens ordinalskalierten Merkmalen existiert eine 'nattirliche' Anordnungsreihenfolge der Merkmalsauspragungen, falls die Kodierung entsprechend gewahlt wird. 2.3.2 Kreisdiagramme Kreisdiagramme eignen sich zur Darstellung von Haufigkeiten qualitativer, diskret quantitativer oder klassierter Merkmale. Die Aufteilung des Kreises in die einzelnen Sektoren, die die Merkmalsauspragungen reprasentieren, ist dabei proportional zu den absoluten bzw. relativen Haufigkeiten. Die Grofie eines Kreissektors, also sein Winkel, kann damit aus der relativen Haufigkeit fj gemaB Winkel = fj • 360° bestimmt werden.
2. Haufigkeitsverteilungen
10
Anmerkung. In einem Kreisdiagramm wird nie die Rangfolge der einzelnen Auspragungen wiedergegeben. Bei der Darstellung der Auspragungen eines beispielsweise ordinalskalierten Merkmals ist daher ein Stab- oder Balkendiag r a m m dem Kreisdiagramm vorzuziehen. Beispiel 2.3.1. Die Schiiler eines Gymnasiums diirfen in der Ob erst ufe ein zusatzliches Fach aus einem Wahlbereich wahlen. Zur Auswahl stehen hierbei: Psychologie, P M o s o p h i e , Russisch, Darstellende Geometrie, Astronomie, Chor. Abb. 2.2 zeigt die Wahl der Schiiler - veranschaulicht in einem Kreisund Balkendiagramm.
Psydiologie(34,5%)
Philosophie(13,e%)
Darstellende Geometrie(10 3%)
Astronomie(13,B%)
Psychologie
Philos.
Russisch
Geometrie Astronom.
Chor
Abb. 2.2. Kreis- und Balkendiagramm fiir die Wahl des Fachs
2.3.3
Stamm-und-Blatt-Diagramrae
Sei das Datenniveau metrisch u n d seien die Daten der Groi3e nach geordnet: X(i) < X(^2) ^ ••• ^ ^(n)- F u r die Erstellung eines Stamm-und-BlattDiagramms gehen wir in folgenden Schritten vor: 1. Wir unterteilen den Wertebereich in Intervalle gleicher Breite, wobei wir die Breite jeweils als das 0.5-, 1-, oder 2-fache einer Zehnerpotenz wahlen. 2. Die beobaehteten Merkmals auspragungen werden in einen Stamm- und einen Blattanteil zerlegt. 3. Die so gefundenen Werte sowie die zugehorigen Haufigkeiten werden aufgetragen. Beispiel 2.3.2. Es sei die Lange von Filmen wahrend eines Filmfestivals notiert worden. Folgendes Stamm-und-Blatt-Diagramm erlautert die Datensituation. Dabei wird der S t a m m durch 10-Minuten-Einheiten gebildet, das Blatt reprasentiert 1-Minuten-Einheiten:
2.3 Grafische Darstellungen Frequency
11
Stamm & B l a t t
2.00 6,00 8.00 2.00 1.00 2.00 1.00 2.00 1.00
7 8 9 10 11 12 13 14 15
04 044889 22235588 12 5 05 0 15 0
In der ersten Zeile konnten wir beispielsweise die beobachteten Filmlangen von 70 und 74 Minuten ablesen. Es folgen Filme der Lange 80,84,84,88,88 Minuten usw. Der langste Film dauerte 150 Minuten. 2.3.4 H i s t o g r a m m e Liegt ein metrisches Merkmal vor, so kann die Haufigkeitsverteilung nicht von vornherein durch ein Balkendiagramm dargestellt werden, da hier im AUgemeinen sehr viele Balken entstehen wiirden, die fast alle die Hohe 1/^ hat ten. Um eine sinnvoUe Haufigkeitsverteilung zu erhalten, muss das Merkmal zunachst klassiert werden. Die hieraus resultierende Haufigkeitsverteilung kann dann in einem Histogramm grafisch veranschaulicht werden. Die Histogrammflachen sind proportional zu den relativen Haufigkeiten fj, die Hohe hj des Rechtecks iiber der j-ten Klasse berechnet sich somit gemafi
mit der Klassenbreite dj — ej — Cj-i. Dabei ist Cj die obere Klassengrenze des j-ten Intervalls und ej_i die untere. Anmerkung. Bei Verwendung von SPSS zur Histogrammdarstellung kann die Festlegung der Klassengrenzen variiert werden. Damit ist eine interaktive explorative Analyse der Verteilung eines Merkmals moglich. SPSS-Histogramme lassen jedoch nur gleich breite Klassen zu. Damit sind die Rechteckshohen hj stets proportional zu den relativen und absoluten Haufigkeiten. Ist die Klassenbreite gleich 1, so ist die Rechteckshohe gleich der relativen Haufigkeit. SPSS-Histogramme tragen im Gegensatz zu der oben gegebenen Definition an der y-Achse die absoluten Haufigkeiten der Klassen ein. Da die relativen und die absoluten Haufigkeiten zueinander proportional sind, bleibt die Gestalt des Histogramms jedoch unberiihrt. Wahlweise kann auch die Option Balkendiagramme genutzt werden um Histogramme zu zeichnen. Die Kategorienachse stellt dabei die Klasseneinteilung dar.
2. Haufigkeitsverteilungen
12
2.4 Aufgaben Aufgabe 2.1: Bei der Bundestagswahl 2002 in Deutschland ergab sich folgende Sitzverteilung fiir den Bundestag:
Partei SPD CDU CSU Griine FDP PDS
Anzahl Sitze 251 190 58 55 47 2
a) Erstellen Sie ein Balkendiagramm! b) Erstellen Sie ein Kreisdiagramm! Losung: Abbildung 2.3 zeigt sowohl das Kreis- als auch das Balkendiagramm zur Sitzverteilung im Bundestag.
A b b . 2 . 3 . Kreis- und Balkendiagramm fiir die Sitzverteilung im Bundestag
Aufgabe 2.2: Bei einem Eignungstest fiir angehende Psychologiestudenten konnten maximal 14 P u n k t e erreicht werden. Insgesamt n a h m e n 100 Personen an diesem Eignungstest teil. Folgende Tabelle veranschaulicht die erreichten Punktzahlen der Teilnehmer:
H nj
0 1
1 3
2 5
3 7
4 3
5 5
6 13
7 5
8 8
9 16
10 7
11 6
12 11
13 8
14 2
2.4 Aufgaben
13
a) Stellen Sie die Haufigkeitsverteilung mit den absoluten Haufigkeiten grafisch dar! b) Bestimmen Sie die relativen Haufigkeiten sowie die Werte der empirischen Verteilungsfunktion und zeichnen Sie diese. c) Wie groB ist der Anteil der Studenten, die eine geforderte Hiirde von 9 Punkten oder mehr schaffen? Losung: a) In Abb. 2.4 (links) sind die absoluten Haufigkeiten in einem Balkendiagramm dargestellt.
Abb. 2.4. Erzielte Punkte beim Eignungstest
b) Die Haufigkeitstabelle ist durch folgende Tabelle gegeben: j
i
2 3 4 5 6 7 8
% 0 1 2 3 4 5 6 7
n^
1 3 5 7 3 5 13 5
u
0.01 0.03 0.05 0.07 0.03 0.05 0.13 0.05
F{x) 0.01 0.04 0.09 0.16 0.19 0.24 0.37 0.42
3
aj
Uj
9 10 11 10 11 12 13
8 9 10 11 12 13 14
8 16 7 6 11 8 2 100
E
f3 0.08 0.16 0.07 0.06 0.11 0.08 0.02 1.00
F{x) 0.50 0.66 0.73 0.79 0.90 0.98 1.00
Die empirische Verteilungsfunktion ist in Abb. 2.4 (rechts) dargestellt.
2. Haufigkeitsverteilungen
14
50 1 F(X>9) = l-F(8) = l - - = Die Halfte der Psychologiestudenten besteht den Test. Aufgabe 2.3: Fiir ein stetiges Merkmal erhalten wir nach Festlegung der Klassen folgende Kenndaten, die das Zeichnen eines Histogramms erlauben:
Klasse j 1 2 3 4
Klassenbreite dj 1 3 3 1
Hohe hj 0.125 0.125 0.125 0.125
a) Bestimmen Sie die relativen Haufigkeiten in den Klassen! b) Wie grofi sind die absoluten Haufigkeiten, wenn zur Bestimmung der K e n n d a t e n 2000 Werte zur Verfugung standen? Losung: a) Fiir die Klassen 1 und 4 betragen die relativen Haufigkeiten jeweils 0.125 (Hohe {hj)' Breite ( 28) = 1 - F(28)
i=l
= 1 - ( 0 . 2 5 + 0.15+ 0.35) = 0.25 Aufgabe 2.5: Im Gebiet ostlich des Etosha-Nationalparks in Namibia wurde im Zuge wissenschaftlicher Arbeiten das Gewicht (in kg) von 24 ElandAntilopen erhoben: 450 730 700 600 620 660 850 520 490 670 700 820 910 770 760 620 550 520 590 490 620 660 940 790 Erstellen Sie ein Stamm-und-Blatt-Diagramm! Losung: Gewicht Stem-and~Leaf Plot Frequency 3.00 4.00 7.00 6.00 2.00 2.00 Stem width: Each leaf:
Stamm &
4 5 6 7 8 9
Blatt
599 2259 0222667 003679
25 14
100 00 1 case(s)
16
2. Haufigkeitsverteilungen
Aufgabe 2.6: Im Folgenden sind die Fahrzeiten (in Minuten) 24 verschiedener Urlauber notiert, die von Miinchen bis Bozen (Italien) gefahren sind: 181 158 220 205 307 222 190 179 198 208 230 267 182 190 178 168 212 230 242 198 197 185 223 261 a) Brstellen Sie ein Histogramm. Wahlen Sie dafiir als Klassenbreite ein Intervall von 30 Minuten und als erste Klassenmitte 165 Minuten! b) Wahlen Sie nun als erste Klassenmitte 160 Minuten und 3 Intervalle a 20 Minuten, sowie 2 Intervalle a 50 Minuten! L 6 sung:
200
250 Fahrtzeit
Abb. 2.5. Histogramme zur "Fahrzeit nach Bozen"
3. Mafizahlen fiir eindimensionale Merkmale
3-1 Lagemafie Lageparameter beschreiben generell das Zentrum einer Haufigkeitsverteilung. Beispiele hierfiir waren: mittlere Korpergrofie (mannlich/weiblich), Durchschnittstemperatur im Juli in Miinchen, das am haufigsten gewahlte Studienfach, die beliebteste TV-Sendung im Jahr 2005, das normale Heiratsalter, Durchschnittseinkommen, etc. 3.1.1 M o d u s Oder M o d a l w e r t Als Modus oder Modalwert XM bezeichnet man den haufigsten Wert einer Verteilung. Voraussetzung ist dabei eine eingipflige Verteilung. Das Datenniveau ist beliebig. Fiir nominalskalierte Daten ist der Modus der einzige zulassige Lageparameter. XM — dj "^ '^j = m a x { n i , n 2 , . . . ^rik} .
(3.1)
Beispiel 3.1.1. Es wird die KorpergroBe von Mannern und Frauen gemessen. (siehe Abb. 3.1). Betrachtet man die Verteilung der KorpergroBe insgesamt, so sind zwei Gipfel zu erkennen. Damit ist eine mo dale KorpergroBe nicht sinnvoll definiert. 3.1.2 Median und Quantile Das Merkmal X sei ordinal oder stetig und die Stichprobe sei geordnet: ^(1) ^ • • • :^ ^(n)- Der Median teilt den geordneten Datensatz in zwei (im Idealfall gleich groBe) Bereiche. Er wird mit XQ.S bezeichnet und durch die Forderung F(xo.5) = 0 . 5 definiert. Der Median XQ.S wird in der Stichprobe wie folgt berechnet: ^ ^'^
^ / ^((n+i)/2) falls n ungerade I K^(n/2) + ^(n/2+1)) falls u gerade.
^ '^
Fiir ungerades n ist der Median der mittlere Wert der Beobachtungsreihe, also ein tatsachlich beobachteter Wert. Fiir gerades n ist der Median im Fall
3. MaBzahlen fiir eindimensionale Merkmale
18
:i n d y f 1 1
n
r-n
1
1
, n
\\\\\h
10.
4
A b b . 3 . 1 . KorpergroBe der Manner und Frauen (links), sowie Verteilung der KorpergroBe insgesamt (rechts)
^(n/2) = ^(n/2+1) ^^^ beobachteter Wert, ansonsten ist er kein beobachteter Wert. Beispiel 3.1,2. Zur Veranschaulichung der Berechnung des Medians betrachten wir folgende Beispiele: a) Es liegen die geordneten Werte 3,5,7,9,11 vor. Dann berechnet sich der Median wie folgt: ^0.5 = ^ ( 5 + l ) / 2 = 3^(3) = 7.
b) Seien nun die geordneten Werte 3,5,7,9,11,25, dann ist der Median: 1/ ^0.5 = l2}^{el2) +^(6/2)+lJ
i(7 + 9)^8.
Quantile. Eine Verallgemeinerung der Idee des Medians sind die Quantile. Sei a eine Zahl zwischen Null und Eins. Das a-Quantil Xa wird durch die Forderung F{xa) = OL definiert. Bei diskreten Daten bedeutet dies, dass hochstens na Werte kleiner oder gleich Xa sind und hochstens n(l — a) Werte grofier oder gleich x^ sind. Wie wir sehen, ist der Median gerade das 0.5-Quantil XQ.S. Fiir feste Werte von a werden die a-Quantile oft auch als a • 100%-Quantile bezeichnet (z.B. 10%-Quantil fiir a = 0.1). Sei wieder X(i) < . .. < X(^) die geordnete Beobachtungsreihe, so bestimmt man als a-Quantil x^ dieser Daten den Wert X(;j.)
falls na keine ganze Zahl ist, k ist dann die kleinste ganze Zahl > na,
I \{^{noL) + ^(na+i)) f^lls na gauzzahlig ist. Beispiel 3.1.3. Erneut betrachten wir die Werte aus Bsp. 3.1.2:
(3.3)
3.1 LagemaCe
19
a) Fiir die Werte 3,5,7,9,11 soil das 30%-Quantil bestimmt werden. Mit na 5-0.3 = 1.5 folgt A: = 2. Das heifit: ^0.3
X (2)
= 5.
b) Werden nun die sechs geordneten Werte 3,5,7,9,11,25 betrachtet, so errechnet sich mit k = 2 das 30%-Quantil wie folgt: 5o.3 = -{00(^2} + ^(3)) = ^{^ + 7) = 6.
Quantil-Quantil-Diagramme (Q-Q-Plots). Wir gehen jetzt davon aus, dass wir zwei Erhebungen desselben Merkmals (z.B. 'Punktwerte' Xi von Physik-Studenten, 'Punktwerte' i/i von Informatik-Studenten bei einer Mathematikklausur) zur Verfiigung haben und diese grafisch vergleichen wollen. Dazu ordnen wir beide Datensatze jeweils der GroBe nach: ^(1) < ^(2) < • •. < ^(n)
und
y(l) < 2/(2) < . • . < y{m) • Wir bestimmen fiir ausgewahlte Anteile a^ die Quantile Xai und y^i und tragen sie in ein x-y-Koordinatensystem ein. Als a^-Werte wahlt man standardmafiig die Werte 0.1, 0.2, .,., 0.9 oder 0.25, 0.50, 0.75. Diese Darstellung heifit Quantil-Quantil-Diagramra oder kurz Q-Q-Plot. Q-Q-Plots konnen eine Vielzahl von Mustern aufweisen. Wir wahlen folgende interessante Spezialfalle aus: a) Alle Quantilpaare liegen auf der Winkelhalbierenden. Dies deutet auf Ubereinstimmung zwischen den beiden Stichproben hin. b) Die y-Quantile sind kleiner als die x-Quantile. c) Die x-Quantile sind kleiner als die y-Quantile. d) Bis zu einem Breakpoint sind die ^/-Quantile kleiner als die x-Quantile, danach sind die y-Quantile grofier als die x-Quantile.
A b b . 3.2. Typische Quantil-Quantil Diagramme
20
3. MaBzahlen fur eindimensionale Merkmale
3.1.3 Arithmetisches M i t t e l Liegt ein metrisches Datenniveau vor, so errrechnet sich das arithmetische Mittel X als Durchschnittswert aller Beobachtungen:
=
'-±x,.
n
(3.4)
Falls die D a t e n bereits in der komprimierten Form einer Haufigkeitstabelle vorliegen: Merkmalsauspragung : a i , a2, .. .ak Haufigkeit : n i , n2, . . . n^e j vereinfacht sich die Berechnung von x zu
"" 3 = 1
3= 1
mit fj — ^ (relative Haufigkeit von aj). Diese Form bezeichnet m a n als g e w o g e n e s oder g e w i c h t e t e s a r i t h m e t i s c h e s M i t t e l . E i g e n s c h a f t e n d e s a r i t h m e t i s c h e n M i t t e l s . Die Summe der Abweichungen der Beobachtungen von ihrem arithmetischen Mittel ist Null: n
/_\{xi
n
— x) = 2_\ Xi — nx — nx — nx — ^ .
(3.6)
F u r eine lineare Transformation der D a t e n gemafi yi = a -\- hxi gilt y — a-\-hx, Beispiel 3.1,4- Ein Musiker misst die Lange von 11 Didgeridoos seiner Kollegen. Es ergaben sich die folgenden Werte (in cm): 124 130 111 122 119 117 118 128 140 123 124 Der Median ist in diesem Fall der 6. Wert der Ordnungsstatistik: XQ.S = x^e) = 123. Das arithmetische Mittel berechnet sich durch: X = Y J ( 1 2 4 + 1 3 0 + ... + 124) = 123.27 Werde nun die Lange nicht mehr in cm sondern in Zoll(inch) angegeben so liegt eine lineare Transformation vor: 1cm entspricht 0.3937 ZoU! Das arithmetische Mittel berechnet sich nun als: y = a -{- bx = 0.3937*123.27 == 48.53 ZoU.
3.1 LagemaBe
21
3.1.4 G e o m e t r i s c h e s M i t t e l Sei das Datenniveau metrisch u n d liegen die Beobachtungen (Wachstumsdaten) Xi,... ,XT mit Xt > 0 fiir alle t vor, so ist das geometrische Mittel definiert als IT T 1 ^ t=i
t=i
Wir definieren einen Anfangsbestand BQ ZU einem Zeitpunkt 0. In den folgenden Zeitpunkten t = l , . . . , T liege jeweils der Bestand Bt vor. D a n n ist Bt Bt-i der sogenannte i-te Wachstumsfaktor. Als Wachstumsrate rt bezeichnet m a n die prozentuale Abweichung des Wachstumsfaktors Xt von Eins rt = ( x t - l ) - 1 0 0 % = ( 5 f l O O % . Wir fassen einen Wachstumsprozess in der folgenden Tabelle zusammen: Zeit t
Bestand Bt
~~0
Wachstumsfaktor Xt
Wo
1 2
Bi B2
T
Bj"
= xi = X2 =
=
XT
BT
Bi/Bo B2/Bi
/ BT—1
Ein Bestand Bt (t = 1 , . . . , T ) lasst sich direkt mit Hilfe der tatsachlichen Wachstumsfaktoren bestimmen Bt =^ Bo ' xi • ... • Xt. Der durchschnittliche Wachstumsfaktor von BQ bis BT wird mit dem geometrischen Mittel der Wachstumsfaktoren berechnet:
XG =
i/xi~~XT T Bo ' Xi'
, ,. ' XT
Bo TI
BT
(3.8)
Damit konnen wir den Bestand Bt zum Zeitpunkt t berechnen als Bt — Bo'X%.
22
3. Mafizahlen fur eindimensionale Merkmale
Beispiel 3.1.5. Wir betrachten im folgenden Beispiel die Jahresbestleistungen der deutschen Siebenkampferin Sabine Braun in den Jahren 1987 bis 1992 {xt gerundet auf zwei Stellen nach dem Komma). Jahr
Punktzahl
1987 1988 1989 1990 1991 1992
5621 6432 6575 6688 6672 6985
Wachstumsfaktor 1.14 1.02 1.02 1.00 1.05
Wachstumsrate 14% 2% 2% 0% 5%
Der mittlere Wachstumsfaktor kann jetzt wie folgt berechnet werden: XG = (1.14 • 1.02 . 1.02 . 1.00 • 1.05)^ = 1.045.
3.2 Streuungsmafie Lagemafie allein charakterisieren die Verteilung nur unzureichend. Dies wird deutlich, wenn wir folgende Beispiele betrachten: • Die beiden Studenten Christine und Andreas notieren ihre Ankunft vor bzw. nach dem Professor in der Statistik-Vorlesung iiber die Semesterwochen: W3 -wr -W2"" 0 0
Christine 0 Andreas - 1 0
W4 W 5 W 6 W7 W8 W9 WIO W l l 0 0 0 0 0 0 0 0 + 1 0 - 1 0 +10 - 1 0 + 10 - 1 0 +10 - 1 0 + 10 - 1 0
W12 0 +10
Christine war immer plinktlich. Andreas kam jedoch im Wechsel immer 10 Minuten zu friih oder zu spat, 'im Mittel' war er aber genauso piinkthch wie Christine. • Ein Zuheferer der Autoindustrie soil Tiiren der Breite 1.00 m liefern. Seine Tiiren haben die Mafie 1.05, 0.95, 1.05, 0.95, . . . Er halt also im Mittel die Forderung von 1.00 m ein, seine Lieferung ist jedoch vollig unbrauchbar. Zusatzlich zur Angabe eines LagemaBes wird eine Verteilung durch die Angabe von StreuungsmaBen charakterisiert. Diese konnen jedoch nicht bei nominal skaUerten Merkmalen verwendet werden, da Abstande gemessen und interpretiert werden. 3.2.1 Spannweite und Quartilsabstand Das Datenniveau sei metrisch oder ordinal. Der Streubereich einer Verteilung ist der Bereich, in dem die Merkmalsauspragungen liegen. Die Angabe des kleinsten und des groBten Wertes beschreibt ihn vollstandig. Die Breite
3.2 StreuungsmaBe
23
des Streubereichs nennt man Spannweite oder Range einer Haufigkeitsverteilung. Sie ist gegeben durch R = Xin) - ^ ( 1 ) .
(3-9)
wobei a:(i) den kleinsten und X(^) den groBten Wert der geordneten Beobachtungsreihe bezelchnet. Der Quartilsabstand ist gegeben durch dq = ^ 0 . 7 5 - ^ 0 . 2 5 .
(3.10)
Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen. Beispiel 3,2.1. Fur die geordneten Werte 3,5,7,9,11,25 aus Beispiel 3.1.2b) berechnen sich Spannweite und Quartilsabstand als: R ^ X{n) - ^(1) = X{6) - ^(1) =^ 2 5 - 3 =: 22, dq = Xo.75 - % 2 5 = ^(5) - ^(2) = 1 1 - 5 = 6.
3.2.2 Varianz und Standardabweichung Sel das Datennlveau metrisch, dann mlsst die Varianz 5^ die mittlere quadratische Abweichung vom arlthmetischen Mittel x:
s^ =-S2{xi - x)\
(3.11)
Elne Umformung ergibt den Verschiebungssatz fur die Varianz: s' = l^±{x,-xr = l^±xj-,\
(3.12)
Die Standardabweichung 5 ist die positive Wurzel aus der Varianz:
if;(n-i)^ \ n
(3.13)
i=l
Die Standardabweichung ist ein StreuungsmaB in der gleichen Mafieinheit wie X. Wird X z. B. in kg gemessen, so sind x und s ebenfalls in kg angegeben, 5^ jedoch in kg , was nicht zu interpretieren ist. Des weiteren gibt die Standardabweichung an, um wieviel die Beobachtungen vom Mittelwert abweichen. Ein kleiner Wert bedeutet dabei, dass die Beobachtungen nahe am Mittel wert liegen.
24
3. MaBzahlen fiir eindimensionale Merkmale
Beispiel 3.2.2. Wir betrachten erneut das Beispiel der beiden Studenten Christine und Andreas zu ihrer Piinktlichkeit in der Vorlesung (siehe 3.2). Die Streuung bei Christine ist: - A E l £ a ( x i - x)2 = ^ ( ( 0 - 0)2 + ... + (0 - 0)2) = 0. Betrachten wir nun Andreas, so berechnet sich die Streuung wie folgt:
And = A - ^? = A((-io - 0)2 +... + (10 - 0)2) = 100. 12 TZii^i L i n e a r e T r a n s f o r m a t i o n d e r D a t e n . Fiihrt man eine Uneare Transformation yi = a-\- bxi {b ^ 0) der Originaldaten x^ (i = 1 , . . . , n) durch, so gilt fur das arithmetische Mittel der transformierten Daten y = a -\- bx u n d fiir ihre Varianz 1
b^
62.2.
(3,14)
Beispiel 3.2.3. Wird die Zeitmessung von Stunden auf Minuten umgestellt, d.h.j fiihren wir die Uneare Transformation yi — 60 x^ durch, so gilt s^ —
6024. S t a n d a r d i s i e r u n g . Ein Merkmal Y heiBt s t a n d a r d i s i e r t , falls y = 0 und Sy = l gilt. Ein beliebiges Merkmal X mit Mittelwert x und Varianz 5^ wird in ein standardisiertes Merkmal Y mittels folgender Transformation lib erge fiihrt: tXv^
nij
yi = ^x
J.
X
=
\ ^x
Xi =
a-\-bxi.
^x
Beispiel 3.2.4- Es beschreibe das Merkmal X die Feinstaubbelastung (in fig/m?) an 10 Tagen in einer grofien deutschen Stadt:
30
25
12
45
50
52
38
39
45
33
Dadurch lai3t sich ein arithmetisches Mittel von x = 36.9 berechnen. Die Varianz betragt 5^ — 151.2. D a m i t ist die Standardabweichung s^ — 12.3. Um ein standardisiertes Merkmal Y zu bekommen, gehen wir wie folgt vor: Xi— X Vi = 3.2.3
X =
1 36.9 1 + —Xi = - - — + 777^^2 = - 3 + O.OSxi.
VariationskoefRzient
Varianz und Standardabweichung benutzen als Bezugspunkt das arithmetische Mittel X. Sie werden jedoch nicht in Relation zu x gesetzt. Die Angabe der Varianz ohne Angabe des arithmetischen Mittels ist demnach fiir den
3.3 Box-Plots
25
Vergleich zweier Beobachtungsreihen oft nicht ausreichend. Der Variationskoeffizient v ist ein von x bereinigtes StreuungsmaB. Es ist nur sinnvoU definiert, wenn ausschliefilich positive Merkmalsauspragungen vorliegen (und X 7^ 0 ist). Der Variationskoeffizient ist definiert als s
(3.15)
V — —. X
Dies ist ein dimensionsloses Streuungsmafi, das insbesondere beim Vergleich von zwei oder mehr Messreihen desselben Merkmals eingesetzt wird.
3.3 Box-Plots Box-Plots stellen als Werkzeug zur grafischen Analyse eines Datensatzes die Lage • des Medians • der 25 %- u n d 75 %-Quantile (unteres und oberes Quartil) und • der Extremwerte u n d Ausreifier dar. In Abbildung 3.3 sind die einzelnen Elemente eines Box-Plots erklart.
Extremwerte Ausreisser
^0.75
Median XQ.S
^0.25
Ausreisser ^
Extremwerte
A b b . 3.3. Komponenten eines Box-Plots Die untere bzw. obere Grenze der Box ist durch das untere bzw. obere Quartil gegeben, d. h., die Halfte der beobachteten Werte liegt in der Box.
26
3. MaBzahlen fur eindimensionale Merkmale
Die Lange der Box ist somit der Quartilsabstand dq = XQ 75 — ^0 25 (vgl. (3.10)). Die Linie innerhalb der Box gibt die Lage des Medians wieder. Die Werte auBerhalb der Box werden dargestellt als • Extremwerte (mehr als 3 Box-Langen vom unteren bzw. oberen Rand der Box entfernt), wiedergegeben durch einen '*' und • Ausreifier (zwischen 1.5 und 3 Box-Langen vom unteren bzw. oberen Rand der Box entfernt), wiedergegeben durch einen 'o'. Der kleinste und der groBte beobachtete Wert, die nicht als Ausreifier eingestuft werden, sind durch die auBeren Striche dargestellt. Box-Plots eignen sich besonders zum Vergleich zweier oder mehrerer Gruppen einer Gesamtheit in Bezug auf ein Merkmal.
3.4 KonzentrationsmaBe Fiir ein metrisches Datenniveau unter der Bedingung, dass alle x^ > 0 sind, betrachten wir die Merkmalssumme Yll^=i ^i ^^^ fragen danach, wie sich dieser Gesamtbetrag aller Merkmalswerte auf die einzelnen Beobachtungseinheiten aufteilt. Beispiel. In einer Gemeinde in Niedersachsen wird bei alien landwirtschaftlichen Betrieben die GroBe der Nutzflache in ha erfasst. Von Interesse ist nun die Aufteilung der Nutzflache auf die einzelnen Betriebe. Haben alle Betriebe annahernd gleich grofie Nutzflaehen oder besitzen einige wenige Betriebe fast die gesamte Nutzflache der Gemeinde? Wir betrachten dazu folgendes Zahlenbeispiel. Die Gemeinde umfasst eine landwirtschaftliche Nutzflache von 100 ha. Diese Flache teilt sich auf 5 Betriebe wie folgt auf: Betrieb i 1 2 3 4 5
Xi (Flache in ha) 20 20 20 20 20 Eti^i-^100
Die Nutzflache ist also gleichmafiig auf alle Betriebe verteilt, es liegt keine Konzentration vor. In einer anderen Gemeinde liegt dagegen folgende Situation vor:
3.4 Konzentrationsmafie
Betrieb i 1 2 3 4 5
27
Xi (Flache in ha) 0 0 0 0 100 E - . i ^ i = ioo
Die gesamte Nutzfiache konzentriert sich auf einen Betrieb. Ein sinnvoUes KonzentrationsmaB miisste dem ersten Fall die Konzentration Null, dem zweiten Fall die Konzentration Bins zuweisen. 3.4.1 Lorenzkurven Zur grafischen Darstellung der Konzentration der Merkmalswerte verwenden wir die Lorenzkurve. Dazu werden die Grofien -, n
i = 0, . . . , n
(3.16)
und
E^ (i) ^1 = ^-^
,
2 = l , . . . , n ; z;o : = 0
(3.17)
3=1
aus den der GroBe nach geordneten Beobachtungswerten 0 < X(i) < X(^2) ^ . . . < X(yi) berechnet. Die Vi sind die Anteile der Merkmalsauspragungen der Untersuchungseinheiten ( 1 ) , . . . , (n) an der Merkmalssumme aller Untersuchungseinheiten. Die Lorenzkurve ergibt sich schlieBlich als der Streckenzug, der durch die P u n k t e {uo,vo), {ui, vi),..., {un, Vn) verlauft (vgl. Abbildung 3.4). Die Lorenzkurve stimmt mit der Diagonalen liberein, wenn keine Konzentration vorliegt (im obigen Beispiel: alle Betriebe bearbeiten jeweils die gleiche Nutzfiache). Mit zunehmender Konzentration „hangt die Kurve durch" (unabhangig von dem Bereich der Konzentration). Ein P u n k t der Lorenzkurve {ui.Vi) beschreibt den Zusammenhang, dass auf ui • 100% der Untersuchungseinheiten Vi ' 100% des Gesamtbetrags aller Merkmalsauspragungen entfallt. 3.4.2
Gini-KoefRzient
Der Gini-Koeffizient ist ein Mafi fiir die Konzentration. Er ist definiert als G = 2'F,
(3.18)
28
3. MaBzahlen fur eindimensionale Merkmale ^5 = 1
- ' ^ 5 = -i
4'" -^4
-V2
-Vi
UQ = 0
^1
'"2
^'3
^4
U5 = 1
1
"^1
Uo = 0
1
1
^2
^3
1
^4
iir, — n
|— Co
U
1^5 = 1
A b b . 3.4. Beispiel ftir Lorenzkurven
•h
Ui-1
'^i-l
Ui
A b b . 3.5. Gini-Koeffizient wobei F die Flache zwischen der Diagonalen und der Lorenzkurve ist (vgl. Abbildung 3.5), Fiir die praktische Berechnung von G aus den Wertepaaren {ui, vi) stehen folgende Formeln zur Verfiigung:
G^
(3.19) n E ^{z)
oder alternativ
G=i--y2{vi-i+vi). i=l
Fiir den Gini-KoefSzienten gilt stets
(3.20)
3.5 Aufgaben
0< G< ^:^, n weswegen auch der normierte Gini-Koeffizient n G+ = —^G n
29
(3.21)
(3.22)
betrachtet wird. Durch die Normierung hat G^ Werte zwischen 0 (keine Konzentration) und 1 (vollstandige Konzentration).
3.5 Aufgaben Wiederholungsaufgabe mit SPSS. In der folgenden Aufgabe haben Sie noch einmal die Moglichkeit Ihr Wissen der vergangenen drei Kapitel zu wiederholen. Sie benotigen dafur das statistische Software-Paket "SPSS". Auf der im Vorwort angegebenen Homepage finden Sie den Datensatz, sowie dessen Beschreibung. Sollten Sie keine Moglichkeit haben auf das Programm zuzugreifen, so empfiehlt es sich dennoch den Stoff anhand der Aufgabenlosung zu rekapitulieren. An verschiedenen Stellen dieses Buches werden wir noch einmal auf dieses Beispiel zuriickgreifen. Aufgabe 3.1: Seit einiger Zeit spielen Jupp und Horst ein bekanntes Gesellschaftsspiel. Mit Hilfe eines weifien und eines schwarzen Wiirfels wird dabei in jedem Zug bestimmt, welche Ressourcen den einzelnen Spielern zustehen. Die Summe der Augenzahlen ist fiir diese Ressourcenverteilung Ausschlag gebend. Aus Neugierde haben sich die beiden in 6 Partien alle Wiirfelwiirfe notiert und sie erhielten 230 Augenpaare. Diese sind im Datensatz wuerfel.sav abgespeichert. a) Betrachten Sie zuerst die einzelnen Wiirfelergebnisse. Berechnen Sie die Haufigkeitstabelle und stellen Sie diese grafisch dar. Entsprechen die Ergebnisse Ihren Erwartungen bezliglich des Vorgangs des Wiirfelwurfs? b) Bestimmen Sie noch Mittelwert, Median, Varianz und Standardabweichung und kommentieren Sie die Ergebnisse. c) Nun sollen Sie die Summe der beiden Wiirfel berechnen und a) und b) mit diesen Summen durchfiihren. Charakterisieren Sie die Haufigkeitsverteilung der Summe. d) Hatte man den Mittelwert auch anders als aus den Rohdaten der Summen berechnen konnen? Wenn ja, wie? e) Bestimmen Sie den Anteil der Summen zwischen "6" und "8" (6 < Summe < 8) und den Anteil, der echt kleiner als "6" ist.
30
3. Mafizahlen fur eindimensionale Merkmale
Losung: a) Augenzahlen des weiBen Wiirfels:
1 2 3 4 5 6 Gesamt
Haufigkeit 38 37 41 34 43 37 230
Prozent 16.5 16.1 17.8 14.8 18.7 16.1 100.0
Kumulierte Prozente 16.5 32.6 50,4 65.2 83.9 100.0
Augenzahlen des schwarzen Wiirfels:
•
I
2 3 4 5 6 Gesamt
Haufigkeit 34 38 34 39 40 45 230
Prozent 14.8 16.5 14.8 17.0 17.4 19.6 100.0
Kumulierte Prozente 14.8 31.3 46.1 63.0 80.4 100.0
Augenzahlen des weissen Wuerfels
Augenzahlen des schwat7:en Wuerfels
Augenzahlen des weissen Wuerfels
Augenzahlen des schwarzen Wuerfels
A b b . 3.6. Die Balkendiagramme der beiden Wiirfel
Jede Auspragung h a t eine ahnlich hohe relative Haufigkeit. Die beiden Wiirfel sehen fair aus.
3.5 Aufgaben
31
b) Wir bekommen folgende Ergebnisse:
N Giiltig Fehlend Mittelwert Median Standardabweichung Varianz
WeiBer Wiirfel 230 0 3.51 3.00 1.707 2.915
Schwarzer Wiirfel 230 0 3.64 4.00 1.727 2.982
Man sieht, dass sich in den MaBzahlen die beiden Wiirfel kaum unterscheiden. Einzig die Mediane unterscheiden sich. Ein Blick auf die empirische Verteilung der Wiirfel erklart dies, beim weifien Wiirfel waren 50% der Wiirfe kleiner gleich " 3 " und beim schwarzen waren hingegen 50% der Wiirfe kleiner gleich "4". c) Fiir die Summe der beiden Wiirfel folgt:
.2 3. 4 5 6 7 8 9 10 11 12 Gesamt
Haufigkeit 5 18 13 21 30 36 33 34 23 11 6 230
Prozent 2.2 7.8 5.7 9.1 13.0 15.7 14.3 14.8 10.0 4.8 2.6 100.0
Kumulierte Prozente 2.2 10.0 15.7 24.8 37.8 53.5 67.8 82.6 92.6 97.4 100.0
Die Summe zweier Wiirfel ist symmetrisch um die "7" verteilt. Das zeigen sowohl die Haufigkeitstabelle als auch das Balkendiagramm in Abbildung 3.7.
32
3. Mafizahlen fur eindimensionale Merkmale SUMME
2
3
4
5
6
7
10
11
12
SUMME
Abb. 3.7. Das Balkendiagramm der Summe
Des weiteren berechnen wir:
N Giiltig Fehlend Mittelwert Median Standardabweichung Varianz
Summe beider Wiirfel 230 0 7.16 7.00 2.419 5.853
Auch die MaBzahlen deuten auf Symmetrie, da Median und Mittelwert dicht beieinander liegen. Die Standardabweichung deutet daraufhin, dass die beobachteten Summen im Mittel um ca. 2.4 vom Mittelwert abweichen, also konzentrieren sich die meisten Beobachtungen im Bereich von 4.8 bis 9.5. d) Man kann einfach die beiden Mittelwerte der einzelnen Wiirfel addieren, da der Mittelwert einer Summe die Summe der Mittelwerte ist. e) H{6 <x < 8) - F{%) - F(6) + /(6) = 0.678 - 0.378 + 0.13 = 0.435 In etwa 44% der beobachteten Summen realisieren sich zwischen "6" und
H{x < 6) = F(5) = 0.248 Rund 25% der beobachteten Summen sind echt kleiner als "6".
3.5 Aufgaben
33
R e c h e n a u f g a b e n . Wie gewohnt konnen Sie nun auch hier Ihr Wissen iiber das vorangegangene Kapitel anhand verschiedener Rechen- und Verstandnisaufgaben iiberpriifen. Aufgabe 3.2: Der Bundesligist VfB S t u t t g a r t hat in den ersten 10 Spieltagen der Bundesligasaison 2004/2005 jeweils die folgende Anzahl von Toren geschossen: 4
1
3
2
0
3
2
2
0
1
a) Berechnen Sie den Modus und ein weiteres geeignetes Lagemafi! b) Erstellen Sie einen Box-Plot und interpretieren Sie Ihr Ergebnis! Losung: a) Zahlen ordnen: 0 0 1 1 2 2 2 3 3 4 (1) Modus: X M = 2 (2) Median: XQ.S = ^(^(5) + ^ ( 6 ) ) = 2 Die Ubereinstimmung der beiden Mafizahlen deutet auf Symmetrie hin. Im Mittel schoss der VfB 2 Tore in den ersten 10 Spieltagen b) Das untere Quartil, das 0.25-Quantil, und das obere Quartil, 0.75-Quantil, werden noch fiir den Boxplot benotigt. Es berechnet sich: xo.25 = ^(3) = 1- Da 0.25 • 10 = 2.5 keine ganze Zahl ist, wird /c = 3 gewahlt. Man kann alternativ das untere Quartil auch als Median der unteren Halfte der Daten berechnen. AuBerdem ergibt sich: xo.75 = x^g) — 3. Auch hier ist 0.75 • 10 = 7.5 keine ganze Zahl, somit wird A: = 8. Analog kann man das obere Quartil als Median der oberen Halfte der Daten bestimmen. Mit den eben bestimmten Quartilen (unteres, Median, oberes Quartil) und dem Minimum sowie dem Maximum ergibt sich folgender Box-Plot. Auch der Boxplot zeigt, dass die Tore des VfB S t u t t g a r t symmetrisch u m die 2 verteilt sind. Es gab an den ersten 10 Spieltagen keine Spiele mit aufiergewohnlich vielen Toren. Die Null stellt bei diesem Merkmal eine natiirliche Barriere dar, weniger als Null Tore werden nicht geschossen. In der Regel erwartet m a n Schiefe bei Daten mit Barrieren, da m a n nur in eine Richtung grosse Werte erwarten kann. Erzielt der VfB zum Beispiel in den folgenden Spielen auch mal 5 Oder mehr Tore, so h a t m a n direkt einen sogenannten rechtsschiefen oder auch linkssteilen Datensatz. Aufgabe 3.3: Ein Formel-1-Fahrer notiert die Anzahl seiner Startplatzierungen aus den letzten 11 Rennen: 1
5
2
3
1
4
5
2
1
3
4
34
3. Mafizahlen fur eindimensionale Merkmale
Abb. 3.8. Boxplot zur geschossenen Anzahl der Tore des VfB Stuttgart
a) Berechnen Sie den Modus und ein weiteres geeignetes Lagemafi! b) Berechnen Sie geeignete StreuungsmaBe und interpretieren Sie diese! Losung: a) Zahlen ordnen: 1 1 1 2 2 3 3 4 4 5 5 (1) Modus: XM==1 (2) Median: XQ.B = X(6) = 3 Die Abweichung von Modus und Median deutet auf einen schiefen Datensatz hin. Der haufigste Wert liegt links von dem Wert, der die Daten in zwei Halften teilt. Also haben wir es voraussichtlich mit rechtsschiefen Daten zu tun. Wieder sehen wir den Einfluss von natiirlichen Barrieren. Wir konnen nur Auspragungen grosser als Null beobachten, somit ziehen alle grossen Beobachtungen die Verteilung unserer Daten nach rechts. b) Fiir ordinale Daten sind Quartilsabstand und Spannweite geeignete Streuungsmasse. Die empirische Varianz wiirde Differenzenbildung bei den Daten erf or der n. Diese Abstande sind aber fur Ordnungszahlen nicht definiert und somit nicht interpretierbar. Die Abstande der Daten im geordneten Datensatz hingegen sind interpretierbar. Sie bedeuten, dass die jeweiligen Datenwerte um den Wert des MaBes voneinander entfernt liegen. Wobei wir nicht sagen konnen, dass dieser Abstand bedeutet, dass die eine Auspragung zum Beispiel doppelt so gross ist wie die andere. Quartilsabstand: dq = XQ.75 — xo.25 = ^(9) — (3) ^i 1
3.5 Aufgaben
35
Der zentrale Streubereich des Boxenstopps liegt also 3 Startplatzierungen voneinander entfernt. Spannweite: R — ^(ii) — X(y^ = 5 — 1 = 4 Der gesamte Streubereich betragt damit 4 Boxenstopps. Aufgabe 3.J^: Die folgenden fiinf Temperaturwerte (in "^C) seien beobachtet worden: 7 2 - 2 3 0 a) Berechnen Sie die zur Bestimmung eines Box-Plots notwendigen Grofien! b) Angenommen, Sie beobachten zusdtzlich die zwei weiteren Werte 1.7 und 17.9. Wie sieht der Box-Plot jetzt aus? (Begriindung!) Losung: a) Die fiinf wichtigen Zahlen fur den Boxplot sind: ^0.5 == 3:(3) = 2 ^0.25 = ^(0.25-5) = ^ ( 2 ) =
0
^0.75 = ^(0.75-5) = ^ ( 4 ) =
3
'^mA.ri min
— *^ — *^(1)
-2
Quartilsabstand: dq = xo.75 — ^0.25 = 3 — 0 = 3 Keine Ausreifier und Extremwerte (Priifen Sie das nach!) b) Der Median verandert sich nicht, da an beiden Seiten jeweils ein Wert hinzukommt. Das untere Quartil bleibt ebenfalls gleich, 0.25 • 7 bleibt aufgerundet 2 und die Null ist weiterhin die zweite Zahl im geordneten Datensatz. Also bleiben hier xo.5 und xo.25 gleich. Das obere Quartil verandert sich hingegen zu xo.75 = x^g) = 7. Der Quartilsabstand verandert sich auf d g = 7, well sich das obere Quartil geandert hat. Es gibt einen Ausreifier mit 17.9. Der Toleranzbereich fiir Ausreifier nach oben b e t r a g t 15.5, dieser ergibt sich als Summe von 10.5 (1.5 mal den Quartilsabstand oder Boxlange) und 5 (oberes Quartil). Als Extremwert bezeichnen wir Werte, die jenseits der dreifachen Boxlange liegen, hier waren also Werte, die grosser als 26 sind, Extremwerte nach oben. Es gibt also keine Extremwerte. Aufgabe 3.5: Die erreichten Punktzahlen in einer Statistik-Klausur von 22 zufallig ausgewahlten Studierenden der Statistik an den Universitaten Mlinchen und D o r t m u n d lauten wie folgt (50 P u n k t e waren hochstens zu erreichen).
36
3. Mafizahlen fur eindimensionale Merkmale Uni Miinchen: Uni Miinchen S t e m - a n d - L e a f quenc -y
plot
Stem & Leaf
1.00 4.00 3.00 3.00 1.00
0. 1. 2. 3. 4.
0 6899 556 468 4
Stem w i d t h : Each l e a f :
10.00 1 case(s)
Uni D o r t m u n d : 12
17
0
23
26
40
0
15
16
31
a) Berechnen Sie aus diesen Angaben fiir die Uni in Miinchen und in Dortmund jeweils das arithmetische Mittel und den Median der Punktzahlen! Berechnen Sie das arithmetische Mittel aller Punktzahlen! b) Berechnen Sie fiir beide Verteilungen jeweils die Standardabweichung! 1st ein direkter Vergleich der beiden Werte fair? c) Welches StreuungsmaB schlagen Sie vor? Berechnen Sie dieses Streuungsmafi! Zu welchem Ergebnis kommen Sie beziiglich des Vergleichs des StreuungsmaBes? Losung: i Miinchen Dortmund
1 0 0
2 16 0
3 18 12
4 19 15
5 19 16
a) ^M = ^ ( 0 + 16 + 18 + . . . + 44) = ^ ^D = ^ (0 + 0 + 12 + . . . + 40) = ^
6 25 17
7 25 23
8 26 26
9 34 31
10 36 40
11 38
12 44
= 25 = 18
Die mittlere P u n k t z a h l der Studierenden aus Miinchen betragt 25 und die der Studierenden aus D o r t m u n d betragt 18. Fiir den Mittelwert beider Universitaten erhalten wir: 300 + 180 ^^ ^^ ^MuD = ""—:zz = 21.82.
3.5 Aufgaben
37
Der Median der Punktzahlen der Uni Miinchen betragt 5o.5 = K^(6) + ^(7)) = 1(25 + 25) - 25. Fiir die Uni Dortmund erhalten wir folgenden Median: 5o.5 = 1(^(5) + ^(6)) = 1(16 + 17) = 16.5. (0 - 25)2 _^ ^iQ _ 25)2 _^ (13 _ 25)2 _^ ^ ^ _|_ (44 _ 25)2 12 1560 = V 1 3 0 = 11.4018
b) SM ==
~T2"
(1440
;
Nein, der Vergleich ist nicht fair, da das StreuungsmaB 5 vom Mittelwert abhangig ist. Das heifit die Unterschiede in s konnen durch Unterschiede in den mittleren Punktzahlen zustande kommen. Ein geeigneteres Streuungsmafi fiir den Vergleich zweier Messreihen desselben Merkmals ist der Variationskoeffizient. Er ist in Relation zum Mittelwert berechnet und damit unabhangig davon. VM = i ^ f ^
= 0.4561
v^ = i | = 0.6667 Die Uni in Miinchen hat eine geringere Streuung bezogen auf die mittlere Punktzahl. Aufgabe 3.6: In einer Absolventenstudie wurden 250 Personen, die vor 5 Jahren ihr Studium abgeschlossen haben, gefragt, in welchem Alter sie ihr Studium abgeschlossen haben. Das Ergebnis ist in folgender Tabelle dargestellt: Alter bei Studienabschluss [22,24) [24,28) [28,30) [30,34) [34,40)
Anzahl der Personen 13 122 71 38 6
Dabei bedeutet zum Beispiel [30,34) „30 bis unter 34 Jahre ". a) Zeichnen Sie das Histogramm fur das Merkmal „ Alter bei Studienabschluss". b) Berechnen und zeichnen Sie die empirische Verteilungsfunktion.
3. MaBzahlen fur eindimensionale Merkmale
38
c) Berechnen Sie das arithmetische Mittel fiir das Merkmal „ Alter bei Studienabschluss"! d) Berechnen Sie die Varianz fur das Merkmal „Alter bei Studienabschluss"! Losung: a) Berechnung der Haufigkeitstabelle fiir das Alter, mit alien Hilfsgrossen fiir das Histogramm:
j 1 2 3 4 5
Alter [22, 24) [24, 28) [28, 30) [30, 34) [34,40)
ej-i
^.7
dj
Uj
22 24 28 30 34
24 28 30 34 40
2 4 2 4 6
13 122 71 38 6
h
hj
F{x)
aj
0.052 0.488 0.284 0.152 0.024
0.026 0.122 0.142 0.038 0.004
0.052 0.54 0.824 0.976
23 26 29 32 37
1
Die folgende Grafik 3.9(links) zeigt das Histogramm.
20
30
40
A b b . 3.9. Dais Histogramm und die empirische Verteilung zur Absolventenstudie
b) Aus der obigen Tabelle entnehmen wir die Werte der Verteilungsfunktion. Die grafische Darstellung erfolgt in Bild 3.9 (rechts). c) Der Mittelwert fiir eine klassierte Haufigkeitstabelle wird mit Hilfe der Klassenmitten bestimmt. Dabei wird angenommen, dass die Auspragungen innerhalb einer Klasse gleichverteilt sind.
3.5 Aufgaben
39
x = J2 fj^J = ^-0^2 • 23 + ... + 0.024 • 37 = 27.872. Im Mittel waren die Absolventeri 27.87 Jahre alt bei ihrem Abschluss. d) Ebenso wie der Mittelwert wird auch die Varianz mit den Klassenmitten ermittelt. 1 ^
52 = - - ^ n , ( a , i=i
(13(23 - 27.872)2 _^ ^^^ _^ ^^3^ _ 27.872)^) f^ 7.90
250 Die mittlere quadrierte Abweichung vom mittleren Alter betragt 7.9. Aufgabe 3.7: Die Anzahl der Mitglieder eines Kleintierziichtervereins betrug im Verlauf von 4 Jahren: Jahr Mitgliederzahl zum 31.12.
1998 1300
1999 1321
2000 1434
2001 1489
a) Wie grofi ist die durchschnittliche Wachstumsrate? b) Welche Mitgliederzahl ware aufgrund dieser durchschnittlichen Rate zum 31.12.2002 zu erwarten? Losung: a) Als erstes berechnen wir fiir das geometrische Mittel (den durchschnittlichen Wachstumsfaktor) die einzelnen Wachstumsfaktoren. Jahr Wachstumsfaktoren
1998
1999
2000
2001
13'J1
1434
1489
i.-^on
1391
1434
Das geometrische Mittel ist dann ^ ^G
— 3/1321 1434 1489 _ 1 r.Aa ~ y 1300 '-1321 ' 1434 "" ^'^'^^^
Damit ergibt sich als durchschnittliche Wachstumsrate {XQ — 1) • 100% = 4.6%. b) Zum 31.12.2002 wurde man 1300 • 1.046^ = 1556.217 ^ 1556 Mitglieder erwarten.
40
3. Mafizahlen fur eindimensionale Merkmale
Aufgabe 3.8: In einem Hochhaus gibt es 20 Haushalte. Davon sind die Halfte Zwei-Personen-Haushalte und jeweils ein Viertel Single-Haushalte und DreiPersonen-Haushalte. a) Berechnen Sie die Gesamtzahl der Personen in den 20 Haushalten. b) Berechnen Sie den Anteil der Personen in Single-, Zwei-Personen- bzw. Drei-Personen-Haushalten. c) Die Konzentration der Personen auf die 20 Haushalte kann in einer Lorenzkurve dargestellt werden. Skizzieren Sie diese. d) In welcher Weise miifiten sich die Personen auf die 20 Haushalte verteilen, damit das Mafi fiir die Konzentration in c) gleich Null wird? Skizzieren Sie die zugehorige Lorenzkurve. Losung: a) Die Gesamtzahl der Personen berechnet man wie folgt:
b) Folgende Anteile ergeben sich fiir die einzelnen Haushaltsgrofien. HH-Gro6e
h
1 40
40
•TF" 40
c) Somit erhalten wir folgende Wertepaare [ui^Vi) fiir die Lorenzkurve:
fi i) (1 k\ {i I) V3' S^'' ^ 3 ' S^'' ^ ' J
Damit konnen wir die Kurve dann zeichnen.
0.5
0.667
Man sieht leichte Konzentration. Wenig Leute wohnen alleine, die meisten Leute wohnen in Zwei- bis Drei-Personen-Haushalten. d) Es miissten 20 Zwei-Personen-Haushalte gebildet werden.
3.5 Aufgaben
41
0.5
0.667
Aufgabe 3.9: An einem Gymnasium in Italien wurden 5 Schiiler zwischen 14 und 16 J a h r e n nach ihrem monatlichen Taschengeld befragt und m a n erhielt folgende Werte.
1 20 EUR
Schiller Tachengeld
2 40 EUR
3 50 EUR
4 65 EUR
5 80 EUR
a) Berechnen Sie ein Mafi fiir die Konzentration des Taschengeldes! b) Stellen Sie die Situation grafisch dar! c) Andert sich das Konzentrationsmafi, wenn jeder Schiiler 10 E U R pro Mon a t mehr bekommt? Wenn ja, wie, wenn nein, warum nicht? d) S t a t t 5 Schiilern betrachten wir jetzt 485 Schiiler. Andert sich das Konzentrationsmafi, wenn 97 Schiiler ein monatUches Taschengeld von 30 E U R , 97 Schiiler ein Taschengeld von 40 EUR, 97 Schiiler ein Taschengeld von 50 EUR, 97 Schiiler ein Taschengeld von 65 E U R u n d 97 Schiiler ein Taschengeld von 80 E U R bekommen? Wenn ja, wie? Losung: a) Fiir den Gini-Koeffizient u n d die Lorenzkurve benotigen wir folgende Hilfsgrossen:
i
X(^i)
1
20
1=0.2
2
40
1 = 0.4
3
50
1 = 0.6
4
65
1=0.8
5
80
E255
'
Vi-i + Vi
n
1 =1
i ^ = 0.078 #=0-235
0.078
m = 0.431 i t = 0.686
0.666
255 255
1 -•-
0.313
1.117 1.686
42
3. Mafizahlen fiir eindimensionale Merkmale Der Gini-Koeffizient laBt sich auf zwei Arten berechnen: 1. Moglichkeit:
G =
En 2 ( 1 - 2 0 + . . . + 5-80) - 6 - 2 5 5 _ 0.23 5•255 ^
2. Moglichkeit: 1 ""
= 1 - i(0.078 + 0.313 + 0.666 + 1.117 + 1.686) ^ 0.23 5 Jetzt muss der Koeffizient nur noch normiert werden und wir erhalten ^ + = - ^ ^ = 1 0 . 2 3 = 0.2875 als Konzentrationsmafi. Inhaltlich deutet n—1
4
dies auf eine sehr schwache Konzentration hin, da das Mafi kleiner als 0.5 ist. b) Nun zeichnen wir noch die Lorenzkurve.
0.2
0.4
0.6
0.8
1.0
u,
3.5 Aufgaben
43
c) Das Konzentrationsmafi andert sich folgendermaBen: 2(1 • 30 + 2 • 50 + 3 • 60 + 4 • 75 + 5 • 90) - 6 • 305 5-305 2120 - 1830 1525
0.19
G^ = --^G = -0.19 = 0.2375 n—1 4 Die Konzentration nimmt ab. d) Das Konzentrationsmafi andert sich nicht, weil die prozentuale Aufteilung der Taschengeldbetrage auf die 485 Schiiler die selbe ist wie die Aufteilung auf die 5 Schiiler, z.B. -^ = ^.
4. Analyse des Zusammenhangs zweier Merkmale
In vielen Fallen werden zwei oder mehr Merkmale gleichzeitig erhoben. In diesem Kapitel behandeln wir Mafizahlen, welche die Starke und - falls dies sinnvoll interpretierbar ist - die Richtung des Zusammenhangs zweier Merkmale angeben, sowie Grafiken, die diese Zusammenhange veranschaulichen. Diese MaBzahlen hangen vom Skalenniveau der beiden Merkmale ab.
4.1 Darstellung der Verteilung zweidimensionaler Merkmale 4.1.1 Kontingenztafeln bei diskreten Merkmalen Seien x i , . . . , x^ die Merkmalsauspragungen von X und y i , . . . , y/ die Merkmalsauspragungen von Y (nominal, ordinal), dann konnen die gemeinsamen Merkmalsauspragungen {xi,yj) und ihre jeweiligen absoluten Haufigkeiten n^j, i = 1 , . . . , A:; j — 1 , . . . , / in der folgenden k x /-Kontingenztafel (Tabelle 4.1) angegeben werden. Tabelle 4,1. Schema einer k X Z-Kontingenztafel
Merkmal X
xi
jyi mi
Merkmal Y Vi yi • • • nij • • • mi
xi
nn
•••
Xk
riki
••
^
n+i
''
nij
•••
rikj ^+j
• ••
nu
E ni-f. rii^
Tiki
nk+
n+i
n
Die Notation nij^ bezeichnet die i-te Zeilensumme, d.h. Summation liber den Index j gemafi n^^ = X^i^i^ij- Analog erhalt man die j - t e Spaltensumme n+j durch Summation iiber den Index i als n+j = Yli^i'^ijGesamtumfang aller Beobachtungen ist dann
^^^
46
4. Analyse des Zusammenhangs zweier Merkmale k
i—\
I
k
j=l
i=l
I
j=l
V i e r - F e l d e r - T a f e l n . Ein Spezialfall ist die Vier-Felder-Tafel bzw. 2 x 2 Kontingenztafel. Die beiden Merkmale sind in diesem Fall binar. Man verwendet hier eine spezielle Notation (Tabelle 4.2).
T a b e l l e 4.2. Schema einer 2 X 2-Kontingenztafel Merkmal Y Merkmal X
Xl X2
^
yi
2/2
a c a+c
b d b+d
E
a+6 c-\-d n
Gemeinsame Verteilung, Randverteilung und bedingte Verteilung. In der Kontingenztafel in Tabelle 4.1 sind die absoluten Haufigkeiten angegeben. Alternativ konnen auch die relativen Haufigkeiten fij — ^ verwendet werden. Die Haufigkeiten riij bzw. fij^ i — i,... ,k] j — 1,.., ,1 stellen die g e m e i n s a m e V e r t e i l u n g des zweidimensionalen Merkmals dar. Die Haufigkeiten rii-^ bzw. /i-f- sind die Haufigkeiten der R a n d v e r t e i l u n g von X, die Haufigkeiten n + j bzw. / + j sind die Haufigkeiten der Randverteilung von Y. Die Randverteilungen sind dabei nichts anderes als die jeweiligen Verteilungen der Einzelmerkmale. Beispiel y/. i . i . Folgende Tabelle 4.3 zeigt die Anzahl verkaufter Blumendiinger eines B a u m a r k t s aufgesplittet nach Preis der Diinger und Geschlecht der Kaufer. Die B e t r a c h t u n g der Randverteilung des Merkmals "Geschlecht" lasst Tabelle 4 . 3 . Kontingenztabelle des verkauften Blumendiingers
Merkmal Geschlecht
m w ^
Merkmal Preis billig normal 22 46 24 25 46 71
teuer 35 4 39
E
103 53 156
darauf schheBen, dass deutlich mehr Manner (103) als Frauen (53) Diinger im B a u m a r k t gekauft haben. Werden die Randhaufigkeiten des Merkmals "Preis" betrachtet, so scheint der Diinger der "normalen" Preiskategorie insgesamt a m meisten verkauft zu werden. 4.1.2 Grafische D a r s t e l l u n g bei diskreten M e r k m a l e n Im Fall der Betrachtung zweier diskreter Merkmale empfiehlt es sich ein zweidimensionales Balkendiagramm anzuschauen: innerhalb jeder Auspragung
4.1 Darstellung der Verteilung zweidimensionaler Merkmale
47
des ersten Merkmals werden die verschiedenen Auspragungen des anderen Merkmals angegeben. Beispiel 4J'2. In einer abendlichen Verkehrskontrolle registriert die Polizei insgesamt 70 Personen mit erhohtem Alkoholspiegel. Folgendes Balkendiagramm listet die Sunder aufgesplittet nach Geschlecht und Alter auf:
AHer B Q • B
18-25 Jahra 26-40 Jahre 41-60 Jahra ab 61 Jahra
Geschlecht
A b b . 4 . 1 . Alkoholsiinder aufgesplittet nach Geschlecht und Alter
4.1.3 Grafische Darstellung der Verteilung stetiger bzw. gemischt stetig-diskreter Merkmale Zur Darstellung der gemeinsamen Verteilung von X,Y (jeweils stetig) verwendet man den sogenannten Scatterplot (Streudiagramm). Hier werden die Wertepaare (x^,y^) in ein X-F-Koordinatensystem eingezeichnet. Beispiel 4-1-3. Ein Geschaft hat sich auf den Verkauf von Pudelmiitzen spezialisiert. In folgender Tabelle ist der Umsatz (in 100 Euro) abhangig vom Monat und dessen Durchschnittstemperatur dargestellt: Monat Temperatur Umsatz
Jan 2.4 28.2 Aug 19.7 0.8
Feb 6.8 22.8 Sep 14.8 4.9
Mar Apr Mai 10.2 12.2 13.5 20.1 5.5 2.2 Okt Nov Dez 12.1 8.2 5,4 10.8 26.4 29.6
Jun 16.8 0.8
Jul 18.8 0.4
48
4. Analyse des Zusammenhangs zweier Merkmale
S 15,0
A b b . 4.2. Streudiagramm zum Umsatz des Pudelmiitzengeschaftes Folgendes Streudiagramm (Abb. 4.2) veranschaulicht die Situation der beiden Merkmale " T e m p e r a t u r " und "Umsatz": 1st eines der Merkmale diskret, so ist die Darstellung der bedingten Verteilung der Darstellung der gemeinsamen Verteilung vorzuziehen. Hierzu verwenden wir Histogramme bzw. Box-Plots aufgesplittet nach dem diskreten Merkmal. Beispiel 4-i-4' Wir betrachten das Beispiel der 'Korpergrofie' bei Mannern und Frauen. Abbildung 4.3(links) zeigt die beiden Histogramme des stetigen Merkmals 'K5rpergro6e' in Abhangigkeit des diskreten Merkmals 'Geschlecht'. In Abb.4.3(rechts) ist der gleiche Sachverhalt als Boxplot aufgesplittet nach dem Geschlecht dargestellt.
0^
^n iH
JIL
Dl
A b b . 4.3. Korpergrofie von Mannern und Frauen veranschaulicht in Histogramm und Boxplot
4.2 Mafizahlen fiir den Zusammenhang zweier kategorialer Merkmale
49
4.2 Mafizahlen fiir den Zusammenhang zweier kategorialer M e r k m a l e Da bei nominalen Merkmalen die Anordnung der Merkmalsauspragungen willkiirlich ist, geben Mafizahlen nur an, ob ein Zusammenhang vorhegt oder nicht. So ist bei einem Zusammenhang zwischen nominalen Merkmalen beispielsweise die Angabe einer Richtung im Gegensatz zu ordinalen oder metrischen Merkmalen nicht moglich. Man spricht daher allgemein von A s s o z i a t i o n . Eine Ausnahme stellt die Vier-Felder-Tafel dar. D a es nur jeweils zwei Auspragungen gibt, kann die Art des Zusammenhangs in diesem Fall zusatzlich durch eine Richtungsangabe beschrieben werden. U n a b h a n g i g k e i t . Wir werden zwei Merkmale als voneinander unabhangig betrachten, wenn die Auspragung eines Merkmals keinen Einfiuss auf die Auspragung des anderen Merkmals hat. Damit gilt im Fall der Unabhangigkeit, dass die gemeinsame Verteilung gleich dem P r o d u k t der Randverteilungen ist fij = fi+Uj . (4.1) Die mit Hilfe von (4.1) berechneten relativen Haufigkeiten bezelchnet m a n auch als (unter der A n n a h m e der Unabhangigkeit) e r w a r t e t e r e l a t i v e H a u f i g k e i t e n . Die erwarteten absoluten Haufigkeiten berechnen sich daraus als — f — ^^+ ^+J _ ^^+^+j "^ n n n Beispiel 4.2.1. Wir betrachten erneut das Beispiel des verkauften Blumendiingers im B a u m a r k t (siehe K a p 4.1.1). Folgende Kreuztabelle 4.4 stellt noch einmal die Anzahl der verkauften Blumendiinger - aufgesplittet nach Preis u n d Geschlecht - dar. Dabei sind in Klammern jeweils die erwarteten Haufigkeiten angegeben. Beispielsweise berechnet sich die erwartete Haufigkeit fiir die Anzahl des an Manner verkauften billigen Diingers wie folgt: ^11 = ^\IQ^ — 30.37. Die anderen Werte sind auf die gleiche Art u n d Weise zu berechnen. D a die zu erwartenden Haufigkeiten nicht mit den tatsachlichen Haufigkeiten iibereinstimmen, kann nicht von Unabhangigkeit ausgegangen werden.
Tabelle 4.4. Absolute und erwartete Haufigkeiten beim verkauften Blumendiinger
Merkmal Geschlecht
m w
X-
Merkmal Preis billig normal 22(30.37) 46(46.90) 24(15.63) 25(24.12) 46 71
teuer 35 (25.75) 4(13.25) 39
E
103 53 156
50
4. Analyse des Zusammenhangs zweier Merkmale
4 . 2 . 1 P e a r s o n s C h i - Q u a d r a t - S t a t is tik Die x^-Statistik ist eine MaBzahl fiir den Zusammenhang in der Kontingenztabelle. Es wird der quadratische Abstand zwischen beobachteten u n d erwarteten Zellhaufigkeiten in Relation zu den erwarteten Haufigkeiten berechnet: [riij
x'=Ej:^^E^t^i=i j=i
(4-2)
n
In der speziellen Notation der Vier-Felder-Tafel (vgl. Tabelle 4.2) erhalten wir fiir die x^-Statistik (4.2) y2_
n{ad-bcf
Es gilt:
0 < X^ < n{min{k,l)-
1).
Die x^-Statistik ist ein symmetrisches MaB, d.h. der x^-Wert ist invariant gegen eine Vertauschung von X und Y. Beispiel 4-^'^- Fiir das Beispiel des verkauften Blumendiingers (siehe Tabelle 4.4) berechnet sich Pearsons x^-Statistik wie folgt: 2 (22-30.37)2 (4-13.25)2 _ ^ X ^ -^ — + ... + ^^ — = 16.6. ^ 30.37 13.25 Der maximal mogliche x^-Wert liegt hier bei 156(2 — 1) = 156. D a der Wert 16.6 deutlich geringer als 156 ist, kann von einem geringen Zusammenhang der beiden Merkmale ausgegangen werden. 4.2.2
Phi-Koeffizient
Der Phi-Koeffizient ^ bereinigt die Abhangigkeit der x^-Statistik vom Erhebungsumfang n durch folgende Normierung
^
(4.4)
Der Phi-Koeffizient n i m m t i m Fall der Unabhangigkeit ebenso wie die y^Statistik den Wert Null an. Der Maximalwert des Phi-Koeffizienten ist
4.2 Mafizahlen fiir den Zusammenhang zweier kategorialer Merkmale
51
Beispiel 4-2.3. Betrachten wir erneut das Beispiel 4.3 und den Zusammenhang der beiden Merkmale '"Geschlecht" und "Preis". Der Phi-Koeffizient berechnet sich hier als:
"-iT-fii'"'''''^
16 mm. Losung: a) Abb. 4.5 zeigt das Streudiagramm. Es scheint einen negativen Zusammenhang zwischen "Niederschlag" und "Umsatz" zu geben. b) Mit XN
=
14.86, xu
=
136, s^
= 11.786 und su
= 48.735 folgt:
Der Wert —0.95 liegt sehr nahe bei —1, was den Verdacht des stark negativen Zusammenhangs der beiden Merkmale noch einmal bestatigt. c) Auch in den Boxplots ist der negative Zusammenhang der beiden Merkmale zu erkennen:
4.4 Aufgaben
t
57
>"
Niedenchlag
A b b . 4.5. Streudiagramm der Merkmale 'Umsatz' und 'Niederschlag'
Niederachlag
A b b . 4.6. Boxplots fur den Umsatz
Aufgabe 4'^' ^^^ eine lokale Studentenzeitschrift wurden von zwei Testpersonen in 5 Schwabinger Cafes die Cappuccini gekostet. Zur Bewertung der Qualitat wurde ein Punkteschema von 1 (= miserabel) bis 10 ( = ausgezeichnet) eingefiihrt. Die jeweiligen Urteile der Testtrinker X und Y sind aus der folgenden Tabelle zu entnehmen:
58
4. Analyse des Zusammenhangs zweier Merkmale Cafe i
Xi
Vi
1 2 3
3 8 7 9 5
6 7 10 8 4
1 ^5
Beurteilen Sie die Wertungen der beiden Testtrinker zueinander mit Hilfe des Rangkorrelationskoeffizienten von Spearman. Losung: Cafe i 1 2 3 4 5
R =
Xi
3 8 7 9 5
R{xi) 1 4 3 5 2
6ELi^l_.
^2
i^(yi)
6 7 10 8 4
2 3 5 4 1
di •• d ?
-1 1 -2 1 1
1 1 4 1 1
6(l + l + 4 + l + l ) _
n(n2-l)
5(25-1)
Der Rangkorrelationskoeffizient deutet, mit nur 0.4, auf einen sehr schwachen positiven Zusammenhang der Wertungen der Testtrinker bin. Man kann also davon ausgeben, dass wenn der eine Testtrinker den Cappuccino bocb bewertet, dass dies nicbt aucb gleicb fiir den anderen Testrinker gelten muss. Aufgabe ^.5*; An einer Tankstelle wurden 150 Kunden nacb dem Fabrzeugtyp gefragt, den sie am meisten benutzen, und der Zufriedenbeit mit ibrer KFZVersicberung. Die nacbfolgende Tabelle entbalt das Ergebnis der Erbebung: Typ des Fabrzeugs Auto mit Benzinmotor Auto mit Dieselmotor Motorrad
zufrieden 33 29 12
unzufrieden 25 31 20
a) Berecbnen Sie die unter der Annabme der Unabbangigkeit der beiden Merkmale 'Fabrzeugtyp' und 'Zufriedenbeit' zu erwartenden Haufigkeiten und berecbnen Sie eine geeignete MaBzabl, die eine Aussage iiber den Zusammenbang zwiscben den Merkmalen 'Fabrzeugtyp' und 'Zufriedenbeit' liefert. b) Welcber Zusammenbang ergibt sicb, wenn nur nocb zwiscben Autos und Motorradern unterscbieden wird? c) Vergleicben und interpretieren Sie die Ergebnisse aus a) und b).
4.4 Aufgaben
59
Losung: a) Tabelle unter Unabhangigkeit: Typ des Fahrzeugs Auto mit Benzinmotor Auto mit Dieselmotor Motorrad
2 _ y ^ V ^ V'"i'3
n
i=\ j=l
zufrieden 28.61 29.6 15.79
unzufrieden 2039 30.4 16.21
J
n
_ (33 - 28.61)2 (25 - 29.39)2 (29 - 29.6)^ 28.61 ^ 29.39 "^ 206 (31 - 30.4)2 (12 - 15.79)2 (20 - 16.21)2 "^ 304 "^ 15.79 "^ 16.21 = 0.6736 + 0.6557 -f 0.0122 + 0.0112 + 0.9097 + 0.8861 = 3.1485. Da der Maximalwert der x2_statistik hier bei 150(2 — 1) = 150 liegt, ist der Zusammenhang als sehr schwach einzustufen. Ferner lafit sich berechnen: Cramers V: / x^ / 3.1485 ~ V n{min{k, I) - I) ~ V 150(2 - 1) ~ Cko _ ^korr
—
I min{k,l)
/
x^
min{k, /) — 1 V x^ + '^ 2 /
3.1485 / ! / 3.1485+150
r- / A/2\/0.02056
^ 0.20. Die beiden Mafie zeigen auch, dass zwischen den Merkmalen 'Fahrzeugtyp' und 'Zufriedenheit' kaum ein Zusammenhang besteht. Sie sind also eher unabhangig.
60
4. Analyse des Zusammenhangs zweier Merkmale Fiir diesen Fall ergibt sich: Typ des Fahrzeugs Auto Motorrad 2
unzufrieden 56 20
zufrieden 62 12
n{ad — 6c)2 (a + d)(c + d)(a + c){b + d) 150(1240 - 672)2 _ 48393600 118-32-74-76 ~ 21236224
: 2.2788.
_^ ad 62-20 1240 , ^_ OR = — ^ = ^ 1.845 be 12-56 672 c) Nach Zusammenfassung wird der Zusammenhang zwischen den Variablen noch schwacher. Der Wert von x^ ist noch kleiner und der Odds-Ratio ist nahe bei Eins. Dies lafit auf 'falsches' Zusammenfassen schliefien. Aufgabe 4-4- Gegeben seien n Punktepaare {xi,yi), i =. 1 , . . . , n. a) Fiir jedes i gilt yi = a-{- bxi mit 6 > 0. Zeigen Sie, dass gilt: r = 1. b) Fiir jedes i gilt yi — a-\- bxi mit 6 < 0. Zeigen Sie, dass gilt: r = — 1. Losung: a) Der Korrelationskoeffizient ist bekanntlich durch (4.13) gegeben. Wenn wir nun fiir yi den Ausdruck a -f bxi einsetzen und uns dann noch iiberlegen, dass y gerade a-\-bx ist, erhalten wir n
Y^ (xi — x)(a + bxi — (a + bx)) 2= 1
J2 {^i - xY 1] (a + bxi - (a + bx)y 2=1
2=1
Nachdem wir die Klammern aufiosen und umstellen ergibt sich Y.{^i -x){b{xi
-x))
2=1
2=1
2= 1
Da 6 nicht von i abhangt, darf es vor die Summen gezogen werden, so erhalten wir den Term
4.4 Aufgaben
_
61
i=l
Durch Wurzelziehen und Kiirzen erhalten wir nun r — 1. b) Fiir b < 0 miissen wir analog vorgehen. Im letzten Schritt hat man im Nenner b^ stehen, was natiirlich positiv ist. Zieht man also die Wurzel aus b'^ erhalt man \b\ = —6, da b negativ ist. Also wird b durch —b dividiert und wir erhalten r = — 1. Aufgabe ^ . 5 ; In der folgenden Tabelle finden Sie fiir das Jahr 1986 die Geschwindigkeitsbeschrankung auf LandstraBen (in Meilen pro Stunde) (x) und die Anzahl der Toten pro 100 Millionen Autokilometer {y) in 5 Landern. Land Danemark Japan Kanada Holland It alien
Hochstgeschwindigkeit 55 55 60 60 75
Anzahl Tote 4.1 4.7 4.3 5.1 6.1
aj Zeichnen Sie das Streudiagramm. b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson und interpretieren Sie ihn. c) Wie andert sich der Wert des Korrelationskoeffizienten von Bravais- Pearson, wenn die Geschwindigkeitsbeschrankung nicht in Meilen, sondern in Kilometern bestimmt wird? d) In England betrug die Geschwindigkeitsbeschrankung im Jahr 1986 70 Meilen pro Stunde. Die Todesrate lag bei 3.5. i) Beriicksichtigen Sie diesen Wert im Streudiagramm. ii) Wie andert sich der Wert des Korrelationskoeffizienten von BravaisPearson, wenn Sie den Wert von England beriicksichtigen? Losung: a) Betrachten wir zuerst das Streudiagramm, Abbildung 4.7 (hnks), fiir den Zusammenhang von Geschwindigkeitsbegrenzungen und Verkehrstoten. Man erkennt eine steigende Struktur. Je hoher das Tempolimit desto mehr Verkehrstote hat das Land. Italien sticht ein wenig hervor mit seinem sehr hohem Tempolimt von 75 mph und den entsprechend vielen Verkehrstoten. Man kann Italien als den strukturgebenden Punkt charakterisieren. Ohne Italien ware der Zusammenhang nicht sehr deutlich.
4. Analyse des Zusammenhangs zweier Merkmale
62
80'
W
^®
LAND
s H ir>
^ -.
"
€
C3
"
"
1
5
;»
50
O 50 i Anzahl der Tolen pro 100 Mio. Aulokilometern
Kanada
~- Japan
1
Anzahl der Tolen pro 100 Mio. Autokilomelern
A b b . 4.7. Streudiagramm der Merkmale 'Geschwindigkeitsbegrenzung' und 'Verkehrstote' b) Mit X = 61, y = 4.86 erhalten wir S^^ = 270 und Syy = 3.512 und S^y 23.2 als Q u a d r a t s u m m e n . Damit kann r{x,y)
=
/^"^^^
v ^ xx'-'yy
folgendermafien
berechnet werden: r(x,y) = /^^^'^^^r. ~ 0.891. Das Korrelationsmafi ist nahe 1, somit deutet es auf einen positiven Zusammenhang bin. c) Wenn wir die D a t e n fur England hinzunehmen erhalten wir den in Abb. 4.7 (rechts) dargestellten Zusammenhang. Man sieht, dass die Briten trotz des hohen Tempolimits wenig Verkehrstote zu beklagen h a b e n im J a h r 1986. Die Hinzunahme der englischen D a t e n schwacht den Zusammenhang also deutlich ab. d) Der Korrelationskoeffizient wird deutlich abnehmen, da England ein fiir die gangige S t r u k t u r untypisches P u n k t e p a a r ist. Die Hilfsgrossen fur den Korrelationskoeffizienten sind: x = 62.5, y = 4.6333, Sx 0«3 / . 0 , ^yy ^~ 4.0533, 5.xy 13. Das ergibt r — 0.3515, was auf einen sehr schwachen bis kaum vorhandenen positiven Zusammenhang hindeutet. Aufgabe ^.^; Die folgenden Tabelle zeigt die Anzahl Storche pro Hektar (x) und die Geburtenzahlen pro tausend Einwohner (y) verschiedener Regionen.
Storche/Hektar 20 30 40 50 60 70 a) Zeichnen Sie das Streudiagramm.
Geburt en/Tausend 13 24 43 51 57 77
4.4 Aufgaben
63
b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson. c) Konnen Sie anhand des Ergebnisses ableiten, dass Storche vielleicht doch die Babies bringen? Losung: a) Das Streudiagramm ist in Abb. 4.8 dargestellt.
Anzahl Stoerche pro Hektar
Abb. 4.8. Streudiagramm der Merkmale 'Storche' und 'Geburten' Eine steigende Struktur ist zu erkennen, mit steigender Storchenanzahl steigen auch die Geburten. b) Fiir das Storchenproblem erhalten wir als HilfsgroBen zur Berechnung des Korrelationskoeffizienten x = 45, y = 44.1667 und damit erhalten wir Sxx 1750 und Syy = 2668.833 und S^^y = 2135. Somit ergibt sich 2135 r{x,y) = \/lT50-2668.833 = 0.9879. Es gibt also einen sehr starken Zusammenhang zwischen den Merkmalen 'Strorche' und 'Geburten'. c) Die Datenreihen Anzahl der Storche und Geburten weisen also eine starke positive Korrelation auf. Doch dies bedeutet nicht, wie jeder weifi, dass der Storch die Babies bringt. Hier haben wir es vielmehr mit einer Scheinkorreiation zu tun, die nicht eine Kausalitat wiederspiegelt sondern eher als ein statistisches Artefakt zu interpretieren ist. Aufgabe 4- ^•' Von den Passagieren auf der Titanic waren 337 in der ersten Klasse, 285 in der zweiten Klasse und 721 in der dritten Klasse. Es waren 885 Besatzungsmitglieder an Bord. Von den Passagieren der ersten Klasse wurden nach dem Ungliick 135 vermisst, von denen der zweiten Klasse 160, von denen der dritten Klasse 541 und von der Besatzung 674.
4. Analyse des Zusammenhangs zweier Merkmale
64
a) Erstellen Sie eine Kontingenztabelle. Berechnen Sie die relativen Haufigkeiten bezogen auf die Spaltensumme. Was sagen Ihnen diese Anteile? b) Bestimmen Sie die Kontingenztabelle unter Unabhangigkeit. c) Berechnen Sie zwei KontingenzmaBe. Gibt es einen Zusammenhang zwischen der sozialen Herkunft der Menschen auf der Titanic u n d dem Merkmal ' G e r e t t e t / V e r m i s s t ' ? d) Fassen Sie die erste u n d zweite Klasse zu einer Gruppe zusammen u n d die dritte Klasse u n d Besatzung zu einer weiteren Gruppe. Bestimmen Sie die MaBe aus c) u n d den Odds-Ratio. Interpretieren Sie Ihr Ergebnis. Losung: a) Wenn m a n die Angaben aus der Aufgabenstellung tabellarisch zusammenfasst erhalt m a n folgende Tabelle. x\ y Gerettet Vermisst
E
1 .Klasse 202 135 337
2. Klasse 125 160 285
3.Klasse 180 541 721
Besatzung 211 674 885
E
718 1510 2228
Die Tabelle der relativen Haufigkeiten erhalt man, wenn m a n die Werte der gemeinsamen Verteilung (innerhalb der Tabelle) durch die Spaltensumme (die Randverteilung ) dividiert. x\ y Gerettet Vermisst
1. Klasse 0.5994 0.4006
2.Klasse 0.4386 0.5614
3. Klasse 0.2497 0.7503
Besatzung 0.2384 0.7616
Man erkennt recht deutlich, dass m a n als Passagier der ersten Klasse die hochste Uberlebenschance des Ungliicks h a t t e . Auch von den Passagieren der zweiten Klasse wurden noch viele gerettet. Die Passagiere der dritten Klasse u n d die Besatzungsmitglieder hat ten sehr ahnliche Anteile, so dass m a n annehmen kann, dass sie zu einer Gruppe gehoren. b) Die Tabelle unter Unabhangigkeit wird wie gehabt berechnet.
Ay Gerettet Vermisst
E
1 .Klasse 108.6 228.4 337
2. Klasse 91.8 193.2 285
3.Klasse 232.4 488.6 721
Besatzung 285.2 599.8 885
E
718 1510 2228
Man erkennt recht hohe Unterschiede zwischen den Werten unter Unabhangigkeit u n d den Ausgangswerten. c) Berechnen wir n u n die x^—Statistik u n d z.B. Cramer's V. k
I
(„,._2i±2±z)2 n
4.4 Aufgaben (202 -108.6)2 (125-91.8)2 91.8 108.6 (160-193.2)2 (135- 228.4)2 + 228.4 193.2 80.33 + 12.01 + 11.82 + 20.36 + 38.19 + 5.71 + 5.62 + 9.18 = 183.22.
65
(209 - 285.2)^ 232.4 285.2 (54^ 488.6)2 (674 - 599.8)2 + 488.6 599.8
(180
232.4)2
+
Der Maximalwert liegt hier bei 2228(2 - 1) = 2228. Da 183.22 naher an der Null liegt als an der 2228 ist der Zusammenhang eher schwach. Doch die relativen Haufigkeiten zeigen ein anderes Bild. Berechnen wir noch Cramer's V, so erhalten wir V
JLl Vn {min(k,l)
— l)
Man sieht, dass Cramer's V bei Tabellen mit 2 Zeilen bzw. Spalten dem nMian.n
DuchBchriUHt vr^KRbi taoauEber
QtdB^^^sGLra DeMDB
DuchHdTttstBnperHtir
KjrelslionnBch
akm
^
Qjudruttuiiiufiund YinapixAibi W««tarz HotskulaBlLriQ
KMOIHIC Dmd lUd ^'iltatai i yBnbx taoauBber
Kxrelaiionnsdi Ftewi QjucMtuiKUfiind KiBUjpoijto »*«tarz
HjtetamltBluTg
-2017.780
ea2B5
-181432
KxrelslionnBch
IQeu^raUdB
1 rfcjjMiiwf i i j i
^^1917
^
-2017.750
7168280
-183/432
680LSG8
^
41Q917
1633.7S0
37.3SB
14a5a
KjrelalionnBch
..
QjHLtdtUliriMILRl IQgUjpocU^
BBBd
\ DUchBcfriUslflnrpardLr tEgauBbar
I^WHrtaK KireldionnGch Psaraon
1631750
9700250
l4a5Z3 j
881.841
74000
97.182
Krralaficn nach
K»«iarz
^
97.182
740.434
4. Analyse des Zusammenhangs zweier Merkmale
68
Losung: a) Mit den angegebenen Hinweisen ergibt sich der Korrelationskoeffizient _
S^y ^SXXSYY
8636:72 -
_
E ? i i Xiyi-'i6xy yjns\ns\r
_
22776-36-12.22-51.28 _ n^/^^
216.9 36^79.15-727.18
^•^2^'
Es gibt keinen linearen Zusammenhang zwischen den Temperaturen und der Auslastung. b) Das Streudiagramm der gesamten Daten bestatigt das Ergebnis des Korrelationskoeffizienten und zeigt keine direkten Strukturen. Durch die Markierungen erkennt man aber, dass die Orte eine entscheidende Rolle spielen. Die Punktepaare, die z.B. zu Mallorca gehoren, weisen eine steigende Struktur auf. c) Es soUten also die Daten nach den Orten aufgeteilt werden. Die Streudiagramme haben dann die folgende m) heifit Kombination mter Ordnung aus n Elementen. Definition 6.3.2. Der Binomialkoeffizient definiert als = —n
^mj
ist fiir ganzzahlige n > m > 0 TT •
ni\{n — m)\
(Der Binomialkoeffizient wird als „n iiber m^^ oder „m aus n " gelesen). Es gilt
^-4
94
6. Kombinatorik n 0 n 1
n\ mj
1 (als Definition) n
/ n \n — m
Wir unterscheiden zwischen vier verschiedenen Modellen fiir Kombinationen, abhangig von der Bedeutung der Reihenfolge und den Wiederholungen: • • • •
Kombinationen Kombinationen Kombinationen Kombinationen
ohne Wdh. und ohne Beriicksichtigung der Reihenfolge ohne Wdh. und mit Beriicksichtigung der Reihenfolge mit Wdh. und ohne Beriicksichtigung der Reihenfolge mit Wdh. und mit Beriicksichtigung der Reihenfolge
Im Weiteren wollen wir naher auf diese Modelle eingehen. 6.3.1 Kombinationen ohne Wiederholung und ohne Beriicksichtigung der Reihenfolge Die Anzahl der Kombinationen ohne Wiederholung und ohne Beriicksichtigung der Reihenfolge betragt (6.5)
Man stelle sich vor, die n Elemente werden in zwei Gruppen unterteilt: die Gruppe der ausgewahlten m = rii Elemente und die Gruppe der nicht ausgewahlten restlichen 71 — 7x1 — 712 Elemente. Die Reihenfolge innerhalb der beiden Gruppen interessiert dabei nicht. Damit kann (6.5) mit (6.3) gleichgesetzt werden: 'ri\
^
^TTl)
7i\
^
7n\{7l — 7n)\
^!
/ggN
7li\7l2\
Beispiel 6.3.1. Aus n = 50 Studenten soUen zufallig m = 5 Studenten nach ihrer Meinung zum Professor befragt werden. Es gibt dann ^50\ 5 /
50! 5!45!
2118760
verschiedene Stichproben (ohne Wiederholung: kein Student doppelt in der Stichprobe, Reihenfolge in der Stichprobe bleibt unberiicksichtigt). 6.3.2 Kombinationen ohne Wiederholung, aber mit Beriicksichtigung der Reihenfolge Sollen zwei Kombinationen, die genau dieselben 7n Elemente enthalten, aber in verschiedener Anordnung, als verschieden gelten, so spricht man von Kombination mit Beriicksichtigung der Reihenfolge. Die Anzahl betragt
6.3 Kombinationen "' {n — m)\
^")m!. \m
95 (6.7)
Die Beriicksichtigung der Anordnung der m Elemente erhoht also die Anzahl der Kombinationen um den Faktor m! (vgl. (6.5)), d. h. um die Kombinationen, die vorher als gleich galten. Wir ziehen aus der Urrie also m verschiedene Kugeln ohne Zuriicklegen, halten aber die Reihenfolge fest, in der sie gezogen wurden. Beispiel 6.3,2. Beriicksichtigt man bei der Dreiereinlaufwette die Reihenfolge der ersten drei Pferde, so gibt es bei n = 20 gestarteten Pferden 20! ( 2 0 - 3 ) ! = 20 . 19 • 18 = 6840 verschiedene Ergebnisse. 6.3.3 Kombinationen mit Wiederholung, aber ohne Beriicksichtigung der Reihenfolge Lasst man zu, dass Elemente mehrfach in der Kombination auftreten, so spricht man von Kombination mit Wiederholung. Die Anzahl der Kombinationen mit Wiederholung, aber ohne Beriicksichtigung der Reihenfolge betragt ^n + m - l y (n-F-m-l)! m!(n-l)! ' ^^'^^ Im Vergleich zum Fall der Kombinationen ohne Wiederholung (6.5) vergroBert sich die Menge, aus der ausgewahlt wird, um ra — 1 Elemente. Im Urnenmodell entspricht dies dem Ziehen mit Zuriicklegen, aber ohne Beriicksichtigung der Reihenfolge. Beispiel 6.3.3. Ein Bauer hat zwei Felder. Aus n — 4 verschiedenen Gemiisesorten (a,b,c,d) lassen sich 4-h2-l\ 2 J
fb\ \2J
5! 2! 3!
3! - 4 . 5 _ 1-2.3!
Paare {ra — 2) von Gemiisesorten auf den beiden Feldern anbauen, bei denen Wiederholungen (einer Sorte) zugelassen sind und die Reihenfolge unberiicksichtigt bleibt: (a,a)
(a,b) (b,b)
(a,c) (b,c) (c,c)
(a,d) (b,d) (c,d) (d,d)
96
6. Kombinatorik
6.3.4 K o m b i n a t i o n e n m i t W i e d e r h o l u n g u n d m i t Beriicksichtigung der Reihenfolge Die Anzahl der Kombinationen mit Wiederholung und mit Beriicksichtigung der Reihenfolge b e t r a g t n^. (6.9) In diesem Modell gibt es fiir jede der m Auswahlstellen n mogliche Elemente. tJbertragen auf das Urnenmodell heifit das, dass in jedem Zug eine Kugel ausgewahlt und danach wieder zuriickgelegt wird, und dass zusatzlich die Reihenfolge in der Ziehung von Interesse ist. Beispiel 6.S.4' ^^ Spiel "Super 6" wird eine sechsstellige Zahl gezogen. Stimmt diese mit der Spielscheinnummer eines Teilnehmers vollstandig iiberein, so bekommt dieser den Hauptgewinn. Fiir jede Stelle dieser Zahl findet ein eigener Ziehvorgang s t a t t , in dem eine Zahl zwischen 0 u n d 9 gezogen wird. Es gibt also n = 10 Moglichkeiten fiir jede Ziehung. Insgesamt wird m = 6 mal gezogen. Die Anzahl der moglichen Kombinationen ist also: n ^ = 10^ = 1000000.
6.4 Zusammenfassung Die in diesem Kapitel vorgestellten kombinatorischen Regeln sind nochmals in Tabelle 6.1 zusammengefaBt.
Tabelle 6 . 1 . Regeln der Kombinatorik ohne Wiederholung Permutationen Kombinationen ohne Reihenfolge
Kombinationen mit Reihenfolge
mit Wiederholung
n!
n! ni!---ns!
(n^ \
1 n + m — l\
[mjI
[
\m\
m ) m
n
6.5 Aufgaben
97
6.5 Aufgaben Aufgabe 6.1: Bei Familie Miiller (Mutter, Vater, 3 Kinder) steht der jahrliche Friihjahrsputz an. Insgesamt gibt es dieses J a h r 5 groBere Arbeit en zu erledigen. Ungliicklicherweise werden der alteste Sohn und der Vater der Familie aus unerklarlichen U m s t a n d e n krank. Die Familie beschliesst daher nur drei der urspriinglich 5 Arbeiten zu erledigen. Die Aufgaben werden an die Mutter und die beiden T5chter zufallig per Los verteilt. Zuerst bekommt die Mutter eine Aufgabe zugeteilt, dann die erste Tochter, dann die zweite! Wieviele m5gliche Aufteilungen der 5 Friihjahrsputzarbeiten auf die drei gesunden Mitglieder der Familie gibt es insgesamt? Losung: Insgesamt gibt es n = 5 Arbeiten, die auf m = 5 - 2 = 3 Personen zufallig aufgeteilt werden. Die Reihenfolge spielt eine RoUe, das heifit, es gibt r^^^^M = 60 mogliche Aufgabenaufteilungen. Aufgabe 6.2: Ein Osterhase bemalt Ostereier: eines davon rot, eines blau, eines gelb, eines griin und eines lila. Am Abend legt er in Fritzchens Osternest vier bemalte Eier. Wieviele Moglichkeiten flir die Zusammensetzung des Osternestes gibt es? Losung: Es gibt insgesamt n = 5 Farben, davon sollen m = 4 ausgewahlt und in das Osternest gelegt werden. D a die Reihenfolge nicht von Interesse ist, gibt es insgesamt ( ^ ) = (^) =: 5 Moglichkeiten. Aufgabe 6.3: Ein Lateinlehrer sorgt sich u m die Vokabelkenntnisse seiner Schiller. U m das Vokabelnlernen zu forcieren, droht er seiner Klasse (25 Schiller) damit, regelmafiig zu Beginn der Unterrichtsstunde 5 Schiiler abzufragen. Wieviele AnordnungsmogUchkeiten von abzufragenden Schiilern gibt es, wenn a) kein Schiiler mehrmals pro Stunde abgefragt werden kann? b) ein Schiiler auch mehrmals pro Stunde abgefragt werden kann? Losung: Im Allgemeinen kann davon ausgegangen werden, dass die Reihenfolge hier nicht von Bedeutung ist, da es beim abgefragten Schiiler keine Rolle spielt an welcher Stelle er abgefragt wird. a) In diesem Fall gibt es mit n = 25 und m = 5 genau {^^) = 53130 Moglich-
b) Hier gibt es ( ^ ^ 7 " ^ ) -
( ^ ) - 118755 Moghchkeiten der Abfrage.
98
6. Kombinatorik
Aufgabe 6.4: 'Gobang' ist ein Spiel bei dem zwei Spieler abwechselnd auf einem Spielfeld mit 361 Knotenfeldern einen Spielstein platzieren. Sieger ist wer zuerst funf Spielsteine in einer Reihe legen kann. Nach einem bestimmten Prinzip diirfen Steine auch geschlagen werden. Nehmen Sie an, dass sich bei einem angefangenen Spiel bereits 64 Spielsteine auf dem Feld befinden. Wieviele mogliche Aufteilungen fur die Steine auf dem Spielfeld gibt es insgesamt? Losung: Wir haben insgesamt n = 361 Spielfelder. Wir konnen hier vom 'Ziehen ohne Zuriicklegen' (also ohne Wdh.) ausgehen, da jeder K n o t e n p u n k t des Spielfeldes nur einmal belegt werden kann. Wir woUen nun m = 64 Steine auf dem Spielfeld platzieren. Da hier die Reihenfolge keine RoUe spielt, erhalten wir fiir die Anzahl der moglichen Kombinationen ( ^ ) = ( ^^^ ^ 9.9 • lO'^"^. Aufgabe 6.5: Ein G e t r a n k e m a r k t bietet als Spezialangebot den 'Miinchner Kasten' an. Dabei diirfen sich die Kunden aus sechs Bieren der sechs groBen Miinchner Brauereien ein beliebiges Sortiment zusammenstellen. Ein Kasten fasst dabei 20 Flaschen. a) Wie viele Kombinationsmoglichkeiten bei der Zusammenstellung eines Kastens gibt es insgesamt? b) Ein K u n d e mochte auf alle Falle mindestens eine Flasche pro Brauerei in seinem Kasten haben. Wie viele Kombinationsmoglichkeiten fur den Kasten gibt es j e t z t ? Losung: a) Beim Ziehen der Flaschen kann davon ausgegangen werden, dass 'mit Zuriicklegen' (also mit W d h . ) gezogen wird, da sich der K u n d e an jeder Stelle des Kastens zwischen alien sechs Bieren entscheiden kann. Die Reihenfolge der Flaschen spielt keine Rolle. Damit berechnen sich die Kombinationsmoglichkeiten als n + ^ - A
m
J
/6 + 20-lA
/25X
\
\20j
20
J
b) Mochte der K u n d e mindestens eine Flasche pro Brauerei in seiner Auswahl haben, so sind sechs der insgesamt 20 Platze des Kastens bereits belegt. Fiir die librigen 14 Platze stellen wir die gleichen Uberlegungen wie in Aufgabenteil a) an und erhalten damit fiir die Anzahl der Kombinationen:
6.5 Aufgaben
99
Aufgabe 6.6: Bei der Fufiball W M 2006 nehmen insgesamt 32 Mannschaften teil. Wieviele M5glichkeiten fiir die Belegung des Siegerpodestes (Platze 1-3) gibt es, wenn a) die Reihenfolge der Platze eine RoUe spielt, b) die Reihenfolge der Platze keine RoUe spielt? Losung: a) Mit n = 32 und m = 3 ergeben sich genau ^g^^Ui = 29760 mogliche Podest verteilungen. b) Es gibt (^3^) = 4960 verschiedene Moglichkeiten. Aufgabe 6.7: Ein Biicherversand vergibt an seine Mitglieder Mitgliedsnummern in Form einer vierstelligen Buchstabenkombination. Mogliche Buchstaben auf der Mitgliedskarte sind "A" bis "L". Die Buchstaben konnen dabei auch mehrfach auftreten. Durch eine Pramienaktion vergrofiert der Buchclub seine Mitgliederzahl von 18200 auf 20500. Konnen unter diesen U m s t a n d e n noch genug neue Mitgliedsnummern vergeben werden oder muss sich der Buchclub ein neues System iiberlegen? Losung: Insgesamt gibt es n = 12 verschiedene Buchstaben fur jede der m = 4 Stellen der Mitghedsnummer. D a die Buchstaben auch doppelt verwendet werden diirfen, gibt es insgesamt n^ = 12^ = 20736 Kombinationsmoglichkeiten. Jedem der 20500 Mitglieder kann also eine eigene Buchstabenkombination iibergeben werden. Aufgabe 6,8: Im alten Wertungssystem zum Eiskunstlauf u n d Eistanzen, das bis zum J a h r 2004 giiltig war, vergaben 9 zufallig ausgeloste Preisrichter Noten auf einer Skala von 0 bis 6. Die Noten muBten dabei nicht ganzzahlig sein, sondern konnten auch bis auf die erste Dezimalstelle abgestuft werden. Wieviele Kombinationsmoglichkeiten an Bewertungen gab es damit insgesamt? Losung: Insgesamt gab es folgende 61 Moglichkeiten der Bewertung pro Preisrichter: 0 1
0.1 1.1
0.2 1.2
0.3 1.3
0.4 1.4
0.5 1.5
0.6 1.6
0.7 1.7
0.8 1.8
0.9 1.9
5 6
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
100
6. Kombinatorik
Da verschiedene Preisrichter auch gleiche Bewertungen vergeben diirfen, konnen wir von einem 'Ziehen mit Zuriicklegen' (also mit Wdh.) ausgehen. Jede Note ist mit einem bestimmten Preisrichter 'verbunden', d.h. die Reihenfolge spielt eine RoUe. Daher ist die Menge aller Kombinationsmoglichkeiten gegeben durch n"^ =- 61^ f^ 1.17 • 10^^
7. Elemente der Wahrscheinlichkeitsrechnung
7.1 Einleitung Ziel jeder wissenschaftlichen Untersuchung ist es, bei beobachteten Zusammenhangen, Effekten oder Trends zu priifen, ob diese beobachteten Effekte systematisch oder zufallig sind. Die Statistik bezelchnet dies als signifikant oder nicht signifikant. Statistische Erhebungen sind mit einem Experiment vergleichbar, dessen Ergebnis vor seiner Durchfiihrung nicht bekannt ist. Versuche oder Experimente, die bei Wiederholungen unter gleichen Bedingungen zu verschiedenen Ergebnissen fiihren konnen, heifien zufallig. Beispiele. ZufaUiges Experiment Regenschirm dabei Werfen eines Wiirfels Befragen eines Studenten Einsatz von Werbung
Moghche Ergebnisse Regen (ja,nein) Augenzahl z (z = 1, 2 , . . . , 6) bestandene Priifung (ja, nein) Umsatzanderung x (in%) {x — 0, ± 1 , ± 2 , . . . )
7.2 Zufallige Ereignisse Ein zufalliges Ereignis ist eine Menge von Ergebnissen {a;i,..., cj/e} eines Zufallsexperiments. Man sagt, das zufaUige Ereignis A = {uJi, • •. ^oJk} tritt ein, wenn mindestens eines der zufalligen Ereignisse {CJ^} eingetreten ist. Ereignisse, die nur aus der einelementigen Menge {cui} bestehen, heifien Elementarereignisse. Ein Elementarereignis ist ein Ereignis, das sich nicht als Vereinigung mehrerer Ergebnisse cji ausdrlicken lasst. Der Ereignisraum oder Grundraum i? ist die Menge aller Elementarereignisse. Beispiel 7.2,1 (Wilrfelwurf), Beim einmaligen Werfen eines Wiirfels sind die moglichen Ergebnisse die Augenzahlen 1,...,6. Damit besteht der Ereignisraum aus den Elementarereignissen uji — ,,1", 0^2 — „2",..., oo^ == „6": f2 — { 1 , . . . , 6 } . Das Ereignis A = {(^25^45^6} tritt ein, falls eines der
102
7. Elemente der Wahrscheinlichkeitsrechnung
Elementarereignisse UJ2,^4 oder COQ eingetreten ist. In diesem Fall ist A das zufallige Ereignis „gerade Augenzahl beim einmaligen Wiirfeln". Beim zweifachen Wiirfelwurf sind die Elementarereignisse coi,..., UJSQ die Paare (1,1) bis (6, 6). D a m i t h a t i? die Gestalt {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6) (2,1), (2,2), ... (2,6)
n= (6,1),
...
(6,5), (6,6)}
Das u n m o g l i c h e E r e i g n i s 0 ist das Ereignis, das kein Elementarereignis enthalt. Das s i c h e r e E r e i g n i s ist die Menge f2 — { a ; i , . , . ,0;^} aller Elementarereignisse. Das sichere Ereignis t r i t t in jeder Wiederholung des Zufallsexperiments ein. Beispiele. • fiir das sichere Ereignis: — Beim Befragen eines Studenten wird der Professor mit einer Note zwischen 1 u n d 5 bewertet. — Eine Kunde eines Supermarktes ist mit dem dortigen Angebot "sehr zufrieden", "zufrieden", "unzufrieden" oder "ohne Meinung". • fiir das unmogliche Ereignis: — Die gezogene Zahl 2: = — l , z — 5.5 oder z = 51 bei der Ziehung im Lotto '6 aus 49'. — „Gerade Augenzahl in beiden Wiirfen und ungerade Augensumme" beim zweifachen Wiirfelwurf. Das K o m p l e m e n t a r e r e i g n i s A ist das Ereignis, das genau dann eintritt, wenn A nicht eintritt. Beispiele. • Beim Miinzwurf ist „ W a p p e n " das zu „Zahl" komplementare Ereignis. • Fiir das zufallige Ereignis A: ^,Professor beliebt" ist das komplementare Ereignis A: „Professor nicht beliebt". Wie bereits erwahnt, kann m a n bei Zufallsexperimenten an einem Elementarereignis uji interessiert sein oder auch an einem zusammengesetzten Ereignis A = {002,^5, • - -}- D a zufallige Ereignisse Mengen von Elementarereignissen sind, sind folgende Mengenoperationen von Interesse, die in den Abbildungen 7.1 u n d 7.2 veranschauUcht werden.
7.2 Zufallige Ereignisse AU B
An B
A\B
A
103
Das zufallige Ereignis AU B ist die Vereinigungsmenge aller Element ar ereignisse aus A und B, wobei gemeinsame Elementarereignisse nur einmal aufgefiihrt werden. Das Ereignis „A oder 5 " tritt genau dann ein, wenn mindestens eines der beiden Ereignisse A oder B eintritt. Beispiel Wiirfel: A = {^25^45
0.05-0.6 + 0.25.0.4
0.2308.
7.6 Unabhangigkeit Sind zwei zufallige Ereignisse A und B unabhangig in dem Sinne, dass das Eintreten des Ereignisses B keinen Einfluss auf das Eintreten von A hat, so erwartet man, dass P{A\B) = P{A)
und
P{A\B) = P{A)
7.6 Unabhangigkeit
111
gilt. Mit (7.6) erhalten wir in dieser Situation
P{A\B) =
P{AnB) P{B) p{Ar\B) P{B)
P{A\B).
(7.11)
Durch Umformen erhalten wir die zu (7.11) aquivalente Beziehung P(A n B)P{B) = P{A n B)P{B) P{A n B)(l - P{B)) = P{A n B)P{B) p{A nB)
= {P{A n 5) + P{A n
B))P{B)
P{AnB)=^P{A)P{B).
(7.12)
Dies fiihrt zur Definition der (stochastischen) Unabhangigkeit. Definition 7.6.1. Zwei zufdllige Ereignisse A und B heifien genau dann voneinander (stochastisch) unabhdngig, wenn P{A nB) = P{A)P{B)
(7.13)
gilt, d.h,, wenn die Wahrscheinlichkeit filr das gleichzeitige Eintreten von A und B gleich dem Produkt der beiden Einzelwahrscheinlichkeiten ist Der Begriff der Unabhangigkeit kann auf den Fall von mehr als zwei Ereignissen verallgemeinert werden. Definition 7.6.2. n Ereignisse A i , . . . , An heifien (stochastisch) unabhdngig, falls filr jede Auswahl Ai^,..., Ai^ (m < n) P{Ai,n---nAiJ
= P(Ai,)-...-P{AiJ
(7.14)
gilt. Ein schwacherer Begriff ist der Begriff der paarweisen Unabhangigkeit. Wenn die Bedingung (7.14) nur fur jeweils zwei beliebige Ereignisse (m = 2) erfiillt werden mufi, so heifien die Ereignisse paarweise unabhangig. Der Unterschied zwischen paarweiser Unabhangigkeit und stochastischer Unabhangigkeit wird an folgendem Beispiel erlautert. Beispiel 7.6.1. In einer Urne befinden sich vier Kugeln mit den aufgedruckten Zahlenkombinationen 110, 101, Oil, 000. Es werde eine Kugel aus der Urne gezogen. Wir definieren dabei die folgenden Ereignisse: Ai ; Die gezogene Kugel hat an der ersten Stelle eine Eins. A2 : Die gezogene Kugel hat an der zweiten Stelle eine Eins. A3 : Die gezogene Kugel hat an der dritten Stelle eine Eins.
112
7. Elemente der Wahrscheinlichkeitsrechnung
Da jedes dieser Ereignisse zwei giinstige Falle hat, gilt
Das gemeinsame Auftreten aller drei Ereignisse ist jedoch unm5glich, da es keine Kugel mit der Kombination 111 gibt. Damit sind die drei Ereignisse nicht stochastisch unabhangig, da gilt P{A,)P{A2)P{A3)
= i 7^ 0 = P{Ai n A2 n ^ 3 ) .
Es gilt jedoch PiA^nA2)
= \ =
P{A,)P{A2),
P{A,nAs)
= ^ =
PiA^)P(As),
P{A2 n /Is) = I = P{A2)P{A3) ,
SO dass die drei Ereignisse paarweise unabhangig sind.
7.7 Aufgaben Aufgabe 7.i; Priiher war in Deutschland das Tippspiel "6 aus 45" sehr popular. Aus 45 FuBballbegegnungen sollten die sechs Begegnungen mit den hochsten Unentschieden getippt werden. Betrachten wir das Ereigniss A: "Spiel i endet Unentschieden, i==l,...,45".. Formulieren Sie je ein Beispiel fiir das komplemetare Ereignis und ein unmogliches Ereignis! Losung: Das Komplementarereignis stellt hier einen "Heim- oder Auswartssieg" in der Begegnung i dar. Beispiel fiir ein unmoghches Ereignis ware der Sieg beider Mannschaften. Aufgabe 7.2: Auf einer Spielemesse muss bei einem neu erschienen Spiel mit einem Dodekaeder (Wiirfel mit 12 Seiten) gewiirfelt werden. Betrachten wir die fur das Spiel relevanten Ereignisse A: "gerade Zahl gewiirfelt" und B: "Die Zahl ist groBer als neun". Wie hoch ist die Wahrscheinlichkeit bei einmaUgem Werfen des Dodekaeders a) b) c) d)
eine eine eine eine
gerade Zahl zu werfen? Zahl grofier als neun zu werfen? gerade Zahl, die groBer als neun ist zu werfen? gerade Zahl oder eine Zahl grofier als neun zu werfen?
7.7 Aufgaben
113
Losung: Die Anzahl aller moglichen Ereignisse betragt |i7| = 12 a) Die Anzahl der giinstigen Ereignisse betragt 2,4,6,8,10,12). D a m i t ist P ( A ) = A == i . b) Die Anzahl der giinstigen Ereignisse betragt 10,11,12). D a m i t ist P{B) -= ^ = ^ c) Die Anzahl der giinstigen Ereignisse betragt 10,12). D a m i t ist P ( A fl 5 ) = ^ == ^ d) Die Anzahl der giinstigen Ereignisse betragt 2,4,6,8,10,11,12). Damit ist P ( A U J B ) = ^ .
hier \A\=
6 (die Zahlen
hier | A | = 3 (die Zahlen hier \A\— 2 (die Zahlen hier 1^41= 7 (die Zahlen
Aufgabe 7.S: Unter dem Dach von Familie Maier leben 6 Personen: Mutter, Vater, 2 Kinder, O m a und Grofitante. Wie jedes J a h r feiert die Familie Weihnachten zusammen. Insgesamt liegen dieses J a h r 12 Geschenke u n t e r m Weihnachtsbaum - fiir jedes FalilienmitgUed sind zwei der Geschenke vorgesehen. Durch einen Wasserschaden, den der jiingste Sohn verursacht hat, sind die Namen auf den Geschenken jedoch unleserlich geworden. O m a schlagt vor, dass sich jeder zufallig 2 Geschenke nimmt. Wie hoch ist die Wahrscheinlichheit, dass der Vater a) genau seine beiden Geschenke zieht? b) keines der fiir ihn vorgesehenen Geschenke erwischt? Losung: Die Anzahl aller moglichen Falle, zwei Geschenke aus insgesamt zwolf zu Ziehen (also |i7|), betragt genau ( 2 ) . a) Hier b e t r a g t die Anzahl der giinstigen Falle genau eins, da nur eine gezogene Kombination genau die zwei richtigen Geschenke garantiert. Mit Hilfe von (7.3) folgt: PC'beideGeschenke'')
= 141 = TAY ~ 0.015 .
b) Die Anzahl der giinstigen Falle betragt hier ("^2^) (Q), da aus den 10 "falschen Geschenken" genau zwei gezogen werden, wahrend aus den zwei "richtigen" keines gezogen wird. Es ergibt sich also: P{''keinGeschenk'')
= | # = -^f^
~ 0.682
Aufgabe 7.4: Ein beriihmter Fernsehkoch versalzt seine Kiirbissuppe mit einer Wahrscheinlichkeit von 0.2. Ist er jedoch verliebt - und in diesem Zustand befindet er sich mit einer Wahrscheinlichkeit von 0.3 - so versalzt er seine Suppen mit einer Wahrscheinlichkeit von 0.6. a) Geben Sie die Wahrscheinlichkeitstabelle fiir die Merkmale 'Fernsehkoch verUebt/nicht verUebt' und 'Suppe versalzen/nicht versalzen' mit den zugehorigen Randwahrscheinlichkeiten an.
114
7. Elemente der Wahrscheinlichkeitsrechnung
b) Sind die beiden Ereignisse unabhangig? Losung: a) Laut Angabe versalzt der Koch die Suppe mit einer Wahrscheinlichkeit von 0.2, das heiBt wir erhalten die Randwahrscheinlichkeiten: p ( y ) = 0 . 2 = : ^ P ( y ) = 0.8. Aquivalent erhalten wir fiir die (Rand-)Wahrscheinhchkeiten des VerUebtseins: P{L) = 0 . 3 = ^ P ( L ) = : 0 . 7 . Des weiteren konnen wir berechnen: P{y nL) = P{V\L) ' P{L) = 0.6 . 0.3 = 0.18
p(y n L) = P{L) - P{V n L) - 0.3 - 0.18 = 0.12 p(y n L) = P{v) - p{v n L) = 0.2 - 0.I8 - 0.02 p{v n L) = P{v) - P{v n L) = 0.8 - 0.12 = 0.68 Wir erhalten damit folgende Tabelle:
L L
E
V 0.18 0.02 0.2
V 0.12 0.68 0.8
E
0.3 0.7 1
b) Die beiden Ereignisse sind nicht unabhangig, da z.B. P{V) • P{L)
0.3.
0.2 = om y^ o.is = p{v n L). Aufgabe 7.5: Herr O. bittet seinen Nachbarn Herrn P., wahrend seiner Abwesenheit sein geliebtes BasiUkum zu giessen. AUerdings mufi er davon ausgehen, dass Herr P. seine Pflanze mit einer Wahrscheinlichkeit v o n | nicht giefit. Das Basilikum geht mit einer Wahrscheinlichkeit von ~ ein, wenn es gegossen wird und mit einer Wahrscheinlichkeit von | wenn es nicht gegossen wird. a) Wie hoch ist die Wahrscheinlichkeit, dass das Basilikum wahrend der Abwesenheit von Herrn O. eingeht? b) Das Basilikum geht wahrend der Abwesenheit von Herrn O. tatsachlich ein! Wie hoch ist die Wahrscheinlichkeit, dass Herr P. die Pflanze nicht gegossen hat? Losung: 3) G = Basilikum wird gegossen, G — Basilikum wird nicht gegossen E = Basilikum geht ein, E = Basilikum geht nicht ein
7.7 Aufgaben
115
P(G) = i ==^ P{G) = I P{E\G) = i
P{E\G) = l. Mit dem Satz von der totalen Wahrscheinlichkeit gilt: P{E) = P{E\G) • P{G) -f P{E\G) • P(G') _ 1 2
=
3
1 _ J.
1.
1.0.58.
b) Mit dem Satz von Bayes gilt:
Pim=
^(^i^)-^(^)
P{E\G) • P{G) + P{E\G) • P{G) = ^
= - « 0.43.
Aufgabe 7.6: In einer Tierklinik wurden n = 200 Pferde auf eine bestimmte Krankheit untersucht. Das Ergebnis jeder Untersuchung wird durch die zufalligen Ereignisse B „Pferd ist krank" bzw. B „Pferd ist nicht krank" ausgedriickt. Gleichzeitig wurde untersucht, ob die Pferde ein bestimmmtes Futter hatten oder nicht. Dies ist durch die Ereignisse Ai „Pferd frisst spezielles Futter" und A2 „Pferd frisst spezielles Futter nicht" festgehalten. Die absoluten Haufigkeiten fur die eintretenden Ereignisse findet man in folgender Tabelle: Al A2
B 40 20
B 60 80
100 100
60 140 200 Wie hoch ist die Wahrscheinlichkeit a) ein gesundes Pferd zu haben, das das spezielle Futter gefressen hat? b) ein gesundes Pferd zu haben, unter der Bedingung, dass es das spezielle Futter gefressen hat (bzw. nicht)? Losung: MitP(Ai) = |§§ = P(A2), P{B) = ^ , s o w i e P ( 5 ) = ^ folgt:
=
1-P{B)
116
7. Elemente der Wahrscheinlichkeitsrechnung
40 ^
^ 2 0 0
b) P{B\A^) P{B\A,
=
P{BnAi) P{Ai) P{BnA2) P{A2)
40/200 40 ~ 100/200 ~ 100 _ 20/200 _ 20 ~ 100/200 ~ 100
Mit diesen Ergebnissen lasst sich P{B) auch mit Hilfe des Satzes von der totalen Wahrscheinlichkeit (7.8) berechnen: PiB) = P{B\A,)P{A,)
+
PiB\A^)PiA2)
= 0.40 • 0.50 + 0.20 • 0.50 = 0.30.
8. Zufallsvariablen
8.1 Einleitung Mit dem Konstrukt einer Zufalls variable konnen Versuchsergebnisse, die zunachst in qualitativer Form vorliegen („Wappen" oder „Zahl" beim Miinzwurf, „ Augenzahl" beim einmaligen Wiirfelwurf etc.), durch reelle Zahlen verschliisselt werden. Dies ist das formale Aquivalent zu den tatsachlich durchgefiihrten Zufallsexperimenten. Der einmalige Miinzwurf mit den moglichen Ergebnissen „Wappen" oder „Zahl" wird ersetzt durch eine Zuf alls variable X , die ebenfalls nur zwei Werte ( z . B . 0 oder 1) annehmen kann. Dieselbe Variable beschreibt auch alle anderen zufalligen Versuche mit zwei moglichen Ergebnissen (Geschlecht eines Neugeborenen: mannlich/weiblich, Ergebnis eines Studenten bei einer Klausur: bestanden/nicht bestanden). Der Ubergang vom zufalligen Versuch zur Zufallsvariablen ermoglicht erst eine einheitliche mathematische H a n d h a b u n g der statistischen Datenanalyse. Allgemein heifit eine Funktion X eine (reelle) Zufallsvariable, wenn ihre Werte reelle Zahlen sind und als Ergebnis eines zufalligen Versuchs interpretiert werden konnen. Da die Werte der Zufallsvariablen das formale Aquivalent der zufalligen Experimente darstellen, mu6 auch den Werten der Zufallsvariablen - den reellen Zahlen - eine Wahrscheinlichkeit zuzuordnen sein. Diese Wahrscheinlichkeit mufi mit der Wahrscheinlichkeit der entsprechenden zufalligen Ereignisse iibereinstimmen und es miissen die Axiome der Wahrscheinlichkeitsrechnung gelt en. Beispiel 8.1.1. In Tabelle 8.1 sind Beispiele fiir diskrete Zufallsvariablen angegeben. Es sind jeweils das zu Grunde Uegende Zufallsexperiment u n d die dazugehorigen Ereignisse sowie die Realisationen der Zufallsvariablen X angegeben.
8.2 Verteilungsfunktion einer Zufallsvariablen Neben den moglichen Werten der Zufallsvariablen X benotigen wir zur statistischen Beschreibung von X die Angabe der Wahrscheinlichkeiten, mit denen die Werte x i , 0:2,. •. realisiert werden.
118
8. Zufallsvariablen Tabelle 8.1.. Beispiele fur diskrete Zufallsvariablen zufalliger Versuch
zufalliges Ereignis
Realisation der Zufallsvariablen X
Roulette (Ein Spiel)
Ai: Rot A2: Schwarz A3: Zero
F^l
Lebensdauer eines Fernsehers
Ai'. Lebensdauer betragt i Monate (i = 1,2,...)
X = i
Einmaliges Wiirfeln (mit einem Wurfel)
Ai'. Zahl i gewiirfelt (» = l , . - - , 6 )
X = i
x= 2 x =0
Beispiel. Beim einmaligen Miinzwurf mit den zufalligen Elementarereignissen „Wappen" und „Zahl" war P{W) = P{Z) = 1/2. Die zugeordnete Zufallsvariable X sei definiert durch ihre Werte X{W) = x i = 0 und X{Z) = X2 = 1 mit den Wahrscheinlichkeiten P{X = xi) = 1/2 fiir i = 1,2. Eine Zufallsvariable X wird also durch ihre Werte xi und die zugehorigen Wahrscheinlichkeiten P{X = Xi) eindeutig beschrieben. Alternativ konnen wir anstelle der Wahrscheinlichkeiten P{X — Xi) auch die kumulierten Wahrscheinlichkeiten P{X < Xi) verwenden. Dazu benotigen wir die folgende Definition: D e f i n i t i o n 8 . 2 . 1 . Die Verteilungsfunktion ist definiert durch F{x) = P{X
<x)
einer
= P ( - o o <X
Zufallsvariablen
<x).
X
(8.1)
Die Verteilungsfunktion F{x) beschreibt die Verteilung von X eindeutig und voUstandig. Sie ist schwach monoton wachsend, d.h., fiir xi < x^ folgt ^ ( ^ 1 ) < ^ ( ^ 2 ) . Die Werte einer Verteilungsfunktion F{x) liegen stets zwischen 0 und 1. D.h., es gilt: 0 < F{x) < 1. R e c h e n r e g e l n fiir V e r t e i l u n g s f u n k t i o n e n Die Verteilungsfunktion F{x) = P{X < x) ermoglicht es uns, die Wahrscheinlichkeit fiir Wertebereiche der Zufallsvariablen X zu berechnen. Es gilt:
P{X
< a) = F{a),
P{X
a) und P{X
= a).
(8.3)
> a) der komple-
8.3 Diskrete Zufallsvariablen und ihre Verteilungsfunktion
P{X > a) = 1 - P{X a) = l - P{X c)c)
=
\-p{\x-^l\ l - ^ ^ .
(8.32)
Beispiel 8.5.3. Die KorpergroBe von Frauen in einem europaischen Land sei eine Zufallsvariable X mit E{X) — JJL = 172 cm und einer Varianz a^ = 6^. Damit ist die Wahrscheinlichkeit, dass eine zufallig ausgewahlte Frau zwischen 160 cm und 184 cm groB ist nach (8.32): P ( | X - 1 7 2 | < 12) > 1 - ^
= 0.75.
8.6 Zweidimensionale Zufallsvariablen Wir erweitern unsere bisherigen Betrachtungen dahingehend, dass wir nicht nur eine Zufallsvariable, sondern zwei Zufallsvariablen X und Y gleichzeitig untersuchen. Die Verteilung des Vektors (X, Y) heifit zwei dimensional. Beispiele. • Werbezeit X und Umsatzsteigerung Y eines Unternehmens, • Dauer der Betriebszugehorigkeit X und Hohe der Gratifikation Y eines Mitarbeiters. • Gewicht X und KorpergroBe Y eines Schiilers, • Geschwindigkeit X und Bremsweg Y eines Fahrrads. Die Zufallsvariablen X und Y konnen jeweils in alien Skalenarten vorliegen. Wir beschranken uns hier auf die Falle X und Y diskret oder X und Y stetig.
128
8. Zufallsvariablen
8.6.1 Z w e i d i m e n s i o n a l e d i s k r e t e Z u f a l l s v a r i a b l e n Wir setzen voraus, dass X die moglichen Auspragungen a : i , . . . , x / u n d analog Y die Auspragungen yi,... ,yj habe. Die gemeinsame Wahrscheinlichkeitsfunktion sei P(X
= Xi,Y
= Vj) =pij
(i = 1 , . . . , / , j = 1 , . . . , J )
mit Yli=i Ylj^iVij — 1- Die R a n d v e r t e i l u n g e n von X und Y erhalt m a n durch S u m m a t i o n liber alle Auspragungen der jeweils anderen Variablen. Randverteilung von X Mit der Notation pi^ ftir Y2j=:iPij erhalten wir J
P{X
= Xi) = ^Pij
=Pi+
2=1,...,/.
P(X = Vj) = X ^ P i j =p+j
j = 1,..., J .
E s g i l t E L i m = lRandverteilung von Y Analog erhalten wir /
Hier gilt Yfj=iV+3
= 1-
B e d i n g t e V e r t e i l u n g v o n X g e g e b e n Y = yj Mit der Definition der gemeinsamen Verteilung und der Randverteilung ergibt sich fur die bedingte Verteilung von X gegeben Y = yj P{X
= Xi\Y = yj)=p,^j
= ^ P+j
i==l,...,/.
B e d i n g t e V e r t e i l u n g v o n Y g e g e b e n X = xi Analog zur bedingten Verteilung von X gegeben Y = yj erhalten wir P{Y = yj\X
= Xi) = p , . | , = ^ Pi-\-
j =
l,...,J.
Die bedingten Verteilungen spielen insbesondere bei der Definition der Unabhangigkeit eine wichtige Rolle. Die gemeinsame Verteilung und die
8.6 Zweidimensionale Zufallsvariablen
129
Randverteilungen lassen sich in einer Kontingenztafel fiir Wahrscheinlichkeiten zusammenfassen. Die gemeinsame Verteilung steht als Matrix mit Elementen pij im Inneren der Kontingenztafel, die Randverteilung von X bildet den rechten Rand, die Randverteilung von Y den unteren Rand. Y
X
1
2
1
Pll
2
P21
Pl2 P22
/
VII
PI2
E
p-hl
P+2
J
E
.. ••
PlJ P2J
pi+
PIJ
P/+
..
P+J
1
P2+
Beispiel 8.6.1. An n = 1000 Personen werden gleichzeitig die Variablen X: "Bildung" (1: "hochstens mittlere Reife", 2: "Abitur", 3: "Hochschulabschlufi") und Y: "Gesundheitsverhalten" (1: "Nichtraucher", 2: "gelegentlicher Rancher", 3: "starker Rancher") beobachtet. Wir erhalten folgende Kontingenztafel der absoluten Haufigkeiten nij (links) und daraus die Kontingenztafel der Wahrscheinlichkeiten pij (rechts):
X
1
2
3
1 2 3
100 100 80
200 100 10
300 100 10
E
280 310 410
E
600 300 100 1000
1 2 3
X
E
1 0.10 0.10 0.08 0.28
2
3
0.20 0.10 0.01 0.31
0.30 0.10 0.01 0.41
E
0.60 0.30 0.10
1
So ist beispielsweise in der gemeinsamen Verteilung p23 = P("Abitur und starker Rancher") = 0.10. In der bedingten Verteilung von X gegeben Y = 3 ist z.B. P{X = 2 | r =: 3) = p2|3 = §if == 0-24. Das heiBt, die Wahrscheinlichkeit fiir Abitur unter der Bedingung, dass man starker Rancher ist, liegt bei 0.24. 8.6.2 Zweidimensionale stetige Zufallsvariablen Analog zur Definition der zweidimensionalen diskreten Zufallsvariablen geben wir folgende Definition. Definition 8.6.1. Eine zweidimensionale zufdllige Variable (oder ein Zufallsvektor) (X, Y) heifit stetig, falls es eine nichtnegative reelle Funktion fxY{x,y) giht, so dass P{X<x,Y4^~xj-..
mi)
9.4.2 Die t-Verteilung Definition 9.4.2. Sind X und Y unabhangige Zufallsvariahlen, wobei X N{0,1) und Y ^ x^ verteilt istj so besitzt der Quotient
^ eine t-Verteilung
t
(Student-Verteilung)
mit n Freiheitsgraden.
Im Anhang ist Tabelle A.3 mit den Quantilen der ^-Verteilung enthalten. Wird von einer A^(/i,(7^)-verteilten Zuf alls variablen X eine Stichprobe vom Umfang n realisiert, so bilden wir die Zufallsvariablen arithmetisches Mittel X und Stichprobenvarianz 5 ^ , fiir die wir folgenden zentralen Satz angeben. Theorem 9.4.2 (Student). Sei X = ( X i , . . . ,X^) mit Xi'N{fi,a'^), so sind X und 5 ^ unabhdngig. Der folgende Quotient ist tn-i-verteilt {X - fiyy/n
^^
{X -
}i)^
^ThT.i{Xi-xy
tn-i.
(9.22)
9.4.3 Die F-Verteilung Definition 9.4.3. Sind X und Y unabhangige Xm ^^'^' X^-v^rteilte Zufallsvariablen, so besitzt der Quotient ^ - F m , n Y/n die Fisher'sche
F-Verteilung
mit {m,n)
(9.23) Freiheitsgraden.
158
9. Diskrete und stetige Standardverteilungen
1st X erne x^-verteilte Zufallsvariable, so ist der Quotient Fi^^-verteilt. Die Wurzel aus dem Quotienten ist dann t^-verteilt, da die Wurzel aus einer X^-verteilten Zufallsvariablen A^(0, l)-verteilt ist. Als wichtiges Anwendungsbeispiel sei die Verteilung des Quotienten der Stichprobenvarianzen zweier Stichproben vom Umfang m bzw. n von unabhangigen normalverteilten Zufallsvariablen X ~ A^(/iXj^^) bzw. Y ~
Nifiy,a')
genannt: S], = ^^
E " i ( ^ i - X)^ bzw. S^ = ^^ j:t,{Y,
-
F)^. Fiir das Verhaltnis beider Stichprobenvarianzen gilt (im Falle gleicher Varianzen cr^)
Anmerkung. Ist eine Zufallsvariable W nach Fyn,n-verteilt, so ist l/W nach Fn,m-verteilt. Deshalb sind die Tabellen A.4 der Fm,n-Verteilung im allgemeinen auf den Fall m < n beschrankt.
9.5 Auf gab en Aufgabe 9.1: Ein bekannter Hersteller von Keksen verspricht seinen Kunden eine Extraiiberraschung in jeder sechsten Keksschachtel. VoUer Preude kauft ein iibereifriger Vater gleich 20 Schachteln. a) Wie hoch ist die Wahrscheinlichkeit unter den 20 Schachteln genau 4 Uberraschungen zu finden? b) Wie hoch ist die Wahrscheinlichkeit liberhaupt keine Uberraschung zu bekommen? c) Tatsachlich befinden sich in diesen zwanzig Schachteln genau drei Uberraschungen. Wie hoch ist die Wahrscheinlichkeit, dass sich in den 5 Schachteln die des Vaters jiingster Sohn bekommt, zwei der drei Uberraschungen verbergen? Losung: a) Man kann bei der Zufallsvariable X: "Anzahl der Keksschachteln mit Extraiiberraschung" von einer binomialverteilten Variable ausgehen: Es wird bei n = 20 Versuchen jedes Mai mit einer Wahrscheinhchkeit von V — \ eine Extraiiberraschung gezogen. Damit folgt:
b) P{X = 0) = Q / ( l
-PT-^
= (2^°) ( i ) ° ( ^ ) ' ° = 1 • 1 • 0.026 = 0.026
9.5 Aufgaben
159
c) Hier kann von einer hypergeometrischen Verteilung ausgegangen werden. Es gibt in den N = 20 Schachteln M = 3 Uberraschungen und N - M = 17 Schachteln ohne Zusatziiberraschung. Insgesamt werden n = 5 Schachteln ohne Zuriicklegen gezogen, von denen x = 2 eine Uberraschung enthalten sollen. Damit folgt:
P(X = 2) = ^ " 7 " - " ^ = - ^ 2 ^ « 0.13. Aufgabe 9.2: Im Zuge einer Studie iiber die Brutvogel Europas wurden mehrere Merkmale, welche die Eigenschaften verschiedener Vogeleier wiedergeben, erhoben. Unter anderem wurde dabei die Eilange (in mm) gemessen. Wenn man davon ausgeht, dass es sich bei der Eilange um ein normalverteiltes Merkmal mit /i = 42.1 und cr^ = 20.8^ handelt, wie hoch ist dann die Wahr schei nli chkei t a) ein Ei mit einer Lange von mehr als 50 mm zu finden? b) ein Ei mit einer Lange von mehr als 30 mm, aber weniger als 40 mm zu finden? Losung: Ist das Merkmal X: "Lange Vogelei" normalverteilt, also X ~ iV(42.1,20.8^), dann folgt: a) P{X > 50) = 1 - P{X < 50) = 1 - 0 ( ^ )
= 1 - 0(^^2of^'
= 1 - .^(0.37) = 1 - 0.6443 = 0.3557. b) P(30 < X < 40) = P{X < 40) - P{X < 30) ,,40-42.K ,30-42.1, = ^^-20:8-)-^(^0:8-^ = 0(-O.lO) - 0(-O.58) = 1 - 0.5398 - 1 + 0.7190 = 0.1792 = 17.92%. Aufgabe 9.3: Die Zufallsvariable X beschreibe "die Augenzahl beim einmaligen Wiirfeln mit einem Dodekaeder (Wiirfel mit 12 Seiten)". Wie ist X verteilt? Berechnen Sie E(X) und Var(X)! Losung: Die Zufallsvariable X ist diskret gleichverteilt, da die Wahrscheinlichkeitsixinktion an jeder Auspragung Xj den gleichen Wert (p^ = ^ ) annimmt. Erwartungswert und Varianz berechnen sich deshalb als:
160
9. Diskrete und stetige Standardverteilungen
Var{X) = -^(122 - 1) ^ 11.92. Aufgabe 9.4: Felix behauptet erkennen zu konnen, ob der Kaffee einer Tasse von der Marke 'Hochland' oder der Marke 'Goldener Genuss' stammt. Ein Freund fiillt, um dies zu testen, 10 Tassen mit Kaffee und bittet Felix je Tasse einen Tipp abzugeben. Nehmen Sie an, dass Felix seinen Mund zu voll genommen hat und bei jeder Tasse nur rat, also mit einer Wahrscheinlichkeit von p = 0.5 auf den richtigen Kaffee tippt. Wie hoch ist dann die Wahrscheinlichkeit, dass er mindestens acht Tassen richtig erkennt? Losung: Mindestens acht mal richtig zu tippen ist gleichbedeutend mit hochstens zwei mal falsch zu tippen. Die Wahrscheinlicheit fiir einen richtigen Tipp ist identisch mit der Wahrscheinlichkeit fiir einen falschen Tipp (p = 0.5, 1 — p = 0.5). Mit X - 5(10; 0.5) folgt:
P{X = 0) = ^^Q°)0.5°(l-0.5)^°.a 0.000977 P{X = l) = ( \ ' ) o . 5 ^ ( l - 0 . 5 ) « . « 0.009766 p{X = 2) = (^2°)o.5^(l-0.5)«. » 0.043945 Damit berechnen wir: P{X < 2) = P{X = 0) + P{X - 1) + P{X - 2) = 0.000977 + 0.009766 + 0.043945 ^ 0.0547. Aufgabe 9.5: Eine Leuchtreklame wird mit vielen Gliihbirnen beleuchtet. Fast taglich fallen Gliihbirnen aus. Wenn mehr als 5 Gluhbirnen ausfallen, lasst der Betreiber der Leuchtreklame die Birnen ersetzen. An 30 aufeinanderfolgenden Tagen wurde gezahlt, wieviele Birnen pro Tag ausgefalien sind. Er erhielt folgende Haufigkeitstabelle. defekte Birnen rii
0 6
1 8
2 8
3 5
4 2
5 1
a) Wie ist die Zufallsvariable X: 'Anzahl der Gliihbirnenausfalle an ein em Tag' verteilt? b) Wieviele Birnen sind im Mittel an einem Tag ausgefallen und wie grofi ist die Varianz?
9.5 Aufgaben
161
c) Berechnen Sie die theoretischen Wahrscheinlichkeiten mit Hilfe der in a) angenommenen Verteilung. Nutzen Sie als Parameter den Mittelwert und den aufgerundeten Mittelwert. Vergleichen Sie die Wahrscheinlichkeiten mit den relativen Haufigkeiten. Mit welchem Parameterwert erzielt m a n die bessere Anpassung? d) Wie gross ist die Wahrscheinlichkeit, dass innerhalb eines Tages genug Birnen ausfalien, so dass m a n diese auswechseln muss? e) Wie oft musste der Betreiber die Birnen innerhalb der 30 Tage auswechseln lassen? f) Betrachten Sie nun die Zufallsvariable Y: Wartezeit bis zum nachsten Ausfall einer Gliihbirne. Wie ist Y verteilt und mit welchem P a r a m e t e r ? g) Wie lange wartet m a n nach dem Modell im Mittel bis die nachste Birne ausfallt? Losung: a) X ist poissonverteilt, falls die Wahrscheinlichkeit fiir den Ausfall einer Birne nur von der Lange des Zeitintervalls abhangt und nicht von der Lage auf der Zeitachse. D a m i t ist gemeint, dass das Ereignis 'Birne fallt aus' nicht davon beeinflusst werden darf, wie der Tag gemessen wird, z.B. von 8:00-8:00 oder von 10:00 bis 10:00. Weiter muss gelten, dass der Ausfall von Birnen an zwei Tagen unabhangig voneinander ist. Die Wahrscheinlichkeit des Ausfalls einer Birne hangt dann nur von den Intensitatsrate A ab. b) Zuerst wird der Mittelwert bestimmt: x = ^ ( 0 + 1 - 8 - 1 - 2 . 8 + . . . + 5 - 1 ) = § = 1.7333. In etwa 1.7 Birnen fallen im Mittel taglich aus. Mit diesem Wert wird die Varianz liber 5^ = ^ ( 0 + 1 2 . 8 + 2 ^ . 8 + . . . + 5 2 . 1 ) - 1 . 7 3 3 3 2 ^ ^ . •3.0044 = 1.72889 berechnet. Varianz und Mittelwert liegen dicht beieinander, was charakteristisch fiir die Poissonverteilung ist. c) Die zu vergleichenden Wahrscheinlichkeiten werden tabellarisch dargestellt. di
0 1 2 3 4 5
fi 0.2 0.267 0.267 0.167 0.067 0.033
Po(1.73) 0.177 0.307 0.265 0.153 0.067 0.023
Po(2) 0.135 0.27 0.27 0.18 0.09 0.036
162
9. Diskrete und stetige Standardverteilungen
Man sieht, dass sich die Daten sehr gut an die beiden vorgeschlagenen Poissonverteilungen anpassen. Rein von den Abstanden zwischen den Wahrscheinlichkeiten und relativen Haufigkeiten erzielt man mit A = 1.73 die bessere Anpassung. d) Die defekten Birnen werden ausgewechselt, wenn mehr als 5 Birnen ausfalien. Die Wahrscheinlichkeit dafur ist P ( X > 5) = 1 - P ( X < 5) = 1 - E l o # e x p ( - A ) . Wir wahlen A = 1.73 und erhalten P{X>5) = 1- exp(-1.73)(if^ + i | 3 i + . . . + h^) = 1 _ 0.99 = 0.01. Nur in einem Prozent der Tage fallen an einem Tag genug Birnen aus, dass sie ausgewechselt werden. e) Ab 6 defekten Birnen wird ausgewechselt. In den 30 Tagen waren insgesamt 52 Birnen defekt, somit musste 52/6 = 8.667 mal Birnen ausgetauscht werden. f) Ist X poissonverteilt, so ist nach Theorem 9.3.1 F , als Wartezeit zwischen zwei Ausfallen, exponentialverteilt mit A = 1.73. g) Der Erwartungswert der Exponentialverteilung ist E{Y) ^jj^ = 0.578. Somit wartet man im Mittel liber einen halben Tag bis eine Birne ausfallt. Aufgabe 9,6: Gegeben sei eine exponentialverteilte Zufallsvariable X. a) Bestimmen Sie die Verteilungsfunktion der Exponentialverteilung. b) Zeigen Sie, dass E{X) = \ gilt. Losung: a) Die Verteilungsfunktion der Exponentialverteilung erhalt man durch Integrieren der Dichtefunktion F{X) = J^ Xexp{-Xt)dt. Die Konstante A kann dabei vor das Integral gezogen werden. Die Stammfunktion zu der Exponentialfunktion ist die Exponentialfunktion, wobei noch die Kettenregel beachtet werden muss Xj^exp{-Xt)dt = A[-^exp(-At)]§. Kiirzen, Einsetzen der Grenzen und Umstellen liefert die Verteilungsfunktion F{X) = l - e x p ( - A x ) . b) Den Erwartungswert erhalt man durch partielle Integration von E{X) = JQ xXexp{—Xx)dx.
9.5 Aufgaben
163
Bei der partiellen Integration muss man eine Funktion wahlen, die man gut integrieren kann, hier v' = Aexp(—Ax) z^ v = —exp(—Ax), und eine Funktion die man gut differenzieren kann, hier u — x =^ u' = 1. Damit kann man eine partielle Integration durchfiihren: J^ xXexp{—Xx)dx = [—exp(—Aa:)x]o^ — J^ —exp{—Xx)dx. Fiir X -^ oo geht exp(—Ax) gegen Null. Somit vereinfacht sich der Ausdruck zu 0 + / ~ exp{-\x)dx = [-iexp(-At)]g°. Durch die Betrachtung der Stammfunktion an den Grenzen erhalt man den Erwartungswert
E{X) = {. Aufgabe mit SPSS. In der nachsten Aufgabe haben Sie die Moglichkeit 'ein Gefuhr fiir verschiedenste Verteilungen zu bekommen. Sie lernen wie man mit Hilfe von SPSS Verteilungsmodelle simulieren kann. Aufgabe 9.7: Um verschiedene Verteilungsmodelle zu visualisieren, konnen Zufallszahlen hilfreich sein. Ziehen Sie sich 20 Zufallszahlen aus einer Binomialverteilung mit n = 10 und p = 0.5, einer Standardnormalverteilung, einer Poissonverteilung mit A == 1 und einer Exponentialverteilung, ebenfalls mit A = 1. a) Berechnen Sie die Mittelwerte und Standardabweichungen und vergleichen Sie die Ergebnisse mit denen die Sie unter den gegebenen Parameterkonstellationen erwarten wiirden. Was fallt auf und woran liegt es? b) Zeichnen Sie fiir jede Stichprobe das Stabdiagramm bzw. das Histogramm. Haben die Grafiken die zu erwartende Form? c) Erhohen Sie nun den Stichprobenumfang systematisch und wiederholen Sie die Berechnungen a) und b) mit i) 40 Beobachtungen ii) 80 Beobachtungen iii) 160 Beobachtungen iv) 320 Beobachtungen. Beschreiben Sie, was Ihnen wahrend des Prozesses auffallt. d) Verandern Sie nun nach BeUeben die Parameter der obigen Verteilungen und analysieren Sie den Einfluss dieser Parameterveranderungen auf die jeweiligen Verteilungen.
164
9. Diskrete und stetige Standardverteilungen
Losung: Um diese Aufgabe effizient zu losen soUten Sie die Moglichkeiten des Syntaxfiles von SPSS nutzen. Zur KontroUe des Stichprobenumfangs wird eine Variable 'stpr' definiert, die fiir die erste Untersuchung 20 mal die Ziffer 1 enthalt. Fiir die Ziehung der Zufallszahlen wahlen Sie unter 'Transformieren' den Meniipunkt 'Berechnen...'. Zufallszahlen werden in SPSS durch die Funktion 'RV.' generiert, es stehen Zufallszahlengeneratoren fur verschiedene Verteilungen zur Verfiigung. Uns interessieren hier nur die Funktionen 'RV.BINOM', 'RV.NORMA', 'RV.POISSON', 'RV.EXP'. Benennen Sie nun eine Variable fiir die binomialverteilten Zufallsvariablen und weisen Sie ihr den Ausdruck 'RV.BINOM(10,0.5)' zu. Gehen Sie nun auf 'Einfiigen' u m die Berechnung in das Syntaxfile aufzunehmen. AnschlieBend definieren Sie eine Variable fiir die normalverteilten Zufallszahlen und weisen Sie ihr die Funktion 'RV.NORMAL(0,1)' zu. Fiigen Sie die Berechnung wieder dem Syntaxfile zu. Wiederholen Sie den Vorgang fiir die Poisson- und die Exponentialverteilung. a) Nun berechnen Sie die deskriptiven Statistiken fiir Ihre 4 Variablen u n d fiigen Sie diese Berechnung ebenfalls dem Syntaxfile zu. Wir erhalten hier in unserem S P S S - O u t p u t folgende Tabelle:
Binomial,n=10, p=0.5 St andar dnor mal Poisson, lambda=l exponential, lambda = 1
N 20 20 20 20
Min. 3.00 -1.52 .00 .03
Max. 9.00 2.52 4.00 6.37
mean 5.5000 .3776 1.5500 1.4073
St.dev. 1.50438 1.07588 1.23438 1.70075
Es fallt auf, dass unsere simulierten Werte noch recht stark von den theoretischen abweichen. Beispielsweise sollten Mittelwert und S t a n d a r d a b weichung bei der Standardnormalverteilung bei 'Null' u n d 'Eins' liegen. Die berechneten Werte von 0.3776 und 1.07 liegen davon ein groBes Stiick entfernt. Bei der Poisson verteilung er war ten wir einen Erwartungswert und eine Varianz von j = j = 1. Erneut Uegen die empirischen Werte deutlich davon entfernt. Bisher h a b e n wir nur 20 Werte simuliert. Eine Erhohung der Anzahl an Zufallszahlen konnte uns moglicherweise bessere Werte liefern! b) Jetzt brauchen Sie nur noch die Grafiken. Nutzen Sie die Option 'Balken..,' fiir die diskreten Zufallszahlen u n d 'Histogramm...' fiir die stetigen Zufallszahlen. Vergessen Sie nicht die Grafiken auch in das Syntaxfile einzufiigen. Ausfiihren des Syntaxfiles soUte Ihnen nun 4 Stichproben vom Umfang 20 erzeugen, im Ausgabefenster sollten eine Tabelle mit den deskriptiven Statistiken und die vier Grafiken erscheinen. Die Abbildungen 9.5 und 9.6 zeigen die Ergebnisse unserer Auswertung. Die VisuaUsierung unserer Daten bestatigt erneut unsere Vermutung, dass die simulierten
9.5 Aufgaben
165
Daten noch nicht allzu gut mit unseren theoretischen Verteilungen iibereinstimmen.
3.00
4.00
Binomial, n"10, p"0.5
S.0O
6.00
7.00
8.0O
0.00
9.00
.50
1.00
1.S0
2.00
2.50
Standardnormal
Abb. 9.5. Simulierte Verteilungen fiir N=20 (Binomial, Normal)
Poison, Lembda"1
exponential, lambda ' 1
Abb. 9.6. Simulierte Verteilungen fiir N=20 (Poisson, Exponential)
c) Zum Erhohen des Stichprobenumfangs mussen Sie nun lediglich die Einsen der Variable 'stpr' kopieren und unten an die Variable einfugen. Wenn Sie jetzt das Syntaxfile wiederum ausfiihren, so haben Sie die Analyse fiir den Stichprobenumfang 40 gemacht. Wei teres Erhohen des Umfang geschieht analog. Eine Erhohung der Anzahl der Zufallszahlen wirkt sich sukzessive auf eine Ubereinstimmung von theoretischer und simulierter Verteilung aus. In Abbildung 9.7 und 9.8 sind die Daten fiir jeweils 320 Zufallszahlen visualisiert. Der Vergleich mit N=20 spricht fiir sich. Simulierte und theoretische Verteilung scheinen nun sehr gut miteinander iibereinzustimmen. Dies veranschaulicht auch die Tabelle unserer Ergebnisse fiir N==320:
166
9. Diskrete und stetige Standardverteilungen
Binomial,n=10, p=0.5 Standardnormal Poisson, lambda=l exponential, lambda = 1
1.00
2.00
3.00
4.00
S.00
B.OO
7.Q0
8.00
N 320 320 320 320
S.QC
Min. 1.00 -3.21 .00 .00
Max. 9.00 2.75 4.00 6.56
mean 4.9219 .0560 .9656 1.0223
St.dev. 1.57274 .98401 .96103 1.02528
^ % % \ \ '-^ % ^ -&• '^ % % %
Binomial, n*10, p"Q.5
A b b . 9.7. Simulierte Verteilungen fiir N=320 (Binomial, Normal)
1.00
2.00
^^^^^^^^^'^^P'^^g'g^^T-1
r-J
% -^ %%% % % % % % % % % %
Poison, Lambda=1 exponential, Lambda " 1
A b b . 9.8. Simulierte Verteilungen fiir N=320 (Poisson, Exponential)
d) Die Interpretation weiterer Ergebnisse wird dem interessierten Leser iiberlassen.
10. Schatzung von Parametern
10.1 Einleitung Die bisher vorgestellten Verteilungen fiir die Beschreibung von Zufallsvariablen hangen von Parametern ab (Erwartungswert ji, Varianz cr^, Wahrscheinlichkeit p der Null-Eins- und der Binomialverteilung), die unbekannt sind. Aus einer Stichprobe konnen Mafizahlen (Stichprobenmittelwert x, Stichprobenvarianz s^, relative Haufigkeit k/n) ermittelt werden, die wir als Schatzwerte der Parameter /i, cr^, p der Grundgesamtheit bezeichnen. Beispiel 10.1.1. Das Gewicht X von zehnjahrigen Kindern einer amerikanischen Kleinstadt sei normalverteilt, X ~ N{fi,a'^). Der Erwartungswert /i reprasentiert das mittlere (durchschnittliche) Gewicht der Kinder. Aus einer Stichprobe ermittelt man den Wert von x (mittleres Gewicht der zehnjahrigen Kinder in der Stichprobe) als Schatzung des Parameters ji der zehnjahrigen Kinder in der Kleinstadt. Die konkreten Schatzwerte als Realisierungen von Zufallsvariablen - den Schatzungen - werden von Stichprobe zu Stichprobe verschieden sein, sie streuen um den unbekannten Parameter (im Beispiel /i). Je nachdem, ob nur ein einziger Zahlenwert als SchatzgroBe oder ein Inter vail angegeben wird, spricht man von einer • Punkt schatzung bzw. von einer • Int er vails chat zung. Unter einer Stichprobe verstehen wir allgemein bei endlicher Grundgesamtheit eine zufallige Auswahl von n Elementen aus den N Elementen der Grundgesamtheit, analog zu den Urnenmodellen der vorangegangenen Kapitel. Bei einem Zufallsexperiment erhalt man die Stichprobe durch n-fache Wiederholung des Experiments. Falls alle Xi unabhangig und identisch verteilt sind, bezeichnen wir X = ( X i , . . . , Xn) als i.i.d. Stichprobe. Die Schreibweise X = {Xi,... ,Xn) bezeichnet die Stichprobe (als Zufallsgrofie), die Xi sind Zufallsvariablen. Nach Durchfuhrung der Stichprobenziehung, d.h., nach Realisierung der Zufallsvariablen Xi in einem zufalligen Versuch, erhalt man die konkrete Stichprobe x = ( x i , . . . ^x^) mit den realisierten Werten Xi der Zufallsvariablen Xi.
168
10. Schatzung von Parametern
Anmerkung. Wenn wir von Stichprobe sprechen, meinen wir stets die i.i.d. Stichprobe. Bei endlicher Grundgesamtheit si chert man die i.i.d. Eigenschaft durch Ziehen mit Zuriicklegen, bei Zufallsexperimenten durch geeignete Versuchsplane (i.i.d.: independently identically distributed).
10.2 Punktschatzung von Parametern Im Allgemeinen stellt sich das Problem der Schatzung von Parametern der Verteilung einer Zufallsvariablen X durch geeignete MaBzahlen. Ziel der Punktschdtzung ist es, den unbekannten Parameter (z.B. fi) der Verteilung mittels einer Stichprobe vom Umfang n "moglichst gut" zu schatzen. Um festzulegen was unter "mdglichst gut" zu verstehen ist, brauchen wir Giitekriterien, die Aussagen iiber die Giite der Schatzung liefern. Im Folgenden woUen wir aber nicht naher auf diese Giitekriterien eingehen (siehe dafiir z.B. Toutenburg, Induktive Statistik)^ sondern in einer knappen Zusammenfassung die Punktschatzungen einiger wichtiger Falle auffiihren und analysieren: • Punktschatzung fiir /i bei einer normalverteilten Zufalls variable • Punktschatzung fiir cr^ bei einer normalverteilten Zufallsvariable • Punktschatzung von p bei einer binomialverteilten Zufallsvariable. 10.2.1 Punktschatzung fiir ^ bei einer normalverteilten Zufallsvariable Die Zufallsvariable X sei normalverteilt mit X ~ N{ii^a'^). Es liege eine unabhangige und identisch verteilte (i.i.d.) Stichprobe Xi.X^, ...,Xn vor. Dann ist die Punktschatzung ji (lies: fi Hut oder /i Dach) von fi gegeben durch: Ai
1 '^ X^^y^X,.
(10.1)
Suchen wir also eine "moglichst gute" Schatzung fiir den Erwartungswert einer normalverteilten Zufallsvariable, so betrachten wir ganz einfach das arithmetische Mittel. Beispiel 10.2.1. Wir betrachten erneut Beispiel 10.1.1. In der Stadt sei nun eine Stichprobe vom Umfang n = 20 gezogen worden. Es ergaben sich folgende Werte (in kg): 40.2, 32.8, 38.2, 43.5, 47.6, 36.6, 38.4, 45.5, 44.4, 40.3 34.6, 55.6, 50.9, 38.9, 37.8, 46.8, 43.6, 39.5, 49.9, 34.2 Um nun eine Schatzung fiir den Mittelwert in der gesamten Kleinstadt zu bekommen, betrachten wir den Mittelwert des Korpergewichtes in der Stichprobe: /i = x = - V x i = —(40.2+ 32.8+ ... + 34.2) = 4 1 . 9 7 . 2= 1
10.2 Punktschatzung von Parametern
169
10.2.2 Punktschatzung fiir a^ bei einer normalverteilten Zufalls variable Die Zufallsvariable X sei normalverteilt mit X ~ A^(/i, cr^). Es liege eine unabhangige und identisch verteilte (i.i.d.) Stichprobe Xi,X2,..., ^ n vor. Dann ist die Punktschatzung fur cr^ gegeben durch: ^2
-^Yj^X,-Xf.
2
a — sX
(10.2)
2=1
Fiir eine "gute" Schatzung der Varianz betrachten wir also die Stichprobenvarianz (~ Yl^=i{^i ~ ^Y) ^ i ^ ^^^^ Veranderung der Gewichtung zu "^7^1"Beispiel 10.2.2. Wir betrachten erneut Beispiel 10.1.1. Um einen moglichst guten Schatzwert fiir die Varianz des Korpergewichts aller Kinder in der Kleinstadt zu bekommen, betrachten wir die Punktschatzung: 1
a^ = sl=^
""
= ^ ( ( 4 0 . 2 - 41.97)2 _^
_^ ^34 2 _ 41.97)2) _ 3^ 35
Die Wurzel hieraus, also etwa 6.07, ergibt den Schatzwert fiir die Standardabweichung. Im Mittel streut das Korpergewicht also um 6.07 kg um den Mittelwert von 41.97 kg. 10.2.3 Punktschatzung von p bei einer binomialverteilten Zufallsvariable Sei X eine binomialverteilte Zufallsvariable mit X '^ B{n;p). Es liege eine unabhangige und identisch verteilte (i.i.d.) Stichprobe Xi,X2, ...,Xn vor. Dann ist die Punktschatzung der unbekannten Wahrscheinhchkeit gegeben durch:
P = ^EX,.
(10.3)
2=1
Die "beste" Schatzung fiir die Binomialwahrscheinlichkeit ist demnach nichts anderes als die relative Haufigkeit. Anmerkung. Fiir np(l — p) > 9 gilt: p ~ A^(p,
).
Beispiel 10.2.3. Eine Bibliothek zieht aus ihrer Kundendatei zufallig n = 100 Kunden, um festzustellen welcher Anteil ihrer Mitglieder schon eine Strafe fiir zu spates Zuriickbringen von Biichern zahlen musste. Dabei wurden unter den 100 Mitgliedern 39 gefunden, die bereits eine Strafe gezahlt haben. Als Schatzung fiir die unzuverlassigen Kunden der gesamten BibUothek ergibt sich: .
1
^ n-^
1 '
100
39 = =: 0.39. 100
170
10. Schatzung von Parametern
10.3 Konfidenzschatzungen von Parametern 10.3.1 Grundlagen Eine P u n k t s c h a t z u n g h a t den Nachteil, dass kein Hinweis auf die Genauigkeit dieser Schatzung gegeben wird. Die Abweichung zwischen P u n k t s c h a t z u n g und wahrem P a r a m e t e r (z.B. \x — fi\) kann erhebhch sein, insbesondere bei kleinem Stichprobenumfang. Aussagen liber die Genauigkeit einer Schatzung liefert die K o n f i d e n z m e t h o d e . Bei ihr wird fur den unbekannten P a r a m e t e r ein Zufallsintervall mit den Grenzen / u ( X ) und /©(X) bestimmt, das den unbekannten P a r a m e t e r 0 (z.B. den Erwartungswert /i) mit vorgegebener Wahrscheinlichkeit von mindestens 1 — a iiberdeckt: Pe{Iu{X)
<e
1 - a.
(10.4)
Die Wahrscheinhchkeit 1 — a heifit K o n f i d e n z n i v e a u , luPQ heiBt untere und / o ( X ) obere K o n f i d e n z g r e n z e . Wir woUen noch einmal darauf hinweisen, dass die Intervallgrenzen / ^ ( X ) und / o ( X ) als Funktionen der Stichproben ZufallsgroBen sind. Damit kann ein Konfidenz inter vaU den P a r a m e t e r 0 iiberdecken oder auch nicht iiberdecken. Die Intervalle werden gerade so konstruiert, dass die Wahrscheinhchkeit fiir die Uberdeckung des unbekannten Parameters mindestens (1 — a ) b e t r a g t . a drlickt das Risiko fiir eine falsche Aussage (Nichtiiberdeckung) aus, das bei der Angabe eines Konfidenzintervalls fiir 9 eingegangen wird. Dieses Risiko mu6 vorher festgelegt werden. Hdufigkeitsinterpretation: Wenn A^ unabhangige Stichproben X^-^^ aus derselben Grundgesamtheit gezogen werden und dann jeweils KonfidenzintervaUe der Form [/^^(X^'^^),/o(X^"^^)] berechnet werden, so iiberdecken bei hinreichend grofiem A^ etwa A^(l —a) aller Intervalle (10.4) den unbekannten, wahren Wert. Wir mochten also anstelle eines festen Wertes ein Intervall fiir die Schatzung eines Parameters einer Verteilung angeben. Dazu betrachten wir folgende niitzliche u n d wichtige Beispiele: • Konfidenzschatzung fiir den Erwartungswert einer normalverteilten Zufallsvariable • Konfidenzschatzung fiir die Wahrscheinhchkeit p einer binomialverteilten Zufalls variable. 10.3.2 Konfidenzschatzung des Erwartungswerts einer Normal verteilung K o n f i d e n z s c h a t z u n g ftir /x (cr^ = ^o b e k a n n t ) Gegeben sei eine i.i.d. Stichprobe der A'(/i, a-^)-verteilten Zufallsvariablen X. Wir verwenden die P u n k t s c h a t z u n g X = ^ S i L i ^i ^^^ (l^-^) fiir /i und
10.3 Konfidenzschatzungen von Parametern
171
konstruieren ein Konfidenzintervall, das symmetrisch u m fi liegen soil. Die Punktschatzung X besitzt unter HQ eine iV(/z, (jg/n)-Verteilung. Damit ist ^ ^ > / n - 7V(0,1), und es gilt
X-ii
\/n
(10.5)
1-a.
9 ist die notwendige Voraussetzung fiir die Verwendung der Normalapproximation erfiillt. Wir erhalten mit Zi-cii2 — '2^0.975 = 1-96 und p — 0.39 ,0.39-0.61 0.39-1.96,/^^^,
/0.39-0.61 = [0.294,0.486] 0.39+1.96y'-j^^
das Konfidenzintervall fiir das unbekannte p.
10.4 Aufgaben Aufgabe 10.1: Wir betrachten erneut Aufgabe 2.5. Im Gebiet ostlich des Etosha-Nationalparks in Namibia sei im Zuge wissenschaftlicher Arbeiten das Gewicht (in kg) von 24 Eland-Antilopen erhoben worden: 450 730 700 600 620 660 850 520 490 670 700 820 910 770 760 620 550 520 590 490 620 660 940 790 Gehen Sie davon aus, dass es sich bei dem Korpergewicht um ein normalverteiltes Merkmal handelt und berechnen Sie a) die Punktschatzer fiir ji und a^, b) das Konfidenzintervall fiir fi {a — 0.05). Losung: a) Die Punktschatzung von /i erhalten wir iiber x\ ^ n
ji = x^-Ylxi
= —(450+... + 790) = 667.92.
2=1
Die Schatzung von a^ erhalten wir iiber 5^:
^2^^2^^_Srr^._^\2 — Y^{xi-x)
n i=l
^ ( ( 4 5 0 - 667.92)^ + ... + (790 - 667.92)^) ^ 18035.
174
10. Schatzung von Parametern
b) Mit t23;o.975 = 2.07, a — 0.05 und den aus Aufgabenteil a) berechneten Werten erhalten wir folgende Intervallgrenzen:
Iu{X)
=X-
tn-V^-c.12
' A^
= 667.92 - t23;0.975 '
Io{X)
= X + t , _ i . i _ ^ / 2 • - ^ 6 6 7 . 9 2 - t23;0.975 '
^ ^ ^ ^ 611.17 ,
^ ^ ^ ^ 724.66 .
Damit erhalten wir ein Konfidenzintervall von [611.17; 724.66] Aufgabe 10.2: Wir betrachten das Merkmal 'Korpergrofie' bei Spielern der Basketballtearns ' G H P B a m b e r g ' und 'Bayer Giants Leverkusen', sowie bei Spielern der FuBballmannschaft 'SV Werder Bremen'. SPSS liefert uns folgende deskriptiven Statistiken:
Bamberg Leverkusen Bremen
N
Minimum
Maximum
16 14 23
185 175 178
211 210 195
Mittelwert 199.06 196.00 187.52
Std. abw. 7.047 9.782 5.239
Berechnen Sie ein 95%-Konfidenzintervall fiir jedes Team u n d interpretieren Sie Ihre Ergebnisse! Losung: • Wir betrachten zuerst die Spieler des ' G H P Bamberg'. Mit ^i5;o.975 = 2.1314 u n d a = 0.05 berechnen wir die Grenzen des Konfidenzintervalls: s 7 047 = X - i n - i ; i - c . / 2 ' ^ = = 199-06 - ti5;o.975 ' - 7 = = 195.305, yjn V16 s 7 047 Io{Ba) = X + 1^n-l;l-a/2 ' "7= = 199.06 + ti5;0.975 ' —?= = 202.815 . yn V16
Iu{Ba)
Damit erhalten wir ein Konfidenzintervall von [195.305; 202.815]. • Fiir Leverkusen erhalten wir mit ^13.0.975 = 2.1604 und a — 0.05: _ Iu{L) =X-
tn-l-l-a/2
s 9 782 '^ = 196 - ti3;0.975 ' —J=- = 190.352 , y/n V14
. Io{L) = X + ^ n - l ; l - a / 2 ' - ^ = 196 + ti3;0.975 ' " 7 = = 201.648 . yn V14 Damit erhalten wir ein Konfidenzintervall von [190.352; 201.648]. • Fiir die FuBballmannschaft des SV Werder Bremen berechnen wir die Grenzen wie folgt (^22,0.975 = 2.0739):
10.4 Aufgaben
175
s 5 239 Iu{Br) = x - t^_i;i_^/2 • -7= = 187.52 - ^2250.975 • - 7 = - = 185.255, s 5 239 Io{Br) = X + tn-i;i-a/2 ' ^ ^ = 187.25 + t22;o.975 ' " " ^ = 189.786 . Damit erhalten wir ein Konfidenzintervall von [185.255; 189.786]. • Die Werte der Konfidenzintervalle sind bei den beiden Basketballteams erwartungsgemafi hoher. Bei beiden Teams ist der untere Wert des Konfidenzintervalls hoher als der oberste Wert des Konfidenzintervalls fiir Bremen. Die Intervalle liberdecken sich also nicht. Aufgabe 10.3: Ein Ehepaar wirft nach jedem Essen eine Miinze um zu bestimmen, wer den Abwasch zu erledigen hat. Zeigt die Miinze "Wappen", so hat sich der Mann um den Abwasch zu kiimmern, bei "Zahl" ist es die Aufgabe der Frau. Nach insgesamt 98 Wiirfen fiel die Miinze 59 mal auf Zahl. a) Schatzen erledigen b) Erstellen intervall.
Sie die Wahrscheinhchkeit dafiir, dass die Prau den Abwasch zu hat! Sie fiir den geschatzten Parameter ein passendes 95%-KonfidenzWie interpretieren Sie Ihre Ergebnisse?
Losung: a) Mit n = 98 folgt: p = i y x , = ;l.59=^^0.602 ^ n^f-^ 98 98 1=1
b) Wir wissen, dass np{l - p ) = 98 • 0.602 • 0.398 = 23.48 > 9 ist, und konnen daher die Normalapproximation verwenden. Mit Zx-a.12 — ^0.975 = 1-96 erhalten wir: I 4 X ) = 0 . 6 0 2 - 1 . 9 6 , r ° l - " • ' ' ' = 0-553. 98
/ . W = 0.602+1.96/-^°^J-^^^= 0.651. V 98 Damit erhalten wir ein Konfidenzintervall von [0.553, 0.651], das die Wahrscheinhchkeit von p = 0.5 nicht iiberdeckt, was bei einer fairen Miinze aber zu erwarten ware. Der Verdacht, dass die Miinze unfair ist, liegt nahe. Die Frau ist also beim Abwasch-Auslosen benachteiligt.
11. Priifen statistischer Hypothesen
11.1 Einleitung Im vorausgegangenen Kapitel haben wir Schatzungen fiir unbekannte Parameter von Verteilungen zufalliger Variablen betrachtet. Nun ist es aber oft von Interesse, ob bestimmte Vermutungen iiber einen Parameter in der Grundgesamtheit zutreffen oder nicht. Beispielsweise konnte ein Forscher bereits eine Hypothese iiber einen Sachverhalt besitzen und mochte seine Vermutung anhand einer Stichprobe bestatigen. Moglicherweise hat er die Hypothese, dass mannUche Sauglinge im Mutter leib aktiver sind als weibUche, oder dass Studenten einer Hochschule A im Mittel besser bei einem Test abschneiden als solche einer Hochschule B. In der Regel wird der Forscher aber nicht alle notwendigen Daten zur Verfiigung haben. So kann er natiirlich nicht die Aktivitat alter Sauglinge einer Grundgesamtheit betrachten, sondern nur die eines Teils, also einer Stichprobe. Wir mochten also anhand einer Stichprobe zu einer Entscheidung iiber eine aufgestellte Hypothese beziiglich einer Grundgesamtheit gelangen. Es soil iiber einen Teil einer "Population " ein Riickschluss auf die gesamte "Population" gezogen werden.
11.2 Grundlegende BegrifFe 11.2.1 Ein- und Zweistichprobenprobleme Da in der Praxis verschiedenste Frage- und Problemstellungen auftreten, miissen wir uns zu allererst klar werden, mit welchen Testproblemen wir uns beschaftigen konnen. Zuerst unterschieden wir die Falle des Einstichprobenproblems und des Zweistichprobenproblems. Beim Einstichprobenproblem liegen uns Daten aus einer Stichprobe vor, anhand derer wir einen Riickschluss auf einen Lageparameter ziehen wo Hen. Beim Zweistichprobenproblem dagegen betrachten wir die Daten aus zwei Stichproben und vergleichen z.B. einen Lageparameter zwischen den beiden Stichproben. Anmerkung. Die beiden Stichproben konnen unabhangig (z.B. das Gewicht von Manner und Frauen) oder verbunden sein (z.B. das Gewicht einer Person vor/nach einer Diat).
178
11. Priifen statistischer Hypothesen
Beispiel 11.2.1. Es liegen die Ergebnisse von je 10 Schiilern der 6. Klasse zweier Gymnasien im Weitsprung vor. Eine mogliche Hypothese innerhalb des Einstichprobenproblems ware, dass die Schiiler des ersten Gymnasiums im Mittel 3.50 Meter weit springen. Fiir das Zweistichprobenproblem ware eine zu untersuchende Pragestellung, ob die Schiiler des ersten Gymnasiums im Mittel weiter springen als die des z weit en. 11.2.2 Ein- u n d Zweiseitige Tests Die zu testende Hypothese, die wir innerhalb eines Sachverhalts formuliert haben, wird auch als N u l l h y p o t h e s e Ho bezelchnet. Die A l t e r n a t i v h y p o t h e s e wird Hi genannt. H a b e n wir ein Testproblem mit einer Null- u n d Alternativhypothese, so unterscheiden wir zwischen e i n s e i t i g e m T e s t p r o b l e m und z w e i s e i t i g e m T e s t p r o b l e m . Fiir einen unbekannten P a r a m e t e r 9 (z.B. ji) und einen festen Wert ^o (z.B. 5) stellt sich die Situation wie folgt dar:
Fall (a) (b) (c)
Nullhypothese e = 6o e >0o 0 So
zweiseitiges Testproblem einseitiges Testproblem einseitiges Testproblem
Beispiel 11.2.2. Einstichprobenprobleme priifen als Nullhypothese HQ^ ob Sollwerte/Standards eingehalten werden oder nicht: • • • • •
Abfiillgewichte (1kg Mehl, 1kg Zucker) Langjahrige mittlere Julitemperatur in Miinchen (22° C) Bisherige Frauenquote im Fach Statistik (57%) Anteil der Verkehrsunfalle unter Alkohol (12%) Korpergrofie (Manner) = 178 cm .
Bei Einstichprobenproblemen beinhalten die Alternativ- oder Arbeitshypothesen Hi Abweichungen vom SoUwert/Standard: • • • • •
Unterschreitung des Abfiillgewichts Anstieg der Temperatur Anstieg der Frauenquote Riickgang der Alkoholunfalle Korpergrofie (Manner) 7^ 178 cm .
Zweistichprobenprobleme priifen als Nullhypothese H^^ ob zwei unabhangige Stichproben gleiche P a r a m e t e r besitzen: • mittleres Abfiillgewicht bei Maschine 1 gleich mittleres Abfiillgewicht bei Maschine 2 • mittlere P u n k t z a h l Soziologie = mittlere Punktzahl Psychologie (in der Statistikklausur) • Durchschnittstemperatur (Juli) in Miinchen und in Basel gleich
11.2 Grundlegende Begriffe
179
• Varianz der Korpergrofie (Manner) = Varianz der Korpergrofie (Frauen) • Anteil p(A) saumiger Ratenzahler im Versandhaus A = Anteil p(B) saumiger Ratenzahler im Versandhaus B, also p(A) = p(B) = p oder p(A) - p(B) = 0 . Bei Zweistichprobenproblemen beinhalten die Alternativ- oder Arbeitshypothesen Hi ein- oder zweiseitige Abweichungen von der Gleichheit dieser Parameter: • mittleres Abfiillgewicht (Maschine 1) < mittleres Abfiillgewicht (Maschine 2) • mittlere P u n k t z a h l (Soziologie) ^ mittlere Punktzahl (Psychologie) • Durchschnittstemperatur (Juli) in Miinchen > Durchschnittstemperatur (Juli) in Basel • Varianz der Korpergrofie (Manner) 7^ Varianz der Korpergrofie (Frauen) . p(A) - p(B) > 0. 11.2.3 A l l g e m e i n e s Vorgehen Bei einem Test geht m a n wie folgt vor: 1) 2) 3) 4)
Verteilungsannahme liber die Zufallsvariable X. Formulierung der NuUhypothese und der Alternativhypothese. Vorgabe einer Irrtumswahrscheinlichkeit a. Konstruktion einer geeigneten Testgrofie T ( X ) = T ( X i , . . . , Xn) als Funktion der Stichprobenvariablen X , deren Verteilung unter der NuUhypothese vollstandig bekannt sein mufi. 5) Wahl eines kritischen Bereichs K aus dem moglichen Wertebereich von r ( X ) derart, dass Pe{T{X) e K) < a gilt. 6) Berechnung der Realisierung t = T ( a : i , . . . ,Xn) der Testgrofie T ( X ) anhand der konkreten Stichprobe {xi,..., x^). 7) Entscheidungsregel: Liegt der Wert t — T{xi,... ,Xn) fiir die konkrete Stichprobe im kritischen Bereich K, so wird die NuUhypothese abgelehnt. 1st t nicht im kritischen Bereich, so wird die NuUhypothese nicht abgelehnt: t £ K : HQ ablehnen ^
Hi ist statistisch
signifikant,
t ^ K : Ho nicht ablehnen. 1 1 . 2 . 4 F e h l e r 1. u n d 2 . A r t Bei der Durchflihrung eines statistischen Tests konnen zwei Arten von Fehlern gemacht werden: • Die Hypothese HQ ist richtig und wird abgelehnt; diesen Fehler bezeichnet m a n als Fehler 1. A r t .
180
11. Priifen statistischer Hypothesen
• Die Hypothese HQ wird nicht abgelehnt, obwohl sie falsch ist; dies ist der Fehler 2 . A r t . Insgesamt gibt es also folgende vier Situationen. Ho wird nicht abgelehnt Ho wird abgelehnt
Ho ist richtig richtige Entscheidung Fehler 1. Art
HQ ist nicht richtig Fehler 2. Art richtige Entscheidung
Bei der Konstruktion eines Tests haben wir uns immer ein Signifikanzniveau a vorgegeben (z. B. a = 0.05) das nicht uberschritten werden darf. Dieses entspricht dem Fehler 1. Art, d.h. F{Hi\Ho) = a.
11.3 Einstichprobenprobleme 11.3.1 Priifen des M i t t e l w e r t s bei bekannter Varianz (einfacher Gauss-Test) Wir woUen im Folgenden priifen, ob der unbekannte Erwartungswert fi einer A^(/i,a^)-verteilten Zufallsvariablen X einen bestimmten Wert fi = fio besitzt bzw. iiber- oder unterschreitet. Dabei sei zunachst die Varianz a^ = a^ bekannt. Wir werden nun zuerst gemaB dem Schema aus Kapitel 11.2.3 das Vorgehen des Tests schildern und dann anhand eines Beispiels noch einmal verdeutlichen. 1. Verteilungsannahme: kannter Varianz CTQ.
Die Zufallsvariable X ist A'^(/i, (Jo)-verteilt mit be-
2. Festlegen von Ho und Ho : fi — fio Ho ' /i < /io
Hi: 9^9^'^ 9^9^'^
Ho : fJ> > jJ^o 9^9^'ri
Hi : /i 7^ /XQ, Hi : /i > /io, Hi : /i < /io,
3. Vorgabe der Irrtumswahrscheinlichkeit 0.05.
zweiseitig einseitig einseitig.
a: In der Regel wahlt m a n a =
4. Konstruktion der Testgrofie: Wir schatzen den unbekannten Erwartungswert durch das arithmetische Mittel der Stichprobenwerte (Stichprobenmittelwert)
i=l
und bilden durch Standardisierung daraus die unter HQ N{0, l)-verteilte Priifgrofie T ( X ) = ^ ^ : ^ ^ / ^ ^'
7V(0,1).
11.3 Einstichprobenprobleme
181
5. Kritischer Bereich: Wir wissen, dass die Testgrofie standardnormalverteilt ist. Daraus ermitteln wir folgende kritische Bereiche:
Fall (a) (b) (c)
Ho
Hi
/i >
/iO
/i
fio. Der kritische Bereich K = {zi-(x,oo) besitzt unter Ho die durch die graue Flache dargestellte Wahrseheinlichkeitsmasse a.
und daraus die Realisierung t = T{xi,...,
Xn) der TestgroBe T ( X ) ermittelt y/n.
t-
(^0
7. Testentscheidung: Liegt die TestgroBe innerhalb des kritischen Bereichs, so mufi die NuUhypothese verworfen werden. Daraus folgt:
Fall (a) (b) (c)
Ho
/i < /iO
/^ 7^ PO
Lehne HQ ab, wenn 1^1 > ^l-a/2
P < Po p > po
t >
Hi
Zi-a
Beispiel 11.3.1. Eine groBe F i r m a liefert tiefgefrorene Torten an Supermarkte. Die (in kg gemessene) Masse X der Torten sei dabei normalverteilt. Das angegebene Verkaufsgewicht und damit die geforderte Mindestmasse sei /i = 2 kg. Die Varianz (JQ — 0.1^ sei aus Erfahrung bekannt. Bei einer Stichprobe vom Umfang n — 20 Torten und einem durchschnittlichen Gewicht von X = 1.97 kg soil iiberpruft werden, ob das Stichprobenergebnis gegen die Hypothese HQ: JJL > jio — 2 kg spricht. Mit a •= 0.05 und zi-a = 1.64 folgt fur die Realisierung der TestgroBe:
t^
• Po
cro
1.97-2 0.1
\fn —
20:
-1.34.
Das heiBt, die NuUhypothese, dass das Gewicht der Torten bei mindestens zwei kg liegt, wird nicht abgelehnt, da t = —1.34 > —1.64 = — ;2^i-o 05 = ^o.osInterpretation: Die in der Stichprobe beobachtete mittlere Masse x = 1.97 kg liegt zwar unter dem Sollwert von /i = 2 kg. Dieses Ergebnis widerspricht aber nicht der Hypothese, dass die Stichprobe aus einer A^(2, 0.1^)-verteilten Grundgesamtheit s t a m m t . Die Wahrscheinlichkeit, in einer Stichprobe vom Umfang n = 20 einer 7V(2, 0.1^)-verteilten Grundgesamtheit einen Mittelwert von hochstens 1.97 zu erhalten, ist groBer als 0.05. Das beobachtete Ergebnis
11.3 Einstichprobenprobleme
183
spricht damit nicht gegen die Nullhypothese. Die Abweichung zwischen x = 1.97 kg u n d dem SoUwert von // = 2 kg ist als statistisch nicht signifikant und damit als zufallig anzusehen. 11.3.2 Priifung des M i t t e l w e r t e s bei unbekannter Varianz (einfacher t - T e s t ) Testaufbau Wir wollen Hypothesen iiber /i fiir eine normalverteilte Zufalls variable X ~ N{^,a'^) in dem Fall priifen, in dem auch die Varianz a^ unbekannt ist. Die Testverfahren laufen analog zum vorangegangenen Abschnitt ab, allerdings ist eine andere TestgroBe zu benutzen, namlich T(X) =
^ V ^ ,
die unter HQ eine t-Verteilung mit n — 1 Freiheitsgraden besitzt. Dabei ist
i=l
Kritischer Bereich Folgende Tabelle veranschaulicht die kritischen Bereiche fiir die entsprechenden Falle: Fall (a) (b) (c)
Ho
Hi
/^ = Mo M > Mo M < Mo
M 7^ Mo M < Mo M > Mo
Kritischer Bereich K K = ( - 0 0 , -tn-l;l-a/2) K = (-00, -tn-l-l-a) K ==^ (tn-l-l-a,^)
^ ( ^ n - l ; l - a / 2 , Oo)
Testentscheidung Wir verwerfen die Nullhypothese, wenn die Testgrofie innerhalb des kritischen Bereichs liegt. D a r a u s folgt: Fall (a) (b) (c)
Ho
Hi
M = Mo M > Mo M < Mo
M 7^ Mo M < Mo M > Mo
Lehne Ho ab, wenn
1^1 > tn-l-l-a/2 ^ "^ ~^n—1;1—a
Beispiel 11.3.2. Wir betrachten erneut Beispiel 11.3.1. Aufgrund eines neuen Herstellungsverfahrens sei die Varianz der Torten diesmal jedoch unbekannt. Es liegt eine zufallige Stichprobe vom Umfang n = 20 mit dem Stichprobenmittelwert x = 1.9668 und der Stichprobenvarianz s^ — 0.0927^ vor. Wir
184
11. Priifen statistischer Hypothesen
priifen nun, ob dieses Stichprobenergebnis gegen die Hypothese HQ: fi — 2 spricht. Die Irrtumswahrscheinlichkeit wird wieder mit a == 0.05 vorgegeben. Fiir die Realisierung t der Testgrofie T ( X ) = ^Sx^ V^ ergibt sich der Wert 1.9668-2 0.0927
- A / 2 0 = -1.60.
HQ wird nicht abgelehnt (zweiseitige Pragestellung), da |^| = 1.60 < 2.09 ^i9;0.975 ist (vgl. Tabelle A.3).
11.4 Zweistichprobenprobleme 1 1 . 4 . 1 P r i i f e n d e r G l e i c h h e i t der V a r i a n z e n ( F - T e s t ) Wir betrachten die beiden Variablen X und Y mit X
^N{fix,(Tx),
Um sie hinsichtlich ihrer Variabilitat zu testen betrachten wir die beiden Hypothesen:
HQ : G\ — Gy
gegen
Hi : aj^ j ^ ay,
zweiseitig
HQ : ax < (Ty
g^g^'^
^1 ' ^x ^ ^Y^
einseitig.
TestgroBe Wir setzen eine Stichprobe {Xi,..., Xm) vom Umfang n i und eine (davon unabhangige) Stichprobe ( F i , . . . , ¥^2) vom Umfang n2 voraus. Die Testgrofie ist der Quotient der beiden Stichprobenvarianzen T(X,Y) = ^ ,
(11.1)
der unter der NuUhypothese F-verteilt mit n i — 1 und n2 — 1 Preiheitsgraden ist. Kritischer Bereich Z w e i s e i t i g e F r a g e s t e l l u n g . Fiir die zweiseitige Fragestellung HQ: aj^ = cry gegen Hi: a\ ^ ay gilt: Wenn die NuUhypothese wahr ist, die beiden Varianzen also gleich grofi sind, miifite die Testgrofie (11.1) Werte u m 1 annehmen.
11.4 Zweistichprobenprobleme
185
Damit sprechen sehr kleine und sehr groBe Werte der Testgrofie fiir eine Ablehnung der NuUhypothese. Der kritische Bereich K = [0,ki)U{k2,oo) ergibt sich also aus den Beziehungen P(T(X,Y)k2\Ho)=a/2. Es ergeben sich die Werte ^ 1 — / n i - l , n 2 —1,Q;/25 ^2 =
/ni-l,n2-l,l-a/2 •
Anmerkung. Das untere Quantil ki kann durch folgende Beziehung aus Tabellen abgelesen werden, die meist nur die '1 — -^'-Werte angeben: f
1
J ni — l;n2 —1;Q;/2
/ n 2 —l;ni—1;1—Q:/2
Einseitige Fragestellung. Bei einseitiger Fragestellung HQ: a\ < ay gegen Hi: a\ > Gy besteht der kritische Bereich K aus groBen Werten von T(X) {S'x im Zahler von T), d. h., K = (A:, cx)), wobei k aus P{T{X,Y)
> k\Ho) = a
bestimmt wird. Hier ergibt sich k — fn^-i.^n2-i\i-ci' Anmerkung, Bei einseitiger Fragestellung kann darauf verzichtet werden, die Richtung HQ\ a\ > ay gegen Hi: a\ < ay gesondert zu betrachten, da dies voUkommen symmetrisch zu behandeln ist: a'j^ > ay entspricht genau ay < ax, d.h. es miissen nur die Variablen-Bezeichnungen X und Y vertauscht werden. Realisierung der Testgr6i3e Aus den konkreten Stichproben berechnen wir die Stichprobenvarianzen
und daraus die Realisierung der TestgroBe: i = %.
(11.2)
11. Priifen statistischer Hypothesen
186
Entscheidungsregel Damit folgt fiir die Testentscheidung: Fall (a) (b)
Ho ax = oy 0 oder HQ: JID > 0 gegen Hi: fio < 0 erfolgt analog zu Abschnitt 11.3.2. Anmerkung. Im Vergleich zum Verfahren aus Abschnitt 11.3.2 zum Priifen der Mittelwerte zweier unabhangiger Normalverteilungen sind beim Test auf gleichen Mittelwert verbundener Stichproben die Voraussetzungen weitaus schwacher. Gefordert wird, dass die Differenz beider Zufallsvariablen normalverteilt ist, die beiden stetigen Variablen selbst miissen also nicht notwendig normalverteilt sein. Beispiel 11.4.3, In einem Versuch soil die leistungssteigernde Wirkung von Koffein gepriift werden. Mit Y bzw. X bezeichnen wir die Zufallsvariablen „Punktwert vor bzw. nach dem Trinken von starkem Kaffee", die an n = 10 Studenten gemessen wurden. D a die leistungssteigernde Wirkung jeweils an denselben Personen getestet wurde, haben wir eine verbundene Stichprobe. Wir haben folgende Daten:
11. Priifen statistischer Hypothesen
190
Xi - Vi 1 2 3 4 5 6 7 8 9 10
4 3 5 6 7 6 4 7 6 2
5 4 6 7 8 7 5 8 5 5
-1 3 10
E
{di - df 0 0 0 0 0 0 0 0 4 4
Damit lassen sich die folgenden Daten berechnen: d- 1
bzw,
5^ - ;- - 0.943^ . ^ 9
Es ergibt sich fiir die PriifgroBe t bei a = 0.05 t = Q - ^ V ^ = 3.35 > t9;0.95 = 1.83 ,
so dass HQ: fix < /^y zugunsten von Hi: fix > f^Y abgelehnt wird. Die Leistungen nach dem GenuB von Kaffee sind signifikant besser.
11.5 Priifen von H y p o t h e s e n iiber Binomialverteilungen 11.5.1 Priifen der Wahrscheinlichkeit fiir das Auftreten eines Ereignisses (Binomialtest fiir p) Wir betrachten eine Zufallsvariable X mit zwei Auspragungen 1 und 0, die fur das Eintreten bzw. Nichteintreten eines Ereignisses A stehen. Die Wahrscheinlichkeit fiir das Eintreten von Ain der Grundgesamtheit sei p. Aus einer Stichprobe X = {Xi,..., Xn) von unabhangigen B(l;p)-verteilten Zufallsvariablen Xi bilden wir die erwartungstreue Schatzfunktion p = ^ S l L i ^ i (relative Haufigkeit). Folgende Hypothesen interessieren uns: FaU (a) (b) (c)
Nullhypothese P = Po P>Po P 9) kann die Binomialverteilung durch die Normalverteilung approximiert werden, so dass dann approximativ T(X) ~ A^(0,1) gilt. Der Test der NuUhypothese FQ: p = Po verlauft damit wie in Abschnitt 11.3.1. Fiir kleine Stichproben ist die TestgroBe dagegen nicht mehr approximativ normalverteilt und das Testproblem wird auf eine andere Art gelost. Darauf mochten wir hier aber nicht genauer eingehen. Beispiel 1L5.1. Wir betrachten erneut Beispiel 10.2.3. Ein regelmaBiger Biichereikunde auBert gegeniiber den Mitarbeitern den Verdacht, dass mindestens die Halfte der Kunden unzuverlassig sind und Strafe zahlen miissen. Fiir das Testproblem ergibt sich also die NuUhypothese HQ: p > 0.5 und die AlternativhypotheseiJi:p 9 ist, konnen wir die approximativ normalverteilte TestgroBe berechnen: P-Po
T{X) =
0.39-0.5
-.y/n =
-2.2.
v^0.5(l-0.5)
VPO(I-PO)
Mit a = 0.05 folgt: T{X) = -2.2 < Zc, = - ^ i - a = -1.64. Gemafi Kapitel 11.3.1 folgt damit, dass die NuUhypothese p > 0.5 verworfen werden muss. Damit ist Hi: p < 0.5 signifikant, d.h. der Anteil unzuverlassiger Kunden liegt unterhalb von 50%. 11.5.2 Priifen der Gleichheit zweier Binomialwahrscheinlichkeiten Wir betrachten wieder das obige Zufallsexperiment, jedoch nun als Zweistichprobenproblem mit zwei unabhangigen Stichproben X = (Xi,...,X,J,
X,^B{l;p,)
Y-(ri,...,rn,),
Yi^B{l;p2).
Wir erhalten dann fiir die Summen: ni
X = J2Xi-Bin,;p,),
Y=
i=l
J2yi-B{n2;p2). i=l
Folgende Hypothesen sind fiir uns von Inter esse: Fall (a) (b) (c)
NuUhypothese Pi = P 2
Pi Pi
>P2 ^39,0.975 = 2.02 (das Quantil mit 39 Preiheitsgraden unterscheidet sich kaum von dem mit 40 Freiheitsgraden) ist. Ho wird nicht abgelehnt. b) Die Hypothesen sind nun: Ho : fix = MF2
gegen
Hi : fix ^ f^Yi -
Gepoolte Varianz: ^2 _
19-2.94+19.3.44 _ ^
JQ^
Als PriifgroBe ergibt sich
4.97 - 3.27
^-
Ho wird abgelehnt. c) Obwohl sich die Grundgesamtheiten bei X und Yi beziiglich der Lage unterscheiden, schafft es der Test nicht, diesen Lageunterschied bei den gegebenen Stichproben aufzudecken. Beim Vergleich von X u n d Y2, wo ein noch grofierer Lageunterschied herrscht, kann der Test diesen Unterschied aber aufdecken. Um wirklich zuverlassige Aussagen iiber die Giite des Tests machen zu konnen, soUten die Stichprobenumfange erhoht und die Simulationen ofter als einmal wiederholt werden. Dann kann man schone Aussagen dariiber erhalten, wie gross der Lageunterschied in den Grundgesamtheiten sein muss, bis der doppelte t-Test ihn feststellt. Eine Intuition liefert dieses Beispiel bereits.
204
11. Priifen statistischer Hypothesen
Aufgabe 11.8: Es soil untersucht werden, ob die erwartete Anzahl geschossener Tore, gegliedert nach den zwei Halbzeiten von FuBballspielen, verschieden ist. Die folgende Tabelle gibt die gesamten Tore der 18 Vereine, aufgeteilt auf die beiden Halbzeiten der Saison 2004/2005 wieder. Team B. Miinchen Schalke 04 Werder Bremen Hertha Berlin Stuttgart Leverkusen Dortmund Hamburg Wolfsburg Hannover Mainz K'lautren Arminia Bielefeld Niirnberg M'gladbach Bo chum Hansa Rostok Freiburg
1 .Halbzeit 36 33 21 25 21 18 29 30 28 15 16 20 17 19 17 17 14 15
2.Halbzeit 38 24 47 35 31 48 20 27 22 20 35 22 22 35 20 30 19 15
Gehen Sie im Folgenden davon aus, dass die Torzahlen normalverteilte Zufallsvariablen sind und verwenden Sie wie gehabt 5% als Signifikanzniveau. Fiihren Sie den geeigneten Test durch. Losung: Das Merkmal 'Anzahl der Tore' wurde an den Objekten 'Vereine' in verschiedenen Halbzeiten erhoben, deshalb spricht man hier von verbundenen Stichproben. Deshalb und well von der Normalverteilung ausgegangen wird, soUte der paired t-Test verwendet werden. Es wird zweiseitig getestet. Sei X die geschossenen Tore in der erst en Halbzeit und Y die der zweiten Halfte. Wir testen die folgenden Hypothesen: Ho : fix = fJ'Y ^ f^D = 0, Hi: fix y^ fJ'Y ^ fJ^D 7^0 .
Erst miissen die Differenzen D = X — Y gebildet werden. -2 9 -26 -10 -10 -30 9 - 5 -19 -2 - 5 -16 - 3 -13
3 -5
6 0
Fiir die Priifgrosse T{D) = -f-V^ wird noch die mittlere Differenz und die Standardabweichung ben5tigt. Das Vorgehen ist voUig analog zum Einstichproben t-Test. Mit den deskriptiven Werten
11.7 Aufgaben d=-6Ml
und
205
5^^ = 11.46
ist
HQ wird abgelehnt, falls \t\ > tir,0.975 = 2.1098. Also wird HQ abgelehnt. In den beiden Halbzeiten wurden iiber die Saison 2004/2005 unterschiedlich viele Tore erzielt. Aufgabe 11.9: Ein Textilunternehmen stellt T-Shirts her. Beim Zuschnitt kommt es immer wieder zu UnregelmaBigkeiten und es wird Ausschuss produziert. a) Das Controlling des Unternehmens m a h n t an, dass bei mehr als 10% Ausschuss die T-Shirt-Produktion nicht mehr rentabel ist. Die Analyseabteilung des Unternehmens entnimmt zufallig 230 T-Shirts einer Produktionslinie und stellt fest, dass 35 Shirts Ausschuss sind. Priifen Sie, ob die T-Shirt-Produktion aufgrund der Stichprobe nicht mehr rentabel ist {a = 0.05). b) Ein Maschinenhersteller bietet dem Unternehmen eine neue Zuschnittmaschine an. Er gibt die Garantie, dass diese Maschine deutlich weniger Ausschuss produziert als die alte und natiirhch auch weniger als 10%. Sollte dies nicht zutreffen, n i m m t er die Maschine zuriick. Die Maschine wird installiert und es werden 115 T-Shirts zufallig entnommen, wovon 7 Ausschuss sind. Testen Sie die beiden Aussagen des Herstellers {a = 0.05). Losung: a) Die P r o d u k t i o n ist nicht mehr rentabel, wenn der Ausschuss iiber 10% ist: Ho:p 0.1 .
Der Anteil Ausschuss in der Stichprobe betragt p = ^ ist deutUch hoher als 10%, ist er aber auch signifikant?
= ^ . Der Wert
Die Binomialverteilung wird durch die Normalverteilung approximiert (unter HQ ist p = 0.1, also ist np{l-p) = 2 3 0 — ~ > 9). Die Teststatistik ergibt sich wie folgt: i=—L-^^ 6
.^/^10
,
46-10 4
..A^
J
1st t > 2:0.95 = 1.64, so wird HQ abgelehnt. Der Anteil Ausschuss ist hoher als 10% und damit ist die T-Shirt-Produktion nicht mehr rentabel.
206
11. Priifen statistischer Hypothesen
b) Vergleichen wir zuerst die Daten der beiden Maschinen. Laut Hersteller produziert seine Maschine weniger Aussschuss, also: Ho : pneu > Pait
gegen
Hi : pneu < Pait .
Die Zufallsvariablen Xneu u n d Xait sind flir grofie Stichproben approximativ normalverteilt. Es werden die notigen Grofien fiir die Teststatistik berechnet: ^ __ Xneu rineu ^ _ Xneu+X^n ^ n^^..-\-nait ''neul
Xgit riait _
•
7 7_ __ 115 46 7+35 ^ ^2. ^ 230+115 345
21 230' J ± 115 *
Der Wert der Priifgofie ist 7
^ _
2]^
5
_
-T^ 230 _ ^ V0.1069-0.013
=
230
0.0913
_ -2.448.
0.0373
Zu kleine Werte von t sprechen gegen HQ, t < 2:0.05 — —^0.95 = —1.64. Damit wird HQ abgelehnt. Die neue Maschine produziert weniger Aussschuss als die alte. Weniger als 10% der Produktion mit der neuen Maschine soil Ausschuss sein. ^ 0 ' Pneu > 0.1
gegen
Hi : Pneu < 0.1
Beobachtet wurde ein Ausschussanteil von p —
-^.
Es ergibt sich jr
+ — 115
i_ 10
V 10 ' 10 9 10
/230
.
3
J
Dieser Wert ist kleiner als zo.05 = —1.64, so dass H^ abgelehnt wird. Weniger als 10% der P r o d u k t i o n mit der neuen Maschine ist Ausschuss. Aufgabe 11.10: Der Herausgeber der Zeitschrift 'Das Silberne B l a t t ' mochte wissen welcher Anteil seiner Leser regelmafiig an den Gewinnspielen der Kreuzwortratsel teilnimmt. Der Sponsor der Gewinne erhofft sich einen Anteil von mindestens 20%. In einer Umfrage unter 738 Lesern antworteten 171, dass sie regelmaBig an den Preisausschreiben teilnehmen wurden. a) Testen Sie, ob die Hoffnungen des Sponsors bestatigt werden konnen ( a = 0.05)!
11.7 Aufgaben
207
Die Zeitschrift 'Familie aktuelP bietet ebenfalls regelmafiig Kreuzwortratselgewinnspiele an. Dort gab en unter 432 Lesern 76 an regelmafiig an den Preisausschreiben teilzunehmen. b) Testen Sie, ob von einem gleichen Teilnehmeranteil bei den Kreuzwortratseln der beiden Zeitschriften 'Das Silberne Blatt' und 'Familie aktuell' ausgegangen werden kann {a — 0.05)! Losung: a) Wenn wir testen woUen, ob der Teilnehmeranteil bei mindestens 20% liegt, so miissen wir folgende Hypothesen aufstellen: HQ: P po = 0.2.
Wir berechnen nun p - -III = 0.232. Da np{l - p) = 738 • 0.232 • 0.768 = 131.49 ist, konnen wir die approximativ normalverteilte Testgrofie berechnen:
_
p-po
^ ^ . ^ : ^ E ^ y 7 3 8 = 2.17.
VPO{1-PO)
\/0.2 . 0.8
D a t = = 2 . 1 7 > 1.64 = 2:1-0;, miissen wir die NuUhypothese verwerfen. Der Sponsor kann tatsachlich von einem Teilnehmeranteil von mindestens 20% ausgehen. b) Zum Testen gleicher Teilnehmeranteile stellen wir zuerst Null- und Alternativhypothese auf: HQ: PI = P2
gegen
Hi: pi ^ p2.
Wir kennen die Werte pi == ^ = 0.232 und p2 — ^ = 0.176 und damit d = pi-p2 = 0.232 - 0.176 = 0.056. Fiir die Schatzung der unter HQ in beiden Verteilungen identischen Wahrscheinlichkeit ergibt sich: 171 + 76 Nun konnen wir die TestgroBe berechnen: t
D ^P(l-p)(T^ + i )
0-Q56 A / 0 . 2 1 1 . 0.789 ( ^ +
,,e ^ )
Da |t| = 2.26 > 1.96 = ^0.975, muB die NuUhypothese gleicher Teilnehmeranteile verworfen werden. Die Alternativhypothese ist statistisch signifikant.
12. Nichtparametrische Tests
12.1 Einleitung In die bisherigen Prufverfahren des Kapitels 11 ging der Verteilungstyp der Stichprobenvariablen ein (z.B. normal- oder binomialverteilte Zufallsvariablen). Der Typ der Verteilung war also bekannt. Die zu priifenden Hypothesen bezogen sich auf Parameter dieser Verteilung. Die fur Parameter bekannter Verteilungen konstruierten Prufverfahren heifien parametrische Tests, da die Hypothesen Parameterwerte festlegen. So wird beim einfachen t-Test beispielsweise die Hypothese HQ : ii = 5 gepriift. Mochte man Lage- oder Streuungsalternativen bei stetigen Variablen prlifen, deren Verteilung nicht bekannt ist, so sind die im Folgenden dargestellten nichtparametrischen Tests zu verwenden.
12.2 Anpassungstests Der einfache f-Test priift anhand einer Stichprobe ob beispielsweise der Erwartungswert einer (normalverteilten) Zufalls variablen kleiner ist als der Erwartungswert einer (theoretischen) Zuf alls variablen mit anderem Erwartungswert. Kennt man nun den Verteilungstyp der der Stichprobe zugrunde liegenden Zufallsvariablen nicht, so kann man priifen, ob diese Zuf alls variable von einer bestimmte Verteilung wie z.B. einer Normal verteilung abweicht. Es soil also untersucht werden, wie „gut" sich eine beobachtete Verteilung der hypothetischen Verteilung anpaCt. Wie in Kapitel 11 beschrieben, ist es bei der Konstruktion des Tests notwendig, die Verteilung der TestgroBe unter der NuUhypothese zu kennen. Daher sind alle Anpassungstests so aufgebaut, dass die eigentlich interessierende Hypothese als NuUhypothese und nicht - wie sonst iiblich - als Alternative formuliert wird. Deshalb kann mit einem Anpassungstest auch kein statistischer Nachweis gefuhrt werden, dass ein bestimmter Verteilungstyp vorliegt, sondern es kann nur nachgewiesen werden, dass ein bestimmter Verteilungstyp nicht vorliegt.
210 12.2.1
12. Nichtparametrische Tests Chi-Quadrat-Anpassungstest
Testaufbau Der wohl bekannteste Anpassungstest ist der Chi-Quadrat-Anpassungstest. Die Teststatistik wird so konstruiert, dass sie die Abweichungen der unter HQ erwarteten von den tatsachlich beobachteten absoluten Haufigkeiten mifit. Hierbei ist jedes Skalenniveau zulassig. U m jedoch die erwarteten Haufigkeiten zu berechnen ist es bei ordinalem oder stetigem Datenniveau notwendig, die Stichprobe X = {Xi,..., Xn) in k Klassen Klasse Anzahl der Beobachtungen
1 ni
2 n2
~ -- -
k Uk
Total n
einzuteilen. Die Klasseneinteilung ist dabei in gewisser Weise willkiirlich. Die Klasseneinteilung so lite jedoch nicht zu fein gewahlt werden, u m eine geniigend grofie Anzahl an Beobachtungen in den einzelnen Klassen zu gewahrleisten. Wir priifen Ho: F{x) = Fo{x) gegen H^: F{x) ^
Fo(x).
Dabei ist die NuUhypothese so zu verstehen, dass die Verteilungsfunktion F{x) der in der Stichprobe realisierten Zufallsvariablen X mit einer vorgegebenen Verteilungsfunktion Fo{x) libereinsimmt. Teststatistik Fiir den Test benotigen wir folgende Testgrofie:
Dabei ist • Ni die absolute Haufigkeit der Stichprobe X fiir die Klasse i {i = 1,... ,k) ist {Ni ist eine Zufallsvariable mit ReaUsierung rii in der konkreten Stichprobe), • Pi die mit Hilfe der vorgegebenen Verteilungsfunktion Fo{x) berechnete (also hypothetische) Wahrscheinlichkeit dafiir ist, dass die Zufallsvariable X in die Klasse i fallt, • npi die unter HQ erwartete Haufigkeit in der Klasse i. Entscheidungsregel Die NuUhypothese HQ wird zum Signifikanzniveau a abgelehnt, falls t = T ( x i , . . . , Xn) groi3er als das (1 — a ) - Q u a n t i l der x^-Verteilung mit k — 1 —r Preiheitsgraden ist, d.h., falls gilt:
12.2 Anpassungstests
211
t> Ck- l—r,l—a ' r ist dabei die Anzahl der P a r a m e t e r der vorgegebenen Verteilungsfunktion Fo{x), Sind die P a r a m e t e r der Verteilungsfunktion unbekannt, so miissen diese aus der Stichprobe geschatzt werden. Anmerkung. Die Teststatistik T{X) ist unter der NuUhypothese nur asymptotisch x^-verteilt. Diese Approximation ist iiblicherweise hinreichend genau, wenn nicht mehr als 20% der erwarteten Klassenbesetzungen npi kleiner als 5 sind und kein Wert npi kleiner als 1 ist. Beispiel 12,2.1. Mendel erhielt bei einem seiner Kreuzungsversuche von E r b sen folgende Ergebnisse: Kreuzungsergebnis Beobachtungen
rund gelb 315
rund griin 108
kantig gelb 101
kantig griin
32
Er h a t t e die Hypothese, dass die vier Sorten im Verhaltnis 9:3:3:1 stehen, also dass 9 3 3 1 ^^ = T 6 ' ^ ^ ^ T 6 ' ^ ^ ^ 1 6 ' ^ ^ = l 6 ' Wir testen also: Ho : P{X
=^ i) = TTi gegen
Hi : P{X = i) ^ TT^,
i = 1, . . . , 4 .
Mit insgesamt n = 5 5 6 Beobachtungen erhalten wir folgende fiir die Teststatistik notwendige Grofien:
i 1
rii
Pi
315
2
108
3
101
4
32
y 16 c5 16 3 16 1 16
npi
312.75 104.25 104.25 34.75
Die x^-Teststatistik berechnet sich dann wie folgt: 2 _ (315-312.75)^ 312.75
(32 - 34.75)^ 34.75
0.47.
Da x^ = 0-47 < 7.815 = Xo.gd^) ist, wird die NuUhypothese beibehalten. Mendel h a t t e mit seiner Vermutung einer 9:3:3:1 Aufteilung also Recht.
212
12. Nichtparametrische Tests
12.2.2
Kolmogorov—Smirnov—Anpassungstest
Der C h i - Q u a d r a t - A n p a s s u n g s t e s t hat bei stetigen Variablen den Nachteil, dass eine Gruppierung der Werte notwendig ist. Insbesondere kann die Klassenbildung auch die Teststatistik und damit das Testergebnis beeinflussen. Dieses Problem wirkt sich besonders stark bei kleinen Stichproben aus. In diesen Fallen ist der Kolmogorov-Smirnov-Anpassungstest fur stetige Variablen dem Chi-Quadrat-Anpassungstest vorzuziehen. Dieser Test priift ebenfalls die Hypothese Ho: F{x) = Fo{x) gegen Hn F{x) ^
Fo{x),
wobei F eine stetige Verteilung ist. Wir woUen hier nicht im Detail auf das Testverfahren eingehen (siehe dazu Toutenburg, Induktive Statistik), jedoch die Grundaussagen des praxisrelevanten Tests anhand eines Beispiels erlautern. Beispiel 12.2.2. In einer Studie ist eines der erhobenen Merkmale die Korpergrofie. Wir betrachten hierzu die Histogramme aufgesplittet nach den Merkmalen 'mannlich' und 'weiblich' (siehe Abbildung 12.1).
14-
12-
10-
1' £ "-
6-
20-
f
A
r-n
15-
1 O- 10-
\
ml \ \
I
-
5-
2-
yi Grosse in cm
Mean = 180,8 Std.Dev. = 7,742 N = 46
H
iM
\ m
\L
Std.Dev. = 5,687
Grosse in cm
Abb. 12.1. Histogramme der KorpergroBe aufgesplittet nach den Merkmalen 'mannlich' (links) und 'weiblich' (rechts)
Um nun zu testen, ob das Merkmal 'Korpergrofie' bei Mannern u n d / o d e r Frauen (bei a — 0.05) normalverteilt ist, wenden wir den KolmogorovSmirnov-Test an. SPSS liefert uns folgende Ergebnisse:
12.3 Homogenitatstests fiir zwei unabhangige Stichproben Geschlecht mannlich
weiblich
N Normal Parameters
Mean Std. Deviation
Kolmogorov-Smirnov Z Asymp. Sig (2-tailed) N Normal Parameters
Mean Std. Deviation
Kolmogorov-Smirnov Z Asymp. Sig (2-tailed)
213
GroBe in cm 46 180.80 7.742 0.870 0.435 70 168.46 5.687 0.955 0.322
Sowohl bei Mannern als auch Frauen liegt der Wert der asymptotischen Signifikanz deutlich iiber 0.05. Die NuUhypothese, dass die Verteilungen 'GroBe/m' und 'Gro6e/w' normalverteilt sind, kann also beibehalten werden.
12,3 Homogenitatstests fur zwei unabhangige Stichproben 12.3.1 Kolmogorov-Smirnov-Test im Zweistichprobenproblem Der Kolmogorov-Smirnov-Test im Zweistichprobenproblem vergleicht die Verteilungen zweier Zufallsvariablen gegeneinander. Gegeben seien zwei Stichproben
mit X ^ F und Y ^ G. Wir priifen die Hypothese Ho: Fit) = Git) gegen Hi: Fit) ^ G{t) fiir alle t £ R. Erneut mochten wir nicht detailliert auf die Testprozedur eingehen aber mit einem Beispiel die Anwendung des Tests verdeutlichen. Beispiel 12.3.1. Betrachten wir erneut Beispiel 12.2.2. Nun sind wir nicht mehr an der Fragestellung inter essiert, ob die Verteilung der Manner/Frauen einer Normal verteilung folgt, sondern ob die Verteilung der Korpergrofie bei Mannern und Frauen identisch ist. Dazu konnen wir den KolmogorovSmirnov-Test fur das Zweistichprobenproblem heranziehen. SPSS berechnet uns folgende Werte: Most extreme Differences Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Absolute Positive Negative
GroBe in cm 0.691 0.691 0.000 3.639 0.000
214
12. Nichtparametrische Tests
Die ersten 3 Zeilen bezelchnen hierbei Grofien die benotigt wurden u m die Teststatistik (Zeile 4) zu berechnen. Interessant ist aber die unterste Zeile. Sie gibt uns den p-value zu unserem Test problem aus. W u r d e n wir uns ein Signifikanzniveau von a = 0.05 vorgeben, so spricht unser p-Wert, der nahezu 'Null' ist, fiir eine Verwerfung der Nullhypothese. In diesem Beispiel wiirde das also bedeuten, dass nicht von einer gleichen Verteilung bei Mannern u n d Prauen ausgegangen werden kann. Im vorhergehenden Beispiel b a t t e n wir zwar bereits herausgefunden, dass die Nullhypothese einer Normalverteilung bei keiner der beiden G r u p p e n verworfen werden kann. Hochstwahrscheinlich spiegelt sich der Unterschied zwischen den beiden G r u p p e n aber in Erwartungswert und Varianz wider. So konnte die K5rpergro6e der Frauen beispielsweise normalverteilt, aber mit ein em geringeren Erwartungswert als bei den Mannern vorzufinden sein. WoUten wir dies testen, so brauchten wir Testverfahren wie in Kapitel 11 beschrieben. 12.3.2 M a n n - W h i t n e y - U - T e s t Testaufbau Der Kolmogorov-Smirnov-Test priift allgemeine Hypothesen der Art "Die beiden Verteilungen sind gleich". Wir gehen nun davon aus, dass sich die Verteilungen zweier stetiger Variablen nur beziiglich der Lage unterscheiden. Der wohl bekannteste Test fiir Lagealternativen ist der U-Test von M a n n u n d Whitney. Der [/-Test von M a n n und Whitney ist ein Rangtest. Er ist ein nichtparametrisches Gegenstiick zum t-Test und wird bei Fehlen der Voraussetzungen des t-Tests angewandt. Der U-Test ist also ein nonparametrischer mittelwertsvergleichender Test. Anmerkung. Die zu priifende Hypothese lasst sich auch formulieren als HQ: Die Wahrscheinlichkeit P , dass eine Beobachtung der ersten Grundgesamtheit X groBer ist als ein beliebiger Wert der zweiten Grundgesamtheit Y, ist gleich 0.5. Die Alternative lautet Hi: P ^ 0.5. Teststatistik Man fiigt die Stichproben {xi,... , 3 : ^ ) und ( y i , . . . j^/na) zu einer gemeinsamen aufsteigend geordneten Stichprobe S zusammen. Die Summe der Rangzahlen der X-Stichprobenelemente sei i?i_|_, die Summe der Rangzahlen der F-Stichprobenelemente sei i^2+- Als Priifgrofie wahlt m a n C/, den kleineren der beiden Werte Ui, U2: f/,=n,.n, + ! ^ i ^ ^ - i ? , + ,
(12.2)
" = n , . n , + !!E(!!i±i)_^,,.
(12.3)
12.3 Homogenitatstests fur zwei unabhangige Stichproben
215
Entscheidungsregel Ho wird abgelehnt, wenn U < Wni,n2;a gilt. Da Ui -\- U2 = n i • 77-2 gilt, geniigt es zur praktischen Berechnung des Tests, nur Ri-^ und damit U — min{C/i, n i n 2 —t/i} zu berechnen [i—X oder 2 wird dabei so gewahlt, dass Rij^ fur die kleinere der beiden Stichproben ermittelt werden mu6). Fiir rtx^n^ > 8 kann die Naherung TT _
ni'n2
approx. ni
• ^2 • (^1 -f ^2 + 1)
12 benutzt werden. Fiir \z\ > Zi^a/2
wird Ho abgelehnt.
Beispiel 12.3.2. Im Zuge einer Studie wurden die Reaktionszeiten (in s) auf einen bestimmten Reiz sowohl bei mannlichen Affen als auch bei weibUchen Affen gemessen. An der Studie nahmen 9 mannhche Tie re und 10 weibliche Tiere teil. Es ergaben sich folgende Werte:
Reaktionszeit mannlich weibhch
1 3.7 4.5
2 4.9 5.1
3 5.1 6.2
4 6.2 7.3
5 7.4 8.7
6 4.4 4.2
7 5.3 3.3
8 1.7 8.9
9 2.9 2.6
10 4.8
Geprlift werden soil die Hypothese, ob die Reaktionszeit der mannlichen Affen im Mittel gleich grofi ist wie die der weiblichen. Dazu berechnen wir die fiir den Test interessanten Informationen. Es ergaben sich folgende Werte:
WertM RangM Wertw Rangw
1 3.7 5 4.5 8
2 4.9 10 5.1 11
3 5.1 12 6.2 14
4 6.2 15 7.3 16
5 7.4 17 8.7 18
6 4.4 7 4.2 6
7 5.3 13 3.3 4
8 1.7 1 8.9 19
9 2.9 3 2.6 2
"Ton
vrr
83 4.8 9 1 107
Mit RM+ = 83 u n d Rw+ = 107 erhalten wir die beiden Teststatistiken f/i = n i • 712 + ' " ' ^ " ^ ^ ' ^ ^ - RM+ = 9 • 10 + ^ ^
- 83 = 5 2 ,
f/, = „,.„, + 22%±i)_i?^^=9.10+H_ii_i07 = 38. Mit n i , n 2 > 8 und U = U2 = 38 ergibt sich: Z =
^
2
n i ' n2 • (rii + n2 + 1) 12 3 8 - ^
-0.572.
9-10-(9+10+1) 12 Wegen \z\ = 0.572 < ;2^I_Q,/2 = 1.96 kann die NuUhypothese beibehalten werden.
216
12. Nichtparametrische Tests
12.4 Aufgaben W i e d e r h o l u n g s a u f g a b e m i t S P S S . In dieser Wiederholungsaufgabe haben Sie die Moglichkeit Ihr Wissen iiber die letzten Kapitel a n h a n d unseres buchiibergreifenden Beispiels zu testen (siehe auch Kapitel 3 und 8). Aufgabe 12.1: Seit einiger Zeit spielt ein neuer Mitspieler in der R u n d e von J u p p und Horst mit. Dieser besteht darauf, immer mit seinen eigenen "Gliickswiirfeln" wiirfeln zu woUen. Auffallig ist jedoch, dass er sich nie bei Zahlen kleiner als " 4 " platziert und generell bei seiner Startaufstellung die " 8 " der " 6 " vorzieht. Weiter fallt der Spieler durch seine hohe Anzahl von Siegen auf. Das macht J u p p und Horst stutzig und sie notieren sich die Wiirfelergebnisse des neuen Spielers in den folgenden Partien und erhalten 102 Summen. Der Datensatz glueckswuerfel.sav enthalt die Summen des neuen Spielers sowie die Summen, die J u p p und Horst friiher erhoben haben. a) Zuerst wollen wir die beiden Datensatze vergleichen. Betrachten Sie dazu die Haufigkeitstabellen, die Balken- bzw. Stabdiagramme und die wichtigen MaBzahlen Mittelwert, Median, Varianz und Standardabweichung. Beschreiben Sie was Ihnen auffallt. b) Nun wollen wir testen ob die Summen der ersten Stichprobe der vorher bestimmten Dreiecksverteilung folgen. Bestimmen Sie dazu die erwarteten Haufigkeiten unter der A n n a h m e der Dreicksverteilung u n d fiihren Sie anschliefiend einen x^—Anpassungstest durch. Kommentieren Sie Ihre Entscheidung. c) Wiederholen Sie nun den x^—Anpassungstest flir die Gliickswiirfelsummen. d) Testen Sie mit Hilfe eines t-Tests, ob der Mittelwert der Gliickswlirfelsummen sieben ist. Nehmen Sie dabei kritisch Stellung zur Normalverteilungsannahme. Zu welchen Ergebnis kommt der Test? e) Vergleichen Sie noch die Mittelwerte der beiden Stichproben mit Hilfe eines t-Tests. Versuchen Sie, mit Hilfe Ihrer empirischen Kenntnisse der Stichproben zu einer Entscheidung beziiglich der Gleichheit der Varianzen zu kommen. Fiihren Sie dann den t-Test durch, den Sie fiir geeignet halten und kommentieren Sie Ihre Ergebnisse. Hinweis: Mit SPSS kann die Frage nach der Varianzgleichheit direkt beim t-Test gelost werden. Losung: a) Beginnen wir mit der deskriptiven Datenanalyse. Haufigkeiten der S u m m e n in beiden Stichproben(GW: Gliickswiirfel, N W : normale Wiirfel):
12.4 Aufgaben Auspragungen
Prozent GW 0 0 4.9 8.8 7.8 19.6 14.7 20.6 12.7 8.8 2.0 100.0
2 3 4 5 6 7 8 9 10 11 12 Gesamt
Prozent NW 2.2 7.8 5.7 9.1 13.0 15.7 14.3 14.8 10.0 4.8 2.6 100.0
Summen der Glueckswuerfel
5
6
7
8
Kumulierte Prozente GW 0 0 4.9 13.7 21.6 41.2 55.9 76.5 89.2 98.0 100.0
Kumulierte Prozente NW 2.2 10.0 15.7 24.8 37.8 53.5 67.8 82.6 92.6 97.4 100.0
Summen der normalen Wuerfel
B
Summen der Glueckswuerlel
217
8
9
10
It
Summen der normalen Wuerfel
Abb. 12.2. Das Balkendiagramm der Gluckswurfelsummen und der normalen Summen
Die Haufigkeitstabellen u n d die Diagramme zeigen, dass etwas an den Gluckswurfelsummen anders ist. Die " 2 " u n d die " 3 " wurden von den Gliickswlirfeln nie als Summe gewiirfelt. Somit ist der Streubereich der Gliickswiirfel geringer als der der normalen Wiirfelsummen. Der haufigste Wert ist deutlich hoher als in der Stichprobe von J u p p u n d Horst. Betrachten wir als nachstes einige MaBzahlen der Lage u n d Variabilitat.
N Mittelwert Median Standardabweichung Varianz
Gliickswiirfel 102 7.99 8.00 1.988 3.950
Normale Wiirfel 230 7.16 7.00 2.419 5.853
218
12. Nichtparametrische Tests
Sowohl Mittelwert als auch Median sind deutlich hoher bei den Summen der Gliickswiirfel. Varianz und Standardabweichung sind hingegen geringer. Beide Verteilungen sind halbwegs symmetrisch, unterscheiden sich aber deutlich in Bezug auf ihre Lage und ihren Streubereich. b) Formulieren wir zuerst die Hypothesen fiir unser Testproblem: Ho : Die Wurfelsummen sind dreiecksverteilt Hi : Die Wiirfelsummen sind nicht dreiecksverteilt Fiir die Teststatistik des x^—Anpassungstests benotigen wir zuerst die erwarteten Haufigkeiten unter HQ. Dazu nutzen wir die Tabelle der Wahrscheinlichkeitsfunktion aus der Aufgabe. Auspragungen von X 2 3 4 5 6 7 8 9 10 11 12 Gesamt
Wahrscheinlichkeiten
Erwartete Hfgkt.
Pi
1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1
hi =
71'Pi
6.389 12.778 19.167 25.556 31.944 38.333 31.944 25.556 19.167 12.778 6.389
0.302 2.134 1.984 0.812 0.118 0.142 0.035 2.789 0.767 0.247 0.024 9.355
Der Wert der x^—Statistik betragt somit 9.355. Spricht dieser Wert fiir oder gegen die hypothetische Dreiecksverteilung? Dazu der Testoutput von SPSS: Chi-Quadrat(a) df Asymptotische Signifikanz
9.355 10 .499
Die Uberschreitungswahrscheinlichkeit ist mit ungefahr 50% deutlich grosser als das 5% Signifikanzniveau. Somit kann HQ nicht abgelehnt werden. Die Dreiecksverteilungshypothese wird hier nicht verworfen. Somit sind die Wiirfelsummen von Horst und Jupp wie erwartet dreiecksverteilt.
12.4 Aufgaben
219
c) Nun schauen wir uns die Gliickswurfelsummen an. Zuerst wieder die Hypothesen fur unser Testproblem: Ho : Die Gliickswurfelsummen sind dreiecksverteilt Hi : Die Gliickswiirfelsummen sind nicht dreiecksverteilt Fiir die Teststatistik stellen wir die Hilfstabelle analog zu b) auf. Auspragungen von X 2 3 4 5 6 7 8 9 10 11 12 Gesamt
Wahrscheinlichkeiten
Erwartete Hfgkt.
Pi
hi = 71'Pi
1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1
2.833 5.667 8.5 11.333 14.167 17.667 14.167 11.333 8.5 5.667 2.833
fii
2.833 5.667 1.441 0.48 2.685 0.308 0.049 8.246 2.382 1.96 0.245 26.296
Bei den Gliickswurfelsummen erhalten wir einen deutlich hoheren Wert der x^—Statistik. Betrachten wir fiir unsere Entscheidung wieder den SPSS O u t p u t . Alternativ kann auch der kritische Wert in Tabellen der X^ — Verteilung nachgeschlagen werden. Chi-Quadrat (a) df Asymptotische Signifikanz
26.518 10 .003
Die Unterschiede in den Werten der x^—Statistiken lassen sich auf R u n dungsdifferenzen zuriickfuhren. Hier liegt die Uberschreitungswahrscheinlichkeit deutlich unterhalb des Signifikanzniveaus. D a s fiihrt dazu, dass wir HQ ablehnen. Die Gliickswiirfelsummen weisen also nicht die von uns fiir Wiirfelsummen erwartete Dreiecksverteilung auf. d) Es soil univariat getestet werden, ob der Mittelwert der Gliickswiirfelsummen sieben ist. Dazu fiihren wir den einfachen t-Test durch. Dieses Vorgehen ist gerechtfertigt, da wir gesehen haben, dass die Gliickswiirfelsummen symmetrisch verteilt sind u n d m a n somit eine Normalverteilung unterstellen kann. W i r beginnen wie immer mit den Hypothesen HQ: 11 = 1 gegen Hi : fi y^ 7.
220
12. Nichtparametrische Tests Der Wert der Teststatistik berechnet sich wie folgt: T = ^ t1.988 ^ ^ . 7 1 0 2 = 5.03 Um zu einer Entscheidung zu kommen betrachten wir den SPSS O u t p u t oder suchen uns den kritischen Wert aus einer Tabelle der t-Verteilung.
Summen der Glueckswuerfel
t 5.032
df 101
Sig. (2-seitig) .000
Die Signifiganz fiir die NuUhypothese ist Null, somit kann HQ verworfen werden. Der Mittelwert der Gliickswiirfelsummen ist ungleich sieben. Der interessierte Leser kann einen einseitigen t-Test durchfuhren, in dem er unsere Vermutung beziiglich des Mittelwertes bestatigt. e) Als letztes Testproblem steht noch ein doppelter t-Test an, der die Mittelwerte der beiden Stichproben vergleicht. Die Hypothesen lauten wie folgt: Ho : jiGW = fJ'NW gegen Hi : flow ^ I^NWFiir derartige unverbundene Vergleiche stehen uns zwei t-Tests zur Verfiigung, der eine unterstellt identische Varianzen in beiden Stichproben und der andere lasst unterschiedliche Varianzen zu. In unserer deskriptiven Analyse haben wir deutliche Unterschiede zwischen den Streuungen der beiden Stichproben feststellen konnen. Diesen Uberlegungen folgend wiirde m a n den sogenannten Welch-Test durchfuhren. SPSS macht uns das Leben aber leichter. Es berechnet einfach beide Tests und schaltet einen Test auf Gleichheit der Varianzen vor, so h a t m a n eine Entscheidungshilfe bei der Beurteilung des Problems. Betrachten wir also den SPSS O u t p u t .
Varianzen gleich Varianzen nicht gleich
F 5.172
Sig. .024
T 3.052 3.291
df 330 232.974
Sig. (2-s.) .002 .001
Die ersten beiden Spalten beziehen sich auf einen F-Test, der die Gleichheit der Varianzen in den beiden Stichproben testet. Wir betrachten wieder die UberschreitenswahrscheinUchkeit, diese ist kleiner als 0.05. Somit kann die Hypothese der Varianzgleichheit abgelehnt werden. Unsere empirische Vermutung wird somit bestatigt, der Welch-Test ist der richtige Test fiir dieses Problem. Der O u t p u t des Welch-Testes ist in der zweiten Zeile der Tabelle dargestellt. Diese zeigt den Wert des Teststatistik, die Freiheitsgrade u n d die Signifikanz der NuUhypothese. Diese ist m i t 0.001 sehr klein, so dass wir die NuUhypothese ablehnen. Die Mittelwerte und die Varianzen in den beiden Stichproben unterscheiden sich also. Somit zeigt sich, dass die Gliickswiirfel des neuen Mitspielers sich deutlich
12.4 Aufgaben
221
von dem fiir normale Wiirfel zu erwartenden Verhalten unterscheiden. Der Streubereich ist kleiner, dadurch dass die Gliickswiirfel in 102 Versuchen nicht eine " 2 " oder ' " 3 " als Summe erzielten. Desweiteren ist die Lage der Gliickswiirfelsummen nach oben verschoben. Die theoretisch hergeleitete Dreiecksverteilung fiir Wiirfelsummen passt gut auf die Ergebnisse von J u p p und Horst aber bei den Ergebnissen von den Gliickswiirfeln passt sie nicht mehr. AUes in allem kann m a n davon ausgehen, dass der neue Mitspieler seine Wiirfel gezinkt h a t . Aufgabe 12.2: Der Datensatz 'ZiffernPi.sav' enthalt die sortierten ersten 10002 Nachkommastellen der Zahl TT. E S soil iiberpriift werden ob es ein Verteilungsmuster in den Nachkommastellen gibt. a) Erstellen Sie die Haufigkeitstabelle der Nachkommastellen. b) Stellen Sie den Inhalt der Haufigkeitstabelle grafisch dar. c) Formulieren Sie aufgrund Ihrer deskriptiven Ergebnisse eine Hypothese iiber die Verteilung der Nachkommastellen von TT. d) Testen Sie mit Hilfe eines x^-Anpassungstests diese Hypothese. Losung: a) Wir erhalten folgenden O u t p u t von SPSS:
0 1 2 3 4 5 6 7 8 9 Gesamt
Haufigkeit 968 1026 1021 974 1014 1046 1021 970 948 1014 10002
Prozent 9.7 10.3 10.2 9.7 10.1 10.5 10.2 9.7 9.5 10.1 100.0
kum. Prozent 9.7 19.9 30.1 39.9 50.0 60.5 70.7 80.4 89.9 100.0
b) In Abbildung 12.3 ist das von SPSS berechnete Balkendiagramm zur Haufigkeitsverteilung der Nachkommastellen von Pi dargestellt.
c) Die Haufigkeitstabelle u n d das Balkendiagramm deuten auf eine Gleichverteilung hin. Jede Zifffer scheint in etwa gleich oft vorzukommen. d) SPSS liefert uns folgenden O u t p u t zum x^-Anpassungstest:
Chi-Quadrat df Asymptotische Signifikanz
Ziffern 9.638 9 .404
222
12. Nichtparametrische Tests
D
1
2
Nachkommastellen von Pi, sortiert
A b b . 12.3. Das Balkendiagramm zur Anzahl der Nachkommastellen von 'Pi'
Der x^-Anpassungstest kann die Gleichverteilungshypothese nicht ablehnen. Die Nachkommastellen von n konnten also gleichverteilt sein. R e c h e n a u f g a b e n . Im Folgenden haben Sie erneut die M5glichkeit Ihr Wissen liber das vergangene Kapitel a n h a n d von Rechenaufgaben zu liberpmfen. Aufgabe 12.3: Vor der Bundestagswahl h a t ein bekannter Journalist die Vermutung, dass die ' C D U / C S U ' 4 5 % der Stimmen erhalt, die S P D 40%, die F D P 10% und alle iibrigen Parteien nur 5%. Bei einer Meinungsumfrage unter n = 1000 Personen ergab sich, dass 400 der Personen angaben bei der Wahl fiir die ' C D U / C S U ' stimmen zu wollen, 350 fur die ' S P D ' , 150 fiir die ' F D P ' und 100 fiir sonstige Parteien. Uberpriifen Sie mit Hilfe des x^Anpassungstests, ob die von dem Journalisten aufgestellte Vermutung durch die Stichprobe bestatigt wird oder nicht ( a — 0.05)! Losung: Mit n = 1000 u n d den anderen Werten aus der Aufgabe erhalten wir folgende Tabelle:
Ho Pi unter HQ Sichprobe n^ npi
CDU/CSU 45% 0.45 400 450
SPD 40% 0.40 350 400
FDP 10% 0.10 150 100
andere 5% 0.05 100 50
Damit berechnet sich die Teststatistik wie folgt: x^ = » ^ ; i ^ 450
+ ... + » ^ ; « 50
= 86.81.
Da der Wert der Teststatistik grofier als X3.095 = 7.81 ist, miissen wir die Nullhypothese ablehnen. Der Journalist scheint mit seiner Vermutung also nicht Recht zu haben.
12.4 Aufgaben
223
Aufgabe 12.4: Wir betrachten die Korpergrofie der Basketballspieler des 'GHP Bamberg' und der 'Bayer Giants Leverkusen' aus der Saison 05/06, sowie die Grofie der FuBballspieler des 'SV Werder Bremen' aus dieser Saison. SPSS liefert uns folgenden Output beim Durchfiihren eines KolmogorovSmirnov-Anpassungtests (Einstichproben-Fall): N Normal Param.
Bamberg 16 199.06 7.047 .422 .994
Mean Std. dev.
Kolm.-Smir.-Z Asymp. Sig.
Leverkusen 14 196.00 9.782 .605 .657
Bremen 23 187.25 5.239 .727 .667
a) Interptretieren Sie den Output! Wir betrachten nun den Zweistichprobenfall und vergleichen die Teams von Bamberg und Leverkusen, sowie Bamberg und Bremen. SPSS liefert uns folgende Outputs: Most extreme Differences
Absolute Positive Negative
Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Most extreme Differences
Absolute Positive Negative
Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Bamberg/Leverkusen .304 .009 -.304 .830 .497 Bamberg/Bremen .639 .639 .000 1.962 .001
b) Interptretieren Sie die beiden Outputs! Losung: a) Beim Betrachten des Outputs fallt zu allererst auf, dass sich die Anzahl der gemessenen Werte bei den Spielern der drei Teams unterscheidet. Der 'SV Werder Bremen' hat natlirlich als Fufiballmannschaft einen groBeren Kader als die beiden Basketballteams. Die Mittelwerte lassen erahnen, dass die beiden Basketballteams im Schnitt grofiere Spieler haben. Die Werte der asymptotischen Signifikanz liegen bei alien drei Teams deutlich iiber 0.05 (0.994, 0.857 bzw. 0.667), so dass die NuUhypothese einer Normalverteilung nicht verworfen werden kann. Die Kopergrofie scheint also bei alien drei Teams normalverteilt zu sein.
224
12. Nichtparametrische Tests
b) Betrachten wir zuerst den O u t p u t der die beiden Verteilungen von 'Bamberg' und 'Leverkusen' gegeneinander testet. Der Wert der asymptotischen Signifikanz liegt bei 0.497. Die NuUhypothese gleicher Verteilungen mu6 also nicht verworfen werden. Beim Vergleich des Basketballteams 'Bamberg' und der FuBballmannschaft 'Bremen' bietet sich ein anderes Bild. Der Wert der asymptotischen Signifikanz liegt bei 0.001. Die beiden Verteilungen der Teams unterscheiden sich also signifikant. Zwar ist die KorpergroBe bei beiden normalverteilt, es scheint aber Unterschiede in Mittelwert und Varianz zu geben. Intuitiv lasst sich vermuten, dass die Basketballspieler aufgrund ihrer Sport art im Schnitt grofier sind. Aufgabe 12.5: Ein Student h a t die Hypothese, dass sich die mittlere Gesprachsdauer (in Stunden) a m Telefon (pro Monat) bei seinen weiblichen und mannlichen Kommilitonen unterscheidet. Um dies zu iiberpriifen fiihrt er innerhalb eines Seminars eine Umfrage durch und erhalt a n h a n d der letzten Telefonrechnung bei insgesamt 18 seiner Kommilitonen folgende Ergebnisse:
Gespr achs dauer mannlich weiblich
1 6.5 9.6
2 5.8 8.5
3 7.8 17.6
4 8.2 25.3
5 4.3 5.5
6 7.0 6.8
7 3.6 10.1
8 10.4 7.6
9 4.8 8.0
Uberpriifen Sie mit Hilfe des Mann-Whitney U-Tests, ob die Hypothese des Studenten bestatigt werden kann! Losung: Um die Teststatistik berechnen zu konnen miissen wir die Range innerhalb der gesamten Stichprobe bestimmen. Wir erhalten folgende Tabelle:
Wertm Rangm Wert^ Rangyj
1 6.5 6 9.6 14
2 5.8 5 8.5 13
3 7.8 10 17.6 17
4 8.2 12 25.3 18
5 4.3 2 5.5 4
6 7.0 8 6.8 7
7 3.6 1 10.1 15
8 10.4 16 7.6 9
~9n 4.8 3 8.0
rrr 63
11 11 108
Mit Rm+ = 63 und R.ui+ = 108 erhalten wir die beiden Teststatistiken C/i = m • 712 + " ' ^ " ^ " ' " ^ ^ - i 2 „ + = 9 • 9 +
^-^
- 63 = 6 3 ,
f / , = . „ , . „ , + ! ! a % ± i ) _ i ? ^ ^ = 9 . 9 + i ^ - 1 0 8 = 18. Mit ni,77-2 > 8 und U — U2 — l^ ergibt sich: JJ ^
711-712 2
n i ' 722 • (ni +722 + 1) 12
12.4 Aufgaben
225
^^^"^ ~^2.38. 9-9-(9 + 9+1) 12 Da |z| = 2.38 > ^ I _ Q / 2 = 1-96, muss die Nullhypothese verworfen werden. Man kann also nicht davon ausgehen, dass die mittlere Gesprachsdauer unter den mannlichen und weiblichen Studenten des Seminars gleich ist.
13. Multiple lineare Regression
13.1 Einleitung Bei der Untersuchung von Zusammenhangen in der Wirtschaft, den Sozialwissenschaften, in Naturwissenschaften, Technik oder Medizin steht man haufig vor dem Problem, dass eine zufallige Variable Y (auch Response genannt) von mehr als einer Einflussgrofie abhangt. So konnten beispielsweise mehrere Einflussfaktoren wie Niederschlag, Temperatur, Ort und Diingung einen Einflufi auf den Ertrag einer Ernte haben. In Kapitel 5 haben wir bereits anhand der linearen Regression gesehen wie man mit solchen Problemen bei einem Einfiussfaktor umgeht. In diesem Kapitel werden wir einen kurzen Einblick geben, wie die Statistik bei der Problemstellung mehrerer EinflussgroBen vorgeht. Da das Gebiet der multiplen linearen Regression sehr groB und vielfaltig ist, mochten wir uns darauf beschranken die wichtigsten Grundideen und Annahmen kurz aufzufiihren und dann anhand eines langen, gut verstandlichen Beispiels zu erklaren.
13.2 Modellannahmen der multiplen Regression Wie bereits erwahnt, betrachten wir nun mehrere Einflussgrofien, die wir als X i , . . . , XK bezeichnen woUen. Wir beschranken uns auf den Fall, dass alle X i , . . . , XK stetig und nicht zufallig sind und Y stetig ist. Das Modell lautet Yi = PiXii + . . . 4-
PKXIK
+ e^,
i = 1,..., n .
Wir setzen voraus, dass alle Variablen n-mal beobachtet wurden und stellen dies in Matrixschreibweise dar y = /?ixi -f . . . + /^feXk + e = X/3 + € . Dabei sind y, Xi und e n-Vektoren, /3 ein K-Vektor und X eine n x K-Matrix. Zusatzlich wird x i im allgemeinen als 1 = ( 1 , . . . , 1)' gesetzt, wodurch eine Konstante (Intercept) in das Modell eingefiihrt wird.
228
13. Multiple lineare Regression
Es andert sich im Vergleich zur linearen Einfachregression vor allem dass jetzt mehrere (3 geschatzt und interpretiert werden mlissen. Dabei beschreibt jedes (3 den Einfluss eines Einflussfaktors. Folgende Annahmen liber das klassische lineare Regressionsmodell sind gegeben: y = x/3 + €, \ e~iV„(0,a2l), \ (13.1) X nichtstochastisch, Rang(X) — K . j Die Rangbedingung an X besagt, dass keine exakten linearen Beziehungen zwischen den Einflussgrofien X i , . . . , XK (den sogenannten Regressoren) bestehen, die Einflussfaktoren also linear unabhangig sein soUten. Insbesondere existiert die Inverse (X'X)"""'•.
13.3 Schatzung der Parameter Schatzung von /3 und cr^ Wir haben nun ein multiples lineares Regressionsmodell und mochten die Parameter fur die Einflussfaktoren schatzen. Uber die Losung eines Optimierungsproblems erhalten wir die 'beste' Schatzung fiir /3: Theorem 13.3.1 (Gauss—Markov-Theorem). Regressionsmodell ist die Schatzung b = (X'X)-iXV
Im klassischen linearen (13.2)
mit der Kovarianzmatrix H=a2(X'X: ,-1 die beste (homogene) lineare Schatzung von /3. (Man bezeichnet b auch als Gauss-Markov-(GM)-Schatzung.) Als Schatzung fiir Vh ergibt sich t4-52(X'X)-^
(13.3)
13.4 Priifen von linearen Hypothesen Fragestellung Bei der statistischen Untersuchung eines Regressionsmodells (mit Intercept) y = jSo -\r XijSi + . . . + XKI^K + e konnen folgende Hypothesen von Interesse sein.
13.4 Priifen von linearen Hypothesen
229
(i) Glob ale Hypothese Ho : ^i =-...
= (3K = 0
gegen
Dies bedeutet den Vergleich der Modelle (unteriJo)
y = /?o + e
und (unteriJi)
y = Po + X i A + . . . + XK^K
4- e .
Die NuUhypothese besagt, dass y durch kein Mo dell erklart wird. (ii) Priifen des Einflusses einer Variablen Xi Die Hypothesen lauten Ho:(3i
= 0
gegen
F i : A 7^ 0 .
Falls HQ nicht abgelehnt wird, kommt die Variable Xi als EinflussgroBe (im R a h m e n des linearen Modells) nicht in Betracht. Anderenfalls wird Xi in das Mo dell als Einflussgrofie aufgenommen. (iii) Gleichzeitiges Priifen des Einflusses mehrerer X-Variablen Die Hypothesen lauten z . B . i/o : /^i = /52 = /^3 = 0 Hi:f3i^0
gegen
(i-1,2,3)
Dabei werden die Modelle (unterifo)
2/ = i^o + A ^ 4 + •. • + PKXK
+ e
und (unterlfi)
y - /?o + A ^ i + /^2^2 + (^3X3 + A ^ 4 + • • • + (^RXK + e
verglichen. Die Modelle unter HQ sind also stets Teilmodelle des voUen Modells, das alle Variablen Xi enthalt. TestgroBe Wir woUen hier nicht auf alle formalistischen Details des Testverfahrens eingehen. Es bedarf einer ausfuhrlichen Analyse u m jede der hier vorgestellten interessanten Hypothesen zu formulieren und in eine Theorie einzubetten. Es sei jedoch erwahnt, dass die Testgrofie fiir alle unsere Testprobleme auf die Streuungszerlegung zuriickzufiihren ist:
230
13. Multiple lineare Regression
^WTotal
^^ ^^Regression
"i
^WResidual
Sie berechnet sich fiir die Fragestellung (i) als SQR.
egression ^Q Residual
n-K -^
mit SQResiduai = (Y " X b ) ' ( y - X b ) SQRegression
= ( b - / 3 * ) ' X ' X ( b - /3*)
und besitzt unter HQ : f3 = /S'^ eine F^^n-K-Verteilung. Fiir die Pragestellungen (ii) und (iii) andern sich Testgrofie und Testentscheidung. Testentscheidung Wir erhalten fur Fragestellung (i) bei einer vorgegebenen Irrtumswahrscheinlichkeit a folgende Entscheidungsregel: Ho nicht ablehnen, falls 0 < F < HQ ablehnen, falls F >
fK,n-K,i-a, fK,n-K,i-a-
Fiir die Fragestellungen (ii) und (iii) andern sich TestgroBe und Testentscheidung. U m unsere sehr knappen Uberlegungen noch einmal zu verdeutlichen betrachten wir folgendes ausfiihrliches Beispiel, das verdeutlichen soil, wie m a n mit Hilfe von SPSS multiple lineare Regression durchfiihren kann. Beispiel 13.4..!. In einer internationalen Studie soil die Response variable Y = Lebenserwartung von Frauen (female life expectancy) in Abhangigkeit von verschiedenen EinflussgroBen durch ein Regressionsmodell erfasst werden. Die EinflussgroBen spezifizieren wirtschaftliche und fiir die medizinische Versorgung relevante GroBen, die in der folgenden Tabelle dargestellt sind. Variablenname urban Indocs Inbeds Ingdp Inradios
Beschreibung Anteil der urbanen Bevolkerung ln(Anzahl von Arzten je 10000 Einwohner) ln(Anzahl von Krankenhausbetten je 10000 Einwohner) ln(Bruttoinlandsprodukt pro Kopf in $) ln(Radiogerate je 100 Einwohner)
Zunachst wollen wir untersuchen, ob etwas gegen die Normalverteilungsannahme spricht. Dazu verwenden wir einen (Ein-Stichproben) KolmogorovSmirnov-Test. SPSS liefert uns folgenden O u t p u t :
N Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
Female life expectancy 15 0.534 0.938
13.4 Priifen von linearen Hypothesen
231
Der Wert der asymptotischen Signifikanz ist sehr hoch, deutlich liber 0.05. Wir konnen die NuUhypothese einer Normalverteilung {Y ~ N{fx,a'^)) also beibehalten. Als nachstes interessiert uns der Zusammenhang zwischen der abhangigen Variable (Lebenserwartung) u n d den moglichen Einflussgrofien. Dazu betrachten wir zuerst die Korrelationen die uns SPSS liefert:
lifeexpf urban In docs Inbeds Ingdp Inradios
lifeexpf 1 0.785** 0.913** 0.677** 0.906** 0.854**
urban 0.785** 1 0.806** 0.696** 0.707** 0.761**
Indocs 0.913** 0.806** 1 0.801** 0.775** 0.726**
Inbeds 0.677** 0.696** 0.801** 1 0.597 0.581
Ingdp 0.906** 0.707** 0.775** 0.597 1 0.850**
Inradio 0.854** 0.761** 0.726** 0.581 0.850** 1
AUe Korrelationen zwischen den Lebenserwartungen u n d den moglichen Einflussgrofien sind signifikant auf dem 1%-Niveau (zu sehen an den zwei Sternen iiber d e m Wert der Korrelation). Mochten wir nun eine multiple lineare Regression durchfiihren, so sprechen die Korrelationen fiir unsere Idee die vorgeschlagenen Variablen als EinflussgroBen zu betrachten. AUerdings sind auch die Korrelationen innerhalb der Einflussgrofien signifikant, so dass wir im Anschlufi an die gesamte Regression eine Modellwahl durchfiihren werden. Zunachst wird das Gesamtmodell berechnet. Das Giitemafi 'Adjusted Rsquared' liegt nahe bei Eins, so dass eine gute Modellanpassung signalisiert wird. Der nachste O u t p u t von SPSS iiberpriift, ob die NuUhypothese /?i = /?2 = ... = 0 (also Fall (i)) beibehalten werden kann. Wegen der hohen Signifikanz von F (Sig — 0) wird die NuUhypothese abgelehnt, der Einfluss der X-Variablen ist statistisch signifikant. Model Regression Residual Total
SS 1272.598 70.335 1342.933
df 5 9 14
Mean Square 254.520 7.815
F 32.568
Sig. .000
Der folgende O u t p u t enthalt die Parameterschatzungen u n d ihre Signifikanzen beim separaten t-Test auf HQ : Pi = 0 gegen Hi : jSi =^ 0 (dies war unser Fall (ii)). Wenn die Signifikanz kleiner als 0.05 ist, h a t die zugehorige X-Variable - separat betrachtet - einen signifikanten Einfluss auf Y. Die Signifikanz der K o n s t a n t e n wird nicht beachtet, eine Konstante wird immer in das Mo dell aufgenommen (von Ausnahmefalien abgesehen).
232
13. Multiple lineare Regression Model (Constant) Indocs Inradios Ingdp Inbeds urban
beta 44.758 3.411 2.029 2.346 -1.230 -0.110
t 6.931 3.500 1.238 2.170 -0.968 -0.172
Sig 0.000 0.007 0.247 0.058 0.358 0.867
Zum 5%-Niveau bzw. z u m 10%-Niveau scheinen die beiden Variablen 'Indocs' und 'Ingdp' signifikant zu sein, also einen Einfluss auf die Lebenserwartung innerhalb unseres Regressionsmodells zu haben. Wie zu Beginn des Beispiels jedoch bereits gesehen, weisen die Einflussgrofien untereinander hohe u n d signifikante Korrelationen auf (man nennt dies Multikollinearitat). Eine separate Betrachtung der Signifikanzen reicht daher in diesem Fall nicht mehr aus. SPSS h a t automatische Modellwahlprozeduren, die diesen Sachverhalt beriicksichtigen (FORWARD u n d B A C K W A R D Algorithmus). Folgender Output liefert uns das Ergebnis der FORWARD-Frozedur, die u n s zuerst die Variable 'Indocs' u n d dann die Variable 'Ingdp' in das Mo dell aufnimmt u n d dann stoppt. Model 1 2 Model 1
2
Regression Residual Total Regression Residual Total
Var. entered Indocs Ingdp SS 1120.116 222.818 1342.933 1252.877 90.057 1342.933
df 1 13 14 2 12 14
Var. removed
Mean square 1120.116 17.140
F 65.352
Sig .000
626.438 7.505
83.472
.000
Flir das von SPSS vorgeschlagene Mo dell mit den beiden Einflussgrofien ergeben sich folgende Schatzungen u n d Parameter: Model 1 2
(Constant) Indocs (Constant) Indocs Ingdp
/5 59.728 5.050 39.551 2.919 3.318
Std.Error 1.402 0.625 4.886 0.654 0.789
t 42.589 8.084 8.094 4.465 4.206
Sig .000 .000 .000 .001 .001
Das von SPSS vorgeschlagene Endmodell lautet also L i f e e x p = 3 9 . 5 5 1 + 2 . 9 1 9 Indocs + 3 . 3 1 8 Ingdp.
13.4 Priifen von linearen Hypothesen
233
So erhoht sich die Lebenserwartung mit jeder logarithmierten Einheit an Krankenhausbetten um ungefahr 2.9 Jahre, jede Erhohung der logarithmierten Einheit des Bruttoinlandproduktes um Eins erhoht die Lebenserwartung sogar um ca. 3.3 Jahre. Der folgende Plot 13.1 der vorhergesagten Werte gegen die vorhergesagten Residuen hat die Form eines Null- oder Chaosplots, was ein Indiz fur ein gutes Modell ist. Plot 13.2 der beobachteten gegen die vorhergesagten Werte
Dependent Variable: Female life expectancy 1992
Abb.
13.1. Chaosplot
zeigt die sehr gute Anpassung an die Diagonale, was ebenfalls ein Indiz fur die Giite des Mo dells ist.
Scatlerplot
Dependent Variakile: Female life expectancy 1992
ii^Hi:^:^!^:!:!;!:
lllpl illllillijlii:;:;:;;;:::; iliiiii
IJ
t
^^:i:§:iii::i
ipiiiiiiii '''''''i''''''''''''''
''i'''''''''''''''''''''
Female life expectancy 1992
Abb.
13.2. Scatterplot der beobachteten gegen die vorhergesagten Werte
234
13. Multiple lineare Regression
13.5 Aufgaben Aufgabe 13.1: In einem Experiment wurde die Leistungsfahigkeit von Autos - gemessen durch Y = G e f a h r e n e Meilen pro Gallone (Benzin) - untersucht. EinfluBgrofien waren dabei die Merkmale ' P S ' , 'Gewicht', 'Beschleunigung' (von 0 auf 100 k m / h ) , 'Baujahr', 'Zylinder' und 'Herstellungsland'. Folgende Tabelle zeigt die Korrelationen von (Y, Xi^...^X^). Dabei sind alle Korrelationen signifikant (p-value 0.000). Meilen PS Gewicht Beschl. Baujahr Zylinder
Meilen 1 -0.771 -0.807 0.434 0.576 -0.774
PS -0.771 1 0.859 -0.701 -0.419 0.844
Beschl. 0.434 -0.701 -0.415 1 0.308 -0.528
Gewicht -0.807 0.859 1 -0.415 -0.310 0.895
Baujahr 0.576 -0.419 -0.310 0.308 1 -0.357
Zylinder -0.774 0.844 0.895 -0.528 -0.357 1
a) Welche Xi h a b e n positiven bzw. negativen EinfluB auf Y? b) Welche P a a r e von X^, Xj sind untereinander stark korreliert? c) Was sagen Ihnen die Grafiken aus Abbildung 13.3? Wie schatzen Sie hierbei die 'USA' ein? d) 'Herstellungsland' ist eine kategoriale Variable. Sie wird dummykodiert mit L a n d l = USA, Land2 = Europa, J a p a n = Referenzkategorie! Interpretieren Sie die folgenden O u t p u t s ! Model 1 Model 1
Model 1
R 0.907
R square 0.823
Regression Residual Total
Adj. R-Sq 0.819
SS 19432.238 4177.538 23609.775
(Constant) Hubraum PS Gewicht Beschleunigung Baujahr Anzahl Zylinder Landl Land2
df 8 382 390
B -14.764 .025 -.021 -.007 .061 .780 -.519 -2.879 -.209
Std. Error 3.307 MeanSq. 2429.030 10.936
Std. Error 4.695 .008 .014 .001 .100 .052 .323 .553 .566
F 222.114
t -3.145 3.253 -1.503 -10.264 .0615 15.032 -1.607 -5.202 -.370
Sig. .000
Sig. 0.002 .001 .134 .000 .539 .000 .109 .000 .712
Wie lautet das Regressionsmodell? Halten Sie alle anderen EinfiufigroBen fest! Wie lautet dann die Gleichung fiir USA, Europa, J a p a n ? Wie lautet die Streuungszerlegung?
13.5 Aufgaben
235
Herstellungsland
SO-
—
Fit line for Total
TS O
S ^
\
^n-
S
.
* • *
• %
^^- "•• *• • J ^ j , •
? ?
•
1
i,CV' • "X.Sw' ' I|l8^\. • •
• ^ i ^' • •
1U
\" 200
...'
RSq Linear = 0,602
• 250
RSq Linear = 0,183
Beschleunigung von 0 auf 100 kmfh (sec.)
Abb. 13.3, Zusammenhang zwischen 'Gefahrene Meilen' und den Variablen 'Hubraum', 'PS' und 'Beschleunigung'
e) Welche Variablen sind separat betrachtet nicht signifikant? f) SPSS schlagt das folgende Endmodell vor. Wie groB sind die Effekte der drei Lander? Model 1 Model 1
R 0.906
R square 0.822
Regression Residual Total
Adj. R-Sq 0.819
SS 19398.274 4211.501 23609.775
df 6 384 390
Std. Error 3.312 Mean Sq. 3233.046 10.967
F 294.786
Sig. .000
236
13. Multiple lineare Regression Model 1
B -14.820 .017 -.024 -.007 .778 -2.792 -.161
(Constant) Hubraum PS Gewicht Baujahr Landl Land2
Std. Error 4.153 .006 .011 .001 .052 .551 .566
t -3.568 2.829 -2.251 -11.467 15.013 -5.065 -.283
Sig. 1 0.000 .005 .025 .000 .000 .000 .777
Losung: a) Mit Y sind negativ korreliert: 'PS', 'Gewicht' und 'Anzahl der Zylinder'. Je grofier die Werte dieser Variablen sind, desto geringer ist die Zahl der mit einer bestimmten Benzinmenge zuriickgelegten Meilen. Positiv korreliert sind die Merkmale 'Beschleunigung' und 'Baujahr'. Sie stehen fiir technischen Fortschritt und erhohen die Leistungsfahigkeit des Autos! b) Besonders grofie paarweise Korrelationen finden wir bei: (PS, Gewicht)
(PS, Zylinder)
(Gewicht, Zylinder)
Wir erkennen, dass unter den drei Einflufigrofien 'PS', 'Anzahl Zylinder' und 'Gewicht' hohe Korrelationen auftreten, was auf eine starke Abhangigkeit hindeutet. Deswegen werden bei unserem Endmodell vermutlich nicht alle der drei Variablen vertreten sein. c) Die Grafiken zeigen die negativen Korrelationen (Y, Hubraum), (Y, PS) und die positiven Korrelation (Y, Beschleunigung) - aufgesplittet nach dem Herstellungsland. Die USA scheinen dabei Autos mit der geringsten Leistungsfahigkeit herzustellen. d) Das Regressionsmodell wiirde lauten: Y = -14.76 + 0.25 • Hubraum - 0.021 • PS - 0.007 • Gewicht + 0.061 +0.061 • Beschleunigung + 0.780 • Baujahr — 0.519 • Zylinder -2.879 . Landl - 0.209 • Land2 Wenn wir nun die iibrigen Einflufigrofien festhalten, erhalten wir folgende Regressionsgleichungen: Y = (fest) - 2.879 • USA Y = (fest) - 0.209 • Europa Y = {fest) + 0 • Japan Dies bestatigt nun noch einmal unsere Hypothese aus Aufgabenteil c), dass die in den USA produzierten Autos eine geringere Leistungsfahigkeit
13.5 Aufgaben
237
aufweisen. Allein die Tatsache, dass ein Auto dort hergestellt wird, verringert die Anzahl der gefahrenen Meilen pro Gallone u m 2.879 Einheiten im Vergleich zu J a p a n . Fiir die Streuungszerlegung erhalten wir: SQtotal
~ SQRCQ
+
SQRQS
23609.775 = 19432.238 + 4177.538 Der Anteil der von der Regression erklarten Streuung liegt damit bei 23609''775 ^ ^•^^- ^^^ Wert von B? bestatigt hierbei unseren berechneten Wert. e) Nicht signifikant sind -separat betrachtet- die Merkmale ' P S ' , 'Beschleunigung' und 'Anzahl der Zylinder', da deren p-Werte deutlich iiber dem Signifikanzniveau von 0.05 liegen. Auch 'Land2' weist einen nicht signifikanten Wert auf. D a aber ' L a n d l ' und damit auch das Herstellungsland insgesamt signifikant ist, miissen wir die einzelnen Kategorien trotzdem in unserem Mo dell behalten. f) Betrachten wir nur die EinfluBgrofie 'Herstellungsland', so erhalten wir folgende Regressionsgleichungen: Y = {/est)
- 2.792 • USA
Y -= {fest)
- 0.161 • Europa
Y — (fest)
4- 0 • Japan
Wir konnen dies wie folgt inter pre tieren: Japan Europa USA
= = =
fest -0.161 Meilen/Gallone gegeniiber J a p a n -2.792 Meilen/Gallone gegeniiber J a p a n
Sollte Ihnen der U m g a n g mit kategorialen Einflufigrofien noch Schwierigkeiten bereiten, so betrachten Sie noch einmal Beispiel 5.5.1, in dem der Umgang damit fiir die lineare Einfachregression erlautert wird. Aufgabe 13.2: Wir betrachten wieder den Datensatz 'Hotelauslastung/Durchschnittstemperatur' (Aufgaben 4.8 und 5.4). Zunachst fiihren wir die univariate Regression Hotelauslastung als Funktion der Durchschnittstemperatur durch (Hotelauslastung ist die abhangige Variable, Temperatur die unabhangige Variable). Wir erhalten folgendes Modell:
Model 1
R .025
R-Sq .001
Adj. R-SQ -.029
Std. Error 27.351
238
13. Multiple lineare Regression
Model 1
Model 1
Regression Residual Total
SS 16.497 25434.725 25451.222
(Constant) Durchschnittstemperatur
df 1 34 35
Mean Square 16.497 748.080
/5 50.335 .077
F .022
Std. Error 7.818 .520
t 6.438 .149
Sig. .883
Sig .000 .883
a) Wie hangen R (Korrelationskoeffizient r) und R-Square (Bestimmtheitsma6 i^^) zusammen? Wie hangen die Signifikanz des Modells und der Durchschnittstemperatur zusammen? W a r u m ist das Modell nicht signifikant? Wir betrachten nun die multiple Regression unter Einschluss der O r t e in Dummykodierung mit Basel als Referenzkategorie. Wir erhalten folgendes Modell:
Model 1 Model 1
Model 1
R .164
Regression Residual Total
R-Sq .027
Adj. R-SQ -.064
SS 687.538 24763.685 25451.222
df 3 32 35
Mean Square 229.179 773.865
P (Constant) Durchschnittstemperatur Xi X2
Std. Error 27.818
44.173 .347 9.795 -1.192
Std. Error 10.995 .626 11.852 11.978
F .296
t 4.018 .826 .826 -.100
Sig. .828
Sig .000 .583 .415 .921
b) Wie schatzen Sie dieses Modell ein? Welchen weiteren Schritt schlagen Sie vor? Wir betrachten nun drei separate Modelle und erhalten:
Ort Davos Polenca Basel
Model 1 1 1
R .870 .818 .415
R-Sq .758 .670 .172
Adj. R-SQ .733 .637 .090
Std. Error 13.170 17.902 25.963
13.5 Aufgaben Ort Davos
Polenca
Basel
Ort Davos Polenca Basel
Regression Residual Total Regression Residual Total Regression Residual Total
SS 5421.793 1734.457 7156.250 6495.573 3204.677 9700.250 1403.883 6740.783 8144.667
df 1 10 11 1 10 11 1 10 11
P (Constant) Temperatur (Constant) Temperatur (Constant) Temperatur
73.940 -2.687 -22.647 3.976 32.574 1.313
Mean Sq 5421.793 173.446
F 31.259
Sig. .000
6495.573 320.468
20.269
.001
1403.883 674.078
2.083
.180
Std. Error 4.946 .481 16.785 .883 13.245 .910
t 14.949 .5.591 -1.349 4.502 2.459 1.443
239
Sig .000 .000 .207 .001 .034 .180
c) Interpretieren Sie die drei Modelle beziiglich Signifikanz. Was sehen Sie beim Modell flir Basel? Losung: a) E s gilt r^ :== 7^2^ also 0.025^ == 0.000625 ^ 0.001. Bei der univariaten Regression ist die Signifikanz des Mo dells gleichbedeutend mit der Signifikanz der einzigen EinflussgroBe X. In Aufgabe 5.4 b a t t e n wir bereits gesehen, dass die Korrelation Hotelauslastung / Temperatur insgesamt nicht signifikant ist. Erst die Beriicksichtigung der drei Orte ergibt separat fiir die drei O r t e signifikante Korrelationen. b) Das Modell ist nicht signifikant (Sig. 0,828). Der Versuch ein gemeinsames Modell fiir die drei O r t e zu bilden, gelingt nicht. Man sollte drei separate Modelle berechnen. c) Die Modelle fiir Davos u n d Polenca sind signifikant. In Davos fiihrt ein Absinken der Temperatur u m ein Grad zu einem signifikanten mittleren Anstieg der Hotelauslastung u m 2.687% (Absinken der Temperatur heii3t X = - 1 , also ( - 1 ) • X ' (-2.687) = 2.687 ). In Polenca fiihrt der Anstieg u m 1 G r a d zu einem signifikanten mittleren Anstieg der Hotelauslastung u m 3.978%. In Basel, wo das Modell nicht signifikant ist, fiihrt ein Temper at ur we chsel zu keiner signifikanten Veranderung der Hotelauslastung. Basel ist also ein O r t , der unabhangig von der Temperatur besucht wird (Messen, Ausstellungen, Museen).
14. Analyse von Kontingenztafeln
14.1 Einleitung In diesem Kapitel betrachten wir zwei Variablen X und Y und setzen voraus, dass X und Y entweder kategoriale Zufalls variablen (ordinal oder nominal) oder kategorisierte stetige Zufalls variablen sind. Uns interessiert eine mogliche Abhangigkeit zwischen den beiden Variablen. Beispielsweise konnten die Merkmale X\ Alkoholiker/Nichtalkoholiker und Y: Krankheit j a / n e i n erhoben worden sein u n d wir mochten nun wissen ob die beiden Merkmale unabhangig oder abhangig voneinander sind. Zur Darstellung unserer Informationen benutzen wir Kontingenztafeln und mochten dabei Methoden zur Auswertung dieser Kontingenztafeln erlantern. All diese Methoden sind fiir nominale u n d ordinale Variablen anwendbar, nutzen jedoch im Fall ordinaler Variablen den damit verbundenen Informationsgewinn nicht aus.
14.2 Zweidimensionale kategoriale Zufallsvariablen Die beiden Zufallsvariablen X und Y bilden den zweidimensionalen Zufallsvektor (X, F ) , dessen gemeinsame Verteilung untersucht wird. Von Interesse ist die Hypothese HQ\ „ X und Y sind unabhangig". Bei Ablehnung der Hypothese wird m a n - wie im Regressionsmodell - versuchen, den Zusammenhang naher zu untersuchen (z.B. auf Trends) bzw. durch ein geeignetes Mo dell zu erfassen. Die Zufallsvariable X h a b e / Auspragungen x i , . . . , x / , analog habe Y J Auspragungen yi,... ,yj . Werden an Objekten jeweils beide Zufallsvariablen beobachtet, so ergeben sich I x J moghche (Kreuz-) Klassifikationen. Die gemeinsame Verteilung von (X, Y) wird durch die Wahrscheinlichkeiten
P(X =
i,Y=j)=Trij
definiert, wobei Zlj=i Z)i=i''''ij == 1 gilt-
242
14. Analyse von Kontingenztafeln
Die Randwahrscheinlichkeiten erhalt m a n durch zeilen- bzw. spaltenweises Aufsummieren: J
P{X
= i) =7ri^=^Y^7Tij
P{y
=j)=7V-^j=^7Tij
,
i=l,...,/,
^
j - 1, . . . , J .
/
Es gilt /
J
2=1
j=l
Als gemeinsame Verteilung fiir X und Y erhalten wir:
Tabelle 1 4 . 1 . Gemeinsame Verteilung und Randverteilungen von X und Y Y 1
TTll
7ri2
2
7r21
7r22
TTlJ 7^2J
7ri + 7r2 +
7r/+
X /
TT/i
7r/2
T^IJ
TT+l
7r-f2
TT+J
Beispiel 14-2.1. Wir betrachten erneut Beispiel 8.6.1. An n = 1000 Personen werden gleichzeitig die Variablen X: "Bildung" (1: "hochstens mittlere Reife", 2: "Abitur", 3: "Hochschulabschlufi") und Y: "Gesundheitsverhalten" (1: "Nichtraucher", 2: "gelegentlicher Rancher", 3: "starker Rancher") beobachtet. Die Kontingenztafel mit den Wahrscheinlichkeiten ist wie folgt:
X
1 2 3
E
1 0.10 0.10 0.08 0.28
2 0.20 0.10 0.01 0.31
3 0.30 0.10 0.01 0.41
E
0.60 0.30 0.10 1
Wir erkennen, dass sowohl Xlz^i ^i+ = ^-^ + ^-^ + O-l^ ^^s anch Ylj=i 0.28 + 0.31 + 0.41 'Bins' ergibt.
^+i
14.3 Unabhangigkeit
243
Bedingte Verteilung Die Wahrscheinlichkeiten {TTI^, . . . , 7r/+} und {TT+I, . . . ,7r+j} definieren die Randverteilungen von X und Y. Sind X und Y Zufallsvariablen, dann ist die bedingte Verteilung von Y gegeben X = i definiert durch die Wahrscheinlichkeiten P ( r = j | X = 2)=7r,.|, = ^ Vj. (14.1) Die Wahrscheinlichkeiten {TTI^^, . . . ,7rj|i} bilden also die bedingte Verteilung von Y auf der Stufe i von X. Analog wird die bedingte Verteilung von X gegeben Y = j definiert durch die Wahrscheinlichkeiten {TTIIJ, . . . ^TTjy} mit P(X ^ i\Y = j) = nnj = ^^
Mi.
(14.2)
Beispiel 14-2.2. Sei / = J = 2. Die gemeinsame Verteilung von X und Y (ohne Klammern) und die bedingte Verteilung von X gegeben Y (mit Klammern) sind in der nachfolgenden 2 x 2-Tafel dargestellt: Y 1 1 X 2
2
TTii
7ri2
(TTili) TTsi
(7^112) 7r22
(7^211)
(7^212)
7r21 + 7r22 = 7r24(7r2|l +7r2|2 = 1)
7r+2
1
(1)
TTll + 7ri2 = 7ri+ (TTIII + 7 r i | 2 =
1)
(1)
14.3 Unabhangigkeit Die Variablen X und Y der Kontingenztafel heiBen unabhangig, falls alle gemeinsamen Wahrscheinlichkeiten gleich dem Produkt der Randwahrscheinlichkeiten sind: TVij =- TTi^TT^j
\fij.
(14.3)
Sind X und Y unabhangig gemaB Definition (14.3), dann gilt:
D.h., jede bedingte Verteilung von Y gegeben X ist gleich der Randverteilung von Y unabhangig von der Stufe i der Variablen X. Im Fall der Unabhangigkeit gilt genauso P ( X = i | r = j) = 7 r , | , = . ^ = ^ ^ l ± ^ = . ^ , +
Vj.
Beispiel l^-S.l. Wir betrachten erneut Beispiel 14.2.1. Die beiden Variablen sind nicht unabhangig, da z.B. 7ri_|_7r+i = 0.60 • 0.28 = 0.168 ^ 0.10 = TTH.
244
14. Analyse von Kontingenztafeln
14.4 x^-Unabhangigkeitstest Grundlagen Wir setzen voraus, dass wir in einer zufalligen Stichprobe die Haufigkeiten Uij (i = 1 , . . . , / , j = 1 , . . . , J ) der (i, j)-ten Auspragung der Zufallsvariablen {X, Y) beobachtet haben. Die Haufigkeiten werden in einer Kontingenztafel zusammengefafit: Y 1 2
1 nil n2i
2 ni2
•••
nij
J
77,22
• ••
n2J
nil n+i
n/2 n+2
• • • nij • • • n+j
ni+ n2+
X /
ni^ n
Dabei ist ^+3
die i-te Zeilensumme, die j - t e Spaltensumme'5
n
die Gesamtzahl der Beobachtungen.
riiJr
Die statistischen Methoden fiir Kontingenztafeln treffen bestimmte Annahmen iiber das Zustandekommen einer vorliegenden Kontingenztafel von beobachteten Haufigkeiten. Die beobachteten Zellhaufigkeiten { n i , . . . , n j v } bezelchen wir mit n = X)z=i '^i- -^^^ Erwartungswerte Eijii) bezelchnen wir mit rui. Diese nennen wir die erwarteten Zellhaufigkeiten { m i , . . . , Tn^v}. Ihre Schatzungen rhij berechnen sich als: i+'^+j
(14.4)
Testaufbau und TestgroBe In Zweifach-Kontingenztafeln mit multinomialem Stichprobenschema sind HQ\ „ X und Y sind statistisch unabhangig" und HQ: TTIJ — Tr^+Tr+j Vi,j aquivalent. Als Teststatistik erhalten wir Pearson's x^-Statistik in der Gestalt ^
^
ma
'
wobei die m^j = nTVij = niTi^Tr^j (erwartete Zellhaufigkeiten unter HQ) unbekannt sind. Mit der Schatzung rhij erhalten wir /
J
, rUi.
(14.5)
14.5 Die Vierfeldertafel
245
Testentscheidung Mit insgesamt (I-1)(J-1) Freiheitsgraden treffen wir folgende Testentscheidung: Lehne HQ ab, falls c > C(/_i)(j_i).i_c^ gilt. Beispiel 14-4'^• Wir betrachten erneut Beispiel 8.6.1 und 14.2.1. Fiir die beiden Merkmale 'Bildung' und 'Gesundheitsverhalten' liegt folgende Kontingenztafel vor: Y
3 2 E 100 200 300 600 100 100 100 300 80 10 10 100 280 310 410 1000 1
1
X
2 3
E
Fiir die erwarteten Haufigkeiten rhij — ^'"^^"^^ berechnen wir folgende Werte: Y 1 168 84 28
1
X
2 3
2 186 93 31
3 246 123 41
Wir erhalten dann eine Teststatistik von: {riij - rhijf 4=1 j = l
=
'J
(100-168)2 (10-41)2 168 + - + ^ ^ r ^ ^
182.54.
Da xio. 95 = 9.49 < 182.54 miissen wir die NuUhypothese verwerfen. Die beiden Merkmale konnen also nicht als unabhangig angesehen werden.
14.5 Die Vierfeldertafel Die Vierfeldertafel ist ein wesentlicher Spezialfall von / x J-Kontingenztafeln. Sie hat mit der Standardkodierung 1 und 0 fiir die beiden Auspragungen von X und Y die Gestalt wie in Tabelle 14.2. Die allgemeine Form (14.5) der Chi-Quadrat-Statistik zum Priifen von i/o: „ ^ und Y unabhangig" vereinfacht sich zu ^ ^ (niin22 -ni2n2ifn ni+n2+n+in+2
246
14. Analyse von Kontingenztafeln Tabelle 14.2, Vierfeldertafel der Grundgesamtheit und der Stichprobe Y X
1 0
Y
1
0
TTll
7ri2 7r22 7r+2
7r2i TT+i
1 X
7ri+ 7r2+
1 0
1
nil n2i n+i
0 ni2 ^22 n+2
ni+ 712+ n
Zusatzlich zur x^-Statistik kann m a n ein Mafi verwenden, das die Starke und die Richtung des Zusammenhangs zwischen X und Y angibt - den OddsRatio oder das sogenannte Kreuzprodukt-Verhaltnis. Odds-Ratio Der Odds-Ratio in der gemeinsamen Verteilung von X u n d Y ist definiert als OR
7rii7r22 7ri27r2i
Der Odds-Ratio ist der Quotient aus dem Odds 7rii/7ri2 in der Auspragung xi = 1 zum Odds 1^211^22 in der Auspragung x^ — 0. Die Odds geben fur die jeweilige X - A u s p r a g u n g das Verhaltnis an, die Auspragung y\ — \ s t a t t 2/2 = 0 zu erhalten. Falls die Odds fiir beide X-Auspragungen identisch sind - also nicht von X abhangen - so gilt OR — 1. T h e o r e m 1 4 . 5 . 1 . In einer Vierfeldertafel abhdngig, wenn OR = 1 gilt.
sind X und Y genau dann
un-
Es gilt stets 0 < OR
1 ein positiver Zusammenhang. Positiv bedeutet, dass das P r o d u k t der Wahrscheinlichkeiten der iibereinstimmenden Auspragungen ( X = l , r -= 1) u n d {X =- 0,Y = 0) groBer ist als das P r o d u k t der Wahrscheinlichkeiten fur die gegenlaufigen Auspragungen ( X = 1, F = 0) und ( X = 0, F = 1). Diese Situation fiir die Stichprobe ist in Abbildung 14.1 dargestellt.
Die Schatzung des OR erfolgt durch den Stichproben Odds-Ratio OR.
niin22 ni2n2i
Basierend auf dem Odds-Ratio lasst sich - alternativ zur x^-Statistik - eine Teststatistik fur HQ: „ X und Y unabhangig" durch folgende monotone Transformation gewinnen:
14.5 Die Vierfeldertafel
0
247
r^
o
^ft
Abb. 14.1. Positiver Zusammenhang in einer 2 X 2-Tafel (symbolisch durch grofie Punkte (nil bzw. 7122) und kleine Punkte (7221 bzw. 7112) dargestellt)
Sei $0 = In OR = In TTH + In 7r22 — In 7T12 — In 7r2i und 6>o = In OR = In SO gilt asymptotisch, dass OQ normalverteilt ist mit Erwartungswert ^o- Die Standardabweichung von OQ wird geschatzt durch 1 ^11
1
1
ri22
ni2
1
'
7121
Bei Unabhangigkeit von X u n d F ist OR — 1 und damit ^0 = In OR — 0. Fiir - 0 0 < ^0 < 0 liegt ein negativer und fiir 0 < ^0 < 00 ein positiver Zusammenhang vor. Alternativer Test Wir konnen also zusatzlich zum Test mit der x^-Statistik folgenden Test fiir HQ: „ X und Y unabhangig" gegen Hi\ „ X und Y nicht unabhangig" durchfiihren. Wir bestimmen die Teststatistik Z, die unter HQ : 6 = 0 standardnormalverteilt ist:
Wir werden HQ ablehnen, falls \z\ > Z\-2L gilt (zweiseitige Fragestellung). Wir bestimmen ein (1 — a)-Konfidenzintervall fiir ^0 gemaB
248
14. Analyse von Kontingenztafeln
Oo - zi-^a^^,0o
+
zi-^a^
[In Jo]
und lehnen HQ ab, falls die Null nicht im Intervall enthalten ist. Durch Riicktransformation erhalten wir ein Konfidenzintervall fiir den Odds-Ratio selbst gemaB [exp(/,),exp(/,)] . (14.6) Auf der Basis von (14.6) wiirde m a n HQ ab lehnen, falls die Eins nicht im Intervall enthalten ist. AUe diese Tests sind natiirlich aquivalent. Beispiel 14-5.1. In einer Studie wird der Einfluss von Strategietraining von n — 255 Managern auf den Erfolg der Firmen untersucht:
Training
nein
{X)
Erfolg nein 40 30 70
{Y) ja 75 110 185
115 140 255
Wir priifen HQ: „ X , Y unabhangig". (i) Chi-Quadrat-Statistik = 255(40-110-30.75)^ ^ 70.185-115.140
^ ^'°-^^'
d.h., HQ wird abgelehnt ( r v a l u e 0.0174). (ii) Odds-Ratio ^^
40-110
, _
d.h., es besteht ein positiver Zusammenhang. (iii)
\n{OR) I n O R ^ ^0 = 0.673
Damit erhalten wir z = j ^ = 2.370 > 1.96 = 2:0.975, weswegen wir HQ ab lehnen. (iv) 95%-Konfidenzintervall fiir ^0 [0.673 - 1.96 . 0.284,0.673 + 1.96 • 0.284] = [0.116,1.230] . Wir lehnen HQ ab (zweiseitiger Test), da die Null nicht im Intervall enthalten ist.
14.6 Aufgaben
249
Das 95%-Konfidenzintervall flir OR hat die Gestalt [exp(0.116),exp(1.230)] = [1.123,3.421] . Wir lehnen HQ ab, da die Eins nicht im Konfidenz inter vail enthalten ist.
14.6 Aufgaben Aufgabe 14-1: Ein Supermarkt fiihrt eine Umfrage zur Zufriedenheit der Kunden durch. Folgende Tabelle veranschaulicht den Grad der Zufriedenheit, abhangig vom Geschlecht: Geschlecht/Zufriedenheit mannlich weiblich
E
sehr zufrieden 45 65 110
unzufrieden 55 13 68
zufrieden 68 42 110
Uberpriifen Sie mit Hilfe eines x^-Unabhangigkeitstests (a • beiden Merkmale als unabhangig angesehen werden konnen!
E
168 120 288
0.05), ob die
Losung: Wir berechnen zuerst die Tabelle der erwarteten Haufigkeiten rhij: Geschlecht/Zufriedenheit I sehr zufrieden mannlich 64.17 weiblich 45.83
zufrieden 64.17 45.83
unzufrieden 39.67 28.33
Nun konnen wir die Teststatistik berechnen /
J
{n.
= 1:1:
•ij
i=i 3=1
m.^3 J m,ZJ
(45-64.17)2 64.17
(13-28.33)2 28.33
28.50
Da X3,o.95 = '^•81 < 28.5 mu6 die NuUhypothese verworfen werden. Die beiden Merkmale konnen also nicht als unabhangig angesehen werden. Aufgabe 14-2: Wir betrachten folgende Vierfeldertafel, die das 'Interesse an der spanischen Sprache' abhangig vom Geschlecht angibt: mannlich weiblich
E
Interesse 60 80 140
kein Interesse 40 20 60
E
100 100 200
Untersucht werden soil die Hypothese, ob von Unabhangigkeit zwischen den beiden Merkmalen ausgegangen werden kann (a = 0.05).
250
14. Analyse von Kontingenztafeln
a) Uberpriifen Sie diese These mit Hilfe des x^-Unabhangigkeitstests! b) Berechnen Sie den Odds-Ratio! c) Fiihren Sie einen alternativen Test auf Unabhangigkeit mit Hilfe des logarithmierten Odds-Ratio durch! d) Fallen Sie eine Testentscheidung auf Basis des Konfidenzintervalls fiir OQ ! e) Was fiir eine Entscheidung wiirden Sie anhand des Konfidenzintervalls fiir den Odds-Ratio treffen? f) Was ist nun Ihr Resiimee beziiglich der Unabhangigkeit? Losung: a) Die Teststatistik berechnet sich wie folgt: ^ _ (niin22 - n i 2 n 2 i ) ' n ^ 200 • (60 • 20 - 80 • 40)^ _ ^ ^^ ni+n2+n4.in+2
140 • 60 • 100 -100
~
'
*
Da 9.52 > x?.o. 95 = 3.84 ist, miissen wir die Nullhypothese von zwei unabhangigen Variablen verwerfen. b) Wir berechnen den Odds-Ratio:
OR-
_ 60 .20 ~ 80"
ni2n2i
0.375.
c) Wir berechnen folgende Werte: 1
1
1
1 - 0.104 20 InOR \ = 9o - -0.98 -0.98 o]3 IT 3.104 = - 9 . 4 .
-1 =^60 "^40 "^80 ^ ^ —
D a \z\ = 9.4 > Zi-^ worfen werden.
r~^
= 1.96 ist, muss auch hier die Nullhypothese ver-
d) Wir berechnen das 95%-Konfidenzintervall fiir ^o[-0.98 di 1.96 . VO.104] = [-1.612; -0.34] D a die 'Null' im Intervall nicht enthalten ist, verwerfen wir die Nullhypothese! e) Wir erhalten folgendes Intervall: [ea:p(-1.612); exp{-OM)]
= [0.199; 0.710]
Da die 'Eins' nicht im Intervall enthalten ist, verwerfen wir die Nullhypothese.
14.6 Aufgaben
251
f) AUe durchgefiihrten Tests empfehlen die Nullhypothese zu verwerfen. Man kann also davon atisgehen, dass die beiden Merkmale 'Interesse' und 'Geschlecht' nicht unabhangig sind.
A. Tabellenanhang
Tabelle A . l . Verteilungsfunktion ^{z) der Standardnormalverteilung z .00 " O O " 0.500000 0.1 0.539828 0.2 0.579260 0.3 0.617911 0.4 0.655422 0.5 0.691462
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
.01
.02
.03
.04
0.503989 0.543795 0.583166 0.621720 0.659097 0.694974
0.507978 0.547758 0.587064 0.625516 0.662757 0.698468
0.511966 0.551717 0.590954 0.629300 0.666402 0.701944
0.515953 0.555670 0.594835 0.633072 0.670031 0.705401
0.725747 0.758036 0.788145 0.815940 0.841345
0.729069 0.761148 0.791030 0.818589 0.843752
0.732371 0.764238 0.793892 0.821214 0.846136
0.735653 0.767305 0.796731 0.823814 0.848495
0.738914 0.770350 0.799546 0.826391 0.850830
0.864334 0.884930 0.903200 0.919243 0.933193
0.866500 0.886861 0.904902 0.920730 0.934478
0.868643 0.888768 0.906582 0.922196 0.935745
0.870762 0.890651 0.908241 0.923641 0.936992
0.872857 0.892512 0.909877 0.925066 0.938220
0.945201 0.955435 0.964070 0.971283 0.977250
0.946301 0.956367 0.964852 0.971933 0.977784
0.947384 0.957284 0.965620 0.972571 0.978308
0.948449 0.958185 0.966375 0.973197 0.978822
0.949497 0.959070 0.967116 0.973810 0.979325
0.982136 0.986097 0.989276 0.991802 0.993790
0.982571 0.986447 0.989556 0.992024 0.993963
0.982997 0.986791 0.989830 0.992240 0.994132
0.983414 0.987126 0.990097 0.992451 0.994297
0.983823 0.987455 0.990358 0.992656 0.994457
0.995339 0.996533 0.997445 0.998134 0.998650
0.995473 0.996636 0.997523 0.998193 0.998694
0.995604 0.996736 0.997599 0.998250 0.998736
0.995731 0.996833 0.997673 0.998305 0.998777
0.995855 0.996928 0.997744 0.998359 0.998817
N{0,1)
254
A. Tabellenanhang
Tabelle A . l . Verteilungsfunktion ^{z) der Standardnormalverteilung 7V(0,1) z
.05
.06
.07
.08
.09
"oT"
0.519939 0.559618 0.598706 0.636831 0.673645 0.708840
0.523922 0.563559 0.602568 0.640576 0.677242 0.712260
0.527903 0.567495 0.606420 0.644309 0.680822 0.715661
0.531881 0.571424 0.610261 0.648027 0.684386 0.719043
0.535856 0.575345 0.614092 0.651732 0.687933 0.722405
0.742154 0.773373 0.802337 0.828944 0.853141
0.745373 0.776373 0.805105 0.831472 0.855428
0.748571 0,779350 0.807850 0.833977 0.857690
0.751748 0.782305 0.810570 0.836457 0.859929
0.754903 0.785236 0.813267 0.838913 0.862143
0.874928 0.894350 0.911492 0.926471 0.939429
0.876976 0.896165 0.913085 0.927855 0.940620
0.879000 0.897958 0.914657 0.929219 0.941792
0.881000 0.899727 0.916207 0.930563 0.942947
0.882977 0.901475 0.917736 0.931888 0.944083
0.950529 0.959941 0.967843 0.974412 0.979818
0.951543 0.960796 0.968557 0.975002 0.980301
0.952540 0.961636 0.969258 0.975581 0.980774
0.953521 0.962462 0.969946 0.976148 0.981237
0.954486 0.963273 0.970621 0.976705 0.981691
0.984222 0.987776 0.990613 0.992857 0.994614
0.984614 0.988089 0.990863 0.993053 0.994766
0.984997 0.988396 0.991106 0.993244 0.994915
0.985371 0.988696 0.991344 0.993431 0.995060
0.985738 0.988989 0.991576 0.993613 0.995201
0.995975 0.997020 0.997814 0.998411 0.998856
0.996093 0.997110 0.997882 0.998462 0.998893
0.996207 0.997197 0.997948 0.998511 0.998930
0.996319 0.997282 0.998012 0.998559 0.998965
0.996427 0.997365 0.998074 0.998605 0.998999
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
A. Tabellenanhang Tabelle A . 2 . (1 — a)-Quantile Cdf^i-cy der x^-Verteilung OOT" df ' 1 0.0001 2 0.020 3 0.115 4 0.297 5 0.554 6 0.872 7 1.24 8 1.65 2.09 9 10 2.56
0.025 0.001 0.051 0.216 0.484 0.831
1-a 0.05 0.004 0.103 0.352 0.711 1.15
0.95 3.84 5.99 7.81 9.49 11.1
0.975 5.02 7.38 9.35 11.1 12.8
0.99 6.62 9.21 11.3 13.3 15.1
1.24 1.69 2.18 2.70 3.25
1.64 2.17 2.73 3.33 3.94
12.6 14.1 15.5 16.9 18.3
14.4 16.0 17.5 19.0 20.5
16.8 18.5 20.1 21.7 23.2
11 12 13 14 15
3.05 3.57 4.11 4.66 5.23
3.82 4.40 5.01 5.63 6.26
4.57 5.23 5.89 6.57 7.26
19.7 21.0 22.4 23.7 25.0
21.9 23.3 24.7 26.1 27.5
24.7 26.2 27.7 29.1 30.6
16 17 18 19 20
5.81 6.41 7.01 7.63 8.26
6.91 7.56 8.23 8.91 9.59
7.96 8.67 9.39 10.1 10.9
26.3 27.6 28.9 30.1 31.4
28.8 30.2 31.5 32.9 34.2
32.0 33.4 34.8 36.2 37.6
25 30 40 50
11.5 15.0 22.2 29.7
13.1 16.8 24.4 32.4
14.6 18.5 26.5 34.8
37.7 43.8 55.8 67.5
40.6 47.0 59.3 71.4
44.3 50.9 63.7 76.2
60 70 80 90 100
37.5 45.4 53.5 61.8 70.1
40.5 48.8 57.2 65.6 74.2
43.2 51.7 60.4 69.1 77.9
79.1 90.5 101.9 113.1 124.3
83.3 95.0 106.6 118.1 129.6
88.4 100.4 112.3 124.1 135.8
255
256
A. Tabellenanhang Tabelle A . 3 . (1 — a)-Quantile tdf;i-a der i-Verteilung
df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100 200 300 400 500
0.95 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.6973 1.6839 1.6759 1.6706 1.6669 1.6641 1.6620 1.6602 1.6525 1.6499 1.6487 1.6479
1-a 0.99 0.975 12.706 31.821 4.3027 6.9646 3.1824 4.5407 2.7764 3.7469 2.5706 3.3649 2.4469 3.1427 2.3646 2.9980 2.3060 2.8965 2.2622 2.8214 2.2281 2.7638 2.2010 2.7181 2.1788 2.6810 2.1604 2.6503 2.1448 2.6245 2.1314 2.6025 2.1199 2.5835 2.1098 2.5669 2.1009 2.5524 2.0930 2.5395 2.0860 2.5280 2.0423 2.4573 2.0211 2.4233 2.0086 2.4033 2.0003 2.3901 1.9944 2.3808 1.9901 2.3739 1.9867 2.3685 1.9840 2.3642 1.9719 2.3451 1.9679 2.3388 1.9659 2.3357 1.9647 2.3338
0.995 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.7500 2.7045 2.6778 2.6603 2.6479 2.6387 2.6316 2.6259 2.6006 2.5923 2.5882 2.5857
CO
-a
O
^
^
I
A. T a b e l l e n a n h a n g
O O O C O C N I O O t ^ ^ O O l O C S l l O ' ^ b - C O C O ^ O O C O O l N O O C D O C S I O O C O C D O C O ^ i — l i O - ^ C D C i ^ O C D C O O O O ^ l D ^ C s l T — I O O O O C D ^ C S T - H O O ^ O O
M^cooococ^^(^^c4c^-l>-lOOOC;OO^C-OOiOOO^T-HCgT:failO OOOOa5LOlOb-i-Hb-COOb-lOCOr-(Oaib-CDlOO:>CO-Tt*COCOr'"^ ^~o— .I^ k D l > L O C Q i O O C S I C < I ^ C D » O O C ^ i - H b - .L »r\ OlO < £f/*^ ) C (*^ O Lk^-^ O l r— >-O ^ C•^H^ SlT b:)cxDaicooa50cot-ci(>ic^C^i-HT-HTHT-HT-4rHr-5T-HT-H^
|(X)-'^OO:> kDb-^CI>-a5C000iO00O^'^0^1>CD o ^ o t ^ ^ o ^ ^ o o c o o i O c o o i ^ i o c O r H o o o o o c s i a s o ^ c s i r H O
COr-HrHCOC^rHCvlLOO^LO^t-'^T-^aib-iOOOT-HOO'^OOOCO^COCNI
|COI>b-OOI>T-HCOCOT-HCS|^CQkOCOC^LOO^CSlOT-Hb-C}OOTHb-l>-l>-00
o w n^
o00 il>-CDiOCDiOT-^Tt(;DO00CiOC L o c o c Q ^ o o c 5 a i c o o o o o o q t - ; N ; i N N ; N ; < : D i O i O L q ' ^ ^ ^ ^
o
(1)
r.
^ (D
pit^OOOi^COT-HO^lOCOcDCMCOCSI-^b-CDaiLOOOt-aiOOcOcDt^^ COCOOO^CNTHt^^l^COcD^t^COCNICOOTHt^lOCOOCOLOCSICNI^OO p:>C0C0Oi0^i0a>C005lOCcDlo^^'^^cococooocococsJ(^q^--^rH
COlOt-t-0^«:DCSIO^CNIO^iO-0^00^00000^ ^-H^-CN|OOiO^CDCX)0^iOiOOO 00C.-^O00L0(^:)i-HO^00QDlOb-CSO5t- l - H HcD^O:iCDOOOCOrHT^C^IOT-HOOlOC<JOOOCD'^COb-^CNlOOOt-l>h ^ a i c o o ^ ^ - c D ^ c o c o c s ^ T H T - ^ ^ - H o o o o a > O i a i o o I > ^ - ^ ^ - ^ ^ - ; C D c D
259
I cq r-i c 00 ^lOTt'T-HT -^O C DTr-H H lO lOC OrHb-OOb-i—IOOOOO:>C ^ | < r J L o ^ ^ c o c 6 c o c o c v 6 c o c o c o c o c o c o c o c o c o c o c ^ |i-HOOOOaJOcDC»00';DOOb-CXDOiCO ^ C O C S I ^ O
cQt^o^-^corHT-^oo^o^oqoqlS;^^^^^-^>-cDcDLOLq-^^-^ t«^kOL6^-^Tj^TtT:fT:JH(^6cOCOCOCOCOCOCOCO^ oc^ioc^b-rHoooob-iococyiCNiairH(:ococr5ioo^^o^ i L—J O T»o - - r(vui :rv^ 5 C»r^ s i rf\ c o i•»?* o o(-T^ ^ ^ert o ^ rvi c D r~i c s jK_ o t»r^ - i orm o o. r^ - rrN - i cr-r^ i a rr\ j c or ^ o onon<eynD»r^ LO ^ cn n o Ih^ »Lo O__j ^-H |lOO^OOO<X)iO'^COC-l>-l>-t^
k D i O O O L O C ^ l O O ^ C O C ^ ^ ' ^ O O - r r O b - O O O b - O ^ t ^ C O O O C O C O c D b - l O O P ^ i — l O i C ^ l O O O ^ O i C O r H O i l O O O C O b - C S I O O C S I O C S J O O ' ^ D ^ O O C D b - O b~^OOCI>a^iOO^CO^O^CDaiCDOOCO^(MTfOOLOCNIOOOCO^CNlO H l O C ^ C S « 0 0 ^ a i a i C < I C D O c D ( M O ^ < : D T j ^ < M O 0 0 C D C D r - l 0 0 i O ^ C 0 ( M ^
KX)c^iocQa5oqoLqio^^cococQ(>icQC^-op O C D ^ O ^ C 0 l O l > 0 0 C 5 O T - H C S I ( M C 0 C 0 0 0 ^ T t < T j < O l > l : ^ 0 0 0 0 0 0 0 0 0 0 k O O r H ( > i C Q O O C O C O C O C O ' ^ ' ^ ^ ^ ^ ^ ^ ^ ^ ' « ^ r f ^ T ^ T : t ^ ^
l^ococococooococococococococococococococococococococ^ O O O Q D O O ^ T — i r - i L O O O C S l C S I O C O C M C D T - l C O T ^ O ^ O ^ i O T—I 0 0 O 0 5 CO 1—1 |1>-LOT-ILO00I—iCQCDCS'^OOb-OOlOOOaib-COb-i ,, ^ _^ . , llOOOCir-lT-HCNICO b - O i - ^ O i i — l b - 0 0 < ; D C 0 0 0 0 0 C D O 5 C S ^ < : 0 0 0 O i — I C 0 O O O O T - ( I — i T - H r - l M ^ C ^ O O ^ C q c O ' ^ L O C O C O b - b - b - O O O O O O O O C J O i O ^ O O O O O O O O KDt-C000O>O5O5O^O>OiC5O5O5aiCiO5C5O5O5airHT-(rH,—lT—(T—IT—(T-H
260
a ft CO
o
d II d
^ :"^
U-i
bO C 3
> ^ ^ (U TJ
«
(M
sS:'
•^ ^ i??
I
A. T a b e l l e n a n h a n g |iOCO«:DiOO^OO^OOCSl^CO(MOO^T-HCslCDCSILOOO^CDlOOrHCvl(M b 0 0 0 O : ) O C D t - C D T - H C 0 O ^ ^ b - Q D O I > C 5 C 0 a i C » 0 0 T t O T - H b - ( N C < I O C 0 b-CCOOOOCO^COCSlrHCQr-^ - O O O ^ C O ^ ^ O i T - ^ l ^ C S l C O l O C i b - O ^ C O O O ^ O ^ O ^ C O O t - C O i O O O O t G ^ O I > l O a i I > l > - O C 0 C X ) C 0 a i L 0 ( M O i I : ^ L 0 ( M O b - O < : 0 < M O C 3 0 l > - l O jOOCOOib-LO^COCOCNIi—irHOOOO^O:»O^O^aib-t>CDCDi-HLO^t^COON--^CSlOOOiOb-COO^b-lOCOCNI I c q o o c ^ i o ^ t - i n ^ c o c a c ^ i r H T - H O O o o ^ a i a s c i o o t - c D c D i o i O L O i o i o tOCOCOCOCOOOO O ^ T - - < a i l > - L 0 ' ^ 0 0 ^ C N O 0 0 1 > - < : D
piLqaiCDcO(^^ooo^oqoq^-;^-^cocDiob-co^i—l(^qO(^^rH(^:)IOcolOc»Tf(:DCt>T--ii>b-oooi>-ooT-Hb-05»LO'^(:D o (^>a ii o l (N ^q Oi(T-Hcoocooocoo:ir-io:iO^
|oocooiT-H^-crHooiocococoT--4cxDocooai05 ioi>ioaiioooioiO(Moo^ocsiocsiCi05Cs«05^t-csicDi:^rHo^ kNI(MOC0a5-iO^CN| T-Hi-HrH-i—IrHrHrHrHi—l05050^Cl05CiOi05Qi0^050i050505C5Ci05
|dcdcqr-;dddddd^°9°9'^'^^^'^'^^^^ - 0 5 i o ^ i o i : ^ O T f 0 5 i o ^ i : ^ T t ^ ^ c o ^ o o i o c N i o o o i N OcDO^iO(>jailN- - l > - l > - < y D ' ; D c O
t-
o
o CO
l:^iOT::t^COCOCOCOC;b^ o6cdid'^-sJ^^(^:5cocococococococococococo(^6cM
hi^aiOOOOOCOcOT:t^OT-Ht-cOCMOOCM^lOOCOOLO^T~4COOCJiO^O^ U O C M ^ O i b - ^ O i O b - O O C O O c O O O t - O t ^ O O ^ t ^ O O i L O ^ O ^ ^ ^ O ^ t ^ 0 0 ^ O ^ b - - N t ^ ^ ^ O O 5 O C 0 b - i - H C 0 C M O i l O C M O N - r H C 0 0 0 - ^ C M O 0 0 l > -
lodidio^-^cococococococococooocococococo
O^ O
b^ CM lo>cl oOcCoMcLoOc Lo Oc Oo O OCMO^COTfCMCMOOlOT:tv| cM6r- c^i o^gcCr joOvcCusDiCTJ (C^O"^^^( tL^^^i Occ r| M CtTJ O D UU |00 CM TH O b- C O C O C O C M C O i O C J ^ ^ C T i l O r H O O L O C M O I CO O l>- ^ CM rH O
ai^cocooi>-a5cDLo 0 0 0 5 ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ Q Q ^ O
, jT--i00aiCMC0CMu:5T:tOcQi>cocDCNii>T-Hi-H(:D-i>cOr-ioo^csicoa^o \^cc^':oooc^c I > 0 0 0'^OOCOO:iiOT—iCXDiOlOCOOrHOOlOCNJi—I p ^ O l o a 5 0 c o ^ O i o q ^ - o c D l o ^ ^ c o c o c o c s ^ ( ^ l 0 0 ^ o q o q ^ - J ^ • ^ - -
toC^ICvllOCOcDlOOcDOOOCNICOOO'^COTHCNCNI'^OiCOO^^CNlJ:^^ k f i O T - H 0 0 C < I O t - C < l O C 0 i O i - H < r ) O O i O i O O i O < : 0 ^ ( r 0 C 0 C 0 t > O i < : D 0 0 0 0 C D i - i ( M l O 0 0 0 0 0 0 O O i - H T f I > - C S I I > C S | 0 0 ^ i - H 0 0 0 0 1 > - O l O ^ 0 0 C D ^
(^:)OcDOcoco^oaicxDt-cDiOLo^Tfcocococv«oo^o^oqc»t|o6iOT:f^cococococN^c^icQ(^i(^i(^^c^^c^(^jc^icNi(^i(^^l^ lOCOCaOOOCOlOlOt-OiOO^COt-COT-iOO^i—IT-HCN|CO00T-HC000000O^CD^CD ocsicot^a^cocob-^^ioooT-H-t-aJO^^T-HOOLOOb-C^b-CO'^OOCOr>C.^J l.'J l.'J ^.N I.N i . N
b - C O C O t ^ T - H O O C S I O C O ^ O O O i ^ C N O ^ O O t - ^ ' ^ C X D N - ^ C S l T — l O O O O liOT-HOCOrHi-HO^CSICXDb-b-asCOt-CSIb-COO^iCDCOCOCOb-COOb-CD^
OOt-OO^i-HOOCNlCOCOLO^t^COOOb-t-CDOOcOLOt^ailOCSIt^CDCOO Kp:>OCDCo^-t^rf^-co(^Ic^^^oocqcDCN^oo^^oooooocN^oo^c^loa5
Literatur
Toutenburg, H. (2004). Deskriptive Statistik^ 4- Auflage, Springer Verlag. Toutenburg, H. (2005). Induktive Statistik, 3. Auflage^ Springer Verlag. Toutenburg, H. (2003). Lineare Modelle, 2. Auflage^ Physica Verlag.
Sachverzeichnis
Dummykodierung, 83 - Verteilung, 158 X^-Unabhangigkeitstest, 246 Absolutskala, 9 Additionssatz - flir x^-Verteilungen, 158 - fiir beliebige Ereignisse, 109 - fiir Binomialverteilungen, 148 - fiir disjunkte Ereignisse, 108 - fiir Normalverteilungen, 152 Alternativhypothese, 180 Anpassungstests, 211 arithmetisches Mittel, 24 - Eigenschaften, 24 - gewichtetes, 24 - gewogenes, 24 Assoziation, 51 Assoziationsmafi - Kontingenzkoeffizient C, 53 - Kontingenzmafi von Cramer, 53 - Odds-Ratio, 54 - Phi-Koeffizient, 52 - Rangkorrelationskoeffizient von Spearman, 55 AusreiBer, 30 Auswahl von Elementen - geordnet, 93 - ungeordnet, 93 Balkendiagramm, 13 Bestimmtheitsmafi, 80 Bindung, 55 Binomialkoeffizient, 95 Binomialtest fiir p, 192 Binomial verteilung, 148 Chaos-Plot, 75 Chi-Quadrat-Anpassungstest, 212 Dichtefunktion, 122 Dispersion, 126
Effektkodierung, 83 Einpunkt verteilung, 146 Einstichprobenproblem, 179 Elementarereignis, 103 Ereignisraum, 103 Ereignisse - Additionssatz, 108, 109 - disjunkte, 106 - element are, 103 - komplementare, 104 - Multiplikationssatz, 111 - sichere, 104 - unmogliche, 104 - zufallige, 103 - zusammengesetzte, 104 Erwartungswert, 125 Experiment - Laplacesches, 108 - zufalliges, 103 Extremwerte, 30 F-Test, 186 F-Verteilung, 159 Fakultat, 94 Fehler . Art, 181 . Art, 182 Fehlerglied, 76 Gauss-Markov-Schatzung, 230 Gauss-Markov-Theorem, 230 Gauss-Test - doppelter, 189 - einfacher, 182 Gini-Koeffizient, 31 - normierter, 33 Gleichverteilung - diskrete, 145 - stetige, 150
268
Sachverzeichnis
Grundgesamtheit, 7 Grundraum, 103
Lineare Regression, 229 Lorenzkurve, 31
Haufigkeit - absolute, 107 - relative, 107 Haufigkeit, 11 - absolute, 11 - erwartete, 51 - kumulierte relative, 12 - relative, 11 Haufigkeitstabelle, 11 Histogramm, 15 Homogenitatstest, 215 Hypothese, 180
Mann-Whitney-/7-Test, 216 Mengenoperationen, 104 Merkmal, 7 - standardisiertes, 28 metrische Skala, 9 Mittel - arithmetisches, 24 - gewichtetes arithmetisches, 24 - gewogenes arithmetisches, 24 Mittelwertsvergleich - einfacher, 182, 185 - zweifacher, 189, 191 Multinomial verteilung, 156 Multiplikationssatz, 111
Intervallschatzung, 169 Intervallskala, 9 Kleinste-Quadrate-Schatzungen, 76 Kolmogorov, 108 Kolmogorov-Smirnov - Anpassungstest, 214 - Zweistichprobentest, 215 Kombinationen, 95 - mit Reihenfolge, 96, 98 - mit Wiederholung, 97, 98 - ohne Reihenfolge, 96, 97 - ohne Wiederholung, 96 Kombinatorik, 93 - Regeln, 98 Komplementarereignis, 104 Konfidenzgrenze, 172 Konfidenzmethode, 172 Konfidenzniveau, 172 Konfidenzschatzung, 172 - fiir //, 172, 173 Kontingenzkoeffizient, 53 - korrigierter, 54 KontingenzmaB von Cramer, 53 Kontingenztafel, 47, 243 Kontinuum, 155 Korrelation, 56, 57 Korrelationskoeffizient, 135 - von Bravais-Pearson, 57 - von Spearman, 55 Kovarianz, 133 Kreisdiagramm, 13 /ccr-Regel fiir die Normalverteilung, 154 kumulierte relative Haufigkeit, 12 Lageparameter, 21 Laplace-Experiment, 108 Laplace-Wahrscheinlichkeit, 108
Nichtparametrische Tests, 211 Nominalskala, 9 Normalverteilung, 151 - Dichte, 151 Null-Anpassung, 81 Null-Plot, 75 Nullhypothese, 180 Odds-Ratio, 54, 248 Ordinalskala, 9 p-value, 195 perfekte Anpassung, 80 Permutationen, 94 - mit Wiederholung, 95 - ohne Wiederholung, 94 Phi-Koeffizient, 52 Poissonverteilung, 155 Prinzip der kleinsten Quadrate, 75 Priifen - linearer Hypothesen, 230 Punktschatzung, 169 Q-Q-Plot, 23 Quantil, 22 Quantil-Quantil-Diagramm, 23 Randdichte, 132 Rand verteilung, 48, 130, 132 Range, 27 Rangkorrelationskoeffizient von Spearman, 55 Rangskala, 9 Rechenregeln - fiir den Erwartungswert, 126 - fiir die Varianz, 127
Sachverzeichnis - flir Verteilungsfunktionen, 120 - fiir Wahrscheinlichkeiten, 110 Referenzkategorie, 83 Regeln der Kombinatorik, 98 Regressionsgerade, 76 Residuum, 76 Satz - Bayes, 111 - Gauss-Markov, 230 - Student, 159 - totale Wahrscheinlichkeit, 111 Scatterplot, 49 Schatzung - Gauss-Markov, 230 Skala - Absolutskala, 9 - Intervallskala, 9 - metrische Skala, 9 - Nominalskala, 9 - Ordinalskala, 9 - Verhaltnisskala, 9 Spannweite, 27 Stabdiagramm, 13 Standardabweichung, 27, 127 Standardisierte Zufalls variable, 128 Standardisierung, 28 Standardnormalverteilung, 151 Standardverteilungen, 145 stem-and-leaf plot, 14 Stichprobe, 169 - als Zufallsgrofie, 169 - i.i.d., 169 - konkrete, 169 Stichprobenvarianz - gepoolte, 189 Streubereich, 26 StreuungsmaBe, 26 Streuungszerlegung, 80 Student-Verteilung, 159 t-Test
- doppelter, 189 - einfacher, 185 - paired, 191 t-Verteilung, 159 Test - f/-Test, 216 - Binomialtest, 192, 193 - doppelter t-Test, 189 - doppelter Gauss-Test, 189 - einfacher t-Test, 185 - einfacher Gauss-Test, 182
269
- F-Test, 186 - Kolmogorov-SmirnovAnpassungstest, 214 - Kolmogorov-Smirnov-Test im Zweistichprobenproblem, 215 - Mann-Whitney-Test, 216 - paired t-Test, 191 Testproblem - einseitig, 180 - zweiseitig, 180 Trager einer Verteilung, 121 Treppenfunktion, 121 Unabhangigkeit, 112 - in Kontingenztafeln, 245 - paarweise, 113 - stochastische, 113 - von diskreten Zufallsvariablen, 125 - von stetigen Zufallsvariablen, 132 - von Zufallsvariablen, 124 Ungleichung - Tschebyschev, 129 Untersuchungseinheiten, 7 Ursache-Wirkungs-Beziehung, 74 Variable, 7 Varianz, 27, 126 - Additionssatz, 127, 134 - deskriptive, 27 - Rechenregeln, 127 - Verschiebungssatz, 27, 127 Variationskoeffizient, 29 Verhaltnisskala, 9 Verteilung - gemeinsame, 48 - Rand, 48 Verteilungsfunktion, 119 Vier-Felder-Tafel, 48 Vierfeldertafel, 247 voUstandige Zerlegung, 106 voUstandiges System, 106 Wachstumsfaktor, 25 Wachstumsrate, 25 Wahrscheinlichkeit - a-posteriori. 111 - a-priori. 111 - bedingte, 111 - nach Laplace, 108 Wahrscheinlichkeitsfunktion, 121, 130 Wahrscheinlichkeitsrechnung - Axiomensystem, 108 - Rechenregeln, 110 Wartezeit, 157
270
Sachverzeichnis
Welch-Test, 190 1? .. 1-i^^ - vollstandige, 106 Ziehen
- mit Zuriicklegen, 148 - ohne Zuriicklegen, 149 zufalliges - Ereignis, 103
- Experiment, 103 Zufallsintervall, 172 Zufallsvariablen - diskrete, 121 '
" stetige, 121 " zweidimensionale, 129 Zufallsvektor, 131 Zweistichprobenproblem, 179
Drack und Bindung: Strauss GmbH, Morlenbach