Reiner Hellbrück Angewandte Statistik mit R
Reiner Hellbrück
Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Prof. Dr. Reiner Hellbrück lehrt Volkswirtschaftspolitik und Betriebsstatistik an der FH Würzburg-Schweinfurt.
1. Auflage 2009 2., überarbeitete Auflage 2011 Alle Rechte vorbehalten © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011 Lektorat: Jutta Hauser-Fahr | Walburga Himmel Gabler Verlag ist eine Marke von Springer Fachmedien. Springer Fachmedien ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: MercedesDruck, Berlin Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in Germany ISBN 978-3-8349-2826-9
Vorwort zur zweiten Auflage Kleinere Veränderungen sind vorgenommen worden. So wurde die Bedeutung der Meßbarkeit besser herausgearbeitet. In Kapitel 3 ist die logarithmische Skala hinzugefügt worden und bei der Regression wird die Thematik der Kointegration angesprochen. In Kapitel C wurde eine weitere Möglichkeit zur Installation zusätzlicher -Pakete in Unixsystemen eingefügt. Zudem wurden einige Internetadressen und Befehle aktualisiert sowie Schreibfehler der 1. Auflage korrigiert. Ein herzliches Dankeschön geht an zwei meiner Studenten, Herrn Daniel Back und Herrn Felix Kreß, die mich freundlicherweise auf Druckfehler hingewiesen haben. Alle verbliebenen Fehler gehen selbstverständlich zu meinen Lasten. Freundlichst wird darauf hingewiesen, daß die verwendeten Daten von der Homepage des Verlages heruntergeladen werden können. Hierbei handelt es sich um eine *.zip-Datei. Die enthaltenen Dateien müssen zuerst entpackt werden, damit darauf zugreifen kann. Insbesondere für Dozenten finden sich zusätzliche Materialen; so werden beispielsweise alle Abbildungen zur Verfügung gestellt. Gerne bin ich bereit, eine Befragung mit LimeSurvey zu ermöglichen. Das Programm ist zwar kostenfrei, doch seine Installation auf einem Server, die Nutzung und die Einrichtung von Nutzungsrechten verursachen Kosten. Aktuelle Konditionen erhalten Sie auf Anfrage. Senden Sie bei Interesse eine E-Mail an
[email protected]. Um alle Funktionen des Programms verfügbar zu haben, ist es notwendig, zumindest 2.11 zu installieren. Zudem kann es notwendig sein, Pakete zu aktualisieren; ansonsten kann es zu Fehlermeldungen kommen. So ist die logarithmische Skalierung beispielsweise in älteren Distributionen nicht enthalten. Herr Christian Schuld hat mich freundlicherweise bei der Beschaffung von Literatur unterstützt. Text, Layout, Stichwortverzeichnis, Glossar und Literaturverzeichnis wurden, wie an Fachhochschulen meist der Fall, selbst erstellt. LATEXhat hier wertvolle Dienste geleistet. Würzburg, im Oktober 2010: Reiner Hellbrück
Inhaltsverzeichnis Vorwort zur zweiten Auflage
v
Tabellenverzeichnis
xvii
1 Einleitung 1.1 Gegenstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Datenerhebung - ganz praktisch 2.1 Einleitung . . . . . . . . . . . . . . . 2.2 Software . . . . . . . . . . . . . . . . 2.2.1 Moodle und LimeSurvey . . . 2.2.2 Statistikpaket R . . . . . . . 2.3 Erhebungsplan . . . . . . . . . . . . 2.3.1 Grundlagen . . . . . . . . . . 2.3.2 Beispiel . . . . . . . . . . . . 2.4 Ziehen einer Stichprobe . . . . . . . 2.4.1 Grundlagen . . . . . . . . . . 2.4.2 Beispiel . . . . . . . . . . . . 2.5 Rohdaten auslesen . . . . . . . . . . 2.5.1 Grundlagen . . . . . . . . . . 2.5.2 Beispiel . . . . . . . . . . . . 2.6 Daten in Statistikprogramm einlesen 2.6.1 Grundlagen . . . . . . . . . . 2.6.2 Beispiel . . . . . . . . . . . . 2.7 Plausibilitätsprüfung . . . . . . . . . 2.7.1 Grundlagen . . . . . . . . . . 2.7.2 Beispiel 1 . . . . . . . . . . . 2.7.3 Einfache Datensätze . . . . . 2.7.4 Beispiel 2 . . . . . . . . . . . 2.7.5 Komplexe Datensätze . . . . 2.7.6 Beispiel 3 . . . . . . . . . . . 2.8 Abschließende Bemerkungen . . . . . 2.9 Kontrollfragen . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
1 1 5 9 9 9 9 10 12 12 13 14 14 15 15 15 16 16 16 18 20 20 20 21 22 23 25 26 27
INHALTSVERZEICHNIS
viii
2.10 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3 Datenaufbereitung 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . 3.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . . . 3.3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . . . 3.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . 3.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 3.5.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Verteilungsfunktion und Quantile . . . . . . . . . . . 3.6 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Absolute Häufigkeit . . . . . . . . . . . . . . . . . . 3.6.2 Durchschnittliche Häufigkeitsdichte . . . . . . . . . . 3.7 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Gemeinsame Verteilung . . . . . . . . . . . . . . . . 3.7.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . 3.7.3 Bedingte Verteilung und statistische Unabhängigkeit 3.8 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.3 Gini-Koeffizienten . . . . . . . . . . . . . . . . . . . 3.9 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . 3.10 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . 3.11 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.A Nützliches zu Maßzahlen* . . . . . . . . . . . . . . . . . . . 3.B Logarithmische Skala* . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31 31 32 32 34 38 38 38 39 40 42 42 43 44 45 45 45 47 50 52 52 53 56 56 57 58 59 59 60 63 65 66 67 70 70
4 Statistisches Testen 4.1 Einleitung . . . . . . . . . . . . . . . . . 4.2 Binomialverteilung . . . . . . . . . . . . 4.2.1 Grundlagen . . . . . . . . . . . . 4.2.2 Beispiel . . . . . . . . . . . . . . 4.3 Test . . . . . . . . . . . . . . . . . . . . 4.3.1 Zweiseitige Fragestellung . . . . 4.3.2 Einseitige Fragestellung - Version
. . . . . . .
. . . . . . .
. . . . . . .
73 73 74 74 76 77 77 80
. . . . . . 1
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
INHALTSVERZEICHNIS
ix
4.3.3 Einseitige Fragestellung - Version 4.3.4 Fehler 1. Art . . . . . . . . . . . 4.3.5 Beispiel . . . . . . . . . . . . . . 4.4 Abschließende Bemerkungen . . . . . . . 4.5 Kontrollfragen . . . . . . . . . . . . . . 4.6 Aufgaben . . . . . . . . . . . . . . . . . 4.A Wirkungsanalyse* . . . . . . . . . . . . 4.A.1 Grundlagen . . . . . . . . . . . . 4.A.2 Test . . . . . . . . . . . . . . . . 4.A.3 Beispiel . . . . . . . . . . . . . . 4.A.4 Abschließende Bemerkungen . . 5 Chi-Quadrat Tests 5.1 Einleitung . . . . . . . . . . 5.2 Unabhängigkeitstest . . . . 5.2.1 Grundlagen . . . . . 5.2.2 Beispiel . . . . . . . 5.3 Anpassungstest . . . . . . . 5.3.1 Grundlagen . . . . . 5.3.2 Beispiel . . . . . . . 5.4 Homogenitätstest . . . . . . 5.4.1 Grundlagen . . . . . 5.4.2 Beispiel . . . . . . . 5.5 Abschließende Bemerkungen 5.6 Kontrollfragen . . . . . . . 5.7 Aufgaben . . . . . . . . . .
2 . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
82 83 83 86 87 88 91 91 92 93 94
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
95 95 96 96 98 101 101 102 103 103 105 107 107 108
6 Wahrscheinlichkeitsräume 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . 6.2 Definitionsmenge . . . . . . . . . . . . . . . . . 6.3 Wahrscheinlichkeitsraum der Grundgesamtheit 6.4 Wahrscheinlichkeitsraum der Stichprobe . . . . 6.5 Wichtige Zusammenhänge und Begriffe . . . . . 6.5.1 Rechenregeln . . . . . . . . . . . . . . . 6.5.2 Bedingte Wahrscheinlichkeit . . . . . . . 6.5.3 Stochastische Unabhängigkeit . . . . . . 6.5.4 Multiplikationssatz . . . . . . . . . . . . 6.5.5 Satz von der totalen Wahrscheinlichkeit 6.5.6 Satz von Bayes . . . . . . . . . . . . . . 6.5.7 Diskreter Wahrscheinlichkeitsraum . . . 6.6 Abschließende Bemerkungen . . . . . . . . . . . 6.7 Kontrollfragen . . . . . . . . . . . . . . . . . . 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
111 111 112 114 117 119 119 120 120 121 121 122 124 125 125 126
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
x
INHALTSVERZEICHNIS
7 Abbildungen von Ergebnisräumen 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Meßbarkeit und Zufallsvariable . . . . . . . . . . . . 7.2.1 Meßbarkeit . . . . . . . . . . . . . . . . . . . 7.2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . 7.3 Verteilungsfunktion und Dichte . . . . . . . . . . . . 7.3.1 Verteilungsfunktion . . . . . . . . . . . . . . 7.3.2 Dichte . . . . . . . . . . . . . . . . . . . . . . 7.4 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Erwartungswert . . . . . . . . . . . . . . . . . 7.4.2 Kovarianz, Varianz und Standardabweichung 7.4.3 Standardisierung . . . . . . . . . . . . . . . . 7.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 7.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 7.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
129 129 130 130 131 132 132 134 135 135 136 137 137 138 139
8 Einfache Korrelationsanalyse 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Wahrscheinlichkeitstheorie . . . . . . . . . . . 8.2.2 Empirische Korrelation (Bravais-Pearson) . . 8.2.3 Berechnung bei Wertepaaren . . . . . . . . . 8.2.4 Beispiele . . . . . . . . . . . . . . . . . . . . . 8.3 Tests bei kardinalen Merkmalen . . . . . . . . . . . . 8.3.1 Stetige normalverteilte Zufallsvariablen . . . 8.3.2 Stetige nicht-normalverteilte Zufallsvariablen 8.4 Test bei ordinalen Merkmalen: Bell-Doksum Test . . 8.4.1 Test . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Beispiel . . . . . . . . . . . . . . . . . . . . . 8.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 8.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 8.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 8.A Weitere Tests* . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
141 141 143 143 143 144 145 147 147 152 158 158 159 163 164 164 166
9 Multivariate Korrelationsanalyse* 9.1 Einleitung . . . . . . . . . . . . . . . . . . . . . 9.2 Vergleich zweier Korrelationen . . . . . . . . . 9.2.1 Grundlagen . . . . . . . . . . . . . . . . 9.2.2 Beispiel . . . . . . . . . . . . . . . . . . 9.3 Partielle Korrelation . . . . . . . . . . . . . . . 9.3.1 Grundlagen . . . . . . . . . . . . . . . . 9.3.2 Beispiel 1 . . . . . . . . . . . . . . . . . 9.3.3 Test . . . . . . . . . . . . . . . . . . . . 9.3.4 Beispiel 2 . . . . . . . . . . . . . . . . . 9.4 Zusammenhang zwischen mehreren Merkmalen 9.4.1 Grundlagen . . . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
169 169 170 170 171 172 172 173 173 174 174 174
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS 9.4.2 Beispiel . . . . . . . Globaltest . . . . . . . . . . 9.5.1 Test . . . . . . . . . 9.5.2 Beispiel . . . . . . . 9.6 Multiple Vergleiche . . . . . 9.6.1 Test . . . . . . . . . 9.6.2 Beispiel . . . . . . . 9.7 Multiple Korrelation . . . . 9.7.1 Grundlagen . . . . . 9.7.2 Beispiel 1 . . . . . . 9.7.3 Test . . . . . . . . . 9.7.4 Beispiel 2 . . . . . . 9.8 Kanonische Korrelation . . 9.8.1 Grundlagen . . . . . 9.8.2 Beispiel 1 . . . . . . 9.8.3 Test . . . . . . . . . 9.8.4 Beispiel 2 . . . . . . 9.9 Abschließende Bemerkungen 9.10 Kontrollfragen . . . . . . . 9.11 Aufgaben . . . . . . . . . . 9.5
xi . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
10 Daten- und Distanzmatrix 10.1 Einleitung . . . . . . . . . . . . . . . 10.2 Distanzmatrizen . . . . . . . . . . . 10.2.1 Definition und Eigenschaften 10.2.2 Skalierung . . . . . . . . . . . 10.3 Kardinale Merkmale . . . . . . . . . 10.3.1 Intervall- und Verhältnisskala 10.3.2 Manhattan-Distanz . . . . . . 10.4 Ordinale Merkmale . . . . . . . . . . 10.4.1 Grundlagen . . . . . . . . . . 10.4.2 Beispiel . . . . . . . . . . . . 10.5 Nominale Merkmale . . . . . . . . . 10.5.1 Grundlagen . . . . . . . . . . 10.5.2 Beispiel . . . . . . . . . . . . 10.6 Binäre Merkmale . . . . . . . . . . . 10.6.1 Grundlagen . . . . . . . . . . 10.6.2 Beispiel . . . . . . . . . . . . 10.7 Abschließende Bemerkungen . . . . . 10.8 Kontrollfragen . . . . . . . . . . . . 10.9 Aufgaben . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
176 177 177 177 178 178 180 183 183 183 184 185 186 186 187 188 189 190 191 192
. . . . . . . . . . . . . . . . . . .
193 193 195 195 196 196 196 198 202 202 203 206 206 206 207 207 209 210 211 211
INHALTSVERZEICHNIS
xii
11 Clusteranalyse 11.1 Einleitung . . . . . . . . . . . . . . . . . . . 11.2 Klassifikation . . . . . . . . . . . . . . . . . 11.2.1 Klassifikationstypen . . . . . . . . . 11.2.2 Konstruktionsverfahren . . . . . . . 11.3 PAM . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Grundlagen . . . . . . . . . . . . . . 11.3.2 Beispiel 1 . . . . . . . . . . . . . . . 11.3.3 Bestimmung der Medoiden* . . . . . 11.3.4 Beispiel 2 . . . . . . . . . . . . . . . 11.3.5 Isolierte Cluster . . . . . . . . . . . . 11.3.6 Beispiel 3 . . . . . . . . . . . . . . . 11.3.7 Überprüfung der Klassenbildung . . 11.3.8 Beispiel 4 . . . . . . . . . . . . . . . 11.3.9 Bestimmung der Klassenzahl . . . . 11.3.10 Beispiel 5 . . . . . . . . . . . . . . . 11.4 FANNY . . . . . . . . . . . . . . . . . . . . 11.4.1 Grundlagen . . . . . . . . . . . . . . 11.4.2 Beispiel 1 . . . . . . . . . . . . . . . 11.4.3 Partition und Überdeckung . . . . . 11.4.4 Beispiel 2 . . . . . . . . . . . . . . . 11.4.5 Überprüfung der Klassenbildung und 11.4.6 Beispiel 3 . . . . . . . . . . . . . . . 11.5 MONA . . . . . . . . . . . . . . . . . . . . . 11.5.1 Grundlagen . . . . . . . . . . . . . . 11.5.2 Beispiel 1 . . . . . . . . . . . . . . . 11.5.3 Assoziationsmaß . . . . . . . . . . . 11.5.4 Beispiel 2 . . . . . . . . . . . . . . . 11.5.5 Missings . . . . . . . . . . . . . . . . 11.5.6 Beispiel 3 . . . . . . . . . . . . . . . 11.6 Abschließende Bemerkungen . . . . . . . . . 11.7 Kontrollfragen . . . . . . . . . . . . . . . . 11.8 Aufgaben . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassenanzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
215 215 218 218 219 220 220 220 224 228 228 229 230 232 233 233 233 233 235 236 237 240 241 241 241 242 244 245 248 248 249 250 251
12 Einfache Regression 12.1 Einleitung . . . . . . . . . . . . . . . . . 12.2 Einfaches klassisches Regressionsmodell 12.2.1 Grundlagen . . . . . . . . . . . . 12.2.2 Beispiel . . . . . . . . . . . . . . 12.3 Regressionsfunktion . . . . . . . . . . . 12.3.1 Grundlagen . . . . . . . . . . . . 12.3.2 Beispiel . . . . . . . . . . . . . . 12.4 Prognose . . . . . . . . . . . . . . . . . . 12.4.1 Grundlagen . . . . . . . . . . . . 12.4.2 Beispiel 1 . . . . . . . . . . . . . 12.4.3 Problem . . . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
253 253 254 254 257 259 259 260 262 262 262 263
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS
xiii
12.4.4 Beispiel 2 . . . . . . . . . . . . . 12.5 Bestimmtheitsmaß . . . . . . . . . . . . 12.5.1 Grundlagen . . . . . . . . . . . . 12.5.2 Beispiel . . . . . . . . . . . . . . 12.6 Vollständiges Modell . . . . . . . . . . . 12.7 Tests . . . . . . . . . . . . . . . . . . . . 12.7.1 Grundlagen . . . . . . . . . . . . 12.7.2 Beispiel . . . . . . . . . . . . . . 12.8 Abschließende Bemerkungen . . . . . . . 12.9 Kontrollfragen . . . . . . . . . . . . . . 12.10Aufgaben . . . . . . . . . . . . . . . . . 12.A Beweis der Streuungszerlegungsformel* . 12.B Erwartungswerte der KQ-Koeffizienten* 12.C Standardisierung* . . . . . . . . . . . . 12.C.1 Erwartungswert . . . . . . . . . . 12.C.2 Varianz . . . . . . . . . . . . . . 12.D Partielle Korrelation* . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
263 265 265 267 269 270 270 272 274 275 276 278 279 280 280 280 282
A Theoretische Verteilungen A.1 Einleitung . . . . . . . . . . . . . . . . . . A.2 Diskrete Verteilungen . . . . . . . . . . . A.2.1 Gleichverteilung* . . . . . . . . . . A.2.2 Bernoulli- und Binomialverteilung A.2.3 Hypergeometrische Verteilung* . . A.2.4 Poisson-Verteilung* . . . . . . . . A.2.5 Geometrische Verteilung* . . . . . A.3 Stetige Verteilungen . . . . . . . . . . . . A.3.1 Rechteckverteilung . . . . . . . . . A.3.2 Exponentialverteilung* . . . . . . . A.3.3 Normalverteilung . . . . . . . . . . A.3.4 Chi-Quadrat-Verteilung . . . . . . A.3.5 t-Verteilung . . . . . . . . . . . . . A.3.6 F-Verteilung . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
285 285 286 286 287 288 289 291 293 293 295 296 301 302 305
B Matrizenrechnung B.1 Einleitung . . . . . . . . . . . . . . . B.2 Matrizen . . . . . . . . . . . . . . . . B.2.1 Definition . . . . . . . . . . . B.2.2 Vektoren . . . . . . . . . . . B.2.3 Typen . . . . . . . . . . . . . B.3 Verknüpfungen . . . . . . . . . . . . B.3.1 Gleichheitsrelation . . . . . . B.3.2 Addition . . . . . . . . . . . . B.3.3 Skalare Multiplikation . . . . B.3.4 Produkt zweier Matrizen . . B.3.5 Multiplikation von Vektoren .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
309 309 310 310 310 311 312 312 313 314 316 318
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS
xiv
B.4 Unabhängigkeit, Rang, Determinante, Inverse B.4.1 Lineare Unabhängigkeit . . . . . . . . B.4.2 Rang . . . . . . . . . . . . . . . . . . . B.4.3 Determinante . . . . . . . . . . . . . . B.4.4 Inverse . . . . . . . . . . . . . . . . . . B.5 Eigenwerte, Eigenvektoren und Spur . . . . . B.5.1 Definitionen . . . . . . . . . . . . . . . B.5.2 Rechenregel . . . . . . . . . . . . . . . B.5.3 Beispiele . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
319 319 319 320 322 325 325 325 325
C Befehle in R C.1 Einleitung . . . . . . . . . . . . . . . . . . . . C.2 Grundlagen . . . . . . . . . . . . . . . . . . . C.3 Daten einlesen, Objekte speichern und laden . C.4 Dateneigenschaften . . . . . . . . . . . . . . . C.5 Manipulation eingelesener Datensätze . . . . C.6 Graphik . . . . . . . . . . . . . . . . . . . . . C.7 Suchen und Finden . . . . . . . . . . . . . . . C.8 Besonderheiten in Windows . . . . . . . . . . C.9 Fehlermeldungen . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
327 327 328 330 332 334 335 336 339 339
Anmerkungen und Lösungen
342
Glossar
355
Literaturverzeichnis
359
Stichwortverzeichnis
361
Abbildungsverzeichnis 2.1 2.2
Rohdaten in Tabellenkalkulationsprogramm einlesen . . . . . . . Anwendung empirische versus korrigierte Varianz . . . . . . . . .
17 22
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 3.14 3.15
Einfaches Liniendiagramm . . . . . . . . . . . . . . . . . Liniendiagramm bei komplexen Datensätzen . . . . . . . Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . Berechnung der Quantile mit Option Typ 7 . . . . . . . Korrekte graphische Darstellung der Verteilungsfunktion Histogramm mit absoluten Häufigkeiten . . . . . . . . . Histogramm mit durchschnittlicher Häufigkeitsdichte . . Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . Lorenzkurve: Konzentration auf ein Merkmal . . . . . . Umsatzentwicklung bei arithmetischer Skalierung . . . . Umsatzentwicklung bei halblogarithmischer Skalierung .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
35 37 39 41 42 44 48 50 51 53 55 62 64 71 72
4.1 4.2 4.3 4.4
Binomialverteilung . . . . . . . . . . . . . . . . . Hypothesentest: zweiseitige Fragestellung . . . . Hypothesentest: einseitige Fragestellung - Version Hypothesentest: einseitige Fragestellung - Version
. . . .
. . . .
. . . .
. . . .
. . . .
78 80 81 82
5.1
Annahme und Verwerfungsbereich . . . . . . . . . . . . . . . . .
98
6.1 6.2
Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit 122 Baumdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8.1 8.2 8.3
Streudiagramme (= Scatterplots) . . . . . . . . . . . . . . . . . . 146 Veranschaulichung des Tests auf insignifikante Korrelation . . . . 151 Fishers z-Transformation . . . . . . . . . . . . . . . . . . . . . . . 167
. . 1 2
. . . .
. . . .
. . . .
10.1 Illustration der Manhattan-Distanz . . . . . . . . . . . . . . . . . 199
ABBILDUNGSVERZEICHNIS
xvi 11.1 11.2 11.3 11.4
Verfahren . . . . . . . . . . Silhouette des ’output3’ . . Silhouette des ’output8’ . . Clusterbildung mit MONA
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
217 231 232 244
12.1 Einkommen in Abhängigkeit des Alters . . . . . . . . . . . . . . . 258 12.2 KQ-Schätzung einer Cobb-Douglas Produktionsfunktion . . . . . 261 12.3 Translationsinvarianz des Bestimmtheitsmaßes . . . . . . . . . . 268 A.1 Hypergeometrische Verteilung . . . . . . . . . . . . A.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . A.3 Verteilungsfunktion der Poisson-Verteilung . . . . . A.4 Geometrische Verteilung . . . . . . . . . . . . . . . A.5 Verteilungsfunktion der Geometrischen-Verteilung A.6 Rechteckverteilung . . . . . . . . . . . . . . . . . . A.7 Verteilungsfunktion der Rechteckverteilung . . . . A.8 Exponentialverteilung . . . . . . . . . . . . . . . . A.9 Verteilungsfunktion der Exponentialverteilung . . . A.10 Standardnormalverteilung . . . . . . . . . . . . . . A.11 Verteilungsfunktion der Standardnormalverteilung A.12 Dichtefunktion der Chi-Quadrat-Verteilung . . . . A.13 Verteilungsfunktion der Chi-Quadrat-Verteilung . . A.14 Dichtefunktion der t-Verteilung . . . . . . . . . . . A.15 Verteilungsfunktion der t-Verteilung . . . . . . . . A.16 Dichtefunktion der F-Verteilung . . . . . . . . . . . A.17 Verteilungsfunktion der F-Verteilung . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
290 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307
Tabellenverzeichnis 2.1 2.2 2.3
Daten YX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten Einkommen Alter Ausbildungsjahre . . . . . . . . . . . . . Daten2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18 20 24
3.1 3.2 3.3 3.4 3.5 3.6
Arbeitslose in Deutschland . . . . . . . . . . . Vier mal drei Kontingenztabelle . . . . . . . . . Randverteilung . . . . . . . . . . . . . . . . . . 1. Schritt zur Erstellung einer Lorenz-Kurve . . 2. Schritt zur Erstellung einer Lorenz-Kurve . . Umsatzentwicklung, Quelle: Daten frei erfunden
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
33 56 57 60 60 70
5.1 5.2 5.3 5.4 5.5 5.6
Illustration zur Berechnung theoretischer Häufigkeiten Rohdaten . . . . . . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit absoluten Häufigkeiten . . . . . Eingabe x . . . . . . . . . . . . . . . . . . . . . . . . . Eingabe y . . . . . . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit bedingter Verteilung . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. 97 . 99 . 99 . 100 . 101 . 103
8.1 8.2
Beispiel: Umsatz - Bruttowertschöpfung . . . . . . . . . . . . . . 148 Ränge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
9.1
Umsatz und Entfernung . . . . . . . . . . . . . . . . . . . . . . . 171
. . . . . .
. . . . . .
. . . . . .
10.1 Kontingenztabelle bei binären Merkmalen . . . . . . . . . . . . . 208 11.1 Datenmatrix zur Bildung von zwei Partitionen . . . . . . . . . . 220 11.2 Binäre Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . 242
Kapitel 1
Einleitung 1.1
Gegenstand
Ziel dieses Lehrbuches ist es, den Leser so schnell wie möglich in die Lage zu versetzen, Daten sinnvoll auszuwerten. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen Rohdaten mit einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des Statistikprogramms ausgewertet werden. Die so gewonnenen Ergebnisse werden entweder mit oder einem Tabellenkalkulationsprogramm graphisch aufbereitet. Eine große Zahl an Statistiklehrbüchern gibt es und so stellt sich die Frage: warum braucht die Welt ein weiteres? Die Inhalte dieses Lehrbuches beruhen auf einer Befragung meiner betriebswirtschaftlichen Kollegen. Da die Inhalte existierender Lehrbücher deren Nachfrage in unbefriedigender Weise abdecken, lag es nahe, ein am Bedarf orientiertes Lehrbuch zu verfassen. Anders als Volkswirte, erstellen Betriebswirte in Marketing und Personalwirtschaft häufig selbst Fragebögen. Hieraus ergibt sich die Notwendigkeit des Ziehens von Stichproben sowie der Überprüfung der Daten auf Plausibilität. In der betrieblichen Praxis, beispielsweise dem Controlling, genügt es häufig, die Daten zur Entscheidungsvorbereitung graphisch oder mit Hilfe von Kennzahlen aufzubereiten. Deshalb sollten auch Verfahren zur Präsentation von Auswertungen dargestellt werden. Bei der Auswertung von Fragebögen werden in der Personalwirtschaft Korrelationsanalysen durchgeführt. In Einführungslehrbüchern der Statistik werden diese Methoden üblicherweise nicht dargestellt. Die Clusteranalyse wird an der FH Würzburg-Schweinfurt in der Marktforschung als Instrument erwähnt und kurz besprochen, woraus sich eine abgeleitete Nachfrage in der Statistik herleitet. In der Logistik und dem Controlling werden zu Planungszwecken Prognosen erstellt. Die Grundlagen hierfür sollten in der Statistikveranstaltung gelegt werden. Die Gliederung aller dem Autor bekannter Standardlehrbücher ist dreigeteilt: deskriptive Statistik, Wahrscheinlichkeitstheorie und schließende Statistik. Ist der Student bei der schließenden Statistik angelangt, so ist er häufig nicht R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-6693-3_1, © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011
2
KAPITEL 1. EINLEITUNG
in der Lage, die Bezüge zur Wahrscheinlichkeitstheorie zu erkennen. Im übrigen ist es Studenten kaum zu vermitteln, weshalb sie dieselben Formeln, die sie bereits in der deskriptiven Statistik kennengelernt haben, in exakt derselben oder leicht abgewandelten Form in der Wahrscheinlichkeitstheorie wieder lernen sollen. Entscheidend ist der Zusammenhang, in den die Begriffe gestellt werden und so sollte die einmalige Einführung eines Begriffes und der Kontext, in den er gestellt wird, genügen. Aus diesen Gründen werden hier, ohne explizit auf Wahrscheinlichkeitstheorie einzugehen, zuerst die Prinzipien statistischen Testens vorgestellt, um dem Studenten zu veranschaulichen, wozu die Wahrscheinlichkeitstheorie überhaupt nütze ist. Dieses Vorgehen wird durch die Verwendung von Statistiksoftware erst möglich. Denn nun können, ohne vorherige Standardisierung von Zufallsvariablen, Quantile berechnet werden. Zudem werden die Verfahren mit einem Statistikprogramm relativ leicht nachvollziehbar. Selbst große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten, die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem solchen Fall helfen allgemeine Hinweise, wie der Statistiker sich in solchen Situationen verhalten kann, nicht weiter. Man muß wissen, wie das verwendete Programm damit umgeht, um korrekte Interpretationen liefern zu können. Zudem sollte man auch bedenken, welche Fehler bei größeren Datenmengen entstehen: sie sind häufig vernachlässigbar gering. Statistik lebt von der Anwendung. Zur Anregung sind Beispiele eingeflochten mit Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich. Im Zuge ihrer Diskussion werden auftretende praktische Probleme angesprochen und Lösungsmöglichkeiten unterbreitet. Die Aufgabenstellungen am Ende jeden Kapitels umfassen nicht nur die Anwendung statistischer Verfahren, sondern auch methodische Fragen, solche, die in der praktischen Anwendung auftauchen. Der Leser wird hierdurch gezwungen, die Methoden zu reflektieren und, falls die Anwendungsbedingungen nicht vorliegen sollten, nach passenden zu suchen. Der Anfänger wird dann naturgemäß Schwierigkeiten haben, eine adäquate Lösung selbst zu finden. Aus diesem Grund fällt den Lösungen eine besondere Bedeutung zu. Dieses Vorgehen wurde bewußt gewählt, denn in der betrieblichen Praxis stellt dies eher den Normalfall dar. Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und -verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, mit deren Hilfe praktisch zum Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden können. So gibt es OpenOffice, zu erhalten über www.openoffice.org, ein komplettes Officepaket mit Textverarbeitung, Tabellenkalkulation, Präsentation, Zeichen- sowie einem Datenbankprogramm. Es wird als Teil des Betriebssystems Linux üblicherweise mitgeliefert. Linux, ebenfalls eine Opensourcesoftware, kann parallel zu Windowsbetriebssystemen
1.1. GEGENSTAND
3
(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PCs kann der Nutzer dann zwischen dem Windowssystem und Linux wählen. Im Buchhandel und einschlägigen PC-Shops kann es erworben, gelegentlich auch für ein paar Euro als Beilage zu einschlägigen Zeitschriften mit ’Linux’ in der Titelleiste gekauft oder aus dem Internet kostenlos heruntergeladen werden. Die Distributionen unterscheiden sich allerdings qualitativ. Im Handel können welche mit Handbüchern gekauft werden und man erhält, abhängig von der Firma (Suse oder RedHat), auch Unterstützung bei Problemen. Dieser Service ist ansonsten nicht vorhanden. Linux-CD’s aus Zeitschriften können, der Autor hat es ausprobiert, ebenso problemlos genutzt werden wie die Versionen, die aus dem Internet heruntergeladen werden können. Der Unterschied zwischen diesen beiden Zugangswegen ist, daß im letzten Fall sehr große Datenmengen gehandhabt werden müssen. Gängige Browser und Dateimanager können dann versagen. Ist Linux bereits installiert, so kann Bittorrent eingesetzt werden. Ansonsten ist die Installation denkbar einfach: lege die Installations-DVD ein und automatisch wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann. OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das Statistikprogramm , das über http://cran.r-project.org/ aus dem Internet heruntergeladen werden kann. Neben dieser befehlsbasierten Version gibt es auch eine mit graphischer Oberfläche, zu erhalten über www.statistiklabor.de. Auch ’moodle’, eine serverbasierte Plattform, die für E-Learning geeignet ist, aber auch zur Online-Datenerhebung verwandt werden kann, ist interessant. Diese Software wird im Internet über www.moodle.de zur Verfügung gestellt. Sie ist in manchen Linuxdistributionen bereits vorhanden und muß händisch nur noch installiert werden. Limesurvey ist ein Werkzeug, das speziell zur Onlinebefragung entwickelt wurde. Informationen über das Programm wie auch Downloads können über www.limesurvey.org bezogen werden. Es ist ebenso wie die bereits aufgeführte Software frei verfügbar. Der Vorteil dieser Software liegt darin, daß Studenten mit Tools lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während des Studiums zu Hause mit der Software vertraut zu machen, zu üben und zu lernen. Die Lerneinheiten können auch mit kommerzieller Software bearbeitet werden, doch angesichts der beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.
4
KAPITEL 1. EINLEITUNG
Aus der Perspektive von Unternehmen lohnt sich die Beschäftigung unserer Absolventen. Denn viele arbeiten in kleinen und mittelständischen Unternehmen. Ist keine Statistiksoftware vorhanden, so bringen unsere Absolventen attraktive Software und die nötigen Kenntnisse mit. Wird standardmäßig mit kommerzieller Software gearbeitet, so sollte ein Umstieg hierauf ohne größere Probleme möglich sein. Der größte Vorteil liegt jedoch in der Möglichkeit, statistische Auswertungen automatisch oder wenigstens halb-automatisch durchführen zu können. Dies geschieht über die Erstellung von Befehlsdateien, die als Textdatei abgespeichert werden und bei Bedarf über den Zwischenspeicher in kopiert werden. Haben Akademiker sich jedoch bereits auf Statistiksoftware mit graphischer Oberfläche eingearbeitet, so stellt dies den ’Industriestandard’ dar und größere automatisierte Auswertungen benötigen viel mehr Zeit, als die Nutzung von Befehlsdateien in . Das vorliegende Buch wurde übrigens ebenfalls mit freier Software erstellt, mit LATEX. Dies ist eine Sammlung von Makros, mit dem TEX, das wunderbare Setzprogramm von Donald E. Knuth, auf vergleichsweise einfache Art und Weise verwendet werden kann. Nützliche Informationen und Downloads findet man über www.latex-project.org. Für einen schnellen Einstieg in das Programm kann OpenOffice genutzt werden. Man schreibe seinen Text in OpenOffice-Writer und wähle ’Datei-Export’, wobei ’Latex 2e’ als Filter gewählt wird. Die so erzeugte ’*.tex’-Datei enthält alle nötigen Befehle, um ein TEX-Dokument zu erstellen. In Linuxdistributionen kann ’emacs-auctec’ aktiviert werden, wodurch mit Emacs auch Latex-Dokumente auf angenehme Art verarbeitet werden können. Es gibt eine Vielzahl an Statistiklehrbüchern, in denen Statistik dargestellt wird. Im wesentlichen lassen sich drei Arten unterscheiden. Zum einen gibt es Bücher, die sich ausschließlich mit der Statistik beschäftigen. Dann gibt es solche, die bereits Vorkenntnisse in Statistik voraussetzen und sich auf die praktische Umsetzung mit Statistikprogrammen konzentrieren. Schließlich sind jene zu erwähnen, die Statistik und Nutzung von Statistiksoftware in einem Buch vereinen. Zu der ersten Kategorie zählt das Buch von Bamberg und Baur (1984). Es ist seit Jahren ein Klassiker, aktualisierte Versionen liegen vor. Schira (2005), ein neueres Werk, gibt einen eher theoretischen Einstieg, ohne zu mathematisch daherzukommen. Die Beispiele und Aufgaben dieser Bücher können gut zu Übungszwecken herangezogen werden. Dolic (2004) ist, wie andere Literatur mit Bezug zu im Titel, im ersten Teil fokussiert auf das Programm. Dann ändert sich der Aufbau und es werden Teilbereiche der Statistik dargestellt, die mit bearbeitet werden können. Dennoch können ihm nützliche Informationen entnommen werden. Zwerenz (2006) verwendet zur Auswertung Excel und SPSS, beides kommerzielle Standardsoftware, ein Buch, das den Umstieg auf SPSS erleichtert.
1.2. AUFBAU
1.2
5
Aufbau
Statistik ist mehr und mehr die Auseinandersetzung mit Software, ökonomischer Theorie, Statistik und Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Damit rückt unvermittelt die fachliche Orientierung in den Mittelpunkt des Interesses. Statistik ohne theoretischen Hintergrund zu betreiben, macht wenig Sinn. Das Buch wendet sich vor allem an Ökonomen und so sind die hier verwendeten Beispiele vor allem den Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die mit ’*’gekennzeichneten Kapitel übersprungen werden. Die verwendeten Daten werden im Internetangebot des Verlages zur Verfügung gestellt. Die mit ’*.Rdata’ gekennzeichneten Dateien werden über den Befehl > load("Dateiname.Rdata") in das Programm eingelesen. Um zu erkennen, welche Variablen oder Objekte nun verfügbar sind, verwende man die Anweisung
-
> ls(). In Kapitel 2 wird die Datenerhebung über Onlinebefragung beschrieben. Es wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt. Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird beschrieben, wie Rohdaten auf Plausibilität überprüft werden können. Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden in Kapitel 3 beschrieben. Die Ausführungen beginnen mit grundlegenden Bemerkungen und werden anschließend durch Beispiele veranschaulicht. Es zeigt sich, daß mit einigen wenigen Befehlen auch umfangreiche Daten mit Maßzahlen charakterisiert und graphisch aufbereitet werden können. Diese Methoden werden in anderen Lehrbüchern üblicherweise unter der Überschrift ’deskriptive’ oder ’beschreibende Statistik’ abgehandelt. Diesem Gebrauch wird hier nicht gefolgt. Bevor überhaupt eine Datenauswertung erfolgt, sollte man sich im klaren darüber sein, welchem Zweck die Datenauswertung dient. Hieraus ist abzuleiten, wie mit den Daten umgegangen werden muß. In der Praxis werden Methoden des Kapitels 3 üblicherweise genutzt, um sich einen ersten Eindruck über die Datenlage zu verschaffen. Dies kann leicht zu Fehlverhalten führen (siehe die Anekdote auf Seite 12). Erste statistische Tests stehen im Mittelpunkt des Kapitels 4. Wissen um die Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich. Anhand des Binomialtests über den Anteilswert werden die Prinzipien statistischer Tests erläutert. Diese Einsichten werden in Kapitel 5 vertieft. Zudem können diese Tests gerade bei der Auswertung von Fragebögen sinnvoll eingesetzt werden. Nachdem die Grundlagen des statistischen Testens gelegt sind, wird die Wahrscheinlichkeitstheorie in den Kapiteln 6 und 7 präsentiert. Sofern die Grundlagen der Wahrscheinlichkeitstheorie bereits gelegt sein sollten, können diese
6
KAPITEL 1. EINLEITUNG
beiden Kapitel übersprungen werden. Zum besseren Verständnis empfiehlt sich jedoch die Lektüre der Abschnitte 6.3 und 6.4. Der Begriff des Wahrscheinlichkeitsraumes, konkret bezogen auf die Grundgesamtheit sowie den Stichprobenraum wird eingeführt. Es schließen sich wichtige Lehrsätze der Wahrscheinlichkeitstheorie an. Die zentralen Begriffe bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, der Multiplikationssatz sowie der Satz von der theoretischen Wahrscheinlichkeit werden hier vorgestellt. In Kapitel 7 werden Zufallsvariablen eingeführt, der zentrale Begriff, der die Grundlage für theoretische Wahrscheinlichkeitsverteilungen und Verteilungsfunktionen bildet. Die wichtigsten Kenngrößen, wie Erwartungswert und Varianz theoretischer Verteilungen sowie die Technik des Standardisierens finden sich hier. Die Korrelationsanalyse ist in zwei Kapitel aufgespalten: die einfache wird in Kapitel 8 und die multiple in Kapitel 9 dargestellt. Zunächst wird der Begriff der Korrelation in der Wahrscheinlichkeitstheorie eingeführt. Es schließen sich die Ausführungen über die Schätzung der Korrelation bei Vorliegen einer einfachen Stichprobe an. Als Gliederungskriterium des Kapitels 8 dient das Skalenniveau des betrachteten Merkmals. Die multivariate Korrelationsanalyse startet mit dem Vergleich zweier Korrelationen, der auf den Vergleich mehrerer Korrelationen ausgeweitet wird. Hier findet sich auch die partielle Korrelation, die in der praktischen Arbeit von Bedeutung ist. Bei dem restlichen Kapitel werden Grundkenntnisse der Matrizenrechnung vorausgesetzt, die gegebenenfalls in Anhang B nachgelesen werden können. Kapitel 10 (Daten- und Distanzmatrix) und 11 (Clusteranalyse) bilden eine Einheit. Letztlich dienen beide Kapitel dazu, statistische Einheiten automatisch Klassen zuzuordnen (=Clusteranalyse). In ersterem wird das Skalenniveau der Merkmale näher betrachtet. Insbesondere werden binäre Variablen eingeführt, die in symmetrische und asymmetrische unterteilt werden. In der praktischen Anwendung der Clusteranalyse werden die verwendeten Merkmale im allgemeinen nicht dasselbe Skalenniveau aufweisen. Deshalb ist es nötig, zumindest ein Verfahren aufzuzeigen, mit Hilfe dessen, dieses Problem bewältigt werden kann. Dies ist der zentrale Inhalt des Kapitel 10. Im nachfolgenden Kapitel werden ausgewählte Verfahren der Clusteranalyse dargestellt. Nachdem verschiedene Klassifikationstypen und -verfahren dargestellt worden sind, wird ein Verfahren zu Bildung von Partitionen präsentiert. Hierbei wird auch eine Methode vorgestellt, mit deren Hilfe bei Bedarf die Klassenanzahl bestimmt werden kann. Mit FANNY, einer Methode zur Bestimmung unscharfer Mengen, wird auch gezeigt, wie Überdeckungen gebildet werden können. Bei Vorliegen ausschließlich binärer Daten kann mit MONA eine Hierarchie konstruiert werden. In Kapitel 12 wird schließlich die Regressionsrechnung dargestellt. Hauptzweck ist die Erstellung von Prognosen. Nach einleitenden Hinweisen zur Methode der kleinsten Quadrate (KQ-Methode) wird auf die Regressionsfunktion eingegangen. Es zeigt sich, daß die lineare Funktion aus verschiedenerlei Gründen nicht so einschränkend ist, wie sie auf den ersten Blick erscheint. Anschlie-
1.2. AUFBAU
7
ßend wird erläutert, wie Prognosen erstellt werden können. Ihre Güte hängt maßgeblich von der Zuverlässigkeit und Stabilität der geschätzten Regressionskoeffizienten ab. Aus diesem Grund ist es wünschenswert, Maße zur Überprüfung der Güte zur Verfügung zu haben. Deshalb werden in Kapitel 12.5 das Bestimmtheitsmaß und in 12.7 Signifikanztests vorgestellt. Abschließende Bemerkungen runden das Kapitel ab. Die wichtigsten diskreten und stetigen theoretischen Verteilungen sind in Anhang A dargestellt. Matrizen sind bei der praktischen Arbeit ein unentbehrliches Werkzeug. Ihre Definition, die Definition von Verknüpfungen, wichtige Rechenregeln und mathematische Lehrsätze sind in Kapitel B zusammengefaßt. Nützliche Hinweise zum Arbeiten mit finden sich in Anhang C. Lösungen, ein Glossar und ein Stichwortverzeichnis sind auf den letzten Seiten.
Kapitel 2
Datenerhebung - ganz praktisch 2.1
Einleitung
In einigen betriebswirtschaftlichen Disziplinen gehört die Erstellung eines Fragebogens und dessen Auswertung zum Handwerkszeug. Welche Kriterien bei der Erstellung zu berücksichtigen sind, ergeben sich letztlich aus der Fragestellung. Dieser Bereich wird üblicherweise in betriebswirtschaftlichen Grundlagenfächern abgedeckt und wird deswegen in vorliegendem Kapitel nicht thematisiert. Das Kapitel beginnt in Abschnitt 2.2 mit der Beschreibung nützlicher Software, die es erlaubt, Daten online zu erheben. Der an der Technik wenig interessierte Leser kann diesen Abschnitt allerdings überspringen und gleich zu den inhaltlichen Fragen übergehen. Um viele der in den nachfolgenden Kapiteln dargestellten Methoden sinnvoll anwenden zu können, ist es nötig, einen Erhebungsplan zu erstellen. Welche grundlegenden Fragen hierbei zu beantworten sind, wird in Abschnitt 2.3 diskutiert. In Kapitel 2.4 wird schließlich dargestellt, wie eine Stichprobe gezogen wird. Es folgt die Beschreibung des Auslesens und Einlesens von Daten in ein Tabellenkalkulationsprogramm und in . Bemerkungen zu Plausibilitätsprüfungen von Datensätzen runden das Kapitel ab.
2.2 2.2.1
Software Moodle und LimeSurvey
Einige Programme sind mittlerweile verfügbar, mit deren Hilfe Onlinebefragungen durchgeführt werden können. Die Installation von Moodle und LimeSurvey soll im folgenden kurz skizziert werden. Moodle ist eigentlich eine ELearningplattform, mit deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden können. LimeSurvey ist ebenfalls eine freie Software, die speziell R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-6693-3_2, © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
10
für Onlinebefragungen entwickelt wurde. Über die Links www.moodle.de bzw. www.limesurvey.org/ können die Programme bezogen werden. Zur Installation von Moodle Version 1.9 genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener Moodle-Server notwendig wird. Der Server muß gemäß den Vorgaben der Programme konfiguriert sein, d.h. MYSQL und PHP sind bei beiden nötig. Ansonsten ist die Installation relativ einfach, das Vorgehen ist bei beiden ziemlich ähnlich, die Ausführungen beschränken sich auf Moodle. Die Programmdateien befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner moodle. Über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen. In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqueror herzustellen. Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser genutzt werden. Wähle den Reiter ’Gehe zu’ und wähle ’Netzwerkordner’. Dann erscheint eine Box ’Netzwerkordner hinzufügen’. Klicke ’FTP’ an und wähle ’weiter’, um in der folgenden Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt wurde, können per drag and drop oder über die Kopierfunktion von Konqueror Daten auf den Server übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser Wege den Ordner ’moodle’ mit gesamtem Inhalt auf den Webspace und lege auf derselben Ebene, auf der auch der Ordner ’moodle’ erstellt wurde, einen zusätzlichen Ordner namens moodledata und den Ordner ’nobody’ an. Erstelle in dem Webspace eine MYSQL-Datenbank. Rufe anschließend einen Internetbrowser auf und gebe die ’eigene_Internetadresse/moodle’ in der Adreßzeile ein; anschließend beginnt die Installation des Programms. Folge den Answeisungen und gebe bei der Abfrage nach dem Server ’localhost’ ein. Bei der Nutzung von LimeSurvey können die Befragungsergebnisse innerhalb des Programms auf den lokalen Rechner heruntergeladen werden. Dies ist in verschiedenen Dateiformaten möglich. Interessanterweise gibt es auch die Möglichkeit, die Daten im -Format bereitzustellen, so daß auch die Variablenbeschreibungen in verfügbar sind.
2.2.2
Statistikpaket R
Das Statistikprogramm ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in zwei verschiedenen Versionen daher:
2.2. SOFTWARE
11
• mit einer graphischen Oberfläche als ’Statistiklabor’ und • ohne graphische Oberfläche unter dem Namen
.
Letztere ist befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das Statistiklabor erleichtert dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zu lassen. Ansonsten sind die Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich. In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version. Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die die graphische Oberfläche des Statistiklabors nicht bietet. Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers durchgeführt werden, wogegen im Statistiklabor jeder einzelne Schritt durch Anklicken initialisiert werden muß. Zudem kann der Nutzer neue, bislang in nicht vorhandene Auswertungsmethoden programmieren. Aus diesen Gründen werden ausschließlich die für nötigen Befehle angegeben. läuft auf verschiedenen Betriebssystemen. Hierbei ist zu beachten, daß die Installation und Handhabung vom verwendeten System abhängig ist. Unter Linux muß das Programm entweder compiliert werden, was dem Ungeübten zu kompliziert sein dürfte, oder entsprechend der Linux-Version (Debian, Suse oder RedHat) wird eine bereits compilierte Version verwendet. Der Autor nutzt die Suse-Linux-Version 11.3. Hier ist die Installation über die 1-Click-Installation sehr einfach. Über die Seite ’http://software.opensuse.org/search’ erhält man Zugang zu bereits für Suse-Linux compilierter Software. Man wählt die Version und gibt in das Suchfeld ’R-base’ ein. Klicken auf ’1-Click-Install’ und Befolgen der Anweisungen führt zur bequemen Installation von . Zum Aufruf von öffnet man eine Shell (oder Terminalprogramm) und gibt ein. Nach kurzer Zeit erscheint ein einleitender Text und die erste Befehlszeile, die stets mit ’>’ beginnt. Empfehlenswert ist jedoch die Nutzung von ’emacs-ess’. Um diese Software zu installieren, gebe man in die Suchzeile der Seite ’http://software.opensuse.org/search’ ’emacs-ess’ ein und nutzt wieder die 1-Click-Installation. Man beachte jedoch, daß zuvor ’emacs’ und bereits installiert sein muß. Drücken der ’Alt’-Taste gefolgt von F2 öffnet in Linux ein Befehlsfenster. Hier gibt man ’emacs’ ein und bestätigt mit ’Return’. Emacs wird geladen, eine sehr universell einsetzbare Software, unter anderem kann sie auch als Basis für genutzt werden. Drücke die ’Alt’-Taste gefolgt von der ’x’-Taste und gebe ein. Zweimal drücken von Return eröffnet die Möglichkeit, über emacs zu bedienen. Dies hat den Vorteil, daß durch Farbgestaltung schnell erkannt wird, ob Fehleingaben erfolgt sind oder nicht. Für Fortgeschrittene finden sich in
12
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
Kapitel C weitere nützliche Hinweise, die übrigens auch für Windowsnutzer wertvoll sind. Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig bringt dies Vor- wie auch Nachteile mit sich. Um beispielsweise den Mittelwert auszurechnen, wird nicht das deutsche Wort, sondern ’mean’ verwendet. Das Schöne hierbei ist, daß englische Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der Punkt verwendet wird, kann zu Fehlern führen und ist somit als Nachteil zu werten. Freilich läßt sich dieses Problem leicht umgehen, wenn anstatt einer deutschen Version von OpenOffice, die englische genutzt wird.
2.3 2.3.1
Erhebungsplan Grundlagen
Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand, wir sagen auch sein Interessengebiet, zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon auszugehen, daß der Ökonom mit Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert und aufs Geradewohl wird kaum eine Datenerhebung erfolgen. Sei es offen gesagt (explizit) oder nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben. Ihre Auswertung wird sich an diesen Zielen orientieren. Die Ziele sollten so in Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können. Grundlage einer jeden statistischen Auswertung sind somit empirisch überprüfbare Hypothesen. Sie können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden Daten zu ’quälen’. Damit ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben, nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe adäquat durch Daten abgebildet werden. Anekdote In den achtziger Jahren des vergangenen Jahrhunderts hielt an der Universität des Saarlandes ein Gastprofessor mit Schwerpunkt Arbeitsmarktökonomie einen Vortrag über Missmatch auf Arbeitsmärkten. Er hatte Arbeitsmarktdaten deskriptiv aufbereitet, präsentierte die empirischen Befunde und diskutierte, welche Hypothesen zu den beobachteten Auffälligkeiten passen könnten.
2.3. ERHEBUNGSPLAN
13
Im nächsten Schritt überprüfte er die Hypothesen mit Hilfe ökonometrischer Verfahren, wobei er stets dieselben Daten verwendete. Ökonometrie ist die Lehre von der ’Vermessung der Wirtschaft’ bei der vor allem Regressionsverfahren eingesetzt und Mittel der schließenden Statistik verwendet werden. In der anschließenden Diskussion meldete sich unter anderem Prof. Kmenta, ein ungarischer Ökonometriker, der in den USA lehrte. Er fragte, ob der Referent stets so vorgehe, der dies mit ’ja’ beantwortete. Daraufhin warf Prof. Kmenta dem Referenten vor, ’Daten zu quälen’.
2.3.2
Beispiel
Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten (Grundgesamtheit oder Population) Daten erhoben, so spricht man von einer Vollerhebung, andernfalls von einer Teilerhebung. Die Elemente der Grundgesamtheit werden allgemein statistische Einheiten oder Untersuchungseinheiten genannt. Folgende Beispiele sollen wichtige Beurteilungskriterien verdeutlichen. 1. Beispiel: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen, wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt es sich um eine Vollerhebung, denn die befragten Personen sind identisch mit der interessierenden Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung. 2. Beispiel: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit. Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb Teilerhebung. Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen wählen?1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode kann hier nur angewandt werden?2 Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden auf-
14
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
grund dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll? Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt sich aus der konkreten Situation. Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung möglicherweise mit hohen Kosten verbunden. In diesem Fall bietet sich die schließende Statistik an, bei der mit Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit geschlossen werden soll. Hierdurch erklärt sich auch ihr Name ’schließende‘ Statistik. Bei dieser Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von Stichproben, d.h. der Zufall spielt eine wichtige Rolle.
2.4 2.4.1
Ziehen einer Stichprobe Grundlagen
Bislang war zwar von Stichproben die Rede, ohne aber darüber zu sprechen, wie sie gebildet werden. Bei einer Zufallsstichprobe haben alle statistischen Einheiten der Grundgesamtheit dieselbe Wahrscheinlichkeit, gezogen zu werden. Angenommen, es soll eine Telefonbefragung in Stadt- und Landkreis Würzburg erfolgen. Eine Stichprobe mit Zurücklegen (=einfache Stichprobe) ist geplant, da der Binomialtest über den Anteilswert angewendet werden soll. Der zuständige Betriebswirt wendet sich an ein Call-Center und vergibt den Auftrag, Personen aus der benannten Region in einem vorgegebenen Zeitraum zufällig aus dem Telefonbuch zu wählen, um einen vorbereiteten Fragebogen abzuarbeiten. Jeder Telefonist blättert in einem Online-Telefonbuch und greift durch zufälliges scrollen Personen heraus. Handelt es sich hierbei um eine einfache Stichprobe? Es ist durchaus möglich, daß eine Person mehrmals in der Stichprobe vorkommen kann. Insofern handelt es sich um eine Auswahl mit Zurücklegen. Erfolgen die Ziehungen aber tatsächlich zufällig, d.h. hat jede Person dieselbe Wahrscheinlichkeit gewählt zu werden? Sicher nicht, denn die Personen sind gewöhnlich alphabetisch geordnet. Beginnt der Telefonist bei Buchstabe A und hangelt sich entlang der Anordnung, so kann es sein, daß er die geforderte Anzahl an Personen gezogen hat, ohne daß Personen mit Anfangsbuchstaben ’Z’ überhaupt eine Chance gehabt hätten, aufgenommen zu werden. Aus diesem Grund stellt sich die Frage, wie sinnvoller Weise vorgegangen werden sollte. Eine Möglichkeit besteht darin, alle Personen durchzunumerieren. Man wählt so viele Kugeln, wie Personen in der Grundgesamtheit vorhanden
2.5. ROHDATEN AUSLESEN
15
sind, beschriftet sie fortlaufend mit Zahlen und füllt sie in eine Trommel. Anschließend bittet man eine ’Glücksfee’, wie bei der wöchentlichen Ziehung der Lottozahlen, darum, n Kugeln auszuwählen. Wurde eine Kugel gewählt, so wird ihre Nummer notiert und wieder in die Trommel zurückgelegt. Dieses Verfahren wäre korrekt, vorausgesetzt, daß die Kugeln dieselbe Wahrscheinlichkeit hätten, gezogen zu werden. Andererseits wäre es sehr umständlich. Statt n durchnumerierte Kugeln zufällig aus einer Trommel zu ziehen, kann ein Zufallsgenerator genutzt werden, um eine zufällige Zahlenreihe zu erzeugen, mit Hilfe derer die Personen festgestellt werden, die jeweils mit derselben Wahrscheinlichkeit gezogen wurden.
2.4.2
Beispiel
Lade das Paket ’base’, um den Befehl ’sample’ verfügbar zu machen. Das Einlesen von Paketen wird auf Seite 329 beschrieben. > ?sample öffnet eine Hilfeseite, in der die Grundstruktur des Befehls angegeben ist (siehe unten); in der nachfolgenden Zeile ist ein konkreter Befehl dargestellt. > sample(x, size, replace = FALSE, prob = NULL) > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1]} 4392192 1117576 3688549 6927580 2876239 2026266 6149387 5888866 3188394 7107292 Durch diesen Befehl wird eine Stichprobe vom Umfang 10 mit Zurücklegen aus den ganzen Zahlen beginnend bei 1 und endend bei 8 000 0000 gezogen. Wäre ’replace=FALSE’ gesetzt, so wäre es eine Stichprobe vom Umfang 10 ohne Zurücklegen. Erneute Eingabe desselben Befehls führte zu der nachfolgend angegebenen Ausgabe. Die beiden Ergebnisse sind verschieden. > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1] 5320532 6702537 7313541 \ 111374 6514954 4659765 1456491 1255380 6120515 5931007
2.5 2.5.1
Rohdaten auslesen Grundlagen
Mit dem nötigen Wissen und der erforderlichen Technik ausgestattet sind Sie nun prinzipiell in der Lage, online Befragungen durchzuführen. Die dabei auftretenden Probleme werden besonders klar, wenn man sich selbst dieser Aufgabe stellen muß. In Aufgabe 2.10 auf Seite 29 sollen mit einer Erhebung Probleme der Prozeßorganisation identifiziert werden. Die Lösungshinweise zur Aufgabe könnten nützlich sein. Im folgenden wird gezeigt, wie die erhobenen Daten weiterverarbeitet werden.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
16
Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet werden: 1. Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine unerlaubten Symbole? 2. Fehlen Daten? Hier muß überprüft werden, ob alle ’Missings’ genau gleich gekennzeichnet worden sind. 3. Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen Bereich? Diese Frage kann allerdings auch später mit Hilfe des Statistikprogramms beantwortet werden. Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu falschen Schlußfolgerungen führen können. Um die Daten in das Statistikprogramm einlesen zu können, werden sie als Textdatei im csv-Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze Zahlen von Dezimalstellen getrennt werden. In diesem Kapitel wird davon ausgegangen, daß im verwendeten Tabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem Programm, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich geblieben sind, um ggf. Anpassungen vornehmen zu können.
2.5.2
Beispiel
Datenquellen können ganz unterschiedlich sein. In Abbildung 2.1 werden die Daten der Tabelle 2.1 in OpenOffice aus einer csv-Datei eingelesen. Man erkennt, daß die Feldtrenner nicht korrekt gesetzt sind, denn beide Spalten erscheinen in ein und derselben Spalte.
2.6 2.6.1
Daten in Statistikprogramm einlesen Grundlagen
Um sicher zu sein, daß in keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte der folgende Befehl genutzt werden:
2.6. DATEN IN STATISTIKPROGRAMM EINLESEN
17
Abbildung 2.1: Rohdaten in Tabellenkalkulationsprogramm einlesen Quelle: eigene Darstellung
> rm ( list=ls() ) wobei ’rm’ für remove steht. Mit dem Befehl > setwd("g:/Auswertung") wird das Arbeitsverzeichnis gewählt. ’setwd’ ist zu interpretieren als ’set working directory’. In vorliegendem Fall befindet es sich im Laufwerk ’g’ und Ordner ’Auswertung’. Dies bedeutet, daß ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis ’Auswertung’ auf Dateien zugreift. Der Befehl > YX YX is.list(Daten) [1] TRUE wird überprüft, ob es sich tatsächlich um Daten des Typs Liste handelt. In der zweiten Zeile ist das Ergebnis dieser Abfrage angegeben. Im folgenden werden Konsequenzen eines falschen Einlesens der Daten skizziert. In folgendem Befehl wird explizit der Feldtrenner (englisch: seperator, in abgekürzt mit ’sep’) vorgegeben. Fälschlicherweise wird ’\t’, das Zeichen für Tabulator, verwendet. Aus diesem Grund werden die Daten falsch eingelesen.
2.6. DATEN IN STATISTIKPROGRAMM EINLESEN
19
> YX YX Y.X 1 10,5,500 2 12,9,550 3 33,85,300 Wird statt des Befehls > YX YX 10,2*2 Fehler: Unerwartetes ’,’ in "10," Durch dieses kleine Beispiel wird zudem deutlich, daß auch als Taschenrechner genutzt werden kann. Werden die ganzen Zahlen von den Dezimalstellen korrekt getrennt, so erhält man das Ergebnis. > 10.5*2 [1] 21 Die Symbole zur Durchführung einfacher Rechenoperationen sind dieselben wie in Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus. Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ’header=FALSE’ eingegeben, so werden Y und X nicht zur Kennzeichnung der Variablen, sondern als ein Datensatz behandelt. ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch noch die Kommata anstatt von Punkten). > YX YX V1 1 Y 2 10,5 3 12,9 4 33,85
read.csv("YX.csv",dec=",",header=FALSE) V2 X 500 550 300
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
20
Einkommen 2000 2500 2900 3300
Alter 30 42 50 28
Ausbildungsjahre 12 13 10 18
Tabelle 2.2: Daten Einkommen Alter Ausbildungsjahre Quelle: Daten frei erfunden
2.7 2.7.1
Plausibilitätsprüfung Grundlagen
Bei Plausibilitätsprüfungen sind drei Aspekte zu beachten. 1. Es ist zu prüfen, ob im Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort auf die gestellte Frage zu geben (Validität) 2. Zudem ist eine Überprüfung auf Konsistenz der Daten durchzuführen. 3. Außerdem ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (Korrektheit im Wertebereich).
2.7.2
Beispiel 1
Zur Veranschaulichung der Zusammenhänge dienen die Daten der Tabelle 2.2. Sie sind in Datei Einkommen.csv hinterlegt. In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten Zeile die der zweiten usw. Diesen Daten liegt die Vorstellung zugrunde, daß Einkommen, Alter und Ausbildungsjahre irgend etwas miteinander zu tun haben. Wird beispielsweise vermutetet, daß die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß mit steigendem Alter ein höherer Stundenlohn gezahlt wird, so müßte mit höherem Alter ein höheres Einkommen erzielt werden. Der ’Teufel’ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden auf als jüngere. Dies kann sein wegen gesetzlicher Regelungen, wie der Altersteilzeit, oder weil aus gesundheitlichen Gründen weniger gearbeitet wird. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt des Einkommens den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen.
2.7. PLAUSIBILITÄTSPRÜFUNG
21
In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So könnte die Analyse einmal mit Personen im Alter von 50 bis 58 Jahren und zudem mit den gesamten Daten erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt überhaupt von Bedeutung ist. Eine Überprüfung auf Konsistenz hat sich an der interessierenden Fragestellung zu orientieren. Es ist zu prüfen, ob sich die Befragten möglicherweise widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze entfernt werden.
2.7.3
Einfache Datensätze
In Tabelle 2.2 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man mehrere Merkmale, so spricht man von multivariater Statistik, wogegen statistische Verfahren, bei denen lediglich ein Merkmal analysiert wird, mit dem Wort univariat gekennzeichnet werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu bestimmen. Das arithmetische Mittel ist bei Verwendung von Rohdaten definiert als: n
x ¯ :=
1 xi . n i=1
xi ist die Ausprägung des kardinale Merkmals ’Einkommen’ bei Personen i, wobei i ein Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen. Die Formel, die in mit ’var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von Rohdaten genutzt wird ist gleich n
2 ˆX := V ˆar(x) := σ ˆ 2 := σ
1 (xi − x ¯ )2 . n−1 i=1
Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von Daten aus einer Stichprobe eine ’erwartungstreue’ Schätzung der ’wahren’, aber unbekannten Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird. Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
22
Abbildung 2.2: Anwendung empirische versus korrigierte Varianz Quelle: eigene Darstellung oder Stichprobe, wird aber die empirische Varianz, d.h. die Formel n
s2 = s2X :=
1 (xi − x ¯)2 n i=1
verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist. Bei der empirischen Varianz werden die quadrierten Abweichungen der Beobachtungen vom arithmetischen Mittel aufsummiert und mit dem Faktor n1 multipliziert. Sie unterscheidet sich von der korrigierten Stichprobenvarianz σˆ2 nur durch den verwendeten Faktor. Wird die korrigierte Stichprobenvarianz mit (n−1) multipliziert, so erhält man die empirische Varianz. Die Zusammenhänge n sind in Abbildung 2.2 veranschaulicht.
2.7.4
Beispiel 2
Die Berechnungen erfolgen beispielhaft mit Hilfe der in Tabelle 2.2 angegebenen Daten. Sie sind in der Datei Einkommen.csv abgelegt. Der folgende Befehl > min(Daten) [1] 10
2.7. PLAUSIBILITÄTSPRÜFUNG
23
liefert als Minimum 10 und > max(Daten) [1] 3300 ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum aller Daten bestimmt. In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre größer oder gleich 0 und nicht zu hoch sind. Denn bereits mit 14 könnte eine Person eigenständiges Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden sollte. Die Variable Einkommen kann über folgenden Befehl angesprochen werden: > Daten$Einkommen [1] 2000 2500 2900 3300 In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ’Daten’ angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das arithmetische Mittel und die Varianz liefert das Statistikprogramm folgende Anzeige. > min(Daten$Einkommen) [1] 2000 > max(Daten$Einkommen) [1] 3300 > mean(Daten$Einkommen) [1] 2675 > var(Daten$Einkommen) [1] 309166.7 Welche Varianz wird hier geschätzt? Ist das sinnvoll?3
2.7.5
Komplexe Datensätze
In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle gleichen Typs sind. In Tabelle 2.3 ’kleben’ fünf Merkmale an jeder Person. Bei dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf einen bestimmten Aspekt gleich oder verschieden ist. In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind ’K’ für Kleinunternehmen, ’M’ für mittelgroße Unternehmen
24 Einkommen 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Alter 30 42 50 28 30 42 50 28 50 50 30 30 42
Ausbildungsjahre 12 13 10 18 12 13 10 18 10 10 12 12 13
Geschlecht M M M M W W W W M W M M W
Unternehmensgröße K K G G K M M M G M M M K
Tabelle 2.3: Daten2 Quelle: Daten frei erfunden und ’G’ für Großunternehmen. Dieses Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte Definition dessen, mit Hilfe welcher Kriterien Unternehmen in große, mittlere und kleine Unternehmen eingeteilt worden sind. So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen. Alternativ hierzu wäre eine Gruppenbildung mit Hilfe zweier Merkmale, z. B. Anzahl an Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren Gruppierungsmerkmalen ist eine solche Einteilung selbst mit Hilfe eines Tabellenverarbeitungsprogramms sehr aufwendig. Die Statistik hat zwei Verfahren, die Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern. Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen sie zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll interpretiert werden. Handelt es sich bei dem Gewinn um ein verhältnis- oder intervallskaliertes Merkmal? Angenommen im vergangenen Jahr sei der Gewinn 2 Millionen, im jetzigen Jahr 4 Millionen Euro. Der Quotient 4 Millionen dividiert durch 2 Millionen Euro macht sicher Sinn: der Gewinn hat sich verdoppelt. Ist im vergangenen Jahr ein Verlust in Höhe von 2 Millionen und im laufenden ein Gewinn
2.7. PLAUSIBILITÄTSPRÜFUNG
25
von 4 Millionen Euro angefallen und dividiert man 4 Millionen durch (-2) Millionen Euro, so erhält man -2. Diese Zahl ist im vorliegenden Zusammenhang nicht interpretierbar. Ist jedoch im vergangenen Jahr ein Verlust (oder mit anderen Worten ein negativer Gewinn) in Höhe von 2 Millionen und im laufenden ein Verlust von 4 Millionen Euro aufgetreten, so ist der Verlust dieses Jahres doppelt so hoch wie im vorangegangenen. Aus diesen drei Beispielen erkennt man 1. die Bedeutung eines Nullpunktes und 2. es zeigt sich, daß Quotienten nicht immer sinnvoll interpretiert werden können. Werden Quotienten von Gewinnen, die ausschließlich im positiven oder ausschließlich im negativen Bereich liegen gebildet, so führt dies zu sinnvoll interpretierbaren Zahlen. Werden jedoch Quotienten aus Zahlen gebildet, wobei eine aus den positiven und die andere aus den negativen Zahlen stammt, so erhält man keine interpretierbaren Ergebnisse. Dann sind lediglich Differenzen sinnvoll nutzbar. Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt nicht. Man hüte sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ’m’ und ’w’, aber genauso gut könnte verwendet werden ’1’ und ’2’. Bei der Signierung des Geschlechts mit ’1’ und ’2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis ist nicht interpretierbar. Signiert man jedoch männlich mit ’0’ und weiblich mit ’1’ und berechnet jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.
2.7.6
Beispiel 3
Genutzt werden die ’Daten2’ in Tabelle 2.3; auf sie kann über die Datei Daten2.csv zugegriffen werden. Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die Aufgabe zu, die Daten sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket ’doBy’ geladen werden muß. Mit dem folgenden Befehl (siehe unten) wird das Minimum und Maximum, der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen berechnet. > summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN = c(min, max, mean,var,length)) Geschlecht Einkommen.min Einkommen.max Einkommen.mean
26 1 2
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
m 1000 w 1500 Einkommen.var Einkommen.length 1 599047.6 7 2 155285.6 6
3300 2700
2371.429 2037.000
Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch ausgerechnet werden, so führt folgender Befehl zum Ziel. > summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN = c(min, max)) Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max 1 m 1000 28 3300 50 2 w 1500 28 2700 50 Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße berechnet werden soll, dann gebe folgenden Befehl ein. > summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgroesse, data=Daten2, FUN=c(mean)) Geschlecht Betriebsgroesse Einkommen.mean Alter.mean 1 m g 3033.333 42.66667 2 m k 1750.000 36.00000 3 m m 2000.000 30.00000 4 w k 1700.000 36.00000 5 w m 2205.500 42.50000 Der Befehl ’data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ’Daten2’, verwendet werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datennamens (wie oben ’Daten2$Einkommen’) angesprochen werden müssen.
2.8
Abschließende Bemerkungen
Daten werden im wesentlichen zu zwei verschiedenen Zwecken erhoben: zur explorativen Datenanalyse und zur Überprüfung von Hypothesen. Im ersteren Fall wird induktiv vorgegangen, im zweiten deduktiv. Der wesentliche Unterschied zwischen beiden besteht darin, daß es bei der Induktion keine ausformulierten Ursache-Wirkungsbeziehungen geben muß. Idealerweise besteht ein Erhebungsplan aus klar formulierten wenigen Zielen, die sich im Erhebungsplan bei deduktiver Vorgehensweise in Form empirisch überprüfbarer Hypothesen niederschlagen. In jedem Fall jedoch sollte er die statistischen Methoden umfassen, die zur Anwendung kommen sollen. Denn manche Methoden erfordern kardinal skalierte Merkmale, bei anderen reichen ordinale oder nominale aus. Die gewählte Methode hat somit Einfluß auf die Art der Befragung. Wird diese Empfehlung
2.9. KONTROLLFRAGEN
27
nicht berücksichtigt, so kommt bei der Auswertung schnell das böse Erwachen: die angedachte Methode oder die Methode, bei der der Anwender über ausreichendes Wissen verfügt, ist vielleicht wegen falschen Skalenniveaus der Variablen nicht verwendbar. Merkmale wie Geschlecht, Alter, Einkommensklasse haben häufig einen Einfluß auf Konsumverhalten. Aus diesem Grund ist es sinnvoll, sich im Vorfeld einer Befragung auch über solche ’Kontrollvariablen’ Gedanken zu machen. Mit steigendem Alter sinkt im allgemeinen die körperliche Mobilität und dies hat möglicherweise Einfluß auf das Konsumverhalten. Frauen haben möglicherweise andere Präferenzen als Männer, was sich in Konsumverhalten wie auch der Berufswahl, bei Bewerbungen oder im Verhalten bei Konflikten im Betrieb niederschlagen kann. Selbst zwischen solchen Kontrollvariablen kann es systematische Beziehungen geben. Mit steigendem Alter steigt häufig auch das Einkommen. Das Wissen um solche Beziehungen ist wichtig, da sie die Ergebnisse von Auswertungsmethoden beeinflussen können. Aus diesen Gründen sollten im Erhebungsplan auch solche Kontrollvariablen berücksichtigt werden. Es wird zu Versuchszwecken empfohlen, den erstellten Fragebogen vor der Erhebung mehrmals selbst mit Daten zu füllen. Mit diesen Daten kann ’gefüttert’ werden, um zu testen, ob die gewünschte Methode wirklich anwendbar ist. Fehlermeldungen des Statistikprogramms geben Hinweise auf Aspekte, die zusätzlich zu berücksichtigen sind. Zudem wird der Anwender gezwungen, sich bereits vor der Datenerhebung mit den Auswertungsmethoden vertraut zu machen und gegebenenfalls Wissenslücken zu schließen. Spätestens bei der Anwendung machen sich mangelnde Kenntnisse statistischer Grundlagen bemerkbar. Denn die Fragestellung bestimmt die Auswertungsmethode und diese die zu erhebenden Daten. Passen Daten und Methode aber nicht zusammen, so muß auf andere, häufig auch kompliziertere Methoden zurückgegriffen werden. Gerade dann, wenn es spannend wird, so zeigt die Erfahrung, ist Methodenkenntnis wichtig.
2.9
Kontrollfragen
1. Was ist eine Hypothese? 2. Erläutern Sie die Begriffe Deduktion und Induktion. 3. Was ist eine Grundgesamtheit? Verdeutlichen Sie den Begriff durch ein Beispiel. 4. Was ist eine statistische Einheit? 5. Stellen Sie anhand eines Beispiels dar, wann eine Vollerhebung nötig ist. 6. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe?
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
28
7. Warum werden Teilerhebungen überhaupt durchgeführt? 8. Wie lädt man neue 9. Wie ruft man in
-Pakete von R CRAN auf den lokalen Rechner?
Hilfeseiten auf?
10. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun? 11. Was bewirkt folgender Befehl: > rm ( list=ls() )? 12. Erläutern Sie folgende Anweisung: >setwd("g:/Auswertung"). 13. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX x dir()
340
ANHANG C. BEFEHLE IN R
werden die in dem Arbeitsverzeichnis verfügbaren Dateien angezeigt. Sollte die Datei in einem anderen Verzeichnis sein, so kann über ’setwd(”Pfad”)’ das Arbeitsverzeichnis geändert werden. Im folgenden Beispiel wird das Arbeitsverzeichnis auf ’Auswertung’ gesetzt. > setwd("g:/Auswertung") Alternativ hierzu kann bei dem ’read’-Befehl zu dem Dateinamen auch noch der Pfad angegeben werden. Typische Probleme beim Einlesen von Daten in Textformat ist die falsche Angabe des Feldtrenners (= seperator). Im diesem Fall > x x Einkommen.Alter.Ausbildungsjahre 1 2000\t30\t12 2 2500\t42\t13 3 2900\t50\t10 4 3300\t28\t18 wurde in der Textdatei der Feldtrenner \t verwendet, was man an der Ausgabe 2000\t30\t12 erkennen kann. Das Problem wird gelöst durch Rückgriff auf die Hilfeseite > ?read.csv. Hier ist zu lesen, daß andere Feldtrenner als jener, der standardmäßig genutzt wird über ’sep="Feldtrenner")’ eingestellt werden können. Hier wird das Problem wie folgt > x x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 gelöst. Anführungszeichen können ein Problem darstellen, weil sie in vielen Textverarbeitungsprogrammen automatisch in typographische geändert werden. Werden Befehle in solchen Programmen geschrieben und Befehlszeilen hieraus über die Zwischenablage in kopiert, so entstehen Fehlermeldungen wie im folgenden:
C.9. FEHLERMELDUNGEN
341
Fehler: Unerwartetes Eingabe in "x 1-pbinom(9,10,.8) [1] 0.1073742 46 Dies ergibt sich aus der Nullhypothese. 47 Dies ergibt sich aus der Formulierung der Nullhypothese. 48 Hierzu muß man den Verteilungstyp der Testgröße, das Signifikanzniveau und die Nullhypothese kennen. 49 Gesucht ist der kritische Wert. Nullhypothese: h 0, 02, Gegenhypothese: h > 0, 02, Testgröße ist unbekannt, Annahmebereich: P (k Quantil) = 1 − α. Befehl: > qbinom(0.96, 20, 0.02, lower.tail = TRUE) [1] 2. Falls in der Stichprobe mehr als zwei fehlerhafte Produkte enthalten sind, so würde die Nullhypothese abgelehnt. 50 Sie könnten falsch gerechnet haben oder aber sie verwenden verschiedene Signifikanzniveaus. Schließlich ist es auch möglich, daß einer als Nullhypothese wählte, was der andere als Gegenhypothese nahm. 51 H : H < 0, 02 , H : H 0, 02; Testgröße = 4; Annahmebereich = [0,7]; Entscheidung: 0 1 4 ∈ Annahmebereich, folglich kann H0 nicht abgelehnt werden. 52 Dies ist der Fehler 1. Art. 53 Bei einer Kontingenztabelle ’kleben’ alle Merkmale aneinander; sie wurden mit anderen Worten gemeinsam erhoben. 54 Berechnet wurde der Chi-Quadrat-Koeffizient. 55 Kontingenztabelle 56 table 57 ’X-squared’ ist die quadratische Kontingenz, wobei eine Stetigkeitskorrektur vorgenommen wurde. ’df’ ist die Abkürzung für Freiheitsgrad, er ist hier gleich Eins. Der ’p-value’ gibt die Wahrscheinlichkeitsmasse an, die rechts des Chi-Quadrat Koeffizienten liegt. Ist diese Wahrscheinlichkeit geringer als das Signifikanzniveau, so ist in vorliegendem Fall die Nullhypothese abzulehnen. Unklar ist jedoch, ob es sich um einen Unabhängigkeits- oder einen Homogenitätstest handelt. 58 0 59 Überprüft wird zur Sicherheitswahrscheinlichkeit von 90 Prozent, ob die Unfälle von der Tageszeit statistisch unabhängig sind (Nullhypothese) oder nicht (Gegenhypothese). Mit der Anweisung ’x1 E.Y E.Y [,1] [1,] 4 > X1 Y1 Var.X Var.X [,1] [1,] 0.5763889 > Var.Y Var.Y [,1] [1,] 0.5 > 33/2-(4ˆ 2) [1] 0.5 > Cov.XY Cov.XY [,1] [1,] 0.08333333
348
ANMERKUNGEN UND LÖSUNGEN
87 Sofern Beobachtungen vorliegen, so bedeutet gemeinsame Verteilung, daß an ein und derselben statistischen Einheit zumindest zwei Merkmale erhoben wurden. Die gemeinsame Häufigkeitsverteilung kann dann als Kontingenztabelle dargestellt werden. Wir unterscheiden ihrer zwei: die Kontingenztabelle mit absoluten und die mit relativen Häufigkeiten. Die hij in Formel 8.4 sind dann nichts weiter als die relativen Häufigkeiten der Kontingenztabelle. 88 Das Programm erzeugt bei jedem Lauf neue Realisierungen. Dennoch sollte die graphische Darstellung ähnlich der hier gezeigten sein und aus einer Punktwolke besteht. Eine Struktur ist allenfalls schwach zu erkennen. 89 In wird bei den angegebenen Befehlen standardmäßig die korrigierte empirische Varianz berechnet. Sie enthält den Faktor 1/(n − 1). Wird dieser Faktor mit (n − 1)/n multipliziert, so ergibt sich 1/n, also der Faktor, der bei der Berechnung der empirischen Varianz Verwendung findet. 90 > 10179174/(2002339 ∗ 67686642). 5 [1] 0.874364 91 t-Verteilung 92 Korr(X, Y ) = 0, 938 93 Korr(X, Y ) = 0, 1552301. Die nötigen Befehle sind wie folgt (siehe auch die Lösung zu Aufgabe 7. > Korr.XY Korr.XY [,1] [1,] 0.1552301 94 Unter der Nullhypothese, daß ρ = 0, ist die Testgröße t-verteilt mit n − 2 Freiheitsgraden. Die Gegenhypothese lautet, daß die Korrelation signifikant von Null verschieden ist. Die Korrelation und Testgröße sowie die Bestimmung des Annahmebereiches kann über folgende Befehle erfolgen. > Korr.X1X2 Korr.X1X2 [1] 0.2052648 > length(x2) [1] 50 > Testgroesse Testgroesse [1] 1.453057 > qt(0.01/2,length(x1)-2,0,lower.tail=TRUE) [1] -2.682204 > qt(0.01/2,length(x1)-2,0,lower.tail=FALSE) [1] 2.682204 Der Annahmebereich ist [−2, 68; 2, 68]. Da die Testgröße (= 1, 45) im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Der Befehl ’cor.test(.)’ führt zu folgendem Ergebnis. > cor.test(x1,x2, alternative="two.sided", method="pearson", exact = NULL, conf.level = 0.99), Pearson’s product-moment correlation, data: x1 and x2, t = 1.4531, df = 48, p-value = 0.1527, alternative hypothesis: true correlation is not equal to 0, 99 percent confidence interval: -0.1659514 0.5255276, sample estimates: cor 0.2052648. Demgemäß kann die Nullhypothese nicht verworfen werden. 95 Nein 96 Hier sind die Ausführungen in Kapitel 8.A relevant. Die nötigen Anweisungen sind: > z E.z E.z [1] 0.2103173 > Var.z Var.z [1] 0.02127660 > qnorm(0.95,E.z,Var.z,lower.tail=TRUE) [1] 0.2453142 >z [1] 0.2082228 > N N [1] -0.01481063 Der Annahmebereich ist ] − inf ty; 0.245[. Da die (nicht standardisierte) Testgröße z im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Alternativ hierzu kann auch N berechnet werden und qnorm(.95,0,1,lower.tail=TRUE) verwendet werden, um den Annahmebereich zu bestimmen. 97 Nein 98 Vergleiche Abbildung 8.1. 99 Die Betriebsgröße ist ein ordinales Merkmal, das Gehalt ist kardinal. Der Korrelationskoeffizient nach Bravais-Pearson entfällt, weil hier kardinale Merkmale vorausgesetzt werden. Die Koeffizienten nach Spearman und Kendall würden sich anbieten, doch auch hier werden stetige Zufallsvariablen vorausgesetzt. Keine dieser Kenngrößen kann verwandt werden, es kann dann mit serialen Korrelationskoeffizienten gearbeitet werden, wenn ein Test auf Unkorreliertheit erfolgen soll (siehe (Hartung und Elpelt, 1984, S. 201ff)). 100 Es stellen sich gleich drei Probleme: • Welches Korrelationsmaß wurde überhaupt verwendet? • Es ist nicht klar, welche Verteilung die zugrundeliegenden Zufallsvariablen haben und • eine Variable ist ordinal, die andere kardinal skaliert. Das zweite Problem könnte mit Hilfe von Verteilungstests angegangen werden, allerdings ist eine Größe ja nur ordinal skaliert. Die Tests 8.3.2 und 8.3.2 könnten ebenfalls nicht verwendet werden, da jeweils zwei stetige Zufallsvariablen zugrunde gelegt werden, doch hier ist eine Größe nur ordinal skaliert deren zugrundeliegende Zufallsvariable kaum als stetig anzusehen ist. Aus diesem Grund sind andere Tests nötig. 101 Da die Verteilung nicht bekannt ist, kann der Test nach Bravais-Pearson nicht angewendet werden. Es kommen in Frage der Spearmansche oder der Kendallsche Test. Da beides stetige Zufallsvariablen sind, können beide verwendet werden. Allerdings kann das Verfahren in 8.3.2 von Seite 153 nicht genutzt werden, da der Stichprobenumfang kleiner als 30 ist. So verbleibt das Verfahren nach Kendall, dessen Voraussetzungen erfüllt sind. 102 Nein, der Stichprobenumfang ist zu gering. 103 > cor.test(x[,1],x[,2],method="kendall",exact=FALSE) 104 Wird der Test mehrfach mit verschiedenen Ziehungen normalverteilter Zufallszahlen durchgeführt, so sind unterschiedliche möglich. Damit ist eine wichtige Voraussetzung wissenschaftlichen Arbeitens nicht erfüllt. Denn bei Nutzung derselben Daten sollten Anwender stets zu demselben Ergebnis kommen. 105 Bei jeder Filiale wird gleichzeitig die kürzeste Entfernung zum nächsten Getränkemarkt erhoben. Das bedeutet, daß es sich um einfache Stichproben zur gemeinsamen Verteilung Xi , Yj handelt. 106 Wir wissen ja, daß die Variablen normalverteilt und stochastisch unabhängig sind, so wurden sie ja erzeugt. Damit sollten die paarweisen Korrelationen vergleichsweise klein sein und ein simultaner Test, bei dem überprüft wird, ob alle paarweisen Korrelationen gleich Null sind, sollte zur Annahme der Nullhypothese führen. Wäre dies in vorliegendem Fall anders, so wäre der Fehler erster Art eingetreten. 107 Ja. 108 Es kommt darauf an. Einerseits können damit Zufallsvariablen in der Grundgesamtheit gemeint sein. Andererseits können es auch Zufallsvariablen sein, die sich aus einer (einfachen) Stichprobe ergeben. 109 Nein, in der Praxis wäre zu diskutieren, welche Perspektive und welches Motiv für die Hypothesenaufstellung relevant sein soll. Wird die Perspektive des Unternehmens ’Lebensmittel gut und billig’ eingenommen und soll tunlichst vermieden werden, daß fälschlicherweise angenommen wird, daß ρ1 > ρ2 ist, so sollten die Hypothesen gerade vertauscht werden.
350 110 Argumentiere
ANMERKUNGEN UND LÖSUNGEN
über den Fehler 1. Art berechne den Erwartungswert von z1 − z2 und bestimme entweder die Varianz der Testgröße oder standardisiere z1 , z2 . 112 Hierdurch wird nur die Korrelation zwischen den Vektoren x und x berechnet. Man 1 2 könnte dies freilich paarweise für alle Vektoren machen und die Ergebnisse in einer Matrix zusammenfassen, doch dies wäre recht umständlich. 113 Im ersteren Fall handelt es sich um eine Matrix und in letzterem um eine einzelne Zahl. 114 Der Zusammenhang zwischen paarweisen Korrelationen macht hier wenig Sinn, weil die erste Korrelation zwei andere Merkmale in Beziehung zueinandersetzt als bei der zweiten. Vielmehr interessiert wohl der Zusammenhang zwischen den Linearkombinationen a1 Y1 +a2 Y2 und b1 X1 + b2 X2 . Aus diesem Grund bietet sich die kanonische Korrelation an. 115 Ohne weitere Informationen ist eine Antwort schwierig. Es kommt letztlich auf die Fragestellung an. Paarweise Korrelationen zwischen den Merkmalen Y1 , Y2 und X1 , X2 miteinander zu vergleichen, wobei mit Y1 , Y2 etwas vollkommen anderes gemessen wird als mit X1 , X2 macht wenig Sinn. Die Zusammenhänge, die mit Hilfe der Korrelationsanalyse untersucht werden sollen, sollten in einem sachlogischen Zusammenhang stehen. Anders verhält es sich bei einer explorativen Datenanalyse. Hier können alle vorgestellten Methoden angewandt werden, man hüte sich jedoch davor, Daten zu quälen. 116 Die Korrelation kann dennoch signifikant von Null verschieden sein. Zudem wäre es sinnvoll in erklärungsbedürftige Güter und nicht-erklärungsbedürftige zu unterscheiden. Im ersteren Fall sollte sich eine signifikant höhere Korrelation als im zweiten Fall ergeben. Zudem ist es möglich, daß die Korrelation bei nicht-erklärungsbedürftigen Produkten nicht signifikant von Null verschieden ist. Selbst bei den erklärungsbedürftigen Produkten könnte sich eine geringe oder nicht signifikant von Null verschiedene Korrelation ergeben. Dies könnte daraufhindeuten, daß die Motivation oder die Ausbildung der Verkäufer gering ist. 117 Diese Aufgabe kann entweder algebraisch oder mit über ein einfaches Beispiel mit zwei Variablen gelöst werden. Man beachte, daß die Cov(Y, X) für X = Y mutiert zu V ar(Y ). 118 Ja. 119 Es gibt zwei Personen, ’1’ und ’2’. Die Körpergröße wird in cm und das Gewicht in Zentnern angegeben. Anschließend wird das Gewicht mit 50 multipliziert und man erhält die Angabe in Kilogramm. ’cbind’ bedeutet, daß Spaltenvektoren aneinandergereiht zu einer Matrix zusammengefaßt werden. 120 > library(cluster) > daisy(x,metric="manhattan") Dissimilarities : 1 2 20.5 Metric : manhattan Number of objects : 2 > daisy(x2,metric="manhattan") Dissimilarities : 1 2 45 Metric : manhattan Number of objects : 2 121 Normiere jeden Summanden auf den Bereich [0, 1] 122 > Norm1 Norm2 Norm1 [1] 20 > Norm2 [1] 0.5 > xx xx [,1] [,2] [1,] 9 3 [2,] 8 2 111 Man
ANMERKUNGEN UND LÖSUNGEN
351
> Norm3 Norm4 Norm3 [1] 20 > Norm4 [1] 25 > xx2 xx2 [,1] [,2] [1,] 9 3 [2,] 8 2 123 > daisy(xx,metric="manhattan")daisy(xx,metric="manhattan") Dissimilarities : 1 22 Metric : manhattan Number of objects : 2 Es ergeben sich, aufgrund derselben normierten Datenmatrix, jeweils dieselben Distanzindizes. 124 Die berechneten Differenzen sind für jedes Merkmal im Bereich [0, 1]. also kann es vorkommen, daß die Summe dieser Differenzen größer als Eins ist. 125 > xxx1 xxx2 Distanz1 Distanz2 Distanz1 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz2 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz.gesamt Distanz.gesamt 12 101 210 Die errechnete Distanz zwischen den Objekten ’1’ und ’2’ ist gleich Eins. 126 In vorliegendem Fall ergibt sich dasselbe Ergebnis wie unter 4j, da die Manhattan-Distanzen beider Merkmale jeweils gleich Eins sind. 127 > daisy(x,metric="gower") Dissimilarities : 1 21 Metric : mixed ; Types = I, I Number of objects : 2 Es ergibt sich dasselbe Ergebnis, wie unter 4k, denn die Schritte sind völlig identisch. 128 Ja, denn keine Überdeckung ist eine echte Teilmenge eines Clusters. 129 Entscheidend ist die Problemstellung. Sollen beispielsweise drei Verkaufsregionen bestimmt werden, weil drei geeignete Regionalleiter zur Verfügung stehen, so ist die Klassenanzahl durch die Problemstellung vorgegeben. Sollen die Verkaufsregionen im Hinblick auf bestimmte Merkmale ziemlich ähnlich gebildet werden, so wäre die Klassenanzahl innerhalb
352
ANMERKUNGEN UND LÖSUNGEN
des Klassifikationsverfahrens zu bestimmen und die Anzahl der Verkaufsleiter würde sich hierüber ergeben, wäre ökonomisch gesehen die endogene Größe. 130 Distanzen werden zwischen je zwei Objekten errechnet. Niedergelegt in einer Distanzmatrix erhält man eine (10 × 10)-Matrix. Deren Hauptelemente sind gleich Null und sie ist symmetrisch. Aus diesem Grund gibt es (10 ∗ 10 − 10)/2 = 45 unterschiedliche Distanzindizes. 131 Die durchschnittliche Beratungszeit des ersten Kunden beträgt 1.637554 und die des Kunden mit Nummer 350 beträgt 303.279180 Minuten. 132 199.1725 Minuten 133 Kardinale Merkmale, es ist sowohl ein intervallskaliertes als auch eine verhältnisskaliertes Merkmal. 134 1. Alternative: Es könnten alle drei Merkmale zur Bildung einer Distanzmatrix herangezogen werden. 2. Alternative: Allerdings gibt es zwischen den Merkmalen ökonomisch sinnvolle Beziehungen. Die durchschnittliche Beratungszeit pro Kunde stellt Aufwand dar, der von dem Umsatz eines Kunden abgezogen werden könnte. Diese Möglichkeit verbietet sich in dieser Form, da beide Variablen unterschiedliche Dimensionen besitzen. Es wäre sinnvoll, den Aufwand mit einem kalkulatorischen Preis pro Minute zu multiplizieren und diese von dem Umsatz abzuziehen. Eine Partitionierung nach diesem (eindimensionalen) Merkmal würde die Kunden (unter Außerachtlassung sonstigen Aufwandes) gemäß des kalkulatorischen Gewinns in Klassen einteilen. 135 Die maximalen Beratungskosten betragen 192.0678. Der maximale kalkulatorische Gewinn beträgt in Euro 3109.526 und der minimale 649.0188. 136 Nutze zuerst ’daisy’ und wende dann den Befehl ’pam’ mit zweien und anschließend mit drei Clustern an. 137 Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt bei zwei Partitionen gleich 0,55 und bei dreien 0,49, wobei zudem die Silhouettenweite einiger Personen negativ sind. Deshalb wird eine Einteilung in zwei Cluster vorgeschlagen. 138 Es gibt zwei Möglichkeiten, zwei Geraden so einzuzeichnen, daß die Gerade genau durch zwei Beobachtungspunkte verläuft und die Summe der Abstände zwischen allen Beobachtungspunkten und Geraden gleich Null sind. 139 Man zeichne wiederum vier Punkte so in ein Diagramm, daß je zwei denselben x-Wert haben. Summiert man die in Betrag gesetzten Differenzen zwischen Beobachtungen und Regressionsgerade auf, so sind sie gleich dem Absolutwert der Differenz der ersten zwei Beobachtungen mit demselben x-Wert plus dem Absolutwert der Differenz der anderen zwei Beobachtungen mit identischem x-Wert sein. Man erkennt leicht, daß es mehrere Lösungen gibt. Allerdings sei auf die Median-Regression hingewiesen, die zu einem Minimierungsproblem führt, das über lineare Programmierung gelöst wird (siehe (Cameron und Trivedi, 2006, Kapitel 4, insbesondere S. 87-88)), ein Verfahren, das weit über das hier behandelte Thema hinausreicht. 140 Stelle Normalgleichung 12.8 um, dies führt zum Ergebnis. 141 Vergleiche die erste Normalgleichung. 142 Zeichne eine Regressionsgerade in ein Streudiagramm, bei dem alle Beobachtungen auf einer Geraden liegen. Zeichne waagerechte Linien durch alle Beobachtungen und alle geschätzten Werte yˆ. Es zeigt sich, daß y = yˆ, woraus die Behauptung folgt. 143 Der Schätzer ˆ b gibt die Steigung der Schätzgeraden an. Ändern sich die Variablen xt und yt gleichgerichtet, so ist die Steigung positiv und auch die Kovarianz ist positiv. Ist die Kovarianz zwischen xt und yt negativ, so steigt tendenziell xt , wenn yt sinkt, und umgekehrt: die Steigung der Schätzgeraden ist dann negativ. Sofern die Varianz V ar(x) sehr klein ist, so muß bei gegebenen Werten yt die Steigung der Schätzgeraden größer sein, als bei großer Varianz V ar(x). Dies schlägt sich in dem Schätzer 12.12 nieder, da hier die Varianz als Argument eingeht. Eine kleine Varianz führt zu höheren Werten von ˆ b als eine große. 144 Es kann sein, daß die Streuung des Störterms u so groß ist, daß sich dies in einem geringem t R2 niederschlägt. Dieser Einfluß wird bei statistischen Hypothesentests über die KQ-Schätzer berücksichtigt. Sollte dies tatsächlich der relevante Effekt sein, so sollten sich die KQ-Schätzer als signifikant von Null erweisen. 145 Bei zwei Beobachtungen geht die Regressionsgerade durch beide Punkte, weshalb die Varianz der Störterme gleich Null sein muß. Folglich ist das Bestimmtheitsmaß gleich Eins.
ANMERKUNGEN UND LÖSUNGEN
353
Kommt eine weitere Beobachtung hinzu, so bleibt das Bestimmtheitsmaß entweder unverändert oder es sinkt. Liegt die zusätzliche Beobachtung genau auf der zuvor geschätzten Geraden, so ist R2 weiterhin gleich Eins. Ansonsten muß es sinken, da es Störterme ut > 0 gibt. 146
ˆb − b =
T
xt u t − ut 2 xt 2 T
xt −(
=
xt )
T(
=
T
(xt −¯ x)ut )
2 x)2 T 2 x2 t −T (¯
xt ut −T T
=
(
x2 −( t
ut (1/T ) 2
(xt −¯ x)ut )
T (x2 x)2 ) t −(¯
xt )
=
(
xt
=
T(
x ut ) xt2ut −¯ 2
T
xt −(
xt )
(C.1) (xt −¯ x)ut )
T s2 (x)
.
147 Die Aufstellung der Schätzfunktion ist zwar mitentscheidend für das Ergebnis, doch der Zusammenhang kann nicht im Sinne einer Ursache-Wirkungsrichtung interpretiert werden. Selbst wenn die KQ-Schätzer signifikant von Null verschieden sind, handelt es sich nicht um einen Kausalitätstest. 148 Das Bestimmtheitsmaß R2 verringert sich, da die Varianz der Störterme zunimmt und ist zuletzt nahe Null. Dennoch sind die KQ-Koeffizienten signifikant von Null verschieden. 149 Die Multiplikation der erklärenden Größe mit einer Konstanten hat keinen Einfluß auf die KQ-Residuen. 150 Die Summe der Residuen muß gleich Null ergeben. Ist dies nicht der Fall, so muß ein Rechenfehler vorliegen. 151 Es zeigt sich, daß das Absolutglied nicht signifikant ist. Hinweis: Sofern die Beobachtungen eine eng zusammenligende Punktwolke darstellt und je weiter sie vom Ursprung entfernt ist, desto unsicherer ist die Schätzung des Absolutgliedes ˆ a. In Anwendungen ist dies häufig der Fall. 152 Das Absolutglied wird als erklärende Variable mitgerechnet, erscheint aber nicht bei der Aufzählung x1 , x2 , . . . , xn . 153 Ist der Stichprobenumfang bei der Binomialverteilung gleich 1, und werden als mögliche Ausprägungen nur x ∈ {0, 1} zugelassen, so erhält man die Bernoulli-Verteilung.
Glossar Bestimmtheitsmaß R2
Ceteris paribus
Gini Korrelation
Kritischer Wert
Dies gibt den Anteil der erklärten Varianz einer Regression an der Varianz der zu erklärenden Variable wider, 266 ’Alles andere bleibt gleich’; lateinische Redewendung, die in der Ökonomie häufig verwendet wird, 265 Gini - Dies ist die Abkürzung für den Ginikoeffizient, der nicht normiert ist, 62 Die Korrelation ist ein Maß, mit dessen Hilfe der Zusammenhang zweier Zufallsvariablen überprüft werden kann. Sie hat dasselbe Vorzeichen wie die Kovarianz, mit deren Hilfe sie berechnet wird. Ist sie positiv und eine der beiden Variablen steigt, so steigt auch die andere; ist sie negativ und steigt eine Variable, dann sinkt die andere. Sind die betrachteten Zufallsvariablen stochastisch unabhängig, so ist die Kovarianz und damit auch die Korrelation gleich Null. Ist die Korrelation gleich Null, so müssen die beiden Zufallsvariablen allerdings nicht stochastisch unabhängig sein. Ist die Korrelation aber von Null verschieden, so liegt keine stochastische Unabhängigkeit vor. Diese Eigenschaft macht man sich bei den Tests auf Korrelation zu Nutze, 142 Bei einseitigen Tests teilt das Quantil den Definitionsbereich der Testgröße in einen Verwerfungsbereich und einen Annahmebereich. Da es nur einen Ablehnungsbereich gibt, heißen solche Tests einseitig. Bei zweiseitigen Tests werden zwei α2 -Quantile berechnet, ein unteres und ein oberes. Der Definitionsbereich der Testgröße wird in drei Bereiche aufgeteilt: einen Annahme und zwei äußere Verwerfungsbereiche, 81 355
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-6693-3, © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011
356 MONA N(0,1) PAM Standardisierung
Translation
Wahrscheinlichkeitsmasse
σX (x) (Ω F P ) Cov(X, Y ) E(X) FX (x) Gininormiert
H(x)
H0 H1 Mf P P (X x) QX
Glossar Monothetische Methode zur Bildung einer Hierarchie, 241 Normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1, 271 Polythetische Methode zur Bildung einer Partition, 220 Jede Zufallsvariable kann so umgerechnet werden, daß ihr Mittelwert 0 und ihre Varianz 1 beträgt. Diese Umrechnung heißt Standardisierung. Allerdings müssen Erwartungswert und Varianz bekannt sein, 136 Bei einer Addition aller Punkte mit einer Konstanten spricht man von Translation (Parallelverschiebung), 267 Damit wird die Wahrscheinlichkeit bezeichnet, die bei diskreten Zufallsvariablen auf einer Zufallsvariablen liegt. Man versteht darunter auch die Wahrscheinlichkeit, die über einem Intervall von Zufallsvariablen vorhanden ist. Die Fläche, die über einem Intervall stetiger Zufallsvariablen liegt bezeichnet man ebenfalls als Wahrscheinlichkeitsmasse. Da bei einer stetigen Zufallsvariablen die Fläche über einem Punkt gleich Null ist, ist dessen Eintrittswahrscheinlichkeit gleich Null, 80 Standardabweichung, 136 Wahrscheinlichkeitsraum, 115 Kovarianz, 136 Erwartungswert, 135 Verteilungsfunktion zur Zufallsvariablen X, 132 Normierter Gini - Dies ist die Abkürzung für den Ginikoeffizient, der normiert ist und nur Werte zwischen 0 und 1 annehmen kann, 65 Empirische Verteilungsfunktion - Sie gibt die kumulierten relativen Häufigkeiten der Merkmalsausprägungen an, die gleich oder kleiner der betrachteten Merkmalsausprägung sind, 45 Nullhypothese, 78 Gegenhypothese, 78 höchster Rang der Variable f , 203 Wahrscheinlichkeit, 74 Wahrscheinlichkeit, daß die Zufallsvariable X kleiner oder gleich x ist, 132 Bildwahrscheinlichkeit, 131
Glossar QX S SC T Hij
#A #matches %∗% Ω α
x ¯ ∃ ∀ ˆ V ar(x) σ ˆ2
n k Korr(XX) X ˆ Korr(XX) rXX K Bn Ω A ρ θ |a| d(i j)
357 Wahrscheinlichkeitsverteilung der Zufallsvariablen X, 76 Gesamte Merkmalssumme - Diese Größe ist der erste Schritt zur Bildung der Lorenzkurve, 60 Silhouettenkoeffizient, 233 Theoretische Häufigkeit - Dies ist die Häufigkeit, die sich aufgrund einer Verteilungsannahme bei Geltung der Nullhypothese ergibt. , 96 Anzahl der Elemente der Menge A, 116 Anzahl an Übereinstimmungen, 206 Befehl in zur Durchführung einer Matrizenmultiplikation, 162 Ergebnisraum, 111 Signifikanzniveau, es gibt die Wahrscheinlichkeit an, die über dem Ablehnungsbereich liegt, 79 arithmetisches Mittel, 21 Existenzquantor, dieses Symbol soll bedeuten ’es existiert’, 184, 319 Allquantor, eine Kurzschreibweise, die bedeuten soll ’für alle’, 113 korrigierte Stichprobenvarianz, 21 Korrigierte Stichprobenvarianz - Sie ist ein Streuungsmaß und wird genutzt, um die mit Daten einer einfachen Stichprobe die Streuung in der Grundgesamtheit erwartungstreu zu messen, 21 Binomialkoeffizient, 75 Korrelationsmatrix, 183 Transponierte der Matrix X, 310 Schätzer der Korrelationsmatrix, 175 Schätzer der Korrelationsmatrix für stetige, kardinale Merkmale, 175 Klassifikation, 218 Borelkörper in n , 131 Komplementmenge von A bezüglich Ω, 112 Korrelation in der Wahrscheinlichkeitstheorie, 143 Parameterwert, 91 Betragszeichen, die Variable a wird zum Betrag genommen, 198 Distanz zwischen den statistischen Einheiten i und j, 195
Ê
358 fX (x) h(x) hi hi,j
k l
m n ni nij
r
s2
s2X s11 (x,y) z
Glossar Dichtefunktion zur Zufallsvariablen X an der Stelle x, 134 Relative Häufigkeitsverteilung, 42 Relative Häufigkeit der Merkmalsausprägung i, 42 Gemeinsame Verteilung - hij gibt die gemeinsame relative Häufigkeit des Auftretens von Merkmalsausprägung i und j an, 55 Anzahl unterschiedlicher Beobachtungen, 39, 142 Er kann die Anzahl unterschiedlicher Merkmale angeben oder auch die Anzahl unterschiedlicher Ausprägungen. Die Verwendung ergibt sich aus dem Sinnzusammenhang, 142, 198, 206, 207, 248 Anzahl an Klassen, 218 bei Stichproben: Stichprobenumfang, 78 absolute Häufigkeit, 39 Zellenbesetzung - Sie gibt die absolute Häufigkeit an, mit der Kombinationen an Merkmalsausprägungen in einer Kontingenztabelle, 100 Empirische Korrelation - Mit ihr läßt sich der Zusammenhang zwischen zwei Zahlenreihen messen. Sie ist, wie die Korrelation in der Wahrscheinlichkeitstheorie (Korr(X, Y )) normiert und kann nur Werte zwischen [−1, +1] annehmen. Ansonsten gilt das gleiche, was dort gesagt wurde, wenn man stochastische durch statistische Unabhängigkeit ersetzt, 143 Empirische Varianz - Sie ist ein Streuungsmaß und wird bei Totalerhebungen oder zur Beschreibung der Streuung in einer Stichprobe benutzt, 21, 44, 270 empirische Varianz zur Variablen X, 40 empirische Kovarianz, 144 Zinssatz, 197
Literaturverzeichnis Walter Assenmacher. Einführung in die Ökonometrie (München: R. Oldenbourg Verlag), 6., vollständig überarbeitete und erweiterte Auflage (2002). ISBN 3486-25429-4. Günter Bamberg und Franz Baur. Statistik (München, Wien: R. Oldenbourg Verlag) (1984). Heinz Bauer. Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie (Berlin, New York: Walter de Gruyter), 3. Auflage (1978). D.J. Best und D.E. Roberts. Algorithm AS 89: The Upper Tail Probabilities of Spearman’s rho. In Applied Statistics, Band 24:377–379 (1975). Statistisches Bundesamt. Genesis-Online. https://www-genesis.destatis.de.
online
(2008).
URL
A. Colin Cameron und Pravin K. Trivedi. Microeconometrics, Methods and Applications (New York: Cambridge University Press) (2006). Dubravko Dolic. Statistik mit R, Einführung für Wirtschafts- und Sozialwissenschafter (München, Wien: R. Oldenbourg Verlag) (2004). Kurt Endl und Wolfgang Luh. Analysis I, Eine integrierte Darstellung (Wiesbaden: Akademische Verlagsgesellschaft), 6. Auflage (1980). ISBN 3-400-001856. JC Gower. A general coefficient of similarity and some of its properties. In Biometrics, Band 27:857–871 (1971). Joachim Hartung und Bärbel Elpelt. Multivariate Statistik (München: Oldenbourg Verlag) (1984). Myles Hollander und Douglas A. Wolfe. Nonparametric Statistical Methods (New York: John Wiley and Sons, Inc.) (1999). Leonard Kaufmann und Peter Rousseeuw. Finding Groups in Data An Introduction to Cluster Analyses (New York, Chichester, Brisbane, Toronto, Singapore: John Wiley and Sons, Inc.) (1990). R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-6693-3, © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011
360
LITERATURVERZEICHNIS
Josef Schira. Statistische Methoden der VWL und BWL : Theorie und Praxis (München: Pearson Studium) (2005). ISBN 3-8273-7163-5. Norbert Schmitz. Vorlesungen über Wahrscheinlichkeitstheorie (Stuttgart: Teubner-Studienbücher) (1996). ISBN 3-519-02572-8. Hans Schneeweiß. Ökonometrie (Würzburg-Wien: Physica-Verlag), 3. durchgesehene Auflage (1978). Peter von der Lippe. Auflage (1996).
Wirtschaftsstatistik (Stuttgart: Lucius & Lucius), 5.
Karlheinz Zwerenz. Datenanalyse mit Excel und SPSS (München, Wien: Oldenbourg Verlag) (2006).
Stichwortverzeichnis σ-Additivität, 115 σ-Ring, 113 Ähnlichkeit von Objekten Definition, 245 Überdeckung Definition, 219 Konstruktion, 237 Abhängigkeit lineare, 319 Ablehnungsbereich, 79 Affinitätsindex, 208 Alternativenvergleich, 92 Ancienitätsprinzip, 20, 257 Anführungszeichen typographische, 341 Ankunftsrate mittlere, 291 Annahmebereich, 79 Anpassungstest, 102 Arbeitsspeicher löschen, 328 Arbeitsverzeichnis anlegen oder wechseln, 328 Assoziationsmaß Interpretation, 245 attach, 333 Aufgaben, 2 Ausreißer, 23 Balkendiagramm, 41 bar chart, 41 bar plot, 41 Basis, 319 Bayes Schätzfunktionen, 124 Befehlsdatei, 328
Befehlsfenster, 327 Beispiele, 2 Bereich kritischer, 79 Bestimmtheitsmaß, 265 Interpretation, 266 Invarianz gegenüber Maßstabsänderungen, 266 Invarianz gegenüber Translationen, 267 Bias, 21, 46 Bildwahrscheinlichkeit, 131 Bindungen, 153 Binomialkoeffizient, 76 Bittorrent, 3 Bundesamt Statistisches Online-Angebot, 32 cbind, 335 Centrotype, 220 ceteris paribus, 265 City-Block-Metrik, 198 Cluster, 193 L∗ -Cluster, 228 L-Cluster, 228 Clusteranalyse, 24, 193, 215 Coefficient simple matching coefficient, 208 Daten Überprüfung auf Konsistenz, 20 abspeichern, 332 einlesen, 5, 332 herunterladen, 5 Internetadresse, 5 online beziehen, 5
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-6693-3, © Gabler Verlag | Springer Fachmedien Wiesbaden GmbH 2011
362 permanent machen, 40 quälen, 12 temporäre, 40 Daten aus dem Internet einlesen, 331 Daten aus einer *.csv-Datei einlesen, 331 Datenanalyse explorative, 169 Dateneigenschaften, 332 Dateneingabe Eingabe als Matrix, 34 Datenmatrix, 193 Datensätze umkehren, 333 Datensatz, 193 Deduktion, 12 Deskriptive Statistik, 5 detach, 333 Determinante, 175 Diameter, 229 Dichte Definition, 134 Dichtefunktion, 130 Definition, 134 Diskriminanzanalyse, 24 Diskriminierung, 84 Distanz City-Block, 198 City-Block-Distanz, 198 invariantes, 208 Jaccard, 209 Manhattan, 198 weitere Maßzahlen, 249 Distanzmatrix, 193 Duplikate entfernen, 335 Eigenvektor, 325 Eigenwert, 325 Ein-Stichprobenfall, 91 Einheit statistische, 13, 64, 115, 193 Einstichprobenfall Problem, 92 Elementarereignis, 116 Ereignisraum, 115
STICHWORTVERZEICHNIS Ereignisse, 115 Ergebnisraum, 111 Ergebnisse, 111 des Wahrscheinlichkeitsraumes, 115 Erhebungsplan, 26, 76 Erzeugendensystem, 319 Exzentrizität maximale, 175 Fakultät, 75 Fehler 2. Art, 86 Fehler 1. Art, 83 Fehlermeldungen Umgang mit, 340 Finden in , 336 Fisher z-Transformation, 166 Fragebogen, 9 Geradengleichung Parameter der, 254 Gini-Koeffizient, 63 normiert, 65 Gleichverteilung stetige, 293 Graphik abspeichern, 335 Formate, 336 Grundgesamtheit, 13 Häufigkeit relative, 42 Häufigkeitsdichte durchschnittliche, 53 Häufigkeitsverteilung relative gemeinsame, 57 Handbücher in Linux, 336 Handbücher in Windows, 339 Hauptdiagonale, 311 Hauptdiagonalelemente, 311 Hierarchie, 242 Definition, 219 Histogramm, 52–54 absolute Klassenhäufigkeit, 52
STICHWORTVERZEICHNIS Kendall, 155 Homogenitätstest, 105 Korrelationstabelle, 56 Hotelling-Pabst-Statistik, 153 Kovarianz, 136 Hypothese, 12 Erläuterung, 141 Hypothesen Interessenlage und Aufstellung von, KQ-Methode, 259 84 Längsschnittanalyse, 33 Lag, 334 Identität, 33 Lags, 327 Induktion, 12 last, 335 Inverse, 322 Legende, 36 K-Statistik LimeSurvey, 10 Kendallsche, 155 Internetadresse, 10 Kendalls τ , 155 Linearkombination, 319 Klassen Lorenz-Kurve, 59 äquidistante, 54 M-Koeffizient, 208 Klassenbildung matplot, 36 diversiv, 242 Matrix Klassifikationstyp, 218 Datenmatrix, 193 Klassifizierung Distanzmatrix, 193 automatische, 215 Einheitsmatrix, 311 Kleinst-Quadrat-Schätzfunktionen, 270 Inverse, 322 Koeffizient Invertierbar, 322 M-Koeffizient, 208 obere Dreiecksmatrix, 311 Chi-Quadrat-, 97 quadratische, 311 Ungleichheiheits-, 194 Rang einer Matrix, 319 Konfidenzintervall, 130, 151 reguläre, 319 Konsistenz, 21 Spalten, 310 Konsole, 327 transponierte, 310 Konstruktionsverfahren untere Dreiecksmatrix, 311 Unterschied zwischen HierarchieZeilen, 310 bildung und Partitionierung, 220 Meßbarkeit, 129 Definition, 130 Kontingenz Median, 47 quadratische, 97 Medoid, 220 Kontingenztabelle, 56, 129 Definition, 220 bei Zufallsvariablen, 132 merge, 335 Kontrollvariable, 92 Merkmal Kontrollvariablen, 27 binäres, 207 Korrelation diskretes, 285 Definition, 143 intervallskaliert, 196 kanonische, 186 kardinal, 24 multiple, 183 kardinales Scheinkorrelation, 263 invervallskaliertes, 24 Korrelationskoeffizient verhältsnisskaliertes, 24 Bravais-Pearson, 144
363
364 nominales, 23 nominales in , 332 ordinal, 24 stetiges, 285 verhältnisskaliert, 196 Merkmale gemeinsam erhobene, 32 Metaebene, 102 Methode KQ-Methode, 6 Missings, 16 Mitgliedschaftsexponent, 235 Mitgliedschaftskoeffizient, 234 Mittel arithmetisches bei Rohdaten, 21 bei absoluten Häufigkeiten arithmetisches, 39 bei relativen Häufigkeiten arithmetisches, 44 Mittelwertvergleich zweier normalverteilter Zufallsvariablen, 94 Modell vollständiges, 270 monothetisch, 248 Moodle, 10 Internetadresse, 10 ndays, 335 Nennerfreiheitsgrade, 185 Next, 334 nmonths, 335 Normalgleichungen, 256 Normalverteilung Standardnormalverteilung, 297 nquarters, 335 Objekt Nachbar eines Objektes, 231 repräsentatives, 220 Objekte interessierende, 13 siehe auch Grundgesamtheit, 13 Objektebene, 102 Online-Befragung
STICHWORTVERZEICHNIS Software, 10 Onlineangebot des Verlages, 5 OpenOffice Internetadresse, 2 ordered, 204 p-value graphische Veranschaulichung, 150 Pakete installieren unter Linux, 330 Pakete einlesen auf dem Rechner existierende, 330 Pakete installieren in Windows, 339 Panelstudie, 34 Parameter Vektor regressionsähnlicher, 186 Partition Definition, 219 kompromißlose, 236 Vergleich PAM und FANNY, 236 Partitions-Koeffizient, 241 normiert, 241 Permutation, 75, 117 Personen interessierende, 13 siehe auch Grundgesamtheit, 13 Plausibilität, 16 Überprüfung auf statistische, 25 Plausibilitätsprüfung, 20 polythetisch, 248 Preisdiskriminierung, 106 dritten Grades, 216 Primärdaten, 14 Probleme bei Befehlsdatei, 328 Prognose, 262 Punktprognose, 253 Programmpaket, 339 Punktmasse, 124 Punktschätzung, 73 Punktwahrscheinlichkeit, 124 Quantil, 47 Mehrdeutigkeit, 49, 50, 52
STICHWORTVERZEICHNIS Quantile und Verteilungsfunktion, 50 Quartil oberes, 47 unteres, 47 Quasihierarchie Definition, 219 Querschnittsanalyse, 33, 258 R Internetadresse, 3 Randverteilung, 57 relative, 57 Zufallsvariablen, 132 Randverteilungsfunktion, 133 Rangkorrelationskoeffizient, 152 rbind, 335 Rdata-Format, 332 Realisierungen, 286 Regressanden, 254 Regression einfache, 254 multiple, 275 Scheinregression, 263 von Yt auf Xt , 254 Regressionsfunktion, 259 Regressionsgerade, 257 Regressionskoeffizienten, 254 Regressionsmodell einfaches klassisches, 255 Regressoren, 254 Residuen, 255 rm, 328 Rohdaten, 21, 31, 193 Beispieldatensatz, 18 scan, 41 Scatterplot, 145 Sekundärdaten, 14 Selbstselektion, 86 Selbstzensur, 86 Separation, 229 Shell, 327 Sicherheitswahrscheinlichkeit, 79, 130 Signfikant von Null verschieden alternative Redewendung, 191
365 Signifikanzniveau, 79 Einfluß auf Testergebnis, 85 Silhouette, 230 Silhouettenweite, 230 Skala arithmetische, 70 Skalenniveau, 98 Skalierung Bedeutung von Fragestellung und Interpretation, 206 halblogarithmische, 72 logarithmische, 72 Sprungstelle der Verteilungsfunktion, 133 Störterm, 254 Stabdiagramm, 44 Standardisierung, 130 Statistik beschreibende, 32 deskriptive, 5, 32 induktive, 130 multivariate, 21 schließende, 14, 32, 130 univariat, 21 Statistiklabor Internetadresse, 3 Stetigkeit der Verteilungsfunktion, 45 Stichprobe, 14 einfache, 14, 76 Einstichprobenfall, 91 Stichprobenkovarianz korrigierte, 186 Stichprobenvarianz korrigierte, 21 Streudiagramm, 145 Streuung gemischte, 136 Streuungsmaß, 40 Streuungszerlegungsformel, 266 Stromgröße, 92 Suchen in , 336 Tautologie, 33 Taxonomie numerische, 215
366 Teilerhebung, 13 Test linksseitiger, 81 oberseitiger, 83 rechtsseitiger, 83 unterseitiger, 81 verteilungsfreier, 94 Vorzeichentest nach Fisher, 93 zweiseitiger, 80 Testgröße, 78 Tests Statistische Kern, 86 Trägerpunkte, 124 Translation, 267 Trendstudie, 34 Unähnlichkeitsmaß siehe Distanz, 208 Unabhängigkeit lineare, 319 statistische, 59, 104 und bedingte Häufigkeit, 59 stochastische, 120, 136 union, 335 unique, 335 Untersuchungseinheit, 13, 115 Urliste, 21 Validität, 20 Variable latente, 265 Variablen erklärenden, 254 zu erklärenden, 254 Varianz empirische, 45 Grundgesamtheit empirische, 21 Stichprobe empirische, 22 Varianzzerlegungsformel, 266 Vektor Einsvektor, 312 j-ter Einheitsvektor, 312
STICHWORTVERZEICHNIS Nullvektor, 312 Verteilung bedingte, 59 Bernoulli, 93, 111 Bernoulli-Verteilung, 285 gemeinsame, 56 Gleichverteilung, 285 hypergeometrischen, 285 Standardabweichung, 136 Standardnormalverteilung, 300 Verteilungsfunktion, 130 diskrete Definition, 133 empirische, 45 Normalverteilung, 286 Poisson-Verteilung, 285 stetige Definition, 134 Verzerrung systematische, 21, 46 Vollerhebung, 13 Vorhersagekriterium Vektor des besten, 186 Wahrscheinlichkeit bedingte, 120 diskrete, 124 Wahrscheinlichkeitsraum, 115 diskreter, 124, 130 Grundgesamtheit des, 115 Laplacescher, 116 stetiger, 130 Wahrscheinlichkeitstheorie, 112 Wahrscheinlichkeitsverteilung, 131, 134 diskrete, 131 stetige Definition, 134 Wahrscheinlickeitsmassefunktion, 134 Werbewirkungsanalyse, 91 Wert kritischer, 81 Werte fehlende, 16 nicht-fehlende, 203 Windows Besonderheiten in Windows, 339
STICHWORTVERZEICHNIS Wirkungsanalyse, 91 Änderung der Organisation, 91 Umsatzsteigerung, 91 Werbung, 91 Zählerfreiheitsgrade, 185 Zeitreihen zusammenfassen, 335 Ziehen mit Zurücklegen, 76 ohne Zurücklegen, 76 Zufallsvariable, 129, 286 diskrete, 131 eindimensionale Definition, 131 standardnormalverteilte, 300 stetige Definition, 134 Wahrscheinlichkeitsverteilung, 131
367