Reiner Hellbrück Angewandte Statistik mit R
Reiner Hellbrück
Angewandte Statistik mit R Eine Einführung für Ökonomen...
104 downloads
1884 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Reiner Hellbrück Angewandte Statistik mit R
Reiner Hellbrück
Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Prof. Dr. Reiner Hellbrück lehrt Volkswirtschaftspolitik und Betriebsstatistik an der FH Würzburg-Schweinfurt.
1. Auflage 2009 Alle Rechte vorbehalten © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009 Lektorat: Jutta Hauser-Fahr | Walburga Himmel Gabler ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-8349-1857-4
Vorwort Dieses Buch entstand im Zuge der Neustrukturierung meiner Statistikveranstaltungen an der FH Würzburg-Schweinfurt. Die fortschreitende Digitalisierung macht auch vor der Statistik nicht halt und so entstand der Wunsch, die Veranstaltungen neu auszurichten. Wie an Fachhochschulen üblich, liegt der Schwerpunkt auf der Anwendung. Aus diesem Grund sind im allgemeinen nach einer kurzen Darstellung des nötigen Hintergrundwissens Beispiele angefügt. Hierbei kommt die Statistiksoftware zum Einsatz. wird sehr selektiv eingesetzt, allen Anwendungen ist zuvor ein Grundlagenkapitel vorgeschaltet, in dem Maßzahlen, Teststatistiken, Hypothesen und dergleichen vorgestellt werden. Leser, die einen schnellen Überblick über die Software wünschen, seien auf den Anhang C verwiesen, wo die wichtigsten Befehle dargestellt werden. Um Mißverständnissen vorzubeugen, sei ausdrücklich darauf hingewiesen, daß es sich hier um keine Einführung in das Programmpaket handelt: Methoden und Anwendung, gestützt mit Software, stehen gleichberechtigt nebeneinander. Das Erlernen der Software ergibt sich als nützlicher Nebeneffekt. Die anfänglichen Rechnungen erfolgten mit Version R-2.5, dann mit neueren. Die Software ist auf vielen verschiedenen Betriebssystemen lauffähig. Im vorliegenden Fall wurde Windows XP und Suse-Linux genutzt. Bei Linux wurden teilweise Rechnungen mit Hilfe einer Shell, (auch Konsole oder Befehlsfenster genannt) größtenteils aber mit Emacs-ess durchgeführt. Emacs ist ein TextEditor, der üblicherweise mit jeder Linux-Distribution ausgeliefert wird. Das Kürzel ’ess’ steht für ’emacs speaks statistics’ und will heißen, daß das Zusatzwerkzeug ’Emacs-ess’ als Benutzeroberfläche (als ’frontend’) für Statistiksoftware eingesetzt werden kann. Hierüber ist es möglich, mit einer einheitlichen Benutzeroberfläche verschiedene Statistikprogramme, darunter auch ’SPSS’ und ’Stada’, anzusprechen. Eigene Versuche in dieser Richtung wurden von dem Autor bislang nicht unternommen. Der Einstieg ist sehr einfach gehalten, um dem Studenten während der ersten Wochen genügend Zeit zu lassen, die neue Software auf seinem eigenen Rechner zu installieren und kennenzulernen. Erfahrungsgemäß stellen sich bereits bei dem Einlesen der Daten die ersten Probleme ein. Dies rührt aus der Verwendung unterschiedlicher Parameter, die zur Trennung von Zeichen bei Textdateien verwendet werden. Desweiteren gibt es üblicherweise Probleme durch die Verwendung unterschiedlicher Betriebssysteme. ist primär für Linuxsyste-
vi
VORWORT
me geschrieben. Hier gelten jedoch etwas andere Konventionen bei der Angabe von Pfaden: statt des ’\’, wie in Windowssystemen üblich, wird das Zeichen ’/’ verwendet. Werden die Befehle nicht direkt in dem Befehlsfenster von geschrieben, sondern in einem Textverarbeitungsprogramm, so kann es nach Kopieren der Befehle in das Befehlsfenster leicht zu Fehlermeldungen kommen. Ursache ist dann häufig die automatische Ersetzung der Anführungszeichen in typographische Anführungszeichen innerhalb des Textverarbeitungsprogramms. Deshalb wird empfohlen, zum Schreiben oder Bearbeiten von Befehlen eine Software zu verwenden, die solche automatischen Ersetzungen nicht vornimmt, oder daß solche Funktionen ausgeschaltet werden. Der deskriptiven Statistik ist vergleichsweise wenig Raum gewidmet, der Schwerpunkt liegt auf der schließenden Statistik und multivariaten Verfahren, bei denen seitens Ökonomen (speziell meiner Kolleginnen und Kollegen) Nachfrage besteht. Der Text kann, je nach Belieben, unterschiedlich verwendet werden. Einerseits besteht die Möglichkeit, die Theorie weitestgehend in den Hintergrund zu drängen, um sich ausschließlich auf die Anwendung zu konzentrieren: die Kapitel 6 und 7 zur Wahrscheinlichkeitstheorie können dann übersprungen werden. Dies bietet sich an, wenn eine Veranstaltung zur Wahrscheinlichkeitstheorie vorgeschaltet ist. Andererseits ist es möglich, Inhalte anwendungsnah zu präsentieren, und bei Bedarf nötiges Wissen in Wahrscheinlichkeitstheorie einzuflechten. Dann bietet es sich an, die Kapitel in der angegebenen Folge zu besprechen. Da die Kapitel 10 und 11, ohne statistische Tests auskommen, können sie auch zur Veranschaulichung multivariater Verfahren vorgezogen werden. Bei einigen Lehrbüchern hat sich zwischenzeitlich die Unart eingeschlichen, während des laufenden Textes nicht zu zitieren. Es scheint, als habe ein sehr bekanntes Lehrbuch der Mikroökonomie, diese Entwicklung eingeleitet. Dem Autor des Lehrbuches verbrannte das Manuskript mitsamt der Zitate. Aus den verbliebenen Resten wurde es fast gänzlich ohne Zitate fertiggestellt. Hierdurch wird dem Studenten der Eindruck vermittelt, als brauche man nicht zu zitieren. Diesem Zeitgeist wird hier nicht gefolgt. Es wird angegeben, woher der Autor seine Weisheiten hat. Dank schulde ich vielen, insbesondere meinem akademischen Lehrer Prof. Dr. Volker Steinmetz, der es außerordentlich gut verstand, theoretische Statistik und Ökonometrie zu vermitteln. Herr Prof. Dr. Rudolf Richter bot bereits in den 80-er Jahren PC-gestützte ökonometrische Auswertungen an, damals ein Novum. Beide Ansätze werden hier miteinander verknüpft. Danken möchte ich an dieser Stelle auch meinem wissenschaftlichen Mitarbeiter Manuel Hertel, für die gute Zusammenarbeit und die Entlastung durch seine Übungsstunden, die er mit großer Umsicht anbietet. Schließlich möchte ich bei meinen Söhnen, David und Simon um Nachsicht bitten, für die Zeit, die ich in meinem Arbeitszimmer den PC blockiert habe. Meine Frau genoß die Zeit, während ich ’aufgeräumt’ war, ebenso wie ich. Würzburg, im Juni 2009: Reiner Hellbrück
Inhaltsverzeichnis Vorwort
v
Abbildungsverzeichnis
xv
Tabellenverzeichnis
xvii
1 Einleitung 1.1 Gegenstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Datenerhebung - ganz praktisch 2.1 Einleitung . . . . . . . . . . . . . . . 2.2 Erhebungsplan . . . . . . . . . . . . 2.2.1 Grundlagen . . . . . . . . . . 2.2.2 Beispiel . . . . . . . . . . . . 2.3 Software . . . . . . . . . . . . . . . . 2.3.1 Moodle und LimeSurvey . . . 2.3.2 Statistikpaket R . . . . . . . 2.4 Ziehen einer Stichprobe . . . . . . . 2.4.1 Grundlagen . . . . . . . . . . 2.4.2 Beispiel . . . . . . . . . . . . 2.5 Rohdaten auslesen . . . . . . . . . . 2.5.1 Grundlagen . . . . . . . . . . 2.5.2 Beispiel . . . . . . . . . . . . 2.6 Daten in Statistikprogramm einlesen 2.6.1 Grundlagen . . . . . . . . . . 2.6.2 Beispiel . . . . . . . . . . . . 2.7 Plausibilitätsprüfung . . . . . . . . . 2.7.1 Grundlagen . . . . . . . . . . 2.7.2 Beispiel 1 . . . . . . . . . . . 2.7.3 Einfache Datensätze . . . . . 2.7.4 Beispiel 2 . . . . . . . . . . . 2.7.5 Komplexe Datensätze . . . . 2.7.6 Beispiel 3 . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
1 1 4 7 7 7 7 8 10 10 11 12 12 13 13 13 14 15 15 15 17 17 18 19 20 21 23
INHALTSVERZEICHNIS
viii
2.8 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . . . . 2.9 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24 25 27
3 Datenaufbereitung 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . 3.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . . . 3.3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . . . 3.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . 3.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 3.5.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Verteilungsfunktion und Quantile . . . . . . . . . . . 3.6 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Absolute Häufigkeit . . . . . . . . . . . . . . . . . . 3.6.2 Durchschnittliche Häufigkeitsdichte . . . . . . . . . . 3.7 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Gemeinsame Verteilung . . . . . . . . . . . . . . . . 3.7.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . 3.7.3 Bedingte Verteilung und statistische Unabhängigkeit 3.8 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.3 Gini-Koeffizienten . . . . . . . . . . . . . . . . . . . 3.9 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . 3.10 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . 3.11 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.A Nützliches zu Maßzahlen* . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 29 30 30 32 36 36 36 37 38 40 40 41 42 43 43 43 45 48 50 50 51 53 53 55 56 57 57 58 60 63 63 64 67
4 Statistisches Testen 4.1 Einleitung . . . . . . . . . . . . . 4.2 Binomialverteilung . . . . . . . . 4.2.1 Grundlagen . . . . . . . . 4.2.2 Beispiel . . . . . . . . . . 4.3 Test . . . . . . . . . . . . . . . . 4.3.1 Zweiseitige Fragestellung
. . . . . .
. . . . . .
. . . . . .
69 69 70 70 72 73 73
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
INHALTSVERZEICHNIS
ix
4.3.2 Einseitige Fragestellung - Version 4.3.3 Einseitige Fragestellung - Version 4.3.4 Fehler 1. Art . . . . . . . . . . . 4.3.5 Beispiel . . . . . . . . . . . . . . 4.4 Abschließende Bemerkungen . . . . . . . 4.5 Kontrollfragen . . . . . . . . . . . . . . 4.6 Aufgaben . . . . . . . . . . . . . . . . . 4.A Wirkungsanalyse* . . . . . . . . . . . . 4.A.1 Grundlagen . . . . . . . . . . . . 4.A.2 Test . . . . . . . . . . . . . . . . 4.A.3 Beispiel . . . . . . . . . . . . . . 4.A.4 Abschließende Bemerkungen . .
1 2 . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
76 78 79 79 82 83 84 87 87 88 89 90
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
91 91 92 92 94 97 97 98 99 99 101 102 103 104
6 Wahrscheinlichkeitsräume 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . 6.2 Definitionsmenge . . . . . . . . . . . . . . . . . 6.3 Wahrscheinlichkeitsraum der Grundgesamtheit 6.4 Wahrscheinlichkeitsraum der Stichprobe . . . . 6.5 Wichtige Zusammenhänge und Begriffe . . . . . 6.5.1 Rechenregeln . . . . . . . . . . . . . . . 6.5.2 Bedingte Wahrscheinlichkeit . . . . . . . 6.5.3 Stochastische Unabhängigkeit . . . . . . 6.5.4 Multiplikationssatz . . . . . . . . . . . . 6.5.5 Satz von der totalen Wahrscheinlichkeit 6.5.6 Satz von Bayes . . . . . . . . . . . . . . 6.5.7 Diskreter Wahrscheinlichkeitsraum . . . 6.6 Abschließende Bemerkungen . . . . . . . . . . . 6.7 Kontrollfragen . . . . . . . . . . . . . . . . . . 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
107 107 108 110 113 115 115 116 116 117 117 118 120 120 121 122
5 Chi-Quadrat Tests 5.1 Einleitung . . . . . . . . . . . 5.2 Unabhängigkeitstest . . . . . 5.2.1 Grundlagen . . . . . . 5.2.2 Beispiel . . . . . . . . 5.3 Anpassungstest . . . . . . . . 5.3.1 Grundlagen . . . . . . 5.3.2 Beispiel . . . . . . . . 5.4 Homogenitätstest . . . . . . . 5.4.1 Grundlagen . . . . . . 5.4.2 Beispiel . . . . . . . . 5.5 Abschließende Bemerkungen . 5.6 Kontrollfragen . . . . . . . . 5.7 Aufgaben . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
x
INHALTSVERZEICHNIS
7 Abbildungen von Ergebnisräumen 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Meßbarkeit und Zufallsvariable . . . . . . . . . . . . 7.2.1 Meßbarkeit . . . . . . . . . . . . . . . . . . . 7.2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . 7.3 Verteilungsfunktion und Dichte . . . . . . . . . . . . 7.3.1 Verteilungsfunktion . . . . . . . . . . . . . . 7.3.2 Dichte . . . . . . . . . . . . . . . . . . . . . . 7.4 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Erwartungswert . . . . . . . . . . . . . . . . . 7.4.2 Kovarianz, Varianz und Standardabweichung 7.4.3 Standardisierung . . . . . . . . . . . . . . . . 7.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 7.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 7.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
125 125 126 126 127 128 128 130 131 131 132 133 133 134 135
8 Einfache Korrelationsanalyse 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Wahrscheinlichkeitstheorie . . . . . . . . . . . 8.2.2 Empirische Korrelation . . . . . . . . . . . . 8.2.3 Berechnung bei Wertepaaren . . . . . . . . . 8.2.4 Beispiele . . . . . . . . . . . . . . . . . . . . . 8.3 Tests bei kardinalen Merkmalen . . . . . . . . . . . . 8.3.1 Stetige normalverteilte Zufallsvariablen . . . 8.3.2 Stetige nicht-normalverteilte Zufallsvariablen 8.4 Test bei ordinalen Merkmalen: Bell-Doksum Test . . 8.4.1 Test . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Beispiel . . . . . . . . . . . . . . . . . . . . . 8.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 8.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 8.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 8.A Weitere Tests* . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
137 137 138 138 139 140 140 143 143 147 154 154 155 158 159 160 161
9 Multivariate Korrelationsanalyse* 9.1 Einleitung . . . . . . . . . . . . . . 9.2 Vergleich zweier Korrelationen . . 9.2.1 Grundlagen . . . . . . . . . 9.2.2 Beispiel . . . . . . . . . . . 9.3 Partielle Korrelation . . . . . . . . 9.3.1 Grundlagen . . . . . . . . . 9.3.2 Beispiel 1 . . . . . . . . . . 9.3.3 Test . . . . . . . . . . . . . 9.3.4 Beispiel 2 . . . . . . . . . . 9.4 Zusammenhang zwischen mehreren 9.4.1 Grundlagen . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
165 165 166 166 167 168 168 169 169 170 170 170
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merkmalen . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS 9.4.2 Beispiel . . . . . . . Globaltest . . . . . . . . . . 9.5.1 Test . . . . . . . . . 9.5.2 Beispiel . . . . . . . 9.6 Multiple Vergleiche . . . . . 9.6.1 Test . . . . . . . . . 9.6.2 Beispiel . . . . . . . 9.7 Multiple Korrelation . . . . 9.7.1 Grundlagen . . . . . 9.7.2 Beispiel 1 . . . . . . 9.7.3 Test . . . . . . . . . 9.7.4 Beispiel 2 . . . . . . 9.8 Kanonische Korrelation . . 9.8.1 Grundlagen . . . . . 9.8.2 Beispiel 1 . . . . . . 9.8.3 Test . . . . . . . . . 9.8.4 Beispiel 2 . . . . . . 9.9 Abschließende Bemerkungen 9.10 Kontrollfragen . . . . . . . 9.11 Aufgaben . . . . . . . . . .
xi . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
172 173 173 173 174 174 176 179 179 179 180 181 182 182 183 184 185 186 187 188
10 Daten- und Distanzmatrix 10.1 Einleitung . . . . . . . . . . . . . . . 10.2 Distanzmatrizen . . . . . . . . . . . 10.2.1 Definition und Eigenschaften 10.2.2 Skalierung . . . . . . . . . . . 10.3 Kardinale Merkmale . . . . . . . . . 10.3.1 Intervall- und Verhältnisskala 10.3.2 Manhattan-Distanz . . . . . . 10.4 Ordinale Merkmale . . . . . . . . . . 10.4.1 Grundlagen . . . . . . . . . . 10.4.2 Beispiel . . . . . . . . . . . . 10.5 Nominale Merkmale . . . . . . . . . 10.5.1 Grundlagen . . . . . . . . . . 10.5.2 Beispiel . . . . . . . . . . . . 10.6 Binäre Merkmale . . . . . . . . . . . 10.6.1 Grundlagen . . . . . . . . . . 10.6.2 Beispiel . . . . . . . . . . . . 10.7 Abschließende Bemerkungen . . . . . 10.8 Kontrollfragen . . . . . . . . . . . . 10.9 Aufgaben . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
189 189 191 191 192 192 192 194 198 198 199 202 202 202 203 203 205 206 207 207
9.5
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
INHALTSVERZEICHNIS
xii
11 Clusteranalyse 11.1 Einleitung . . . . . . . . . . . . . . . . . . . 11.2 Klassifikation . . . . . . . . . . . . . . . . . 11.2.1 Klassifikationstypen . . . . . . . . . 11.2.2 Konstruktionsverfahren . . . . . . . 11.3 PAM . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Grundlagen . . . . . . . . . . . . . . 11.3.2 Beispiel 1 . . . . . . . . . . . . . . . 11.3.3 Bestimmung der Medoiden* . . . . . 11.3.4 Beispiel 2 . . . . . . . . . . . . . . . 11.3.5 Isolierte Cluster . . . . . . . . . . . . 11.3.6 Beispiel 3 . . . . . . . . . . . . . . . 11.3.7 Überprüfung der Klassenbildung . . 11.3.8 Beispiel 4 . . . . . . . . . . . . . . . 11.3.9 Bestimmung der Klassenzahl . . . . 11.3.10 Beispiel 5 . . . . . . . . . . . . . . . 11.4 FANNY . . . . . . . . . . . . . . . . . . . . 11.4.1 Grundlagen . . . . . . . . . . . . . . 11.4.2 Beispiel 1 . . . . . . . . . . . . . . . 11.4.3 Partition und Überdeckung . . . . . 11.4.4 Beispiel 2 . . . . . . . . . . . . . . . 11.4.5 Überprüfung der Klassenbildung und 11.4.6 Beispiel 3 . . . . . . . . . . . . . . . 11.5 MONA . . . . . . . . . . . . . . . . . . . . . 11.5.1 Grundlagen . . . . . . . . . . . . . . 11.5.2 Beispiel 1 . . . . . . . . . . . . . . . 11.5.3 Assoziationsmaß . . . . . . . . . . . 11.5.4 Beispiel 2 . . . . . . . . . . . . . . . 11.5.5 Missings . . . . . . . . . . . . . . . . 11.5.6 Beispiel 3 . . . . . . . . . . . . . . . 11.6 Abschließende Bemerkungen . . . . . . . . . 11.7 Kontrollfragen . . . . . . . . . . . . . . . . 11.8 Aufgaben . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassenanzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
211 211 214 214 215 216 216 216 220 223 224 225 226 228 229 229 229 229 231 232 233 236 237 237 237 238 240 241 244 244 245 246 247
12 Einfache Regression 12.1 Einleitung . . . . . . . . . . . . . . . . . 12.2 Einfaches klassisches Regressionsmodell 12.2.1 Grundlagen . . . . . . . . . . . . 12.2.2 Beispiel . . . . . . . . . . . . . . 12.3 Regressionsfunktion . . . . . . . . . . . 12.3.1 Grundlagen . . . . . . . . . . . . 12.3.2 Beispiel . . . . . . . . . . . . . . 12.4 Prognose . . . . . . . . . . . . . . . . . . 12.4.1 Grundlagen . . . . . . . . . . . . 12.4.2 Beispiel . . . . . . . . . . . . . . 12.5 Bestimmtheitsmaß . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
249 249 250 250 253 255 255 256 258 258 258 259
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS 12.5.1 Grundlagen . . . . . . . . . . . . 12.5.2 Beispiel . . . . . . . . . . . . . . 12.6 Vollständiges Modell . . . . . . . . . . . 12.7 Tests . . . . . . . . . . . . . . . . . . . . 12.7.1 Grundlagen . . . . . . . . . . . . 12.7.2 Beispiel . . . . . . . . . . . . . . 12.8 Abschließende Bemerkungen . . . . . . . 12.9 Kontrollfragen . . . . . . . . . . . . . . 12.10Aufgaben . . . . . . . . . . . . . . . . . 12.A Beweis der Streuungszerlegungsformel* . 12.B Erwartungswerte der KQ-Koeffizienten* 12.C Standardisierung* . . . . . . . . . . . . 12.C.1 Erwartungswert . . . . . . . . . . 12.C.2 Varianz . . . . . . . . . . . . . . 12.D Partielle Korrelation* . . . . . . . . . .
xiii . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
259 262 263 264 264 266 269 269 271 272 274 274 274 275 277
A Theoretische Verteilungen A.1 Einleitung . . . . . . . . . . . . . . . . . . A.2 Diskrete Verteilungen . . . . . . . . . . . A.2.1 Gleichverteilung* . . . . . . . . . . A.2.2 Bernoulli- und Binomialverteilung A.2.3 Hypergeometrische Verteilung* . . A.2.4 Poisson-Verteilung* . . . . . . . . A.2.5 Geometrische Verteilung* . . . . . A.3 Stetige Verteilungen . . . . . . . . . . . . A.3.1 Rechteckverteilung . . . . . . . . . A.3.2 Exponentialverteilung* . . . . . . . A.3.3 Normalverteilung . . . . . . . . . . A.3.4 Chi-Quadrat-Verteilung . . . . . . A.3.5 t-Verteilung . . . . . . . . . . . . . A.3.6 F-Verteilung . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
279 279 280 280 281 282 283 285 287 287 289 290 295 296 299
B Matrizenrechnung B.1 Einleitung . . . . . . . . . . . . . . . . . . . . B.2 Matrizen . . . . . . . . . . . . . . . . . . . . . B.2.1 Definition . . . . . . . . . . . . . . . . B.2.2 Vektoren . . . . . . . . . . . . . . . . B.2.3 Typen . . . . . . . . . . . . . . . . . . B.3 Verknüpfungen . . . . . . . . . . . . . . . . . B.3.1 Gleichheitsrelation . . . . . . . . . . . B.3.2 Addition . . . . . . . . . . . . . . . . . B.3.3 Skalare Multiplikation . . . . . . . . . B.3.4 Produkt zweier Matrizen . . . . . . . B.3.5 Multiplikation von Vektoren . . . . . . B.4 Unabhängigkeit, Rang, Determinante, Inverse B.4.1 Lineare Unabhängigkeit . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
303 303 304 304 304 305 306 306 307 308 310 312 313 313
INHALTSVERZEICHNIS
xiv B.4.2 Rang . . . . . . . . B.4.3 Determinante . . . B.4.4 Inverse . . . . . . . B.5 Eigenwerte, Eigenvektoren B.5.1 Definitionen . . . . B.5.2 Rechenregel . . . . B.5.3 Beispiele . . . . . .
. . . . . . . . . . . . . . . . . . und Spur . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
313 314 316 319 319 319 319
C Befehle in R C.1 Einleitung . . . . . . . . . . . . . . . . . . . . C.2 Grundlagen . . . . . . . . . . . . . . . . . . . C.3 Daten einlesen, Objekte speichern und laden . C.4 Dateneigenschaften . . . . . . . . . . . . . . . C.5 Manipulation eingelesener Datensätze . . . . C.6 Graphik . . . . . . . . . . . . . . . . . . . . . C.7 Suchen und Finden . . . . . . . . . . . . . . . C.8 Besonderheiten in Windows . . . . . . . . . . C.9 Fehlermeldungen . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
321 321 322 323 325 327 328 329 331 332
Lösungen
334
Glossar
347
Literaturverzeichnis
351
Stichwortverzeichnis
353
Abbildungsverzeichnis 2.1 2.2
Rohdaten in Tabellenkalkulationsprogramm einlesen . . . . . . . Anwendung empirische versus korrigierte Varianz . . . . . . . . .
14 20
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13
Einfaches Liniendiagramm . . . . . . . . . . . . . . . . . Liniendiagramm bei komplexen Datensätzen . . . . . . . Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . Berechnung der Quantile mit Option Typ 7 . . . . . . . Korrekte graphische Darstellung der Verteilungsfunktion Histogramm mit absoluten Häufigkeiten . . . . . . . . . Histogramm mit durchschnittlicher Häufigkeitsdichte . . Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . Lorenzkurve: Konzentration auf ein Merkmal . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
33 35 37 39 40 42 46 48 49 51 53 60 62
4.1 4.2 4.3 4.4
Binomialverteilung . . . . . . . . . . . . . . . . . Hypothesentest: zweiseitige Fragestellung . . . . Hypothesentest: einseitige Fragestellung - Version Hypothesentest: einseitige Fragestellung - Version
. . . .
. . . .
. . . .
. . . .
. . . .
74 76 77 78
5.1
Annahme und Verwerfungsbereich . . . . . . . . . . . . . . . . .
94
6.1 6.2
Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit 118 Baumdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.1 8.2 8.3
Streudiagramme (= Scatterplots) . . . . . . . . . . . . . . . . . . 142 Veranschaulichung des Tests auf insignifikante Korrelation . . . . 146 Fishers z-Transformation . . . . . . . . . . . . . . . . . . . . . . . 162
. . 1 2
. . . .
. . . .
. . . .
10.1 Illustration der Manhattan-Distanz . . . . . . . . . . . . . . . . . 195 11.1 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 11.2 Silhouette des ’output3’ . . . . . . . . . . . . . . . . . . . . . . . 226
xvi
ABBILDUNGSVERZEICHNIS 11.3 Silhouette des ’output8’ . . . . . . . . . . . . . . . . . . . . . . . 228 11.4 Clusterbildung mit MONA . . . . . . . . . . . . . . . . . . . . . 240 12.1 Einkommen in Abhängigkeit des Alters . . . . . . . . . . . . . . . 254 12.2 KQ-Schätzung einer Cobb-Douglas Produktionsfunktion . . . . . 257 12.3 Translationsinvarianz des Bestimmtheitsmaßes . . . . . . . . . . 262 A.1 Hypergeometrische Verteilung . . . . . . . . . . . . A.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . A.3 Verteilungsfunktion der Poisson-Verteilung . . . . . A.4 Geometrische Verteilung . . . . . . . . . . . . . . . A.5 Verteilungsfunktion der Geometrischen-Verteilung A.6 Rechteckverteilung . . . . . . . . . . . . . . . . . . A.7 Verteilungsfunktion der Rechteckverteilung . . . . A.8 Exponentialverteilung . . . . . . . . . . . . . . . . A.9 Verteilungsfunktion der Exponentialverteilung . . . A.10 Standardnormalverteilung . . . . . . . . . . . . . . A.11 Verteilungsfunktion der Standardnormalverteilung A.12 Dichtefunktion der Chi-Quadrat-Verteilung . . . . A.13 Verteilungsfunktion der Chi-Quadrat-Verteilung . . A.14 Dichtefunktion der t-Verteilung . . . . . . . . . . . A.15 Verteilungsfunktion der t-Verteilung . . . . . . . . A.16 Dichtefunktion der F-Verteilung . . . . . . . . . . . A.17 Verteilungsfunktion der F-Verteilung . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
284 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301
Tabellenverzeichnis 2.1 2.2 2.3
Daten YX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten Einkommen Alter Ausbildungsjahre . . . . . . . . . . . . . Daten2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16 18 22
3.1 3.2 3.3 3.4 3.5
Arbeitslose in Deutschland . . . . . . . . . Vier mal drei Kontingenztabelle . . . . . . . Randverteilung . . . . . . . . . . . . . . . . 1. Schritt zur Erstellung einer Lorenz-Kurve 2. Schritt zur Erstellung einer Lorenz-Kurve
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
31 54 55 57 58
5.1 5.2 5.3 5.4 5.5
Rohdaten . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit absoluten Häufigkeiten Eingabe x . . . . . . . . . . . . . . . . . . . . Eingabe y . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit bedingter Verteilung .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
95 95 96 96 99
8.1 8.2
Beispiel: Umsatz - Bruttowertschöpfung . . . . . . . . . . . . . . 144 Ränge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
9.1
Umsatz und Entfernung . . . . . . . . . . . . . . . . . . . . . . . 167
10.1 Kontingenztabelle bei binären Merkmalen . . . . . . . . . . . . . 204 11.1 Datenmatrix zur Bildung von zwei Partitionen . . . . . . . . . . 216 11.2 Binäre Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . 238
Kapitel 1
Einleitung 1.1
Gegenstand
Ziel dieses Lehrbuches ist es, den Leser so schnell wie möglich in die Lage zu versetzen, Daten sinnvoll auszuwerten. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen Rohdaten mit einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des Statistikprogramms ausgewertet werden. Die so gewonnenen Ergebnisse werden entweder mit oder einem Tabellenkalkulationsprogramm graphisch aufbereitet. Eine große Zahl an Statistiklehrbüchern gibt es und so stellt sich die Frage: warum braucht die Welt ein weiteres? Die Inhalte dieses Lehrbuches beruhen auf einer Befragung meiner betriebswirtschaftlichen Kollegen. Da die Inhalte existierender Lehrbücher deren Nachfrage in unbefriedigender Weise abdecken, lag es nahe, ein am Bedarf orientiertes Lehrbuch zu verfassen. Anders als Volkswirte, erstellen Betriebswirte in Marketing und Personalwirtschaft häufig selbst Fragebögen. Hieraus ergibt sich die Notwendigkeit des Ziehens von Stichproben sowie der Überprüfung der Daten auf Plausibilität. In der betrieblichen Praxis, beispielsweise dem Controlling, genügt es häufig, die Daten zur Entscheidungsvorbereitung graphisch oder mit Hilfe von Kennzahlen aufzubereiten. Deshalb sollten auch Verfahren zur Präsentation von Auswertungen dargestellt werden. Bei der Auswertung von Fragebögen werden in der Personalwirtschaft Korrelationsanalysen durchgeführt. In Einführungslehrbüchern der Statistik werden diese Methoden üblicherweise nicht dargestellt. Die Clusteranalyse wird an der FH Würzburg-Schweinfurt in der Marktforschung als Instrument erwähnt und kurz besprochen, woraus sich eine abgeleitete Nachfrage in der Statistik herleitet. In der Logistik und dem Controlling werden zu Planungszwecken Prognosen erstellt. Die Grundlagen hierfür sollten in der Statistikveranstaltung gelegt werden. Die Gliederung aller dem Autor bekannter Standardlehrbücher ist dreigeteilt: deskriptive Statistik, Wahrscheinlichkeitstheorie und schließende Statistik. Ist der Student bei der schließenden Statistik angelangt, so ist er häufig nicht R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
2
KAPITEL 1. EINLEITUNG
in der Lage, die Bezüge zur Wahrscheinlichkeitstheorie zu erkennen. Im übrigen ist es Studenten kaum zu vermitteln, weshalb sie dieselben Formeln, die sie bereits in der deskriptiven Statistik kennengelernt haben, in exakt derselben oder leicht abgewandelten Form in der Wahrscheinlichkeitstheorie wieder lernen sollen. Entscheidend ist der Zusammenhang, in den die Begriffe gestellt werden und so sollte die einmalige Einführung eines Begriffes und der Kontext, in den er gestellt wird, genügen. Aus diesen Gründen werden hier, ohne explizit auf Wahrscheinlichkeitstheorie einzugehen, zuerst die Prinzipien statistischen Testens vorgestellt, um dem Studenten zu veranschaulichen, wozu die Wahrscheinlichkeitstheorie überhaupt nütze ist. Dieses Vorgehen wird durch die Verwendung von Statistiksoftware erst möglich. Denn nun können, ohne vorherige Standardisierung von Zufallsvariablen, Quantile berechnet werden. Zudem werden die Verfahren mit einem Statistikprogramm relativ leicht nachvollziehbar. Selbst große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten, die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem solchen Fall helfen allgemeine Hinweise, wie der Statistiker sich in solchen Situationen verhalten kann, nicht weiter. Man muß wissen, wie das verwendete Programm damit umgeht, um korrekte Interpretationen liefern zu können. Zudem sollte man auch bedenken, welche Fehler bei größeren Datenmengen entstehen: sie sind häufig vernachlässigbar gering. Statistik lebt von der Anwendung. Zur Anregung sind Beispiele eingeflochten mit Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich. Im Zuge ihrer Diskussion werden auftretende praktische Probleme angesprochen und Lösungsmöglichkeiten unterbreitet. Die Aufgabenstellungen am Ende jeden Kapitels umfassen nicht nur die Anwendung statistischer Verfahren, sondern auch methodische Fragen, solche, die in der praktischen Anwendung auftauchen. Der Leser wird hierdurch gezwungen, die Methoden zu reflektieren und, falls die Anwendungsbedingungen nicht vorliegen sollten, nach passenden zu suchen. Der Anfänger wird dann naturgemäß Schwierigkeiten haben, eine adäquate Lösung selbst zu finden. Aus diesem Grund fällt den Lösungen eine besondere Bedeutung zu. Dieses Vorgehen wurde bewußt gewählt, denn in der betrieblichen Praxis stellt dies eher den Normalfall dar. Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und -verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, mit deren Hilfe praktisch zum Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden können. So gibt es OpenOffice, zu erhalten über www.openoffice.org, ein komplettes Officepaket mit Textverarbeitung, Tabellenkalkulation, Präsentation, Zeichen- sowie einem Datenbankprogramm. Es wird als Teil des Betriebssystems Linux üblicherweise mitgeliefert. Linux, ebenfalls eine Opensourcesoftware, kann parallel zu Windowsbetriebssystemen
1.1. GEGENSTAND
3
(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PCs kann der Nutzer dann zwischen dem Windowssystem und Linux wählen. Im Buchhandel und einschlägigen PC-Shops kann es erworben, gelegentlich auch für ein paar Euro als Beilage zu einschlägigen Zeitschriften mit ’Linux’ in der Titelleiste gekauft oder aus dem Internet kostenlos heruntergeladen werden. Die Distributionen unterscheiden sich allerdings qualitativ. Im Handel können welche mit Handbüchern gekauft werden und man erhält, abhängig von der Firma (Suse oder RedHat), auch Unterstützung bei Problemen. Dieser Service ist ansonsten nicht vorhanden. Linux-CD’s aus Zeitschriften können, der Autor hat es ausprobiert, ebenso problemlos genutzt werden wie die Versionen, die aus dem Internet heruntergeladen werden können. Der Unterschied zwischen diesen beiden Zugangswegen ist, daß im letzten Fall sehr große Datenmengen gehandhabt werden müssen. Gängige Browser und Dateimanager können dann versagen. Ist Linux bereits installiert, so kann Bittorrent eingesetzt werden. Ansonsten ist die Installation denkbar einfach: lege die Installations-DVD ein und automatisch wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann. OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das Statistikprogramm , das über http://ftp5.gwdg.de/pub/misc/cran/ aus dem Internet heruntergeladen werden kann. Neben dieser befehlsbasierten Version gibt es auch eine mit graphischer Oberfläche, zu erhalten über www.statistiklabor.de. Auch ’moodle’, eine serverbasierte Plattform, die für E-Learning geeignet ist, aber auch zur Online-Datenerhebung verwandt werden kann, ist interessant. Diese Software wird im Internet über www.moodle.de zur Verfügung gestellt. Sie ist in manchen Linuxdistributionen bereits vorhanden und muß händisch nur noch installiert werden. Limesurvey ist ein Werkzeug, das speziell zur Onlinebefragung entwickelt wurde. Informationen über das Programm wie auch Downloads können über www.limesurvey.org bezogen werden. Es ist ebenso wie die bereits aufgeführte Software frei verfügbar. Der Vorteil dieser Software liegt darin, daß Studenten mit Tools lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während des Studiums zu Hause mit der Software vertraut zu machen, zu üben und zu lernen. Die Lerneinheiten können auch mit kommerzieller Software bearbeitet werden, doch angesichts der beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.
KAPITEL 1. EINLEITUNG
4
Aus der Perspektive von Unternehmen lohnt sich die Beschäftigung unserer Absolventen. Denn viele arbeiten in kleinen und mittelständischen Unternehmen. Ist keine Statistiksoftware vorhanden, so bringen unsere Absolventen attraktive Software und die nötigen Kenntnisse mit. Wird standardmäßig mit kommerzieller Software gearbeitet, so ist sollte ein Umstieg hierauf ohne größere Probleme möglich sein. Der größte Vorteil liegt jedoch in der Möglichkeit, statistische Auswertungen automatisch oder wenigstens halb-automatisch durchführen zu können. Dies geschieht über die Erstellung von Befehlsdateien, die als Textdatei abgespeichert werden und bei Bedarf über den Zwischenspeicher in kopiert werden. Haben Akademiker sich jedoch bereits auf Statistiksoftware mit graphischer Oberfläche eingearbeitet, so stellt dies den ’Industriestandard’ dar und größere automatisierte Auswertungen benötigen viel mehr Zeit, als die Nutzung von Befehlsdateien in . Das vorliegende Buch wurde übrigens ebenfalls mit freier Software erstellt, mit LATEX. Dies ist eine Sammlung von Makros, mit dem TEX, das wunderbare Setzprogramm von Donald E. Knuth, auf vergleichsweise einfache Art und Weise verwendet werden kann. Nützliche Informationen und Downloads findet man über www.latex-project.org. Für einen schnellen Einstieg in das Programm kann OpenOffice genutzt werden. Man schreibe seinen Text in OpenOffice-Writer und wähle ’Datei-Export’, wobei ’Latex 2e’ als Filter gewählt wird. Die so erzeugte ’*.tex’-Datei enthält alle nötigen Befehle, um ein TEX-Dokument zu erstellen. In Linuxdistributionen kann ’emacs-auctec’ aktiviert werden, wodurch mit Emacs auch Latex-Dokumente auf angenehme Art verarbeitet werden können.
1.2
Aufbau
Statistik ist mehr und mehr die Auseinandersetzung mit Software, ökonomischer Theorie, Statistik und Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Damit rückt unvermittelt die fachliche Orientierung in den Mittelpunkt des Interesses. Statistik ohne theoretischen Hintergrund zu betreiben, macht wenig Sinn. Das Buch wendet sich vor allem an Ökonomen und so sind die hier verwendeten Beispiele vor allem den Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die mit ’*’gekennzeichneten Kapitel übersprungen werden. Die verwendeten Daten werden im Internetangebot des Verlages zur Verfügung gestellt. Die mit ’*.Rdata’ gekennzeichneten Dateien werden über den Befehl > load("Dateiname.Rdata") in das Programm eingelesen. Um zu erkennen, welche Variablen oder Objekte nun verfügbar sind, verwende man die Anweisung
-
1.2. AUFBAU
5
> ls(). In Kapitel 2 wird die Datenerhebung über Onlinebefragung beschrieben. Es wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt. Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird beschrieben, wie Rohdaten auf Plausibilität überprüft werden können. Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden in Kapitel 3 beschrieben. Die Ausführungen beginnen mit grundlegenden Bemerkungen und werden anschließend durch Beispiele veranschaulicht. Es zeigt sich, daß mit einigen wenigen Befehlen auch größere Datensätze mit Maßzahlen charakterisiert und graphisch aufbereitet werden können. Diese Methoden werden in anderen Lehrbüchern üblicherweise unter der Überschrift ’deskriptive’ oder ’beschreibende Statistik’ abgehandelt. Diesem Gebrauch wird hier nicht gefolgt. Bevor überhaupt eine Datenauswertung erfolgt, sollte man sich im klaren darüber sein, welchem Zweck die Datenauswertung dient. Hieraus ist abzuleiten, wie mit den Daten umgegangen werden muß. In der Praxis werden Methoden des Kapitels 3 üblicherweise genutzt, um sich einen ersten Eindruck über die Datenlage zu verschaffen. Dies kann leicht zu Fehlverhalten führen (siehe die Anekdote auf Seite 8). Erste statistische Tests stehen im Mittelpunkt des Kapitels 4. Wissen um die Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich. Anhand des Binomialtests über den Anteilswert werden die Prinzipien statistischer Tests erläutert. Diese Einsichten werden in Kapitel 5 vertieft. Zudem können diese Tests gerade bei der Auswertung von Fragebögen sinnvoll eingesetzt werden. Nachdem die Grundlagen des statistischen Testens gelegt sind, wird die Wahrscheinlichkeitstheorie in den Kapiteln 6 und 7 präsentiert. Sofern die Grundlagen der Wahrscheinlichkeitstheorie bereits gelegt sein sollten, können diese beiden Kapitel übersprungen werden. Zum besseren Verständnis empfiehlt sich jedoch die Lektüre der Abschnitte 6.3 und 6.4. Der Begriff des Wahrscheinlichkeitsraumes, konkret bezogen auf die Grundgesamtheit sowie den Stichprobenraum wird eingeführt. Es schließen sich wichtige Lehrsätze der Wahrscheinlichkeitstheorie an. Die zentralen Begriffe bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, der Multiplikationssatz sowie der Satz von der theoretischen Wahrscheinlichkeit werden hier vorgestellt. In Kapitel 7 werden Zufallsvariablen eingeführt, der zentrale Begriff, der die Grundlage für theoretische Wahrscheinlichkeitsverteilungen und Verteilungsfunktionen bildet. Die wichtigsten Kenngrößen, wie Erwartungswert und Varianz theoretischer Verteilungen sowie die Technik des Standardisierens finden sich hier. Die Korrelationsanalyse ist in zwei Kapitel aufgespalten: die einfache wird in Kapitel 8 und die multiple in Kapitel 9 dargestellt. Zunächst wird der Begriff der Korrelation in der Wahrscheinlichkeitstheorie eingeführt. Es schließen sich die Ausführungen über die Schätzung der Korrelation bei Vorliegen einer einfachen
6
KAPITEL 1. EINLEITUNG
Stichprobe an. Als Gliederungskriterium des Kapitels 8 dient das Skalenniveau des betrachteten Merkmals. Die multivariate Korrelationsanalyse startet mit dem Vergleich zweier Korrelationen, der auf den Vergleich mehrerer Korrelationen ausgeweitet wird. Hier findet sich auch die partielle Korrelation, die in der praktischen Arbeit von Bedeutung ist. Bei dem restlichen Kapitel werden Grundkenntnisse der Matrizenrechnung vorausgesetzt, die gegebenenfalls in Anhang B nachgelesen werden können. Kapitel 10 (Daten- und Distanzmatrix) und 11 (Clusteranalyse) bilden eine Einheit. Letztlich dienen beide Kapitel dazu, statistische Einheiten automatisch Klassen zuzuordnen (=Clusteranalyse). In ersterem wird das Skalenniveau der Merkmale näher betrachtet. Insbesondere werden binäre Variablen eingeführt, die in symmetrische und asymmetrische unterteilt werden. In der praktischen Anwendung der Clusteranalyse werden die verwendeten Merkmale im allgemeinen nicht dasselbe Skalenniveau aufweisen. Deshalb ist es nötig, zumindest ein Verfahren aufzuzeigen, mit Hilfe dessen, dieses Problem bewältigt werden kann. Dies ist der zentrale Inhalt des Kapitel 10. Im nachfolgenden Kapitel werden ausgewählte Verfahren der Clusteranalyse dargestellt. Nachdem verschiedene Klassifikationstypen und -verfahren dargestellt worden sind, wird ein Verfahren zu Bildung von Partitionen präsentiert. Hierbei wird auch eine Methode vorgestellt, mit deren Hilfe bei Bedarf die Klassenanzahl bestimmt werden kann. Mit FANNY, einer Methode zur Bestimmung unscharfer Mengen, wird auch gezeigt, wie Überdeckungen gebildet werden können. Bei Vorliegen ausschließlich binärer Daten kann mit MONA eine Hierarchie konstruiert werden. In Kapitel 12 wird schließlich die Regressionsrechnung dargestellt. Hauptzweck ist die Erstellung von Prognosen. Nach einleitenden Hinweisen zur Methode der kleinsten Quadrate (KQ-Methode) wird auf die Regressionsfunktion eingegangen. Es zeigt sich, daß die lineare Funktion aus verschiedenerlei Gründen nicht so einschränkend ist, wie sie auf den ersten Blick erscheint. Anschließend wird erläutert, wie Prognosen erstellt werden können. Ihre Güte hängt maßgeblich von der Zuverlässigkeit und Stabilität der geschätzten Regressionskoeffizienten ab. Aus diesem Grund ist es wünschenswert, Maße zur Überprüfung der Güte zur Verfügung zu haben. Deshalb werden in Kapitel 12.5 das Bestimmtheitsmaß und in 12.7 Signifikanztests vorgestellt. Abschließende Bemerkungen runden das Kapitel ab. Die wichtigsten diskreten und stetigen theoretischen Verteilungen sind in Anhang A dargestellt. Matrizen sind bei der praktischen Arbeit ein unentbehrliches Werkzeug. Ihre Definition, die Definition von Verknüpfungen, wichtige Rechenregeln und mathematische Lehrsätze sind in Kapitel B zusammengefaßt. Nützliche Hinweise zum Arbeiten mit finden sich in Anhang C. Lösungen, ein Glossar und ein Stichwortverzeichnis sind auf den letzten Seiten.
Kapitel 2
Datenerhebung - ganz praktisch 2.1
Einleitung
In einigen betriebswirtschaftlichen Disziplinen gehört die Erstellung eines Fragebogens und dessen Auswertung zum Handwerkszeug. Welche Kriterien bei der Erstellung zu berücksichtigen sind, ergeben sich letztlich aus der Fragestellung. Dieser Bereich wird üblicherweise in betriebswirtschaftlichen Grundlagenfächern abgedeckt und wird deswegen in vorliegendem Kapitel nicht thematisiert. Um viele der in den nachfolgenden Kapiteln dargestellten Methoden sinnvoll anwenden zu können, ist es nötig, einen Erhebungsplan zu erstellen. Welche grundlegenden Fragen hierbei zu beantworten sind, wird in Abschnitt 2.2 diskutiert. Nach der Beschreibung nützlicher Software in Abschnitt 2.3, mit der Daten online erhoben werden können, wird in Kapitel 2.4 dargestellt, wie eine Stichprobe gezogen wird. Es folgt die Beschreibung des Auslesens und Einlesens von Daten in ein Tabellenkalkulationsprogramm und in . Bemerkungen zu Plausibilitätsprüfungen von Datensätzen runden das Kapitel ab.
2.2 2.2.1
Erhebungsplan Grundlagen
Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand, wir sagen auch sein Interessengebiet, zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon auszugehen, daß der Ökonom mit Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert und aufs Geradewohl wird kaum eine Datenerhebung R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_2, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
8
erfolgen. Sei es offen gesagt (explizit) oder nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben. Ihre Auswertung wird sich an diesen Zielen orientieren. Die Ziele sollten so in Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können. Grundlage einer jeden statistischen Auswertung sind somit empirisch überprüfbare Hypothesen. Sie können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden Daten zu ’quälen’. Damit ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben, nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe adäquat durch Daten abgebildet werden. Anekdote In den achtziger Jahren des vergangenen Jahrhunderts hielt an der Universität des Saarlandes ein Gastprofessor mit Schwerpunkt Arbeitsmarktökonomie einen Vortrag über Missmatch auf Arbeitsmärkten. Er hatte Arbeitsmarktdaten deskriptiv aufbereitet, präsentierte die empirischen Befunde und diskutierte, welche Hypothesen zu den beobachteten Auffälligkeiten passen könnten. Im nächsten Schritt überprüfte er die Hypothesen mit Hilfe ökonometrischer Verfahren, wobei er stets dieselben Daten verwendete. Ökonometrie ist die Lehre von der ’Vermessung der Wirtschaft’ bei der vor allem Regressionsverfahren eingesetzt und Mittel der schließenden Statistik verwendet werden. In der anschließenden Diskussion meldete sich unter anderem Prof. Kmenta, ein ungarischer Ökonometriker, der in den USA lehrte. Er fragte, ob der Referent stets so vorgehe, der dies mit ’ja’ beantwortete. Daraufhin warf Prof. Kmenta dem Referenten vor, ’Daten zu quälen’.
2.2.2
Beispiel
Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten (Grundgesamtheit oder Population) Daten erhoben, so spricht man von einer Vollerhebung, andernfalls von einer Teilerhebung. Die Elemente der Grundgesamtheit werden allgemein statistische Einheiten oder Untersuchungseinheiten genannt. Folgende Beispiele sollen wichtige Beurteilungskriterien verdeutlichen. 1. Beispiel: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen, wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt es sich um eine Vollerhebung, denn die befragten Personen sind identisch mit der
2.2. ERHEBUNGSPLAN
9
interessierenden Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung.
2. Beispiel: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit. Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb Teilerhebung.
Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen wählen?1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode kann hier nur angewandt werden?2 Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll? Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt sich aus der konkreten Situation. Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung möglicherweise mit hohen Kosten verbunden. In diesem Fall bietet sich die schließende Statistik an, bei der mit Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit geschlossen werden soll. Hierdurch erklärt sich auch ihr Name ’schließende‘ Statistik. Bei dieser Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von Stichproben, d.h. der Zufall spielt eine wichtige Rolle.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
10
2.3 2.3.1
Software Moodle und LimeSurvey
Einige Programme sind mittlerweile verfügbar, mit deren Hilfe Onlinebefragungen durchgeführt werden können. Die Installation von Moodle und LimeSurvey soll im folgenden kurz skizziert werden. Moodle ist eigentlich eine ELearningplattform, mit deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden können. LimeSurvey ist ebenfalls eine freie Software, die speziell für Onlinebefragungen entwickelt wurde. Über die Links www.moodle.de bzw. www.limesurvey.org/ können die Programme bezogen werden. Zur Installation von Moodle Version 1.9 genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener Moodle-Server notwendig wird. Der Server muß gemäß den Vorgaben der Programme konfiguriert sein, d.h. MYSQL und PHP sind bei beiden nötig. Ansonsten ist die Installation relativ einfach, das Vorgehen ist bei beiden ziemlich ähnlich, die Ausführungen beschränken sich auf Moodle. Die Programmdateien befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner moodle. über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen. In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen. Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser genutzt werden. Wähle den Reiter ’Gehe zu’ und wähle ’Netzwerkordner’. Dann erscheint eine Box ’Netzwerkordner hinzufügen’. Klicke ’FTP’ an und wähle ’weiter’, um in der folgenden Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser Wege den Ordner ’moodle’ mit gesamtem Inhalt auf den Webspace und lege auf derselben Ebene, auf der auch der Ordner ’moodle’ erstellt wurde, einen zusätzlichen Ordner namens moodledata und den Ordner ’nobody’ an. Erstelle in dem Webspace eine MYSQL-Datenbank. Rufe anschließend einen Internetbrowser auf und gebe die ’eigene_Internetadresse/moodle’ in der Adreßzeile ein; anschließend beginnt die Installation des Programms. Folge den Answeisungen und gebe bei der Abfrage nach dem Server ’localhost’ ein.
2.3. SOFTWARE
2.3.2
11
Statistikpaket R
Das Statistikprogramm ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in zwei verschiedenen Versionen daher: • mit einer graphischen Oberfläche als ’Statistiklabor’ und • ohne graphische Oberfläche unter dem Namen
.
Letztere ist befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das Statistiklabor erleichtert dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zu lassen. Ansonsten sind die Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich. In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version. Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die die graphische Oberfläche des Statistiklabors nicht bietet. Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers durchgeführt werden, wogegen im Statistiklabor jeder einzelne Schritt durch Anklicken initialisiert werden muß. Zudem kann der Nutzer neue, bislang in nicht vorhandene Auswertungsmethoden programmieren. Aus diesen Gründen werden ausschließlich die für nötigen Befehle angegeben. läuft auf verschiedenen Betriebssystemen. Hierbei ist zu beachten, daß die Installation und Handhabung vom verwendeten System abhängig ist. Unter Linux muß das Programm entweder compiliert werden, was dem Ungeübten zu kompliziert sein dürfte, oder entsprechend der Linux-Version (Debian, Suse oder Red Hat) wird eine bereits compilierte Version verwendet. Der Autor nutzt die Suse-Linux-Version 10.3. Hier ist die Installation über die 1-Click-Installation sehr einfach. Über die Seite ’http://software.opensuse.org/search’ erhält man Zugang zu bereits für Suse-Linux compilierter Software. Man wählt die Version und gibt in das Suchfeld ’R-base’ ein. Klicken auf ’1-Click-Install’ und Befolgen der Anweisungen führt zur bequemen Installation von . Zum Aufruf von öffnet man eine Shell (oder Terminalprogramm) und gibt ein. Nach kurzer Zeit erscheint ein einleitender Text und die erste Befehlszeile, die stets mit ’>’ beginnt. Empfehlenswert ist jedoch die Nutzung von ’emacs-ess’. Um diese Software zu installieren, gebe man in die Suchzeile der Seite ’http://software.opensuse.org/search’ ’emacs-ess’ ein und nutzt wieder die 1-Click-Installation. Drücken der ’Alt’Taste gefolgt von F2 öffnet ein Befehlsfenster. Hier gibt man ’emacs’ ein. Dies ist eine sehr universell einsetzbare Software, unter anderem kann sie auch als Basis für genutzt werden. Drücke die ’Alt’-Taste gefolgt von der ’x’-Taste und gebe ein. Zweimal drücken von Return eröffnet die Möglichkeit, über emacs zu bedienen. Dies hat den Vorteil, daß durch Farbgestaltung schnell erkannt
12
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
wird, ob Fehleingaben erfolgt sind oder nicht. Für Fortgeschrittene finden sich in Kapitel C weitere nützliche Hinweise, die übrigens auch für Windowsnutzer wertvoll sind. Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig bringt dies Vor- wie auch Nachteile mit sich. Um beispielsweise den Mittelwert auszurechnen, wird nicht das deutsche Wort, sondern ’mean’ verwendet. Das Schöne hierbei ist, daß englische Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der Punkt verwendet wird, kann zu Fehlern führen und ist somit als Nachteil zu werten. Freilich läßt sich dieses Problem leicht umgehen, wenn anstatt einer deutschen Version von OpenOffice, die englische genutzt wird.
2.4 2.4.1
Ziehen einer Stichprobe Grundlagen
Bislang war zwar von Stichproben die Rede, ohne aber darüber zu sprechen, wie sie gebildet werden. Angenommen, es soll eine Telefonbefragung in Stadt- und Landkreis Würzburg erfolgen. Eine Stichprobe mit Zurücklegen ist geplant, da der Binomialtest über den Anteilswert angewendet werden soll. Der zuständige Betriebswirt wendet sich an ein Call-Center und vergibt den Auftrag, Personen aus der benannten Region in einem vorgegebenen Zeitraum zufällig aus dem Telefonbuch zu wählen, um einen vorbereiteten Fragebogen abzuarbeiten. Jeder Telefonist blättert in einem Online-Telefonbuch und greift durch zufälliges scrollen Personen heraus. Handelt es sich hierbei um eine einfache Stichprobe? Es ist durchaus möglich, daß eine Person mehrmals in der Stichprobe vorkommen kann. Insofern handelt es sich um eine Auswahl mit Zurücklegen. Erfolgen die Ziehungen aber tatsächlich zufällig, d.h. hat jede Person dieselbe Wahrscheinlichkeit gewählt zu werden? Sicher nicht, denn die Personen sind gewöhnlich alphabetisch geordnet. Beginnt der Telefonist bei Buchstabe A und hangelt sich entlang der Anordnung, so kann es sein, daß er die geforderte Anzahl an Personen gezogen hat, ohne daß Personen mit Anfangsbuchstaben ’Z’ überhaupt eine Chance gehabt hätten, aufgenommen zu werden. Aus diesem Grund stellt sich die Frage, wie sinnvoller Weise vorgegangen werden sollte. Eine Möglichkeit besteht darin, alle Personen durchzunumerieren. Man wählt so viele Kugeln, wie Personen in der Grundgesamtheit vorhanden sind, beschriftet sie fortlaufend mit Zahlen und füllt sie in eine Trommel. Anschließend bittet man eine ’Glücksfee’, wie bei der wöchentlichen Ziehung der Lottozahlen, darum, n Kugeln auszuwählen. Wurde eine Kugel gewählt, so wird ihre Nummer notiert und wieder in die Trommel zurückgelegt. Dieses Verfahren wäre korrekt, vorausgesetzt, daß die Kugeln dieselbe Wahrscheinlichkeit hätten, gezogen zu werden. Andererseits wäre es sehr umständlich. Statt n durchnumerierte Kugeln zufällig aus einer Trommel zu ziehen, kann ein Zufallsgenerator genutzt werden, um eine zufällige Zahlenreihe zu erzeugen, mit Hilfe derer die Personen festgestellt werden, die jeweils mit derselben Wahr-
2.5. ROHDATEN AUSLESEN
13
scheinlichkeit gezogen wurden.
2.4.2
Beispiel
Lade das Paket ’base’, um den Befehl ’sample’ verfügbar zu machen. Das Einlesen von Paketen wird auf Seite 322 beschrieben. > ?sample öffnet eine Hilfeseite, in der die Grundstruktur des Befehls angegeben ist (siehe unten); in der nachfolgenden Zeile ist ein konkreter Befehl dargestellt. > sample(x, size, replace = FALSE, prob = NULL) > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1]} 4392192 1117576 3688549 6927580 2876239 2026266 6149387 5888866 3188394 7107292 Durch diesen Befehl wird eine Stichprobe vom Umfang 10 mit Zurücklegen aus den ganzen Zahlen beginnend bei 1 und endend bei 8 000 0000 gezogen. Wäre ’replace=FALSE’ gesetzt, so wäre es eine Stichprobe vom Umfang 10 ohne Zurücklegen. Erneute Eingabe desselben Befehls führte zu der nachfolgend angegebenen Ausgabe. Die beiden Ergebnisse sind verschieden. > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1] 5320532 6702537 7313541 \ 111374 6514954 4659765 1456491 1255380 6120515 5931007
2.5 2.5.1
Rohdaten auslesen Grundlagen
Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung mit dem Server ist, geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet werden: 1. Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine unerlaubten Symbole? 2. Fehlen Daten? Hier muß überprüft werden, ob alle ’Missings’ genau gleich gekennzeichnet worden sind. 3. Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen Bereich? Diese Frage kann allerdings auch später mit Hilfe des Statistikprogramms beantwortet werden.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
14
Abbildung 2.1: Rohdaten in Tabellenkalkulationsprogramm einlesen Quelle: eigene Darstellung
Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu falschen Schlußfolgerungen führen können. Um die Daten in das Statistikprogramm einlesen zu können, werden sie als Textdatei im csv-Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze Zahlen von Dezimalstellen getrennt werden. In diesem Kapitel wird davon ausgegangen, daß im verwendeten Tabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem Programm, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich geblieben sind, um ggf. Anpassungen vornehmen zu können.
2.5.2
Beispiel
Datenquellen können ganz unterschiedlich sein. In Abbildung 2.1 werden die Daten der Tabelle 2.1 in OpenOffice aus einer csv-Datei eingelesen. Man erkennt,
2.6. DATEN IN STATISTIKPROGRAMM EINLESEN
15
daß die Feldtrenner nicht korrekt gesetzt sind, denn beide Spalten erscheinen in ein und derselben Spalte.
2.6 2.6.1
Daten in Statistikprogramm einlesen Grundlagen
Um sicher zu sein, daß in keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte der folgende Befehl genutzt werden: > rm ( list=ls() ) wobei ’rm’ für remove steht. Mit dem Befehl > setwd("g:/Auswertung") wird das Arbeitsverzeichnis gewählt. ’setwd’ ist zu interpretieren als ’set working directory’. In vorliegendem Fall befindet es sich im Laufwerk ’g’ und Ordner ’Auswertung’. Dies bedeutet, daß ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis ’Auswertung’ auf Dateien zugreift. Der Befehl > YX YX is.list(Daten) [1] TRUE wird überprüft, ob es sich tatsächlich um Daten des Typs Liste handelt. In der zweiten Zeile ist das Ergebnis dieser Abfrage angegeben. Im folgenden werden Konsequenzen eines falschen Einlesens der Daten skizziert. In folgendem Befehl wird explizit der Feldtrenner (englisch: seperator, in abgekürzt mit ’sep’) vorgegeben. Fälschlicherweise wird ’\t’, das Zeichen für Tabulator, verwendet. Aus diesem Grund werden die Daten falsch eingelesen. > YX YX Y.X 1 10,5,500 2 12,9,550 3 33,85,300 Wird statt des Befehls > YX YX 10,5*2 > 10,2*2 Fehler: Unerwartetes ’,’ in "10," Durch dieses kleine Beispiel wird zudem deutlich, daß auch als Taschenrechner genutzt werden kann. Werden die ganzen Zahlen von den Dezimalstellen korrekt getrennt, so erhält man das Ergebnis. > 10.5*2 [1] 21 Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus. Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ’header=FALSE’ eingegeben, so werden Y und X nicht zur Kennzeichnung der Variablen, sondern als ein Datensatz behandelt. ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch noch die Kommata anstatt von Punkten). > YX YX V1 1 Y 2 10,5 3 12,9 4 33,85
2.7 2.7.1
read.csv("YX.csv",dec=",",header=FALSE) V2 X 500 550 300
Plausibilitätsprüfung Grundlagen
Bei Plausibilitätsprüfungen sind drei Aspekte zu beachten.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
18
Einkommen 2000 2500 2900 3300
Alter 30 42 50 28
Ausbildungsjahre 12 13 10 18
Tabelle 2.2: Daten Einkommen Alter Ausbildungsjahre Quelle: Daten frei erfunden 1. Es ist zu prüfen, ob im Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort auf die gestellte Frage zu geben (Validität) 2. Zudem ist eine Überprüfung auf Konsistenz der Daten durchzuführen. 3. Außerdem ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (Korrektheit im Wertebereich).
2.7.2
Beispiel 1
Zur Veranschaulichung der Zusammenhänge dienen die Daten der Tabelle 2.2. Sie sind in Datei Einkommen.csv hinterlegt. In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten Zeile die der zweiten usw. Diesen Daten liegt die Vorstellung zugrunde, daß Einkommen, Alter und Ausbildungsjahre irgend etwas miteinander zu tun haben. Wird beispielsweise vermutetet, daß die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß mit steigendem Alter ein höherer Stundenlohn gezahlt wird, so müßte mit höherem Alter ein höheres Einkommen erzielt werden. Der ’Teufel’ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden auf als jüngere. Dies kann sein wegen gesetzlicher Regelungen, wie der Altersteilzeit, oder weil aus gesundheitlichen Gründen weniger gearbeitet wird. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt des Einkommens den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen. In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So könnte die
2.7. PLAUSIBILITÄTSPRÜFUNG
19
Analyse einmal mit Personen im Alter von 50 bis 58 Jahren und zudem mit den gesamten Daten erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt überhaupt von Bedeutung ist. Eine Überprüfung auf Konsistenz hat sich an der interessierenden Fragestellung zu orientieren. Es ist zu prüfen, ob sich die Befragten möglicherweise widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze entfernt werden.
2.7.3
Einfache Datensätze
In Tabelle 2.2 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man mehrere Merkmale, so spricht man von multivariater Statistik, wogegen statistische Verfahren, bei denen lediglich ein Merkmal analysiert wird, mit dem Wort univariat gekennzeichnet werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu bestimmen. Das arithmetische Mittel ist bei Verwendung von Rohdaten definiert als: n
x ¯ :=
1 xi . n i=1
xi ist die Ausprägung des kardinale Merkmals ’Einkommen’ bei Personen i, wobei i ein Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen. Die Formel, die in mit ’var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von Rohdaten genutzt wird ist gleich n
2 V ˆar(x) := σ ˆ 2 := σ ˆX :=
1 (xi − x ¯ )2 . n − 1 i=1
Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von Daten aus einer Stichprobe eine ’erwartungstreue’ Schätzung der ’wahren’, aber unbekannten Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird. Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird aber die empirische Varianz, d.h. die Formel n
s2 = s2X :=
1 (xi − x ¯ )2 n i=1
verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist. Bei der empirischen Varianz werden die quadrierten Abweichungen der
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
20
Abbildung 2.2: Anwendung empirische versus korrigierte Varianz Quelle: eigene Darstellung Beobachtungen vom arithmetischen Mittel aufsummiert und mit dem Faktor n1 multipliziert. Sie unterscheidet sich von der korrigierten Stichprobenvarianz σˆ2 nur durch den verwendeten Faktor. Wird die korrigierte Stichprobenvarianz mit (n−1) multipliziert, so erhält man die empirische Varianz. Die Zusammenhänge n sind in Abbildung 2.2 veranschaulicht.
2.7.4
Beispiel 2
Die Berechnungen erfolgen beispielhaft mit Hilfe der in Tabelle 2.2 angegebenen Daten. Sie sind in der Datei Einkommen.csv abgelegt. Der folgende Befehl > min(Daten) [1] 10 liefert als Minimum 10 und > max(Daten) [1] 3300 ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum aller Daten bestimmt.
2.7. PLAUSIBILITÄTSPRÜFUNG
21
In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre größer oder gleich 0 und nicht zu hoch sind. Denn bereits mit 14 könnte eine Person eigenständiges Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden sollte. Die Variable Einkommen kann über folgenden Befehl angesprochen werden: > Daten$Einkommen [1] 2000 2500 2900 3300 In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ’Daten’ angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das arithmetische Mittel und die Varianz liefert das Statistikprogramm folgende Anzeige. > min(Daten$Einkommen) [1] 2000 > max(Daten$Einkommen) [1] 3300 > mean(Daten$Einkommen) [1] 2675 > var(Daten$Einkommen) [1] 309166.7 Welche Varianz wird hier geschätzt? Ist das sinnvoll?3
2.7.5
Komplexe Datensätze
In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle gleichen Typs sind. In Tabelle 2.3 ’kleben’ fünf Merkmale an jeder Person. Bei dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf einen bestimmten Aspekt gleich oder verschieden ist. In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind ’K’ für Kleinunternehmen, ’M’ für mittelgroße Unternehmen und ’G’ für Großunternehmen. Dieses Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte Definition dessen, mit Hilfe welcher Kriterien Unternehmen in große, mittlere und kleine Unternehmen eingeteilt worden sind.
22 Einkommen 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Alter 30 42 50 28 30 42 50 28 50 50 30 30 42
Ausbildungsjahre 12 13 10 18 12 13 10 18 10 10 12 12 13
Geschlecht M M M M W W W W M W M M W
Unternehmensgröße K K G G K M M M G M M M K
Tabelle 2.3: Daten2 Quelle: Daten frei erfunden
So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen. Alternativ hierzu wäre eine Gruppenbildung mit Hilfe zweier Merkmale, z. B. Anzahl an Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren Gruppierungsmerkmalen ist eine solche Einteilung selbst mit Hilfe eines Tabellenverarbeitungsprogramms sehr aufwendig. Die Statistik hat zwei Verfahren, die Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern. Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen sie zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll interpretiert werden. Handelt es sich bei dem Gewinn um ein verhältnis- oder intervallskaliertes Merkmal? Angenommen im vergangenen Jahr sei der Gewinn 2 Millionen, im jetzigen Jahr 4 Millionen Euro. Der Quotient 4 Millionen dividiert durch 2 Millionen Euro macht sicher Sinn: der Gewinn hat sich verdoppelt. Ist im vergangenen Jahr ein Verlust in Höhe von 2 Millionen und im laufenden ein Gewinn von 4 Millionen Euro angefallen und dividiert man 4 Millionen durch (-2) Millionen Euro, so erhält man -2. Diese Zahl ist im vorliegenden Zusammenhang nicht interpretierbar. Ist jedoch im vergangenen Jahr ein Verlust (oder mit anderen Worten ein negativer Gewinn) in Höhe von 2 Millionen und im laufenden ein Verlust von 4 Millionen Euro aufgetreten, so ist der Verlust dieses Jahres doppelt so hoch wie im vorangegangenen.
2.7. PLAUSIBILITÄTSPRÜFUNG
23
Aus diesen drei Beispielen erkennt man 1. die Bedeutung eines Nullpunktes und 2. es zeigt sich, daß Quotienten nicht immer sinnvoll interpretiert werden können. Werden Quotienten von Gewinnen, die ausschließlich im positiven oder ausschließlich im negativen Bereich liegen gebildet, so führt dies zu sinnvoll interpretierbaren Zahlen. Werden jedoch Quotienten aus Zahlen gebildet, wobei eine aus den positiven und die andere aus den negativen Zahlen stammt, so erhält man keine interpretierbaren Ergebnisse. Dann sind lediglich Differenzen sinnvoll nutzbar. Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt nicht. Man hüte sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ’m’ und ’w’, aber genauso gut könnte verwendet werden ’1’ und ’2’. Bei der Signierung des Geschlechts mit ’1’ und ’2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis ist nicht interpretierbar. Signiert man jedoch männlich mit ’0’ und weiblich mit ’1’ und berechnet jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.
2.7.6
Beispiel 3
Genutzt werden die ’Daten2’ in Tabelle 2.3; auf sie kann über die Datei Daten2.csv zugegriffen werden. Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die Aufgabe zu, die Daten sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket ’doBy’ geladen werden muß. Mit dem folgenden Befehl (siehe unten) wird das Minimum und Maximum, der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen berechnet. > summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN = c(min, max, mean,var,length)) Geschlecht Einkommen.min Einkommen.max Einkommen.mean 1 2
m 1000 w 1500 Einkommen.var Einkommen.length 1 599047.6 7 2 155285.6 6
3300 2700
2371.429 2037.000
24
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch ausgerechnet werden, so führt folgender Befehl zum Ziel. > summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN = c(min, max)) Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max 1 m 1000 28 3300 50 2 w 1500 28 2700 50 Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße berechnet werden soll, dann gebe folgenden Befehl ein. > summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgroesse, data=Daten2, FUN=c(mean)) Geschlecht Betriebsgroesse Einkommen.mean Alter.mean 1 m g 3033.333 42.66667 2 m k 1750.000 36.00000 3 m m 2000.000 30.00000 4 w k 1700.000 36.00000 5 w m 2205.500 42.50000 Der Befehl ’data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ’Daten2’, verwendet werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datennamens (wie oben ’Daten2$Einkommen’) angesprochen werden müssen.
2.8
Abschließende Bemerkungen
Daten werden im wesentlichen zu zwei verschiedenen Zwecken erhoben: zur explorativen Datenanalyse und zur Überprüfung von Hypothesen. Im ersteren Fall wird induktiv vorgegangen, im zweiten deduktiv. Der wesentliche Unterschied zwischen beiden besteht darin, daß es bei der Induktion keine ausformulierten Ursache-Wirkungsbeziehungen geben muß. Idealerweise besteht ein Erhebungsplan aus klar formulierten wenigen Zielen, die sich im Erhebungsplan bei deduktiver Vorgehensweise in Form empirisch überprüfbarer Hypothesen niederschlagen. In jedem Fall jedoch sollte er die statistischen Methoden umfassen, die zur Anwendung kommen sollen. Denn manche Methoden erfordern kardinal skalierte Merkmale, bei anderen reichen ordinale oder nominale aus. Die gewählte Methode hat somit Einfluß auf die Art der Befragung. Wird diese Empfehlung nicht berücksichtigt, so kommt bei der Auswertung schnell das böse Erwachen: die angedachte Methode oder die Methode, bei der der Anwender über ausreichendes Wissen verfügt, ist vielleicht wegen falschen Skalenniveaus der Variablen nicht verwendbar. Merkmale wie Geschlecht, Alter, Einkommensklasse haben häufig einen Einfluß auf Konsumverhalten. Aus diesem Grund ist es sinnvoll, sich im Vorfeld
2.9. KONTROLLFRAGEN
25
einer Befragung auch über solche ’Kontrollvariablen’ Gedanken zu machen. Mit steigendem Alter sinkt im allgemeinen die körperliche Mobilität und dies hat möglicherweise Einfluß auf das Konsumverhalten. Frauen haben möglicherweise andere Präferenzen als Männer, was sich in Konsumverhalten wie auch der Berufswahl, bei Bewerbungen oder im Verhalten bei Konflikten im Betrieb niederschlagen kann. Selbst zwischen solchen Kontrollvariablen kann es systematische Beziehungen geben. Mit steigendem Alter steigt häufig auch das Einkommen. Das Wissen um solche Beziehungen ist wichtig, da sie die Ergebnisse von Auswertungsmethoden beeinflussen können. Aus diesen Gründen sollten im Erhebungsplan auch solche Kontrollvariablen berücksichtigt werden. Es wird zu Versuchszwecken empfohlen, den erstellten Fragebogen vor der Erhebung mehrmals selbst mit Daten zu füllen. Mit diesen Daten kann ’gefüttert’ werden, um zu testen, ob die gewünschte Methode wirklich anwendbar ist. Fehlermeldungen des Statistikprogramms geben Hinweise auf Aspekte, die zusätzlich zu berücksichtigen sind. Zudem wird der Anwender gezwungen, sich bereits vor der Datenerhebung mit den Auswertungsmethoden vertraut zu machen und gegebenenfalls Wissenslücken zu schließen. Spätestens bei der Anwendung machen sich mangelnde Kenntnisse statistischer Grundlagen bemerkbar. Denn die Fragestellung bestimmt die Auswertungsmethode und diese die zu erhebenden Daten. Passen Daten und Methode aber nicht zusammen, so muß auf andere, häufig auch kompliziertere Methoden zurückgegriffen werden. Gerade dann, wenn es spannend wird, so zeigt die Erfahrung, ist Methodenkenntnis wichtig.
2.9
Kontrollfragen
1. Was ist eine Hypothese? 2. Erläutern Sie die Begriffe Deduktion und Induktion. 3. Was ist eine Grundgesamtheit? Verdeutlichen Sie den Begriff durch ein Beispiel. 4. Was ist eine statistische Einheit? 5. Stellen Sie anhand eines Beispiels dar, wann eine Vollerhebung nötig ist. 6. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe? 7. Warum werden Teilerhebungen überhaupt durchgeführt? 8. Wie lädt man neue 9. Wie ruft man in
-Pakete von R CRAN auf den lokalen Rechner? Hilfeseiten auf?
10. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun?
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
26
11. Was bewirkt folgender Befehl: > rm ( list=ls() )? 12. Erläutern Sie folgende Anweisung: >setwd("g:/Auswertung"). 13. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX x dir() werden die in dem Arbeitsverzeichnis verfügbaren Dateien angezeigt. Sollte die Datei in einem anderen Verzeichnis sein, so kann über ’setwd(“Pfad”)’ das Arbeitsverzeichnis geändert werden. Im folgenden Beispiel wird das Arbeitsverzeichnis auf ’Auswertung’ gesetzt. > setwd("g:/Auswertung") Alternativ hierzu kann bei dem ’read’-Befehl zu dem Dateinamen auch noch der Pfad angegeben werden. Typische Probleme beim Einlesen von Daten in Textformat ist die falsche Angabe des Feldtrenners (= seperator). Im diesem Fall > x x Einkommen.Alter.Ausbildungsjahre 1 2000\t30\t12 2 2500\t42\t13 3 2900\t50\t10 4 3300\t28\t18
C.9. FEHLERMELDUNGEN
333
wurde in der Textdatei der Feldtrenner \t verwendet, was man an der Ausgabe 2000\t30\t12 erkennen kann. Das Problem wird gelöst durch Rückgriff auf die Hilfeseite > ?read.csv. Hier ist zu lesen, daß andere Feldtrenner als jener, der standardmäßig genutzt wird über ’sep="Feldtrenner")’ eingestellt werden können. Hier wird das Problem wie folgt > x x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 gelöst. Anführungszeichen können ein Problem darstellen, weil sie in vielen Textverarbeitungsprogrammen automatisch in typographische geändert werden. Werden Befehle in solchen Programmen geschrieben und Befehlszeilen hieraus über die Zwischenablage in kopiert, so entstehen Fehlermeldungen wie im folgenden: Fehler: Unerwartetes Eingabe in "x 33/2-(4ˆ 2)
340
LÖSUNGEN
[1] 0.5 > Cov.XY Cov.XY [,1] [1,] 0.08333333 84 Sofern Beobachtungen vorliegen, so bedeutet gemeinsame Verteilung, daß an ein und derselben statistischen Einheit zumindest zwei Merkmale erhoben wurden. Die gemeinsame Häufigkeitsverteilung kann dann als Kontingenztabelle dargestellt werden. Wir unterscheiden ihrer zwei: die Kontingenztabelle mit absoluten und die mit relativen Häufigkeiten. Die hij in Formel 8.2 sind dann nichts weiter als die relativen Häufigkeiten der Kontingenztabelle. 85 Das Programm erzeugt bei jedem Lauf neue Realisierungen. Dennoch sollte die graphische Darstellung ähnlich der hier gezeigten sein und aus einer Punktwolke besteht. Eine Struktur ist allenfalls schwach zu erkennen. 86 In wird bei den angegebenen Befehlen standardmäßig die korrigierte empirische Varianz berechnet. Sie enthält den Faktor 1/(n − 1). Wird dieser Faktor mit (n − 1)/n multipliziert, so ergibt sich 1/n, also der Faktor, der bei der Berechnung der empirischen Varianz Verwendung findet. 87 > 10179174/(2002339 ∗ 67686642). 5 [1] 0.874364 88 t-Verteilung 89 Korr(X, Y ) = 0, 9396143 90 Korr(X, Y ) = 0, 1552301. Die nötigen Befehle sind wie folgt (siehe auch die Lösung zu Aufgabe 7. > Korr.XY Korr.XY [,1] [1,] 0.1552301 91 Unter der Nullhypothese, daß ρ = 0, ist die Testgröße t-verteilt mit n − 2 Freiheitsgraden. Die Gegenhypothese lautet, daß die Korrelation signifikant von Null verschieden ist. Die Korrelation und Testgröße sowie die Bestimmung des Annahmebereiches kann über folgende Befehle erfolgen. > Korr.X1X2 Korr.X1X2 [1] 0.2052648 > length(x2) [1] 50 > Testgroesse Testgroesse [1] 1.453057 > qt(0.01/2,length(x1)-2,0,lower.tail=TRUE) [1] -2.682204 > qt(0.01/2,length(x1)-2,0,lower.tail=FALSE) [1] 2.682204 Der Annahmebereich ist [−2, 68; 2, 68]. Da die Testgröße (= 1, 45) im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Der Befehl ’cor.test(.)’ führt zu folgendem Ergebnis. > cor.test(x1,x2, alternative="two.sided", method="pearson", exact = NULL, conf.level = 0.99), Pearson’s product-moment correlation, data: x1 and x2, t = 1.4531, df = 48, p-value = 0.1527, alternative hypothesis: true correlation is not equal to 0, 99 percent confidence interval: -0.1659514 0.5255276, sample estimates: cor 0.2052648. Demgemäß kann die Nullhypothese nicht verworfen werden. 92 Nein 93 Hier sind die Ausführungen in Kapitel 8.A relevant. Die nötigen Anweisungen sind:
LÖSUNGEN
341
> z E.z E.z [1] 0.2103173 > Var.z Var.z [1] 0.02127660 > qnorm(0.95,E.z,Var.z,lower.tail=TRUE) [1] 0.2453142 >z [1] 0.2082228 Der Annahmebereich ist ] − inf ty; 0.245[. Da die Testgröße z im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. 94 Nein 95 Vergleiche Abbildung 8.1. 96 Der nach Bravais-Pearson entfällt, weil hier stetige Zufallsvariablen vorausgesetzt werden. Die Koeffizienten nach Spearman und Kendall würden sich anbieten, doch auch hier werden stetige Zufallsvariablen vorausgesetzt. Keine dieser Kenngrößen kann verwandt werden, es kann dann mit serialen Korrelationskoeffizienten gearbeitet werden (siehe (Hartung und Elpelt, 1984, S. 201ff)). 97 Es stellen sich gleich drei Probleme: • Welches Korrelationsmaß wurde überhaupt verwendet? • Es ist nicht klar, welche Verteilung die zugrundeliegenden Zufallsvariablen haben und • eine Variable ist ordinal, die andere kardinal skaliert. Das zweite Problem könnte mit Hilfe von Verteilungstests angegangen werden, allerdings ist eine Größe ja nur ordinal skaliert. Die Tests 8.3.2 und 8.3.2 könnten ebenfalls nicht verwendet werden, da jeweils zwei stetige Zufallsvariablen zugrunde gelegt werden, doch hier ist eine Größe nur ordinal skaliert deren zugrundeliegende Zufallsvariable kaum als stetig anzusehen ist. Aus diesem Grund sind andere Tests nötig. 98 Da die Verteilung nicht bekannt ist, kann der Test nach Bravais-Pearson nicht angewendet werden. Es kommen in Frage der Spearmansche oder der Kendallsche Test. Da beides stetige Zufallsvariablen sind, können beide verwendet werden. Allerdings kann das Verfahren in 8.3.2 von Seite 149 nicht genutzt werden, da der Stichprobenumfang kleiner als 30 ist. So verbleibt das Verfahren nach Kendall, dessen Voraussetzungen erfüllt sind. 99 Nein, der Stichprobenumfang ist zu gering. 100 > cor.test(x[,1],x[,2],method="kendall",exact=FALSE) 101 Wird der Test mehrfach mit verschiedenen Ziehungen normalverteilter Zufallszahlen durchgeführt, so sind unterschiedliche möglich. Damit ist eine wichtige Voraussetzung wissenschaftlichen Arbeitens nicht erfüllt. Denn bei Nutzung derselben Daten sollten Anwender stets zu demselben Ergebnis kommen. 102 Bei jeder Filiale wird gleichzeitig die kürzeste Entfernung zum nächsten Getränkemarkt erhoben. Das bedeutet, daß es sich um einfache Stichproben zur gemeinsamen Verteilung Xi , Yj handelt. 103 Wir wissen ja, daß die Variablen normalverteilt und stochastisch unabhängig sind, so wurden sie ja erzeugt. Damit sollten die paarweisen Korrelationen vergleichsweise klein sein und simultaner Test, bei dem überprüft wird, ob alle paarweisen Korrelationen gleich Null sind, sollte zur Annahme der Nullhypothese führen. Wäre dies in vorliegendem Fall anders, so wäre der Fehler erster Art eingetreten. 104 Ja. 105 Es kommt darauf an. Einerseits können damit Zufallsvariablen in der Grundgesamtheit gemeint sein. Andererseits können es auch Zufallsvariablen sein, die sich aus einer (einfachen) Stichprobe ergeben. 106 Nein, in der Praxis wäre zu diskutieren, welche Perspektive und welches Motiv für die Hypothesenaufstellung relevant sein soll. Wird die Perspektive des Unternehmens ’Lebensmittel gut und billig’ eingenommen und soll tunlichst vermieden werden, daß fälschlicherweise angenommen wird, daß ρ1 > ρ2 ist, so sollten die Hypothesen gerade vertauscht werden.
342 107 Argumentiere
LÖSUNGEN
über den Fehler 1. Art berechne den Erwartungswert von z1 − z2 und bestimme entweder die Varianz der Testgröße oder standardisiere z1 , z2 . 109 Hierdurch wird nur die Korrelation zwischen den Vektoren x und x berechnet. Man 1 2 könnte dies freilich paarweise für alle Vektoren machen und die Ergebnisse in einer Matrix zusammenfassen, doch dies wäre recht umständlich. 110 Im ersteren Fall handelt es sich um eine Matrix und in letzterem um eine einzelne Zahl. 111 Der Zusammenhang zwischen paarweisen Korrelationen macht hier wenig Sinn, weil die erste Korrelation zwei andere Merkmale in Beziehung zueinandersetzt als bei der zweiten. Vielmehr interessiert wohl der Zusammenhang zwischen den Linearkombinationen a1 Y1 +a2 Y2 und b1 X1 + b2 X2 . Aus diesem Grund bietet sich die kanonische Korrelation an. 112 Ohne weitere Informationen ist eine Antwort schwierig. Es kommt letztlich auf die Fragestellung an. Paarweise Korrelationen zwischen den Merkmalen Y1 , Y2 und X1 , X2 miteinander zu vergleichen, wobei mit Y1 , Y2 etwas vollkommen anderes gemessen wird als mit X1 , X2 macht wenig Sinn. Die Zusammenhänge, die mit Hilfe der Korrelationsanalyse untersucht werden sollen, sollten in einem sachlogischen Zusammenhang stehen. Anders verhält es sich bei einer explorativen Datenanalyse. Hier können alle vorgestellten Methoden angewandt werden, man hüte sich jedoch davor, Daten zu quälen. 113 Die Korrelation kann dennoch signifikant von Null verschieden sein. Zudem wäre es sinnvoll in erklärungsbedürftige Güter und nicht-erklärungsbedürftige zu unterscheiden. Im ersteren Fall sollte sich eine signifikant höhere Korrelation als im zweiten Fall ergeben. Zudem ist es möglich, daß die Korrelation bei nicht-erklärungsbedürftigen Produkten nicht signifikant von Null verschieden ist. Selbst bei den erklärungsbedürftigen Produkten könnte sich eine geringe oder nicht signifikant von Null verschiedene Korrelation ergeben. Dies könnte daraufhindeuten, daß die Motivation oder die Ausbildung der Verkäufer gering ist. 114 Diese Aufgabe kann entweder algebraisch oder mit über ein einfaches Beispiel mit zwei Variablen gelöst werden. Man beachte, daß die Cov(Y, X) für X = Y mutiert zu V ar(Y ). 115 Ja. 116 Es gibt zwei Personen, ’1’ und ’2’. Die Körpergröße wird in cm und das Gewicht in Zentnern angegeben. Anschließend wird das Gewicht mit 50 multipliziert und man erhält die Angabe in Kilogramm. ’cbind’ bedeutet, daß Spaltenvektoren aneinandergereiht zu einer Matrix zusammengefaßt werden. 117 > library(cluster) > daisy(x,metric="manhattan") Dissimilarities : 1 2 20.5 Metric : manhattan Number of objects : 2 > daisy(x2,metric="manhattan") Dissimilarities : 1 2 45 Metric : manhattan Number of objects : 2 118 Normiere jeden Summanden auf den Bereich [0, 1] 119 > Norm1 Norm2 Norm1 [1] 20 > Norm2 [1] 0.5 > xx xx [,1] [,2] [1,] 9 3 [2,] 8 2 108 Man
LÖSUNGEN
343
> Norm3 Norm4 Norm3 [1] 20 > Norm4 [1] 25 > xx2 xx2 [,1] [,2] [1,] 9 3 [2,] 8 2 120 > daisy(xx,metric="manhattan")daisy(xx,metric="manhattan") Dissimilarities : 1 22 Metric : manhattan Number of objects : 2 Es ergeben sich, aufgrund derselben normierten Datenmatrix, jeweils dieselben Distanzindizes. 121 Die berechneten Differenzen sind für jedes Merkmal im Bereich [0, 1]. also kann es vorkommen, daß die Summe dieser Differenzen größer als Eins ist. 122 > xxx1 xxx2 Distanz1 Distanz2 Distanz1 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz2 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz.gesamt Distanz.gesamt 12 101 210 Die errechnete Distanz zwischen den Objekten ’1’ und ’2’ ist gleich Eins. 123 In vorliegendem Fall ergibt sich dasselbe Ergebnis wie unter 4j, da die Manhattan-Distanzen beider Merkmale jeweils gleich Eins sind. 124 > daisy(x,metric="gower") Dissimilarities : 1 21 Metric : mixed ; Types = I, I Number of objects : 2 Es ergibt sich dasselbe Ergebnis, wie unter 4k, denn die Schritte sind völlig identisch. 125 Ja, denn keine Überdeckung ist eine echte Teilmenge eines Clusters. 126 Entscheidend ist die Problemstellung. Sollen beispielsweise drei Verkaufsregionen bestimmt werden, weil drei geeignete Regionalleiter zur Verfügung stehen, so ist die Klassenanzahl durch die Problemstellung vorgegeben. Sollen die Verkaufsregionen im Hinblick auf bestimmte Merkmale ziemlich ähnlich gebildet werden, so wäre die Klassenanzahl innerhalb
344
LÖSUNGEN
des Klassifikationsverfahrens zu bestimmen und die Anzahl der Verkaufsleiter würde sich hierüber ergeben, wäre ökonomisch gesehen die endogene Größe. 127 Distanzen werden zwischen je zwei Objekten errechnet. Niedergelegt in einer Distanzmatrix erhält man eine (10 × 10)-Matrix. Deren Hauptelemente sind gleich Null und sie ist symmetrisch. Aus diesem Grund gibt es (10 ∗ 10 − 10)/2 = 45 unterschiedliche Distanzindizes. 128 Die durchschnittliche Beratungszeit des ersten Kunden beträgt 1.637554 und die des Kunden mit Nummer 350 beträgt 303.279180 Minuten. 129 199.1725 Minuten 130 Kardinale Merkmale, es ist sowohl ein intervallskaliertes als auch eine verhältnisskaliertes Merkmal. 131 1. Alternative: Es könnten alle drei Merkmale zur Bildung einer Distanzmatrix herangezogen werden. 2. Alternative: Allerdings gibt es zwischen den Merkmalen ökonomisch sinnvolle Beziehungen. Die durchschnittliche Beratungszeit pro Kunde stellt Aufwand dar, der von dem Umsatz eines Kunden abgezogen werden könnte. Diese Möglichkeit verbietet sich in dieser Form, da beide Variablen unterschiedliche Dimensionen besitzen. Es wäre sinnvoll, den Aufwand mit einem kalkulatorischen Preis pro Minute zu multiplizieren und diese von dem Umsatz abzuziehen. Eine Partitionierung nach diesem (eindimensionalen) Merkmal würde die Kunden (unter Außerachtlassung sonstigen Aufwandes) gemäß des kalkulatorischen Gewinns in Klassen einteilen. 132 Die maximalen Beratungskosten betragen 192.0678. Der maximale kalkulatorische Gewinn beträgt in Euro 3109.526 und der minimale 649.0188. 133 Nutze zuerst ’daisy’ und wende dann den Befehl ’pam’ mit zweien und anschließend mit drei Clustern an. 134 Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt bei zwei Partitionen gleich 0,55 und bei dreien 0,49, wobei zudem die Silhouettenweite einiger Personen negativ sind. Deshalb wird eine Einteilung in zwei Cluster vorgeschlagen. 135 Es gibt zwei Möglichkeiten, zwei Geraden so einzuzeichnen, daß die Gerade genau durch zwei Beobachtungspunkte verläuft und die Summe der Abstände zwischen allen Beobachtungspunkten und Geraden gleich Null sind. 136 Man zeichne wiederum vier Punkte so in ein Diagramm, daß je zwei denselben x-Wert haben. Das Minimum der aufsummierten und in den Betrag gesetzten Differenzen muß gleich dem Absolutwert der Differenz der ersten zwei Beobachtungen mit demselben x-Wert plus dem Absolutwert der Differenz der anderen zwei Beobachtungen mit identischem x-Wert sein. Man erkennt leicht, daß es mehrere Lösungen gibt. 137 Stelle Normalgleichung 12.8 um, dies führt zum Ergebnis. 138 Vergleiche die erste Normalgleichung. 139 Zeichne eine Regressionsgerade in ein Streudiagramm, bei dem alle Beobachtungen auf einer Geraden liegen. Zeichne waagerechte Linien durch alle Beobachtungen und alle geschätzten Werte yˆ. Es zeigt sich, daß y = yˆ, woraus die Behauptung folgt. 140 Der Schätzer ˆ b gibt die Steigung der Schätzgeraden an. Ändern sich die Variablen xt und yt gleichgerichtet, so ist die Steigung positiv und auch die Kovarianz ist positiv. Ist die Kovarianz zwischen xt und yt negativ, so steigt tendenziell xt , wenn yt sinkt, und umgekehrt: die Steigung der Schätzgeraden ist dann negativ. Sofern die Varianz V ar(x) sehr klein ist, so muß bei gegebenen Werten yt die Steigung der Schätzgeraden größer sein, als bei kleiner Varianz V ar(x). Dies schlägt sich in dem Schätzer 12.12 nieder, da hier die Varianz als Argument eingeht. Eine kleine Varianz führt zu höheren Werten von ˆ b als eine große. 141 Es kann sein, daß die Streuung des Störterms u so groß ist, daß sich dies in einem geringem t R2 niederschlägt. Dieser Einfluß wird bei statistischen Hypothesentests über die KQ-Schätzer berücksichtigt. Sollte dies tatsächlich der relevante Effekt sein, so sollten sich die KQ-Schätzer als signifikant von Null erweisen. 142 Bei zwei Beobachtungen geht die Regressionsgerade durch beide Punkte, weshalb die Varianz der Störterme gleich Null sein muß. Folglich ist das Bestimmtheitsmaß gleich Eins. Kommt eine weitere Beobachtung hinzu, so bleibt das Bestimmtheitsmaß entweder unverändert oder es sinkt. Liegt die zusätzliche Beobachtung genau auf der zuvor geschätzten Geraden, so ist R2 weiterhin gleich Eins. Ansonsten muß es sinken, da es Störterme ut > 0 gibt.
LÖSUNGEN 143
ˆb − b =
T
345
xt ut − ut 2 xt 2 T
xt −(
=
xt )
T(
=
T
(xt −¯ x)ut )
T 2 x2 −T 2 (¯ x)2 t
xt ut −T T
=
(
x2 −( t
ut (1/T ) 2
(xt −¯ x)ut )
T (x2 −(¯ x)2 ) t
xt )
=
(
xt
=
T( T
x ut ) xt2ut −¯ 2 xt −(
xt )
(C.1) (xt −¯ x)ut )
T s2 (x)
.
144 Die Aufstellung der Schätzfunktion ist zwar mitentscheidend für das Ergebnis, doch der Zusammenhang kann nicht im Sinne einer Ursache-Wirkungsrichtung interpretiert werden. Selbst wenn die KQ-Schätzer signifikant von Null verschieden sind, handelt es sich nicht um einen Kausalitätstest. 145 Das Bestimmtheitsmaß R2 verringert sich, da die Varianz der Störterme zunimmt und ist zuletzt nahe Null. Dennoch sind die KQ-Koeffizienten signifikant von Null verschieden. 146 Die Multiplikation der erklärenden Größe mit einer Konstanten hat keinen Einfluß auf die KQ-Residuen. 147 Die Summe der Residuen muß gleich Null ergeben. Ist dies nicht der Fall, so muß ein Rechenfehler vorliegen. 148 Es zeigt sich, daß das Absolutglied nicht signifikant ist. Hinweis: Sofern die Beobachtungen eine eng zusammenligende Punktwolke darstellt und je weiter sie vom Ursprung entfernt ist, desto unsicherer ist die Schätzung des Absolutgliedes ˆ a. In Anwendungen ist dies häufig der Fall. 149 Das Absolutglied wird als erklärende Variable mitgerechnet, erscheint aber nicht bei der Aufzählung x1 , x2 , . . . , xn . 150 Ist der Stichprobenumfang bei der Binomialverteilung gleich 1, und werden als mögliche Ausprägungen nur x ∈ {0, 1} zugelassen, so erhält man die Bernoulli-Verteilung.
Glossar Bestimmtheitsmaß R2
Ceteris paribus
Gini Korrelation
Kritischer Wert
Dies gibt den Anteil der erklärten Varianz einer Regression an der Varianz der zu erklärenden Variable wider, 260 ’Alles andere bleibt gleich’; lateinische Redewendung, die in der Ökonomie häufig verwendet wird, 259 Gini - Dies ist die Abkürzung für den Ginikoeffizient, der nicht normiert ist, 60 Die Korrelation ist ein Maß, mit dessen Hilfe der Zusammenhang zweier Zufallsvariablen überprüft werden kann. Sie hat dasselbe Vorzeichen wie die Kovarianz, mit deren Hilfe sie berechnet wird. Ist sie positiv und eine der beiden Varaibelen steigt, so steigt auch die andere; ist sie negativ und steigt eine Variable, dann sinkt die andere. Sind die betrachteten Zufallsvariablen stochastisch unabhängig, so ist die Kovarianz und damit auch die Korrelation gleich Null. Ist die Korrelation gleich Null, so müssen die beiden Zufallsvariablen allerdings nicht stochastisch unabhängig sein. Ist die Korrelation aber von Null verschieden, so liegt keine stochastische Unabhängigkeit vor. Diese Eigenschaft macht man sich bei den Tests auf Korrelation zu Nutze, 138 Bei einseitigen Tests teilt das Quantil den Definitionsbereich der Testgröße in einen Verwerfungsbereich und einen Annahmebereich. Da es nur einen Ablehnungsbereich gibt, heißen solche Tests einseitig. Bei zweiseitigen Tests werden zwei α2 -Quantile berechnet, ein unteres und ein oberes. Der Definitionsbereich der Testgröße wird in drei Bereiche aufgeteilt: einen Annahme und zwei äußere Verwerfungsbereiche, 77
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
348 MONA N(0,1) PAM Standardisierung
Translation
Wahrscheinlichkeitsmasse
σX (x) (Ω F P ) Cov(X, Y ) E(X) FX (x) Gininormiert
H(x)
H0 H1 Mf P P (X x) QX
Glossar Monothetische Methode zur Bildung einer Hierarchie, 237 Normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1, 265 Polythetische Methode zur Bildung einer Partition, 215 Jede Zufallsvariable kann so umgerechnet werden, daß ihr Mittelwert 0 und ihre Varianz 1 beträgt. Diese Umrechnung heißt Standardisierung. Allerdings müßen Erwartungswert und Varianz bekannt sein, 132 Bei einer Addition aller Punkte mit einer Konstanten spricht man von Translation (Parallelverschiebung), 261 Damit wird die Wahrscheinlichkeit bezeichnet, die bei diskreten Zufallsvariablen auf einer Zufallsvariablen liegt. Man versteht darunter auch die Wahrscheinlichkeit, die über einem Intervall von Zufallsvariablen vorhanden ist. Die Fläche, die über einem Intervall stetiger Zufallsvariablen liegt bezeichnet man ebenfalls als Wahrscheinlichkeitsmasse. Da bei einer stetigen Zufallsvariablen die Fläche über einem Punkt gleich Null ist, ist dessen Eintrittswahrscheinlichkeit gleich Null, 76 Standardabweichung, 132 Wahrscheinlichkeitsraum, 111 Kovarianz, 132 Erwartungswert, 131 Verteilungsfunktion zur Zufallsvariablen X, 128 Normierter Gini - Dies ist die Abkürzung für den Ginikoeffizient, der normiert ist und nur Werte zwischen 0 und 1 annehmen kann, 62 Empirische Verteilungsfunktion - Sie gibt die kumulierten relativen Häufigkeiten der Merkmalsausprägungen an, die gleich oder kleiner der betrachteten Merkmalsausprägung sind, 43 Nullhypothese, 74 Gegenhypothese, 74 höchster Rang der Variable f , 199 Wahrscheinlichkeit, 70 Wahrscheinlichkeit, daß die Zufallsvariable X kleiner oder gleich x ist, 128 Bildwahrscheinlichkeit, 127
Glossar QX S SC T Hij
V ar(x) #A #matches %∗% Ω α
x ¯ ∃ ∀ σ ˆ2
n k Cor(XX) X ˆ Cor(XX) rXX K Bn Ω A ρ θ |a| d(i j)
349 Wahrscheinlichkeitsverteilung der Zufallsvariablen X, 72 Gesamte Merkmalssumme - Diese Größe ist der erste Schritt zur Bildung der Lorenzkurve, 57 Silhouettenkoeffizient, 229 Theoretische Häufigkeit - Dies ist die Häufigkeit, die sich aufgrund einer Verteilungsannahme bei Geltung der Nullhypothese ergibt. , 92 korrigierte Stichprobenvarianz, 19 Anzahl der Elemente der Menge A, 111 Anzahl an Übereinstimmungen, 202 Befehl in zur Durchführung einer Matrizenmultiplikation, 158 Ergebnisraum, 107 Signifikanzniveau, es gibt die Wahrscheinlichkeit an, die über dem Ablehnungsbereich liegt, 75 arithmetisches Mittel, 19 Existenzquantor, dieses Symbol soll bedeuten ’es existiert’, 180, 313 Allquantor, eine Kurzschreibweise, die bedeuten soll ’für alle’, 109 Korrigierte Stichprobenvarianz - Sie ist ein Streuungsmaß und wird genutzt, um die mit Daten einer einfachen Stichprobe die Streuung in der Grundgesamtheit erwartungstreu zu messen, 19 Binomialkoeffizient, 71 Korrelationsmatrix, 179 Transponierte der Matrix X, 304 Schätzer der Korrelationsmatrix, 171 Schätzer der Korrelationsmatrix für stetige, kardinale Merkmale, 171 Klassifikation, 214 Borelkörper in n , 127 Komplementmenge von A bezüglich Ω, 108 Korrelation in der Wahrscheinlichkeitstheorie, 138 Parameterwert, 87 Betragszeichen, die Variable a wird zum Betrag genommen, 194 Distanz zwischen den statistischen Einheiten i und j, 191
350 fX (x) h(x) hi hi,j
k l
m n ni nij
r
s2
s2X s11 (x,y) z
Glossar Dichtefunktion zur Zufallsvaraiblen X an der Stelle x, 130 Relative Häufigkeitsverteilung, 40 Relative Häufigkeit der Merkmalsausprägung i, 40 Gemeinsame Verteilung - hij gibt die gemeinsame relative Häufigkeit des Auftretens von Merkmalsausprägung i und j an, 53 Anzahl unterschiedlicher Beobachtungen, 37, 138 Er kann die Anzahl unterschiedlicher Merkmale angeben oder auch die Anzahl unterschiedlicher Ausprägungen. Die Verwendung ergibt sich aus dem Sinnzusammenhang, 138, 194, 202, 203, 244 Anzahl an Klassen, 214 bei Stichproben: Stichprobenumfang, 74 absolute Häufigkeit, 37 Zellenbesetzung - Sie gibt die absolute Häufigkeit an, mit der Kombinationen an Merkmalsausprägungen in einer Kontingenztabelle, 95 Empirische Korrelation - Mit ihr läßt sich der Zusammenhang zwischen zwei Zahlenreihen messen. Sie ist, wie die Korrelation in der Wahrscheinlichkeitstheorie (Cor(X, Y )) normiert und kann nur Werte zwischen [−1, +1] annehmen. Ansonsten gilt das gleiche, was dort gesagt wurde, wenn man stochastische durch statistische Unabhängigkeit ersetzt, 139 Empirische Varianz - Sie ist ein Streuungsmaß und wird bei Totalerhebungen oder zur Beschreibung der Streuung in einer Stichprobe benutzt, 19, 42, 264 empirische Varianz zur Variablen X, 38 empirische Kovarianz, 139 Zinssatz, 193
Literaturverzeichnis Günter Bamberg und Franz Baur. Statistik (München, Wien: R. Oldenbourg Verlag) (1984). D.J. Best und D.E. Roberts. Algorithm AS 89: The Upper Tail Probabilities of Spearman’s rho. In Applied Statistics, Band 24:377–379 (1975). Statistisches Bundesamt. Genesis-Online. https://www-genesis.destatis.de.
online
(2008).
URL
Dubravko Dolic. Statistik mit R, Einführung für Wirtschafts- und Sozialwissenschafter (München, Wien: R. Oldenbourg Verlag) (2004). Kurt Endl und Wolfgang Luh. Analysis I, Eine integrierte Darstellung (Wiesbaden: Akademische Verlagsgesellschaft), 6. Auflage (1980). ISBN 3-400-001856. JC Gower. A general coefficient of similarity and some of its properties. In Biometrics, Band 27:857–871 (1971). Joachim Hartung und Bärbel Elpelt. Multivariate Statistik (München: Oldenbourg Verlag) (1984). Myles Hollander und Douglas A. Wolfe. Nonparametric Statistical Methods (New York: John Wiley and Sons, Inc.) (1999). Leonard Kaufmann und Peter Rousseeuw. Finding Groups in Data An Introduction to Cluster Analyses (New York, Chichester, Brisbane, Toronto, Singapore: John Wiley and Sons, Inc.) (1990). Josef Schira. Statistische Methoden der VWL und BWL : Theorie und Praxis (München: Pearson Studium) (2005). ISBN 3-8273-7163-5. Hans Schneeweiß. Ökonometrie (Würzburg-Wien: Physica-Verlag), 3. durchgesehene Auflage (1978). Peter von der Lippe. Auflage (1996).
Wirtschaftsstatistik (Stuttgart: Lucius & Lucius), 5.
Karlheinz Zwerenz. Datenanalyse mit Excel und SPSS (München, Wien: Oldenbourg Verlag) (2006). R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
Stichwortverzeichnis σ-Additivität, 111 σ-Ring, 109 Ähnlichkeit von Objekten Definition, 241 Überdeckung Definition, 215 Konstruktion, 233 Abhängigkeit lineare, 313 Ablehnungsbereich, 75 Affinitätsindex, 204 Alternativenvergleich, 88 Ancienitätsprinzip, 18, 253 Anführungszeichen typographische, vi, 333 Ankunftsrate mittlere, 285 Annahmebereich, 75 Anpassungstest, 97 Arbeitsspeicher löschen, 322 Arbeitsverzeichnis anlegen oder wechseln, 323 Assoziationsmaß Interpretation, 241 attach, 326 Aufgaben, 2 Ausreißer, 21 Balkendiagramm, 39 bar chart, 39 bar plot, 39 Basis, 313 Bayes Schätzunktionen, 120 Befehlsdatei, 322
Befehlsfenster, v, 321 Beispiele, 2 Bereich kritischer, 75 Bestimmtheitsmaß, 259 Interpretation, 260 Invarianz gegenüber Maßstabsänderungen, 261 Invarianz gegenüber Translationen, 261 Bias, 19, 44 Bildwahrscheinlichkeit, 127 Bindungen, 148 Binomialkoeffizient, 72 Bittorrent, 3 Bundesamt Statistisches Online-Angebot, 30 Centrotype, 216 ceteris paribus, 259 City-Block-Metrik, 194 Cluster, 189 L∗ -Cluster, 224 L-Cluster, 224 Clusteranalyse, 22, 189, 211 Coefficient simple matching coefficient, 204 Daten Überprüfung auf Konsistenz, 18 abspeichern, 325 einlesen, 5, 325 herunterladen, 4 Internetadresse, 4 online beziehen, 4 permanent machen, 38
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
354 quälen, 8 temporäre, 38 Daten aus dem Internet einlesen, 324 Daten aus einer *.csv-Datei einlesen, 324 Datenanalyse explorative, 165 Dateneigenschaften, 325 Dateneingabe Eingabe als Matrix, 32 Datenmatrix, 189 Datensätze umkehren, 326 Datensatz, 189 Deduktion, 8 Deskriptive Statistik, 5 detach, 326 Determinante, 171 Diameter, 225 Dichte Definition, 130 Dichtefunktion, 126 Definition, 130 Diskriminanzanalyse, 22 Diskriminierung, 80 Distanz City-Block, 194 City-Block-Distanz, 194 invariantes, 204 Jaccard, 205 Manhattan, 194 weitere Maßzahlen, 245 Distanzmatrix, 189 Eigenvektor, 319 Eigenwert, 319 Ein-Stichprobenfall, 87 Einheit statistische, 8, 61, 111, 189 Einstichprobenfall Problem, 88 Elementarereignis, 112 Ereignisraum, 111 Ereignisse, 111 Ergebnisraum, 107 Ergebnisse, 107
STICHWORTVERZEICHNIS des Wahrscheinlichkeitsraumes, 111 Erhebungsplan, 24, 72 Erzeugendensystem, 313 Exzentrizität maximale, 171 Fakultät, 71 Fehler 2. Art, 82 Fehler 1. Art, 79 Fehlermeldungen mögliche Ursachen, vi Umgang mit, 332 Finden in , 329 Fisher z-Transformation, 162 Fragebogen, 7 Geradengleichung Parameter der, 250 Gini-Koeffizient, 60 normiert, 62 Gleichverteilung stetige, 287 Graphik abspeichern, 328 Formate, 328 Grundgesamtheit, 8 Häufigkeit relative, 40 Häufigkeitsdichte durchschnittliche, 51 Häufigkeitsverteilung relative gemeinsame, 55 Handbücher in Linux, 329 Handbücher in Windows, 332 Hauptdiagonale, 305 Hauptdiagonalelemente, 305 Hierarchie, 238 Definition, 215 Histogramm, 50–52 absolute Klassenhäufigkeit, 50 Homogenitätstest, 100 Hotelling-Pabst-Statistik, 149
STICHWORTVERZEICHNIS Erläuterung, 137 Hypothese, 7 KQ-Methode, 255 Hypothesen Interessenlage und Aufstellung von, Längsschnittanalyse, 31 80 Lag, 327 Lags, 321 Identität, 31 last, 327 Induktion, 8 Legende, 34 Inverse, 316 LimeSurvey, 10 K-Statistik Internetadresse, 10 Kendallsche, 151 Linearkombination, 313 Kendalls τ , 151 Lorenz-Kurve, 57 Klassen M-Koeffizient, 204 äquidistante, 52 matplot, 34 Klassenbildung Matrix diversiv, 238 Datenmatrix, 189 Klassifikationstyp, 214 Distanzmatrix, 189 Klassifizierung Einheitsmatrix, 305 automatische, 211 Inverse, 316 Kleinst-Quadrat-Schätzfunktionen, 264 Invertierbar, 316 Koeffizient obere Dreiecksmatrix, 305 M-Koeffizient, 204 quadratische, 305 Chi-Quadrat-, 93 Rang einer Matrix, 313 Ungleichheiheits-, 190 reguläre, 313 Konfidenzintervall, 126, 147 Spalten, 304 Konsistenz, 19 transponierte, 304 Konsole, v, 321 untere Dreiecksmatrix, 305 Konstruktionsverfahren Zeilen, 304 Unterschied zwischen Hierarchiebildung und Partitionierung, Meßbarkeit, 125 Definition, 126 215 Median, 45 Kontingenz Medoid, 216 quadratische, 93 Definition, 216 Kontingenztabelle, 53, 125 merge, 329 bei Zufallsvariablen, 128 Merkmal Kontrollvariable, 88 binäres, 203 Kontrollvariablen, 25 diskretes, 279 Korrelation intervallskaliert, 192 Definition, 138 kardinal, 22 kanonische, 182 kardinales multiple, 179 invervallskaliertes, 22 Korrelationskoeffizient verhältsnisskaliertes, 22 Bravais-Pearson, 140 nominales, 21 Kendall, 151 nominales in , 325 Korrelationstabelle, 53 Kovarianz, 132 ordinal, 21
355
356 stetiges, 279 verhältnisskaliert, 192 Merkmale gemeinsam erhobene, 30 Metaebene, 97 Methode KQ-Methode, 6 Missings, 13 Mitgliedschaftsexponent, 231 Mitgliedschaftskoeffizient, 230 Mittel arithmetisches bei Rohdaten, 19 bei absoluten Häufigkeiten arithmetisches, 37 bei relativen Häufigkeiten arithmetisches, 42 Mittelwertvergleich zweier normalverteilter Zufallsvariablen, 90 Modell vollständiges, 264 monothetisch, 244 Moodle, 10 Internetadresse, 10 ndays, 327 Nennerfreiheitsgrade, 181 Next, 327 nmonths, 327 Normalgleichungen, 251 Normalverteilung Standardnormalverteilung, 291 nquarters, 327 Objekt Nachbar eines Objektes, 227 repräsentatives, 216 Objekte interessierende, 8 siehe auch Grundgesamtheit, 8 Objektebene, 97 Online-Befragung Software, 10 Onlineangebot des Verlages, 4 OpenOffice
STICHWORTVERZEICHNIS Internetadresse, 2 ordered, 200 p-value graphische Veranschaulichung, 146 Pakete installieren unter Linux, 323 Pakete einlesen auf dem Rechner existierende, 323 Pakete installieren in Windows, 332 Panelstudie, 32 Parameter Vektor regressionsähnlicher, 182 Partition Definition, 214 kompromißlose, 232 Vergleich PAM und FANNY, 232 Partitions-Koeffizient, 237 normiert, 237 Permutation, 71, 113 Personen interessierende, 8 siehe auch Grundgesamtheit, 8 Plausibilität, 13 Überprüfung auf statistische, 23 Plausibilitätsprüfung, 17 polythetisch, 244 Preisdiskriminierung, 101 dritten Grades, 212 Primärdaten, 9 Probleme bei Befehlsdatei, 322 Prognose, 258 Punktprognose, 249 Programmpaket, 331 Punktmasse, 120 Punktschätzung, 69 Punktwahrscheinlichkeit, 120 Quantil, 45 Mehrdeutigkeit, 46, 48, 50 Quantile und Verteilungsfunktion, 48 Quartil
STICHWORTVERZEICHNIS oberes, 45 unteres, 45 Quasihierarchie Definition, 215 Querschnittsanalyse, 31, 254 R Internetadresse, 3 Randverteilung, 55 relative, 55 Zufallsvariablen, 128 Randverteilungsfunktion, 129 Rangkorrelationskoeffizient, 148 Rdata-Format, 325 Realisierungen, 280 Regressanden, 250 Regression einfache, 250 multiple, 269 von Yt auf Xt , 250 Regressionsfunktion, 255 Regressionsgerade, 253 Regressionskoeffizienten, 250 Regressionsmodell einfaches klassisches, 251 Regressoren, 250 Residuen, 251 rm, 322 Rohdaten, 19, 29, 189 Beispieldatensatz, 15 scan, 39 Scatterplot, 141 Sekundärdaten, 9 Selbstselektion, 82 Selbstzensur, 82 Separation, 225 Shell, v, 321 Sicherheitswahrscheinlichkeit, 75, 126 Signfikant von Null verschieden alternative Redewendung, 187 Signifikanzniveau, 75 Einfluß auf Testergebnis, 81 Silhouette, 227 Silhouettenweite, 227 Skalenniveau, 93
357 Skalierung Bedeutung von Fragestellung und Interpretation, 202 Sprungstelle der Verteilungsfunktion, 129 Störterm, 250 Stabdiagramm, 42 Standardisierung, 126 Statistik beschreibende, 30 deskriptive, 5, 30 induktive, 126 multivariate, 19 schließende, 9, 30, 126 univariat, 19 Statistiklabor Internetadresse, 3 Stetigkeit der Verteilungsfunktion, 43 Stichprobe Einstichprobenfall, 87 Stichprobenkovarianz korrigierte, 182 Stichprobenvarianz korrigierte, 19 Streudiagramm, 141 Streuung gemischte, 132 Streuungsmaß, 38 Streuungszerlegungsformel, 260 Stromgröße, 88 Suchen in , 329 Tautologie, 31 Taxonomie numerische, 211 Teilerhebung, 8 Test linksseitiger, 77 oberseitiger, 79 rechtsseitiger, 79 unterseitiger, 77 verteilungsfreier, 90 Vorzeichentest nach Fisher, 89 zweiseitiger, 76
358 Testgröße, 74 Tests Statistische Kern, 82 Trägerpunkte, 120 Translation, 261 Trendstudie, 32 Unähnlichkeitsmaß siehe Distanz, 204 Unabhängigkeit lineare, 313 statistische, 57, 99 und bedingte Häufigkeit, 57 stochastische, 116, 132 union, 329 Untersuchungseinheit, 8, 111 Urliste, 19 Validität, 18 Variable latente, 259 Variablen erklärenden, 250 zu erklärenden, 250 Varianz empirische, 43 Grundgesamtheit empirische, 19 Stichprobe empirische, 19 Varianzzerlegungsformel, 260 Vektor Einsvektor, 306 j-ter Einheitsvektor, 306 Nullvektor, 306 Verteilung bedingte, 56 Bernoulli, 89, 107 Bernoulli-Verteilung, 279 gemeinsame, 53 Gleichverteilung, 279 hypergeometrischen, 279 Standardabweichung, 132 Standardnormalverteilung, 294 Verteilungsfunktion, 126
STICHWORTVERZEICHNIS diskrete Definition, 129 empirische, 43 Normalverteilung, 280 Poisson-Verteilung, 279 stetige Definition, 130 Verzerrung systematische, 19, 44 Vollerhebung, 8 Vorhersagekriterium Vektor des besten, 182 Wahrscheinlichkeit bedingte, 116 diskrete, 120 Wahrscheinlichkeitsraum, 111 diskreter, 120, 126 Grundgesamtheit des, 111 Laplacescher, 112 stetiger, 126 Wahrscheinlichkeitstheorie, 108 Wahrscheinlichkeitsverteilung, 127, 130 diskrete, 127 stetige Definition, 130 Wahrscheinlickeitsmassefunktion, 130 Werbewirkungsanalyse, 87 Wert kritischer, 77 Werte fehlende, 13 nicht-fehlende, 199 Windows Besonderheiten in Windows, 332 Wirkungsanalyse, 87 Änderung der Organisation, 87 Umsatzsteigerung, 87 Werbung, 87 Zählerfreiheitsgrade, 181 Zeitreihen zusammenfassen, 329 Zufallsvariable, 125, 280 diskrete, 127 eindimensionale
STICHWORTVERZEICHNIS Definition, 127 standardnormalverteilte, 294 stetige Definition, 130 Wahrscheinlichkeitsverteilung, 127
359