Springer-Lehrbuch
Für weitere Bände: http://www.springer.com/series/1183
Hans-Joachim Mittag
Statistik Eine interaktive Einführung
123
Prof. Dr. Hans-Joachim Mittag Fakultät für Kultur- und Sozialwissenschaften Arbeitsbereich „Statistik und quantitative Methoden“ Universitätsstr. 11 58084 Hagen Deutschland
[email protected] Interaktive Fassung: s. Hinweis im Vorwort
ISSN 0937-7433 ISBN 978-3-642-17817-7 e-ISBN 978-3-642-17846-7 DOI 10.1007/978-3-642-17846-7 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c Springer-Verlag Berlin Heidelberg 2011
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Titelgrafik: ImagePoint.biz/Markus Brunner Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort Dieses Lehrbuch ist aus einem Fernstudienkurs der FernUniversität Hagen hervorgegangen. Der Lehrtext wird dort in den Bachelor-Studiengängen „Politik- und Verwaltungswissenschaft“, „Soziologie“ und „Psychologie“ im Grundstudium eingesetzt, ab dem Sommersemester 2011 auch im Studiengang „Bildungswissenschaft“. Er deckt alle Inhalte einer traditionellen Einführung in die Statistik ab, insbesondere also die beschreibende Statistik sowie Grundlagen der Wahrscheinlichkeitsrechnung und der schließenden Statistik. Die Bearbeitung des Lehrtextes soll dazu befähigen, statistische Informationen nutzen, sachadäquat interpretieren und verständlich kommunizieren zu können. Diese als statistische Methodenkompetenz bezeichnete Qualifikation ist in der heutigen Wissens- und Informationsgesellschaft unverzichtbar.
Herkunft dieses Lehrtextes
Das Buch ist eine – zentrale – Komponente eines Medienmixes (Blended-LearningAnsatz), der klassische Medien (Bücher, Präsenzlehre) und neue Medien (Internet, virtuelle Kommunikationsräume) verbindet. Es wird auch online als mehrfarbige pdfVersion zur Verfügung gestellt. Die pdf-Fassung weist zahlreiche Verknüpfungen mit interessanten Web-Adressen sowie mit interaktiven oder dynamischen Elementen auf. Letztere ermöglichen es, etliche der in diesem Manuskript vorgestellten Verfahren anhand benutzergesteuerter statistischer Experimente unmittelbar „auszuprobieren“ oder statistische Konzepte über tongestützte Animationen nachzuvollziehen. Die interaktive pdf-Fassung ist auf http://extras.springer.com über ein Paßwort zugänglich, das sich aus den Anfangsbuchstaben aller elf Wörter des ersten Satzes von Abschnitt 1.1 des Kapitels 1 ergibt. Diese Buchstaben sind als Kleinbuchstaben aneinanderzureihen. Das Paßwort beginnt also mit d.
Realisierung eines Medienmixes
Interaktive Online-Fassung unter http://extras.springer.com
Printfassung des Manuskripts
Vorlesungen / andere Lehrbücher
Externe Links / ergänzende Online-Materialien
Komponenten des Medienmix
Die Experimente und Animationen stammen zum Teil aus einem großen MultimediaProjekt „Neue Statistik“. 1 Einige Java-Applets und Animationen sind einer MultimediaSoftware „Beschreibende Statistik“ entnommen, die ab Frühjahr 2011 in einer aktuali1
Das Projekt „Neue Statistik“ wurde mit öffentlichen Mitteln gefördert (s. auch unter www.fernunihagen.de/neuestatistik und unter www.neuestatistik.de). Im Rahmen des Projekts zeichnete die FernUniversität für statistische Experimente auf Java-Basis verantwortlich, die am Center für Digitale Systeme an der FU Berlin in Lernmodule mit Hypertextstruktur eingebettet wurden.
v
Wo finde ich die interaktive Buchfassung?
vi
Vorwort
sierten Fassung vorliegen wird.2 Die ergänzenden Materialien sind optionale Angebote, die aktives Lernen unterstützen und zur besseren Verständnissicherung beitragen sollen. Dieses Werk ist aber auch ohne Nutzung der statistischen Experimente und Animationen uneingeschränkt studierbar. Es enthält zahlreiche Übungsaufgaben mit ausführlichen Lösungen, die in zwei eigenen Kapiteln zusammengefasst sind. Betonung von Interdisziplinarität
Im vorliegenden Lehrbuch wird anhand zahlreicher Beispiele aus unterschiedlichen Anwendungsbereichen illustriert, dass die Statistik für viele Wissenschaften eine wichtige Servicefunktion erfüllt und alle Bereiche gesellschaftlichen Lebens durchdringt. Die verwendeten Beispiele – etwa die Darstellung von Ergebnissen der letzten Bundestagswahl oder der Nationalen Verzehrstudie II, die kritische Würdigung einer nicht lösbaren Aufgabe zur Statistik vom Zentralabitur 2008 in Nordrhein-Westfalen oder die Diskussion von Risiken beim Krebsscreening – sind aktuell, relevant und motivierend. Bei der interaktiven pdf-Fassung sind die Beispiele manchmal mit Hintergrundinformationen aus Online-Ausgaben namhafter Zeitschriften verknüpft.
Einbindung von Daten der amtlichen Statistik
Einige der in diesen Lehrtext integrierten Datensätze stammen aus der amtlichen Statistik, z. B. von Eurostat, dem Europäischen Amt für Statistik in Luxemburg, an dem der Autor vier Jahre als nationaler Sachverständiger tätig war. Die Daten illustrieren die Bedeutung statistischer Informationen für die Planung und das Monitoring nationaler und supranationaler Politiken. Dabei werden auch neuere Entwicklungen thematisiert und kritisch gewürdigt, etwa die zunehmende Verwendung zusammengesetzter Indexzahlen bei internationalen Organisationen.
Bedeutung der Icons am Marginalienrand
Innerhalb des Buches findet man am Marginalienrand Icons, die auf statistische Experimente oder tongestützte Animationen (Icon Lautsprecher ) sowie auf besondere Web-Links hinweisen. Anklicken dieser Icons, die mit einem 3D-Effekt gestaltet wurden, führt bei der pdf-Version des Manuskripts direkt zu den genannten Elementen. Die Steuerung der statistischen Experimente erfolgt über die Schaltfläche „View“ in Verbindung mit Menüfenstern.
Icons mit Verlinkung: Statistisches Experiment, Animation mit Ton, Web-Link
Daneben findet man am Marginalienrand noch Icons, die nur der Orientierung dienen und nicht mit Links verknüpft sind. Diese Icons sind zur besseren Unterscheidung ohne 3D-Effekt ausgeführt, wirken also flacher. Zu nennen sind hier Icons, die auf Aufgaben und die zugehörigen Lösungen verweisen. In den beiden Literaturverzeichnissen im Anhang und auch an einigen Stellen innerhalb des Lehrtextes wird noch ein Icon Literatur zur Orientierungsunterstützung verwendet. 2
Nähere Informationen zum didaktischen Konzept dieser Software und zum gegenwärtigen Entwicklungsstand sind unter www.fernuni-hagen.de/e-statistik zu finden.
Vorwort
vii
Weitere Icons: Aufgabe, Lösung, Literatur
In das Manuskript sind zahlreiche Beispiele integriert, die deutlich vom normalen Text abgesetzt sind. Dies gilt auch für die an einigen Stellen eingestreuten Exkurse, die sich an Leser mit Interesse an detaillierteren zusätzlichen Informationen richten. Exkurse können übersprungen werden, ohne dass der rote Faden verloren geht. Bei der pdf-Fassung dieses Buchs ist es möglich, allen Verweisen auf nummerierte Gleichungen, Abbildungen, Tabellen und Aufgaben direkt per Mausklick nachzugehen. Bei der pdfFassung lassen sich auch die zahlreichen in den Text eingestreuten Web-Adressen, über grüne Rahmen sichtbar gemacht, unmittelbar ansteuern. Dieses Buch ist in drei Teile gegliedert. Der erste Teil thematisiert die beschreibende Statistik, während sich der zweite Teil den Grundlagen der Wahrscheinlichkeitsrechnung und der schließenden Statistik widmet. Daneben gibt es noch diverse Verzeichnisse und Tabellen, die den dritten Teil des Manuskripts konstituieren (Anhänge).
Struktur des Manuskripts
Dank für die Programmierung der statistischen Experimente, auf die vielfach Bezug genommen wird, gebührt vor allem Herrn Dr. U. Marty, Arbeitsbereich „Interaktive Medien“ am Lehrgebiet „Praktische Informatik I“ der FernUniversität Hagen (Prof. Dr. G. Schlageter / Dr. E. Heuel ) sowie auch Frau B. Schweiger, Castrop-Rauxel, und Herrn M. Günster, Dortmund. Herr H. Kusenberg, Schwerte, hat verschiedene Grafiken mit Photoshop bearbeitet und einige Flash-Animationen erstellt. Herrn A. Hölzle, München, gilt Dank für seine sehr engagierte und kompetente Mitwirkung bei der Gestaltung der LATEX-Umgebung für dieses Manuskript. Ohne ihn und ohne die zusätzliche Unterstützung durch Herrn Th. Feuerstack, LATEX-Experte am Zentrum für Medien und IT der FernUniversität, hätte dieses Manuskript kaum die jetzige Form bekommen. Ein Beispiel zu bivariaten Häufigkeitsverteilungen stammt von Herrn Heinz Böer, Appelhülsen. Herr Prof. Dr. K.-H. Renner und Herr T. Heydasch, Lehrgebiet „Statistische Methodenlehre, Diagnostik und Evaluation“ sowie Herr Dr. H.-G. Sonnenberg und Frau M. Zenza-Dobbert, Arbeitsbereich „Statistik und quantitative Methoden“ der Fakultät für Kultur- und Sozialwissenschaften an der FernUniversität, haben wertvolle Korrekturhinweise geliefert. Letzteres gilt auch für Frau E. Gaus-Faltings, Braunschweig, Herrn J. Rothenstein, Wuppertal, und Herrn Dr. B. Tewes, Katholische Universität Eichstätt.
Danksagungen
Dank gebührt ferner den Firmen und Institutionen, die kostenfrei Bildmaterial zur Verfügung gestellt haben. Die Namen dieser Unternehmen und Einrichtungen sind an der Stelle vermerkt, an der das überlassene Material eingebunden ist. Es sind zu nennen: Fa. Böhme und Weihs Systemtechnik GmbH, Sprockhövel (Herr Dr. N. Böhme) Center für Digitale Systeme, Berlin (Herr Prof. Dr. N. Apostolopoulos, Herr A. Schulz ) Fa. Evonik Goldschmidt GmbH, Essen (Herr Dr. W. Wolfes) Forschungsgruppe Wahlen, Mannheim (Herr B. Weber ) Fa. Q-DAS GmbH, Weinheim (Herr Dr. E. Dietrich)
viii
Vorwort
GfK Telecontrol AG, Schweiz (Frau Dr. T. Hackenbruch) Hessischer Rundfunk, Frankfurt (Herr C. Bender ) Statistisches Amt von Malta (Herr R. Mizzi) Fa. TNS Infratest, München (Herr M. Kögel). Bei der Vorbereitung dieses Lehrbuches bin ich Frau A. Blanck, Frau U. StrickerKomba und Herrn Dr. N. Thomas vom Springer Verlag für die exzellente Betreuung sehr verpflichtet. Sie haben es als Herausforderung für den Verlag verstanden, ein interaktives e-Buch herauszubringen, also ein auch online verfügbares Lehrbuch, das multimediale Elemente integriert und einen augenfälligen Mehrwert gegenüber der Printversion aufweist. Meiner Frau Susanne danke ich für ihre Unterstützung dieses Projekts und für die Geduld, die sie hierfür über einen langen Zeitraum aufgebracht hat. Ihr ist das vorliegende Buch gewidmet. Hagen, im Januar 2011
Hans-Joachim Mittag
[email protected] Inhaltsverzeichnis
Vorwort
v
I
1
Beschreibende Statistik
Lernziele zu Teil I
2
1 Statistik, Daten und statistische Methoden 1.1 Statistik im privaten Alltag, in Politik und Gesellschaft . . . . . . . . . . 1.2 Aufgaben und Teilbereiche der Statistik . . . . . . . . . . . . . . . . . . . 1.3 Methodenkompetenz als Lernziel . . . . . . . . . . . . . . . . . . . . . .
3 3 5 6
2 Grundbegriffe der Statistik 11 2.1 Statistische Einheit, Merkmal und Grundgesamtheit . . . . . . . . . . . . 11 2.2 Merkmalsklassifikationen und Skalen . . . . . . . . . . . . . . . . . . . . 13 2.3 Operationalisierung von Merkmalen . . . . . . . . . . . . . . . . . . . . . 16 3 Datengewinnung und Auswahlverfahren 19 3.1 Erhebungsarten und Studiendesigns . . . . . . . . . . . . . . . . . . . . . 19 3.2 Stichprobenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3 Träger amtlicher und nicht-amtlicher Statistik . . . . . . . . . . . . . . . 29 4 Univariate Häufigkeitsverteilungen 33 4.1 Absolute und relative Häufigkeiten . . . . . . . . . . . . . . . . . . . . . 33 4.2 Die empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . 45 5 Kenngrößen univariater empirischer Verteilungen 49 5.1 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5.3 Quantile und Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 6 Konzentration von Merkmalswerten 65 6.1 Die Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.2 Konzentrationsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 7 Index- und Verhältniszahlen 73 7.1 Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 7.2 Zusammengesetzte Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . 76
ix
Inhaltsverzeichnis
x
8 Bivariate Häufigkeitsverteilungen 81 8.1 Darstellung empirischer Verteilungen für diskrete Merkmale . . . . . . . 81 8.2 Empirische Unabhängigkeit diskreter Merkmale . . . . . . . . . . . . . . 87 8.3 Darstellung empirischer Verteilungen für stetige Merkmale . . . . . . . . 94 9 Zusammenhangsmaße 97 9.1 Nominalskalierte Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . 97 9.2 Metrische Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 9.3 Ordinalskalierte Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . 109
II Wahrscheinlichkeitsrechnung und schließende Statistik
111
Lernziele zu Teil II
112
10 Zufallsvorgänge und Wahrscheinlichkeiten 113 10.1 Grundbegriffe der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . 113 10.2 Zufallsstichproben und Kombinatorik . . . . . . . . . . . . . . . . . . . . 120 10.3 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 123 11 Diskrete Zufallsvariablen 11.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion 11.2 Kenngrößen diskreter Verteilungen . . . . . . . . . . 11.3 Die Binomialverteilung . . . . . . . . . . . . . . . . . 11.4 Die hypergeometrische Verteilung . . . . . . . . . . . 12 Stetige Zufallsvariablen 12.1 Dichtefunktion und Verteilungsfunktion . . . . . 12.2 Kenngrößen stetiger Verteilungen . . . . . . . . 12.3 Normalverteilung und Standardnormalverteilung 12.4 χ2 -, t- und F -Verteilung . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
129 129 135 137 143
. . . .
149 149 152 154 161
13 Bivariate Verteilungen von Zufallsvariablen 167 13.1 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 167 13.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 171 14 Schätzung von Parametern 175 14.1 Punktschätzung und Eigenschaften von Schätzfunktionen . . . . . . . . . 175 14.2 Schätzung von Erwartungswerten, Varianzen und Anteilswerten . . . . . 178 14.3 Konfidenzintervalle für Erwartungswerte . . . . . . . . . . . . . . . . . . 181 15 Statistische Testverfahren 15.1 Arten statistischer Tests . . . . . . . . . . . . . . . 15.2 Grundbegriffe und Gauß-Test für Erwartungswerte 15.3 t-Test für Erwartungswerte . . . . . . . . . . . . . . 15.4 χ2 -Test für Varianzen . . . . . . . . . . . . . . . . . 15.5 Zweistichproben-Tests für Erwartungswerte . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
185 185 187 198 200 201
Inhaltsverzeichnis
16 Das 16.1 16.2 16.3 16.4 16.5
lineare Regressionsmodell Das einfache lineare Regressionsmodell . . . . KQ-Schätzung im einfachen Regressionsmodell Das Bestimmtheitsmaß . . . . . . . . . . . . . Das multiple lineare Regressionsmodell . . . . KQ-Schätzung im multiplen Regressionsmodell
xi
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
205 206 208 213 215 218
17 Grundzüge der Varianzanalyse 221 17.1 Das Modell der einfaktoriellen Varianzanalyse . . . . . . . . . . . . . . . 223 17.2 Durchführung einer einfaktoriellen Varianzanalyse . . . . . . . . . . . . . 224 17.3 Ausblick auf die zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . 229
III Anhänge
231
Lernziele zu Teil III
232
18 Grundzüge der Matrizenrechnung 18.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18.2 Operationen mit Matrizen und Vektoren . . . . . . . . . . . . . . . . . . 18.3 Charakterisierung von Zufallsvektoren . . . . . . . . . . . . . . . . . . .
233 233 235 240
19 Tabellenanhang 19.1 Verteilungsfunktion der Binomialverteilung . . . . 19.2 Verteilungsfunktion der Standardnormalverteilung 19.3 Quantile der Standardnormalverteilung . . . . . . 19.4 Quantile der χ2 -Verteilung . . . . . . . . . . . . . 19.5 Quantile der t-Verteilung . . . . . . . . . . . . . . 19.6 Quantile der F-Verteilung . . . . . . . . . . . . .
243 243 249 251 252 253 254
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
20 Übungsaufgaben 259 20.1 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 20.2 Wahrscheinlichkeitsrechnung und schließende Statistik . . . . . . . . . . . 267 21 Lösungen zu den Übungsaufgaben 277 21.1 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 21.2 Wahrscheinlichkeitsrechnung und schließende Statistik . . . . . . . . . . . 286 22 Verzeichnisse und Internet-Ressourcen 22.1 Literaturverzeichnis . . . . . . . . . . . . . . . . . . 22.2 Ausgewählte Statistiklehrbücher mit Kommentaren 22.3 Multimedia-Software und Internet-Ressourcen . . . 22.4 Symbolverzeichnis . . . . . . . . . . . . . . . . . . . 22.5 Autorenregister . . . . . . . . . . . . . . . . . . . . 22.6 Sachregister . . . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
301 301 303 305 309 311 312
Teil I Beschreibende Statistik
1
Lernziele zu Teil I
Nach der Bearbeitung des ersten Teils dieses Manuskripts sollten Sie - wissen, warum statistische Methodenkompetenz heutzutage als Schlüsselqualifikation gilt; - zentrale Aufgaben und Anwendungsfelder der Statistik kennen; - mit wichtigen Grundbegriffen der Statistik vertraut sein (z. B. Merkmale und Merkmalstypen); - alternative Ansätze zur Gewinnung von Daten und zur Entnahme von Stichproben kennen; - Datensätze für ein Merkmal unter Verwendung geeigneter Grafiken visualisieren können; - in der Lage sein, Lage- und Streuungsparameter empirischer Verteilungen zu berechnen; - Ansätze zur Messung und Visualisierung von Merkmalskonzentration kennen; - den Einsatzzweck von Indikatoren sowie einige Beispiele für Indikatoren benennen können; - in der Lage sein, Datensätze für zwei Merkmale anhand von Kontingenztafeln oder, bei stetigen Merkmalen, anhand von Streudiagrammen darzustellen; - Maße kennen, mit den sich ein Zusammenhang zwischen zwei Merkmalen quantifizieren lässt.
2
1 Statistik, Daten und statistische Methoden 1.1 Statistik im privaten Alltag, in Politik und Gesellschaft Die Statistik ist eine noch junge Wissenschaft, die alle Lebensbereiche durchdringt. Jeder von uns ist heute im Alltag mit einer Fülle von Daten und Visualisierungen von Daten konfrontiert, die uns über verschiedene Kanäle erreichen. Wenn wir morgens das Radio einschalten oder die Zeitung aufschlagen, erfahren wir etwas über die Entwicklung von Aktienkursen, über Trends auf dem Arbeitsmarkt oder über Ergebnisse der von der OECD getragenen Pisa-Studie, die auf eine vergleichende Bewertung nationaler Bildungssysteme abzielt. Abends können wir im Fernsehen die Ziehung der Lottozahlen verfolgen oder uns über den Stand des aktuellen ZDF-Politbarometers informieren. Im Internet kann man gezielt nach Daten aller Art suchen, etwa nach statistischen Informationen zur Entwicklung der Erwerbstätigkeit in Deutschland oder zu Migrationsströmen in Europa. Die Online-Präsentation von Daten wird immer benutzerfreundlicher. Dies gilt insbesondere für Daten der amtlichen Statistik – man studiere etwa die attraktiven interaktiven Anwendungen, die das Statistische Bundesamt bereitstellt oder den noch wenig bekannten Public Data Explorer von Google. Die Statistik spielt auch für Unternehmen eine immer größere Rolle. Bei industriellen Fertigungsprozessen und im Dienstleistungsbereich werden statistische Verfahren schon in der Designphase eines Produkts oder einer Serviceleistung eingesetzt, um Fehler zu vermeiden und Kundenzufriedenheit zu sichern. Rückrufaktionen und Gewährleistungsprozesse können die Existenz selbst größerer Unternehmen bedrohen. Jedes Unternehmen muss daher eine lückenlose Dokumentation von Prozessdaten und eine Sicherung höchstmöglicher Qualität gewährleisten. Statistische Instrumente sind auch in der Markt- und Werbeforschung nicht mehr wegzudenken. Marktforschungsinstitute ermitteln auf Stichprobenbasis Marktanteile und Marktpotenziale, etwa über computergestützte Telefoninterviews. Die Einschaltquoten für Radio- und Fernsehsender werden permanent statistisch ausgewertet und determinieren dann die Preise von Werbespots. Banken setzen statistische Modelle bei Entscheidungen über die Vergabe von Krediten an Privat- und Firmenkunden und bei der Analyse von Kapitalmarktdaten ein. Große Lebensmittelkonzerne werten täglich die an den Kassen gesammelten Scannerdaten aus, um auffällige Strukturen in den Daten zu identifizieren, etwa die aktuellen „Renner“ und Ladenhüter. Pharmahersteller benötigen statistische Testverfahren, um die bei der Zulassung neuer Medikamente geforderten Wirksamkeits- und Unbedenklichkeitsnachweise zu erbringen. Statistische Testverfahren werden auch eingesetzt, um die Wirksamkeit psychologischer Interventionen zu evaluieren, z. B. den Effekt von psychotherapeutischen Maßnahmen oder Präventionsprogrammen. Die Statistik erfüllt für viele Wissenschaften eine wichtige Servicefunktion. In der Soziologie, der Psychologie oder auch der Medizin ist eine datengestützte Argumentati-
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_1, © Springer-Verlag Berlin Heidelberg 2011
3
Statistik als Wissenschaft und Daten im Alltag
Statistische Verfahren im Wirtschaftsleben
4
Statistik als fachübergreifende Disziplin
1 Statistik, Daten und statistische Methoden
on längst unentbehrlich geworden, d. h. Publikationen in den Fachzeitschriften stützen sich auf Daten und statistische Datenanalyse. Die Versuchsplanung, bei der es um die planmäßige Variation von Einflussfaktoren einschließlich der Effektanalyse geht, ist nur ein Beispiel für den fächerübergreifenden Einsatz statistischer Methoden. Die Versuchsplanung ist z. B. ein wichtiges Feld der experimentellen Psychologie und zugleich auch der Ingenieurwissenschaften - man denke an Experimente in der Sozialpsychologie zur Untersuchung von Motivationsstrukturen bei ehrenamtlich tätigen Personen oder an Belastungstests bei der Erforschung neuer Verbundwerkstoffe für die Automobilproduktion. Statistische Instrumente des Qualitätsmanagements werden in der Bildungspädagogik sowie in der Gesundheitsökonomie bei der Steuerung von Schulentwicklungen und Krankenhausbelegungen herangezogen. Weitere Anwendungsfelder der Statistik sind u. a. die Beschreibung von Zufallsprozessen in der Physik (u. a. Brownsche Bewegung, radioaktiver Zerfall), die Berechnung von Lebensversicherungsprämien in der Versicherungsmathematik, die Verwendung von Zeitreihenmodellen in der Kapitalmarktforschung, die Analyse von Querschnitts- und Paneldaten in den Wirtschaftswissenschaften oder die Modellierung von Wachstumsprozessen in der Biologie.
Abb. 1.1: Qualitätskontrolle bei der Tensideherstellung (Säurezahlbestimmung und Eingabe für die statistische Auswertung); Quelle: Fa. Evonik Goldschmidt AG, Essen Statistik als Instrument des Politikmonitorings
Die Statistik spielt auch bei der Politikplanung und bei der Erfolgsbewertung von Politik eine gewichtige Rolle. Harmonisierte, d. h. über Ländergrenzen vergleichbare Daten, die Eurostat, das Statistische Amt Europas in Luxemburg, zusammenstellt und frei zugänglich macht, werden z. B. für nationale und europäische Politiken genutzt. So sind verlässliche Bevölkerungszahlen die Basis für Entscheidungen in der Gesundheits- und Bildungspolitik und werden auch ab 2014 für Abstimmungen des EU-Ministerrats nach dem am 1. Dezember 2009 endlich in Kraft getretenen Grundlagenvertrag von Lissabon benötigt (Erfordernis der „doppelten Mehrheit“ mit 55 Prozent der Staaten, die 65 Prozent der EU-Bevölkerung repräsentieren müssen). Auch der deutsche Beitrag zu dem im Frühjahr 2010 beschlossenen Euro-Schutzschirm hängt von Bevölkerungsdaten ab. Statistische Informationen zu Alterstrukturen und Lebenserwartungen werden zur Fort-
1.2 Aufgaben und Teilbereiche der Statistik
5
schreibung sozialer Sicherungssysteme benötigt. Das Bruttoinlandsprodukt pro Kopf, ein inzwischen kritisch diskutierter Indikator für den Wohlstand einer Nation, wird zur Verteilung von Mitteln aus dem europäischen Strukturfonds herangezogen. Die Vereinten Nationen wollen extreme Armut bekämpfen und haben sich hier für den Zeitraum von 2000 bis 2015 acht klar definierte Ziele gesetzt, deren Erreichungsgrad anhand von acht Indikatoren verfolgt wird, den UN Millennium Development Goals. 1 Aggregate aus verschiedenen Indikatoren, sog. zusammengesetzte Indikatoren, werden vermehrt von internationalen Organisationen zur Beschreibung komplexer Entwicklungen eingesetzt, etwa zur Messung von Wohlfahrt oder von Innovation.
1.2 Aufgaben und Teilbereiche der Statistik Die Statistik ist also eine Disziplin mit vielfältigen Aufgaben und Anwendungsbereichen. Das Spektrum der Aufgaben reicht von der Planung der Erhebung von Daten über die Beschreibung und Visualisierung der erhobenen Befunde über die Identifikation von Auffälligkeiten in den Daten bis zur Ableitung von Schlüssen, die über die vorliegenden Daten deutlich hinausgehen. Die Statistik ist demnach eine Wissenschaft, die Methoden zur Gewinnung von Daten und zum Lernen aus Daten bereitstellt.
Aufgaben der Statistik
Umgangssprachlich wird Statistik oft ganz anders verstanden, nämlich als eine besonders spröde und schwer zugängliche Disziplin, die sich der Sammlung und Auswertung von Zahlenfriedhöfen verschrieben hat. Dieses Fehlverständnis, vermutlich induziert von trockenen Tabellensammlungen aus der Anfangszeit der amtlichen Statistik, reduziert die Statistik auf Tätigkeitsfelder, die für die heutige Statistik keinesfalls repräsentativ sind. Statistik ist eine faszinierende Wissenschaft mit vielfältigen Bezügen zur Praxis und interdisziplinärem Charakter.
Öffentliche Wahrnehmung des Fachs
Für Statistiker ist der Begriff „Statistik“ nicht eindeutig belegt. Sie verstehen hierunter einerseits ihre Wissenschaft als Ganzes. Sie verwenden den Begriff aber auch für Kenngrößen, die sich aus statistischen Daten ableiten (z. B. den Mittelwert), sowie für Funktionen von Zufallsvariablen, die zur Schätzung dieser Kenngrößen herangezogen werden. Im allgemeinen Sprachgebrauch wird auch häufig ein Datensatz als eine Statistik angesprochen, etwa ein Datensatz mit der Medaillenverteilung bei den Olympischen Sommerspielen oder Daten zu Bruttoverdiensten in der Europäischen Union. In diesem Manuskript wird „Statistik“ überwiegend im Sinne von „Wissenschaft“ verwendet.
Mehrdeutigkeit des Begriffs „Statistik“
Innerhalb der Statistik lassen sich zwei Bereiche unterscheiden, nämlich die beschreibende und die schließende Statistik. Die beschreibende Statistik oder deskriptive Statistik, die im ersten Teil dieses Kurses thematisiert wird, umfasst numerische und grafische Verfahren zur Charakterisierung und Präsentation von Daten. Ziel ist die Re-
Teilbereiche der Statistik:
1
Im September 2010 wurde auf einem UN-Millenniumsgipfel eine Zwischenbilanz gezogen, die gemischt ausfiel. Bei einigen der Millenniumsziele, z. B. der angestrebten Reduzierung der Mortalitätsrate bei Kindern unter 5 Jahren auf ein Drittel des Stands von 2000, wurden ermutigende Erfolge erzielt, vor allem durch Verbesserung des Impfschutzes. Bei anderen Zielen, etwa der geplanten Halbierung der unter extremer Armut lebenden Menschen – gemeint sind solche, die über weniger als einen US-Dollar / Tag verfügen – fällt das Zwischenergebnis hingegen ernüchternd aus, wobei hier auch die Handels- und Agrarpolitik der Industrieländer zur Erklärung dieses Befunds beitragen kann.
6
1 Statistik, Daten und statistische Methoden
duktion der in den enthaltenen statistischen Informationen durch Aggregation auf wenige Kenngrößen, möglichst ohne größeren Verlust an relevanter Information. Das Europäische Amt für Statistik führt z. B. statistische Informationen zu Arbeitskosten oder Bruttoverdiensten für Millionen von Arbeitnehmern zusammen, die nur in aggregierter Form für Zwecke der Politikplanung brauchbar sind. Techniken der Datenerhebung werden meist der beschreibenden Statistik zugerechnet.2 Die beschreibende Statistik ist jedenfalls derjenige Teilbereich der Statistik, der am meisten verwendet wird. Jede empirisch arbeitende Wissenschaft argumentiert mit Daten und bedient sich daher zwangsläufig der Instrumente der beschreibenden Statistik. Typisch für die beschreibende Statistik ist, dass sie keine Modelle benötigt. Letztere sind das Ergebnis von Versuchen, reale Beobachtungen auf Gesetzmäßigkeiten zurückzuführen und diese zu formalisieren.
- Beschreibende Statistik und explorative Datenanalyse
- Schließende Statistik
Aus der beschreibenden Statistik ging mit den Fortschritten in der Informationstechnologie die explorative Datenanalyse hervor. Diese geht ein Stück über die beschreibende Statistik hinaus, weil hier - noch ohne Einsatz von Modellen - mit rechenintensiven Verfahren nach auffälligen Mustern und Strukturen in Datenbeständen gesucht wird. So werden etwa die Scannerdaten eines Lebensmittelkonzerns von einem Verkaufstag heute routinemäßig nach Auffälligkeiten durchleuchtet, ohne dass schon unbedingt sofort eine Hypothese im Spiel ist. Man spricht hier von Data Mining. Die explorative Datenanalyse wird i. a. ebenfalls der beschreibenden Statistik zugeordnet. Die schließende Statistik oder induktive Statistik zieht Schlussfolgerungen aus Daten. Letztere werden als Ausprägungen von Zufallsvariablen interpretiert und durch Wahrscheinlichkeitsmodelle beschrieben. Typische Aufgaben der schließenden Statistik sind das Schätzen von Modellparametern und das Testen von Hypothesen. Die Folgerungen, die aus den Daten abgeleitet werden, sind mit Unsicherheiten verknüpft (Schätzfehler beim Schätzen, Fehlentscheidungen beim Testen). Die Wahrscheinlichkeitsrechnung ist daher mit der schließenden Statistik eng verknüpft. Beide Themenbereiche sind Gegenstand des zweiten Teils des vorliegenden Lehrtextes.
1.3 Methodenkompetenz als Lernziel
Schlüsselqualifikationen und der Bologna-Prozess
Seit den 90er Jahren, in den letzten Jahren auch verstärkt im Kontext der Pisa-Studien, wird über Schlüsselqualifikationen und Kompetenzen diskutiert, die Menschen dazu befähigen, den sich wandelnden Anforderungen des Berufs und, allgemeiner, gesellschaftlichen Lebens gerecht zu werden. Schlüsselqualifikationen beziehen sich auf Fähigkeiten zur sachadäquaten Anwendung von Wissen und auf Strategien zur Erschließung neuen Wissens, gehen also über die bloße Aneignung von Wissensinhalten hinaus. Es gibt unterschiedliche Arten von Schlüsselqualifikationen, etwa soziale Kompetenz (umfasst Kom2
In Anwendungsfeldern der Statistik, in denen die Datenerhebung im Rahmen umfassender Forschungsprozesse zu planen ist - wie etwa bei der Datengewinnung über sorgfältig konzipierte Fragebögen in den Sozialwissenschaften oder über Experimente mit Versuchspersonen in der Psychologie - hat sie einen höheren Stellenwert und wird dort oft als eigenständiger Bereich angesehen.
1.3 Methodenkompetenz als Lernziel
7
munikationsfähigkeit im zwischenmenschlichen Bereich), Medienkompetenz (Fähigkeit zur effizienten Nutzung der kaum noch überschaubaren Informationsfülle) und Methodenkompetenz (Fähigkeit zur sachäquadaten Nutzung unterschiedlicher Werkzeuge, Arbeitstechniken und Theorien zur Lösung von Problemen). Mit dem Bologna-Prozess, der im Sommer 1999 mit einer gemeinsamen Erklärung der Europäischen Bildungsminister zur Schaffung eines europäischen Hochschulraums in Gang kam, wurde die Beschäftigungsfähigkeit (engl: employability) als neue Schlüsselqualifikation betont. Sie soll Hochschulabsolventen europaweit dazu befähigen, eine Beschäftigung auf dynamischen Arbeitsmärkten zu finden und das eigene Qualifikationsprofil fortlaufend den veränderten Gegebenheiten durch lebenslange Weiterbildung anzupassen. In unserer heutigen Wissens- und Informationsgesellschaft werden überall Entscheidungen wesentlich durch Daten gestützt und empirisch abgesichert. Datengestützte Entscheidungsfindung, meist unter dem Etikett Evidence Based Decision Making firmierend, ist z. B. in der Medizin allgegenwärtig. Bei kommunalen Planungen werden Investitionsentscheidungen durch Daten abgesichert, etwa bei der Planung von Schulen und Kränkenhäusern. In der Markt- und Meinungsforschung werden massenhaft Daten im Auftrag von Unternehmen erhoben und von diesen als Basis für Entscheidungen über Sortimentsveränderungen und Produktinnovationen genutzt. Bei der Europäischen Kommission werden die Entscheidungen zur Förderung von EU-Strukturfondsmitteln für strukturschwache Regionen von der Datenlage bestimmt, d. h. statistische Informationen beeinflussen direkt die Politikplanung.
Methodenkompetenz als Basis für datengestützte Entscheidungsfindung
Allen genannten Beispielen ist gemeinsam, dass hier Wissen über statistische Methoden benötigt wird, um Daten zu gewinnen, auszuwerten und aus den Ergebnissen statistischer Analysen sachadäquate Schlüsse zu ziehen. Benötigt wird aber auch die Fähigkeit zur klaren und nachvollziehbaren Ergebniskommunikation. Der vorliegende Kurs soll diese als statistische Methodenkompetenz (engl: statistical literacy) bezeichnete Qualifikation vermitteln. Da statistische Methodenkompetenz in immer mehr Berufsfeldern an Bedeutung gewinnt, hat sie einen positiven Einfluss auf die Schlüsselqualifikation “Beschäftigungsfähigkeit“. Der Stellenwert, den das Thema „Statistical Literacy“ inzwischen weltweit erlangt hat, spiegelt sich auch an Veränderungen der Lehrpläne von Schulen wider. Im Mathematikunterricht der Mittel- und Oberstufe weiterführender Schulen haben statistische Inhalte längst Eingang in Lehrbücher, Lehrpläne und Abiturprüfungen gefunden. Einige Statistische Ämter in der EU-27, etwa die Statistischen Ämter von Finnland, Portugal und Malta, haben E-Learning-Angebote konzipiert und implementiert, die statistische Basiskonzepte für den Laien erklären und anhand amtlicher Daten illustrieren. Statistics Canada, das Statistische Amt Kanadas, ist hier ein Vorreiter.3 Erwähnenswert sind auch aktuelle große Projekte auf nationaler und internationaler Ebene, die zur Verbesserung statistischer Methodenkompetenz beitragen. Das Internationale Statistische Institut (ISI), eine nicht-kommerzielle Organisation zur 3
Statistics Canada bietet interessante Materialien auch für Studierende und Dozenten im Hochschulbereich an – s. unter http://www.statcan.ca/english/edu/index.htm.
Internationale Projekte zur Förderung von Methodenkompetenz
8
1 Statistik, Daten und statistische Methoden
Förderung internationaler Zusammenarbeit auf dem Feld der Statistik, hat das International Statistical Literacy Project gestartet, das auf die weltweite Vermittlung statistischer Grundkompetenzen bei Schülern abzielt. In den USA hat sich das Consortium for the Advancement of Undergraduate Statistics Education (CAUSE) etabliert, das unter Nutzung unterschiedlicher Quellen virtuelle Bibliotheken mit frei zugänglichen Lehrmaterialien für die statistische Grundausbildung bereitstellt. Gleiches gilt für die ebenfalls als Open-Source-Sammlung angelegte Statistics Online Computational Resource (SOCR) der University of California in Los Angeles, die auch anspruchsvollere statistische Experimente und Simulationen umfasst.4
Passive und aktive Methodenkompetenz als Kursziele
Mit den vorstehend genannten Projekten und Aktivitäten hat dieser Kurs eines gemeinsam – auch er zielt auf die Entwicklung statistischer Methodenkompetenz ab, allerdings, anders als die schulbezogenen Projekte, auf der Ebene einer universitären Grundausbildung. Es werden zwei übergeordnete Ziele angestrebt. Auf der ersten Stufe soll eine umfassende Kenntnis alternativer Möglichkeiten der Auswertung und Präsentation statistischer Information und die Fähigkeit zu einer sachadäquaten Ergebnisinterpretion erreicht werden. Man spricht in diesem Kontext von einer passiven Methodenkompetenz. Diese immunisiert z. B. vor manipulativem Umgang mit Daten in den Medien. Weitergehend ist das auf der nächsten Stufe angestrebte Ziel der Vermittlung aktiver Methodenkompetenz. Letztere ist eine Handlungskompetenz, die sich auf die Fähigkeit bezieht, im beruflichen Alltag Entscheidungen empirisch zu fundieren und nachvollziehbar zu kommunizieren. Beispiel 1.1 Fehlalarmhäufigkeiten bei der Krebsfrüherkennung Der Spiegel online berichtete am 20. April 2009 sehr kritisch über den Nutzen von Untersuchungen zur Früherkennung von Brust- oder Prostatakrebs sowie die mangelhafte Kommunikation von Fehlalarmhäufigkeiten bei solchen Untersuchungen. Ähnliche Artikel fanden sich in der Wochenzeitschrift Die Zeit vom 25. Februar 2010 und am 14. September 2010 in der Süddeutschen Zeitung. Alle drei Beiträge illustrieren die Bedeutung statistischer Methodenkompetenz für jeden mündigen Bürger auch im ganz privaten Bereich. In den Artikeln wird u. a. bemängelt, dass nicht nur Patienten, sondern auch Mediziner oft völlig falsche Vorstellungen von der Treffsicherheit medizinischer Testverfahren haben und häufiger als meist angenommen mit falsch-positiven Befunden konfrontiert werden. Oft werde zudem mit relativen Risiken argumentiert, ohne dass die Bezugsbasis deutlich wird. Wenn sich z. B. die Mortalitätsrate bei einer bestimmten Erkrankung aufgrund von diagnostischen Maßnahmen oder neuen Medikamenten um 10 % vermindert, kann dies sowohl bedeuten, dass von 10.000 Personen im Mittel statt 10 Personen nur noch 9 der Erkrankung erliegen oder auch, dass sich die absolute Sterbeziffer von 3.000 auf 2.700 oder von 1.000 auf 900 verringert. „Die Zeit“ weist im o. g. Beitrag auch auf Schwächen des Mammografie-Screenings hin, die auf mangelnder Koordination zwischen den Bundesländern beruhen (regional unterschiedliche Dokumentation und Aus4
Die CAUSE-Bibliotheken sind unter http://www.causeweb.org/resources/ und die SOCR-Materialien unter http://www.socr.ucla.edu/ frei zugänglich.
1.3 Methodenkompetenz als Lernziel
9
wertung) oder auf Unterschiede bei den Qualitätstandards in spezialisierten Zentren und außerhalb solcher Referenzzentren zurückzuführen sind (qualitätsgesichertes vs. „graues“ Screening). Dass meist nur der potenzielle Nutzen und weniger die möglichen Risiken von Massenscreening-Aktionen breitenwirksam kommuniziert werden, ist schon deswegen bemerkenswert, weil hier erhebliche finanzielle Ressourcen des Gesundheitsbereichs einfließen. Selbst Mediziner sind oft nicht in der Lage, betroffene Patienten sachadäquat über Screening-Risiken oder über Risiken von Medikamenten zu informieren. Letzteres erklärt sich z. T. auch daraus, dass Ärzte ihre Information mangels anderer Alternativen oft aus nicht-neutralen Quellen beziehen. Gigerenzer (2004, S. 65) präsentiert ein Beispiel, an dem sich die Probleme beim Verständnis und bei der Kommunikation medizinischer Risiken eindrucksvoll verdeutlichen lassen. Bei dem Beispiel wird vorausgesetzt, dass in einer größeren Grundgesamtheit von N Frauen einer definierten Altersklasse 0, 8% der zur Population gehörenden Frauen Brustkrebs haben. Es wird ferner angenommen, möglicherweise aufgrund gut abgesicherter Studien, dass der Krebs in 90% der Fälle bei einer Mammographie entdeckt wird. Allerdings weiß man auch, dass in der Teilpopulation ohne Erkrankung bei der Vorsorgeuntersuchung im Mittel in 7% aller Fälle ein Fehlalarm erfolgt. Es wird nun eine Frau zufällig aus der Gesamtpopulation ausgewählt, die zu einem Screening geht und einen positiven Befund erhält. Wie groß ist die Wahrscheinlichkeit, dass sie trotzdem gesund ist, also ein falsch-positiver Befund vorliegt? 5 An dieser Stelle ist nur Ihre intuitive Einschätzung gefragt. Würden Sie die Wahrscheinlichkeit eines falsch-positiven Befunds mit ca. 1%, 10%, 30%, 50%, 70%, 90% oder gar mit 99% beziffern? 6
5
Unter „Wahrscheinlichkeit“ ist hier der Anteil der falsch-positiven Befunde (Fehlalarme) an der Gesamtzahl aller positiven Befunde zu verstehen. 6 Die Fragestellung wird in Kapitel 10 abschließend behandelt (s. dort die Aufgaben 10.6 und 10.7 – die Lösung zu Aufgabe 10.7 umfasst auch eine interaktive Visualisierung).
2 Grundbegriffe der Statistik 2.1 Statistische Einheit, Merkmal und Grundgesamtheit Wie jede Wissenschaft hat auch die Statistik ihre eigene Terminologie. Klare Begriffsbildungen sind notwendig, um den Rahmen, das Ziel und die Ergebnisse einer statistischen Untersuchung unmissverständlich zu beschreiben. Ausgangspunkt einer Untersuchung ist ein aus der Praxis oder der Forschung kommendes Problem. Die Problemlösung bedingt eine Konkretisierung des geplanten Untersuchungsablaufs. Erst nach sorgfältiger Planung kann die Erhebung, Aufbereitung und Auswertung von Daten erfolgen. In der Planungsphase gilt es z. B. festzulegen, welche Objekte Gegenstand einer Untersuchung sein sollen und welche Eigenschaften der Objekte von Interesse sind. Beispiel 2.1 Statistische Untersuchungen Die Interdisziplinarität des Fachs „Statistik“ spiegelt sich auch in der Breite der Fragestellungen aktueller wissenschaftlicher Untersuchungen wider. Hier nur eine kleine Auswahl: - In der Wirtschafts- und Sozialpolitik will man in einem Feldversuch neue Instrumente zur Bekämpfung von Jugenderwerbslosigkeit einsetzen und deren Effekt messen. Hier muss u. a. geklärt sein, welche Altersgruppe gemeint ist und ob ein geringfügig Beschäftigter (Stichwort „Ein-Euro-Jobber“) als erwerbslos gilt. - In der Sozialpsychologie wird untersucht, welche Determinanten die Bereitschaft zu helfen beeinflussen (etwa Bereitschaft zu ehrenamtlichem Engagement). Es ist u. a. festzulegen, welche Personengruppen man in die Untersuchung einbezieht, was an diesen Personen beobachtet wird, welche Untergruppen miteinander verglichen werden sollen und wie man diese gegeneinander abgrenzt. - In der Fernsehforschung will man die Sehbeteiligung in Abhängigkeit von Alter und Tageszeit messen und auch das Ausbildungsniveau erwachsener Zuschauer berücksichtigen. Hier muss z. B. geklärt werden, welche Haushalte einbezogen werden, wie man den Ausbildungsstand erwachsener Haushaltsmitglieder misst und wie man vom Fernsehverhalten innerhalb eines Mehrpersonenhaushalts auf das Sehverhalten einzelner Haushaltsmitglieder schließen kann. Oft können interessierende Fragestellungen bereits durch Auswertung vorhandenen Datenmaterials beantwortet werden. Will man z. B. die Altersstruktur der Psychologen in Deutschland, deren Einsatzfelder und Träger der Beschäftigung (z. B. in eigener Praxis, in medizinischen Einrichtungen oder bei einer Behörde) sowie die geografische Verteilung untersuchen, so könnte man einfach die Mitgliederdateien von Berufsverbänden heranziehen, sofern diese frei zugänglich sind. Dennoch wären auch hier in der
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_2, © Springer-Verlag Berlin Heidelberg 2011
11
Wozu braucht man eine statistische Terminologie?
12
2 Grundbegriffe der Statistik
Planungsphase der Untersuchung noch Festlegungen zu treffen. So müsste z. B. entschieden werden, wie weit die Differenzierung bei den einzelnen Kategorien gehen sollte, z. B. bei der Untersuchung der räumlichen Verteilung nur Herunterbrechen auf Bundesländer oder auch tiefer.
Grundbegriffe
In der Statistik nennt man die Objekte, auf die sich eine statistische Untersuchung bezieht, statistische Einheiten oder Merkmalsträger. Daten werden also an statistischen Einheiten bzw. Merkmalsträgern erhoben. Die Menge aller für eine Fragestellung interessierenden statistischen Einheiten bildet eine Grundgesamtheit, die auch Population genannt wird. Wichtig ist, dass eine Grundgesamtheit klar abgegrenzt ist. Oft werden Teilmengen von Grundgesamtheiten (Teilpopulationen) betrachtet, etwa männliche und weibliche Jugendliche getrennt bei Untersuchungen zu delinquentem Verhalten bei Jugendlichen oder für PKWs verschiedene Hubraumvolumenklassen bei Untersuchungen zu Schadstoffemissionen im Straßenverkehr. Die Eigenschaften statistischer Einheiten werden Merkmale oder auch Variablen genannt. Die möglichen Werte, die ein Merkmal annehmen kann, heißen Merkmalsausprägungen. Merkmale werden in der Statistik üblicherweise mit Großbuchstaben gekennzeichnet, Merkmalsausprägungen mit Kleinbuchstaben.
Menge von Objekten ...
...
Einzelobjekt X
a1
a2
Grundgesamtheit
Y a3
...
Z
...
Merkmalsträger
Merkmale
Merkmalsausprägungen
Abb. 2.1: Begriffshierarchien für statistische Grundbegriffe
Wenn man aus einer Grundgesamtheit nach einem bestimmten Auswahlverfahren eine Teilmenge auswählt, spricht man von einer Stichprobe. Die Werte, die man für ein Merkmal in einer Grundgesamtheit oder einer Teilmenge einer Population beobachtet, nennt man Urwerte, Primärdaten oder Rohdaten. Wenn man alle Urwerte in einer Liste zusammenfasst, entsteht eine Urliste. In einer Urliste können Merkmalswerte auch mehrfach auftreten.
2.2 Merkmalsklassifikationen und Skalen
13
Beispiel 2.2 Statistische Grundbegriffe Eine Grundgesamtheit ist z. B. definiert durch - alle Personen, die am 1. Oktober 2008 in München ihren Erstwohnsitz angemeldet hatten; - Studierende einer Hochschule, über die man anhand einer computergestützten Telefonbefragung Informationen gewinnen will; - die von einem stahlverarbeitenden Unternehmen im Oktober 2008 produzierten Serienteile eines bestimmten Typs. Bei den genannten Beispielen werden die statistischen Einheiten repräsentiert durch - jede Person mit Erstwohnsitz in München am 1. Oktober 2008; - alle Studierenden der betreffenden Hochschule; - die im Oktober 2008 gefertigten Serienteile. Interessierende Merkmale und Merkmalsausprägungen können hier z. B. sein - der Familienstand der Person, etwa mit der Ausprägung „verheiratet“; - das Alter der Studierenden, das oft nur in Form einer Alterskategorie erfasst wird, etwa „unter 25 Jahre“; - der Durchmesser oder die Länge des Serienteils in mm, etwa mit der Ausprägung 112 mm. Die genannten Merkmalsausprägungen „verheiratet“ oder „unter 25 Jahre“ werden bei der hier betrachteten Grundgesamtheit von Personen zweifellos mehrfach auftreten. Die Urliste, in der etwa die Werte für das Merkmal „Familienstand“ zusammengefasst werden, enthält viele Elemente, aber nur wenige unterschiedliche Ausprägungen. Ob sich auch bei einer Urliste für ein Längenmaß Wiederholungen ergeben, hängt entscheidend davon ab, mit welcher Präzision gemessen wird. Misst man z. B. nicht mit einer Schieblehre in Millimetern, sondern unter Verwendung eines optoelektronischen Messinstruments in Mikrometern, wird man seltener gleiche Messwerte erhalten.
2.2 Merkmalsklassifikationen und Skalen Merkmale lassen sich nach verschiedenen Kriterien in Typen einteilen. Ein besonders einfaches Einteilungskriterium ist die Anzahl der möglichen Ausprägungen. Man unterscheidet hier zwischen diskreten und stetigen Merkmalen.
Aufgabe 2.1
14
Einteilung von Merkmalen nach der Anzahl der Ausprägungen
2 Grundbegriffe der Statistik
Ein diskretes Merkmal ist ein Merkmal, das nur endlich viele Ausprägungen oder aber höchstens abzählbar viele Ausprägungen annehmen kann.1 Zählvariablen sind stets diskret. Ein stetiges Merkmal ist hingegen dadurch gekennzeichnet, dass die Ausprägungen ein Intervall bilden. Für je zwei Merkmalsausprägungen eines stetigen Merkmals gilt, dass auch alle Zwischenwerte angenommen werden können. Ob ein Merkmal diskret oder stetig ist, hängt nicht davon ab, wie das Merkmal in der Praxis tatsächlich angegeben wird. Die Körpergröße ist z. B. stetig, obwohl man sie in der Praxis kaum genauer als auf volle Zentimeter gerundet ausweist. Ähnliches gilt für die Größe einer Wohnung, die meist in vollen Quadratmetern angegeben wird.2 Generell kann man jedes stetige Merkmal durch Rundung oder Gruppierung in diskrete Variablen überführen, wobei damit immer ein Informationsverlust einhergeht. So wird man das Bruttojahreseinkommen von Arbeitnehmern eines größeren Landes der Eurozone anhand von Einkommensklassen erfassen, also auf die Angabe der exakten Merkmalswerte (Rohdaten oder Urwerte) in Euro und Cent verzichten. Die Klassenmitten werden dann bei der Datenanalyse als Repräsentanten für die jeweilige Klasse verwendet. Mit der Bildung von Klassen erreicht man vor allem bei größeren Datensätzen für stetige Merkmale mehr Übersichtlichkeit, kann dann aber innerhalb der Klassen nicht mehr differenzieren. Beispiel 2.3 Diskrete und stetige Merkmale Diskret sind z. B. die Anzahl der Fachsemester von Studierenden, Güteklassen bei Lebensmitteln oder Hotels, das Alter sowie der Familienstand einer Person oder die Anzahl der zu einem Haushalt gehörenden Personen. Stetig sind Zeitangaben, Längen, Gewichte oder das Körpergewicht einer Person. Monetäre Größen, etwa Bruttoeinkommen oder Mietpreise in Euro und Cent, sind ebenfalls stetige Merkmale. Auch hypothetische Konstrukte bzw. deren Operationalisierungen, in der Psychologie etwa das Merkmal „Intelligenzquotient einer Person“, werden häufig als stetige Variablen interpretiert. Eine zweite Merkmalsklassifikation basiert auf der Art der verwendeten Messskala. Man unterscheidet drei Skalenniveaus, nämlich Nominalskalen, Ordinalskalen und metrische Skalen.
Einteilung von Merkmalen nach der Skalierung
Eine Nominalskala ist eine Messskala, bei der die Ausprägungen eines Merkmals lediglich Namen oder Kategorien darstellen, etwa Branchenzugehörigkeit von Arbeitnehmern oder das Studienfach von Studierenden. Nominalskalierte Daten sind Daten, 1
Der Fall „abzählbar unendlich“ ist für die Praxis kaum relevant und wird hier nur der Vollständigkeit halber erwähnt. Eine Menge heißt abzählbar unendlich, wenn sich ihre Elemente umkehrbar eindeutig auf die Menge der natürlichen Zahlen abbilden lassen. Die Elemente einer abzählbar unendlichen Menge lassen sich also fortlaufend nummerieren. Beispiele für solche Mengen sind etwa die Menge der Primzahlen oder die der geraden ganzen Zahlen. 2 Solche Merkmale werden gelegentlich auch als quasi-stetig bezeichnet. Diese Bezeichnung wird aber im vorliegenden Manuskript nicht weiter verwendet.
2.2 Merkmalsklassifikationen und Skalen
15
die anhand einer Nominalskala erfasst werden. Typisch für sie ist, dass es keine natürliche Rangordnung gibt. Auch die Bildung von Differenzen oder Quotienten ist bei nominalskalierten Daten nicht sinnvoll. Bei einer Ordinalskala oder Rangskala gibt es hingegen eine natürliche Rangordnung, aber die Differenzen- und Quotientenbildung ist ebenfalls nicht sinnvoll erklärt. Beispiele für ordinalskalierte Daten sind Bonitätsbewertungen von Sparkassenkunden auf einer Ratingskala oder Schulnoten. Es gibt hier zwar eine Rangordnung zwischen den Stufen, Abstände zwischen zwei Stufen sind aber nicht direkt vergleichbar. Eine metrische Skala oder Kardinalskala ist dadurch gekennzeichnet, dass hier auch Abstände (Differenzen) zwischen den Merkmalsausprägungen sinnvoll interpretierbar sind. Eine metrische Skala heißt Verhältnisskala oder Ratioskala, wenn ein natürlicher Nullpunkt existiert; ansonsten spricht man auch von einer Intervallskala. Temperaturmessungen in ◦ Celsius erfolgen z. B. auf einer Intervallskala. Letzteres impliziert, dass die Bildung von Quotienten aus zwei Merkmalsausprägungen nicht sinnvoll ist. Das Merkmal „Geschwindigkeit“ ist hingegen ein Merkmal mit natürlichem Nullpunkt. Aussagen des Typs „100 km/ h ist doppelt so schnell wie „50 km/h“ sind hier zulässig, d. h. auch die Division ist erklärt. Ein Spezialfall der Verhältnisskala ist die Absolutskala. Bei dieser gibt es nicht nur einen natürlichen Nullpunkt, sondern zusätzlich eine natürliche Einheit. Das Merkmal „Anzahl der Fachsemester“ ist ein solches Merkmal. sinnvolle Operationen Differenzen Quotienten auszählen ordnen bilden bilden
Skala Nominalskala
ja
nein
nein
nein
Ordinalskala
ja
ja
nein
nein
ja
ja
ja
nein
ja
ja
ja
ja
ja
ja
ja
ja
Metrische Skala
IntervallSkala VerhältnisSkala AbsolutSkala
Tab. 2.1: Sinnvoll interpretierbare Operationen bei verschiedenen Skalenarten
Tabelle 2.1 macht deutlich, dass die genannten Skalenniveaus eine Hierarchie darstellen, bei der die Nominalskala das niedrigste Niveau und die Verhältnisskala – bzw. die Absolutskala als Sonderfall der Verhältnisskala – das höchste Niveau repräsentiert. Operationen, die für Daten eines bestimmten Skalenniveaus zulässig sind, sind stets auch auf Daten aller höheren Niveaus anwendbar. Man kann nämlich ein Merkmal, das ordinalskaliert ist, auf einer Nominalskala messen und ein metrisch skaliertes Merkmal stets auch auf einer Ordinalskala oder Nominalskala – allerdings auch hier wieder unter Informationsverlust. Genannt sei als Beispiel wieder das Merkmal „Bruttojahreseinkommen“,
16
2 Grundbegriffe der Statistik
das man in Euro und Cent erfassen kann (metrische Skala) oder aber nur über wenige Einkommensklassen. Wenn bei der Erfassung des Merkmals „Einkommen“ nur die Zugehörigkeit zu Einkommensbereichen abgefragt wird, kann man das Merkmal nur noch als ordinalskaliert behandeln und z. B. Einkommensunterschiede zwischen zwei Personen nicht mehr in Euro und Cent beziffern. Beispiel 2.4 Skalenniveaus für Merkmale Weitere Beispiele für Merkmale mit unterschiedlicher Skalierung: - Nominalskalierte Merkmale sind „Parteipräferenz von Wählern“, „Konfessionszugehörigkeit“, „Geschlecht“. - Ordinal- oder rangskaliert sind „Militärischer Rang“ oder „Höchster erreichter Bildungsabschluss“ . Auch das Merkmal „Temperatur“ kann als rangskaliert behandelt werden, wenn man nur zwischen „kalt, normal, warm, heiß“ unterscheidet. Aufgabe 2.2
- Metrisch sind „Geburtsjahr“ (Intervallskala) und „Lebensalter“ (Verhältnisskala).
Einteilung von Merkmalen nach dem Typ der Ausprägungen
Eine weitere Klassifikation für Merkmale bezieht sich auf den Typ der Merkmalsausprägungen (Kategorie oder Zahl). Wenn die Ausprägungen Kategorien sind, spricht man von einem qualitativen Merkmal. Die Merkmalsausprägungen spiegeln hier eine Qualität wider, keine Intensität oder ein Ausmaß. Ein qualitatives Merkmal kann nominal- oder ordinalskaliert sein – im ersten Falle sind die Kategorien ungeordnet (z. B. beim Merkmal „Konfessionszugehörigkeit“), im zweiten Falle geordnet (z. B. „Güteklasse bei Lebensmitteln“). Auch wenn den Ausprägungen qualitativer Merkmale für die statistische Analyse oft Zahlencodes zugeordnet werden (etwa „2“ für „Familienstand = verheiratet“), sind die Zahlen nur Etiketten, mit denen man nicht im üblichen Sinne rechnen kann. Sind die Ausprägungen eines Merkmals hingegen „echte“ Zahlen, so liegt ein quantitatives Merkmal vor. Metrisch skalierte Merkmale sind stets quantitativ.
2.3 Operationalisierung von Merkmalen Bevor eine Variable anhand einer Messskala gemessen wird, muss ihre Messbarkeit gesichert sein. Dies geschieht durch die als Operationalisierung bezeichnete Festlegung von Messanweisungen. Es leuchtet ein, dass diese bei der Messung von Variablen, die nicht direkt beobachtbar sind und den Charakter hypothetischer Konstrukte haben (latente Variablen) – z. B. Intelligenz, Leistungsmotivation, Aggression oder Patriotismus – nicht trivial ist und es mehr als eine Möglichkeit der Operationalisierung gibt. In jedem Falle geht es darum, ein Messverfahren festzulegen, mit dem sich das in Rede stehende Merkmal quantifizieren lässt. Qualitätsbewertung für Messverfahren
Die Beurteilung der Qualität von Messverfahren erfolgt anhand von drei Kriterien. Es sind dies die Objektivität (intersubjektive Nachvollziehbarkeit), die Reliabilität (Messgenauigkeit) sowie die Validität (Gültigkeit) des Verfahrens. Von letzterer spricht
2.3 Operationalisierung von Merkmalen
17
man, wenn wirklich das gemessen wird, was man messen will. Validität bezieht sich also auf den inhaltlichen Aspekt der Messung, während die Reliabilität auf die technische Ebene abstellt. Ein nicht-reliables Messverfahren ist i. a. auch nicht-valide und auch ein hoch-reliables Messverfahren kann durchaus wenig valide sein. Letzteres trifft zu, wenn ein Verfahren zwar etwas genau misst, aber inhaltlich etwa anderes erfasst als eigentlich erfasst werden sollte. Eine detaillierte Behandlung der genannten Gütekriterien findet man z. B. bei Gehring / Weins (2004, Abschnitt 3.4) sowie bei Sedlmeier / Renkewitz (2008, Abschnitt 3.5). Beispiel 2.5 Operationalisierung latenter Variablen Die Notwendigkeit der Operationalisierung von Merkmalen tritt häufig im Zusammenhang mit der Formulierung und Überprüfung von Forschungshypothesen auf. Wenn man etwa postuliert, dass ein höherer Bildungsstand i. d. R. mit einem höheren Einkommen verknüpft ist, muss vor einer Überprüfung der Hypothese zunächst geklärt werden, wie man das nicht direkt beobachtbare Merkmal „Bildungsstand einer Person“ messen will. Dazu wird üblicherweise ein messbares Merkmal als Proxyvariable herangezogen, d. h. eine näherungsweise verwendbare beoabachtbare Variable. Für das Merkmals „Bildungsstand“ kämen etwa der höchste erreichte Bildungsabschluss oder die Anzahl der erfolgreich an Bildungsinstitutionen verbrachten Jahre als Proxyvariablen in Betracht. Bei der Messung der Rechenfertigkeit von Schülern wird man auf geeignete Mathematikaufgaben zurückgreifen, von denen man annimmt, dass sie einzelne Aspekte der latenten Variablen treffen, etwa die Fähigkeit Rechenfertigkeiten auch in Alltagssituationen anwenden zu können. Will man Ausprägungen der latenten Variablen „Patriotismus“ gewinnen, kommen u. a. Personbefragungen oder Verhaltensbeobachtungen in Betracht, wobei es auch hier gilt, die Ergebnisse zu quantifizieren. Aber selbst bei der Messung von Merkmalen, die direkt beobachtbar sind (manifeste Variablen) – z. B. das Bruttoeinkommen eines Arbeitnehmers oder die Erwerbslosenquote eines Landes – kann es sehr wichtig sein, genau zu spezifizieren, was gemessen werden soll. Es ist ein großes Verdienst des Europäischen Amts für Statistik (Eurostat), wesentlich zur Harmonisierung der in Europa von Statistischen Ämtern erhobenen Daten beizutragen. Diese Harmonisierung erfolgt über EU-Verordnungen, die in den Mitgliedstaaten Rechtskraft besitzen. Die Verordnungen regeln, welche Komponenten zu einer Variablen gehören und welche nicht. Dies sichert die Vergleichbarkeit von Daten über Ländergrenzen hinaus und macht die amtliche Statistik von aktuellen Politiken nationaler Regierungen unabhängiger. Welche Regierung sähe z. B. nicht gerne vor Wahlen positive Zahlen für den Arbeitsmarkt? Die Europäisierung der amtlichen Statistik wirkt der möglichen Manipulation durch Veränderung der Operationalisierung von Merkmalen entgegen. Es zeichnet sich ab, dass Eurostat erweiterte Vollmachten für das Monitoring und die Überwachung der Qualität besonders relevanter nationaler statischer Informationen eingeräumt werden, etwa bei der Ermittlung verlässlicher Daten zu den Staatsschulden und Haushaltsdefiziten der Mitglieder der Eurozone.
18
2 Grundbegriffe der Statistik
Beispiel 2.6 Operationalisierung von Merkmalen in der amtlichen Statistik Bei der Erfassung von Bruttoeinkommen in der EU gilt es zu klären, welche Einkommensanteile einzubeziehen, wann sie zu verbuchen sind und auf welche Branchen oder Branchenaggregate sich die Datenerfassung beziehen soll. Die einschlägige Kommissionsverordnung 1738/2005 regelt z. B., dass staatliche Sozialtransferzahlungen, etwa das Kindergeld, nicht als Einkommenskomponente gelten, Sonderzahlungen wie Weihnachtsund Urlaubsgeld oder Jubiläumsgratifikationen jedoch zählen. Schwierig ist auch die Bewertung von Aktienoptionen als Einkommenskomponente. Um mittlere Stundenverdienste zu errechnen, muss man bei Lehrern regeln, wie die häusliche Vor- und Nachbereitung von Unterricht zeitlich zu bewerten ist und bei Fabrikarbeitern ist zu klären, ob Pausenzeiten als Arbeitszeit gelten sollen. Politisch brisanter ist die Operationalisierung von Erwerbslosigkeit. Soll etwa ein EinEuro-Jobber, der nur wenige Stunden in der Woche arbeitet, als erwerbstätig zählen? Als erwerbslos gilt nach der z. Z. angewandten Definition der International Labour Organization (ILO, Genf) eine Person im Alter von 15 - 64 Jahren, die weniger als eine Stunde wöchentlich gegen Entgelt (beliebiger Höhe) arbeitet und aktiv auf der Suche nach mehr Arbeit ist. Die Erwerbslosenquote wird über Telefonumfragen erfasst. Sie wird oft mit der Quote der registrierten Arbeitslosen verwechselt, die von der Bundesagentur für Arbeit (BA in Nürnberg) erfasst wird. Dort gelten Personen als arbeitslos, wenn sie sich als arbeitssuchend haben registrieren lassen. Die Registrierung erfolgt nur, wenn mindestens 15 Arbeitsstunden pro Woche angestrebt werden. Das Statistische Bundesamt weist sowohl die europaweit angewendete Erwerbslosenstatistik nach der ILO-Definition als auch die Arbeitslosenzahlen der BA aus. Damit das einem Datensatz der amtlichen Statistik zugrunde liegende Messverfahren nachvollziehbar ist, werden die Daten in der amtlichen Statistik durch Meta-Daten ergänzt, die den methodischen Hintergrund und eventuelle Besonderheiten der Datenerfassung offen legen. Wenn sich etwa die Bruttoverdienste für eine Branche in einem EU-Land auf alle in dem Wirtschaftszweig tätigen Arbeitnehmer beziehen, in einem anderen Land aber nur auf Arbeitnehmer, die in Unternehmen einer bestimmten Mindestgröße tätig sind, so wird dieser die Vergleichbarkeit der Ergebnisse einschränkende Unterschied als Meta-Information zusammen mit den Daten ausgewiesen.
3 Datengewinnung und Auswahlverfahren 3.1 Erhebungsarten und Studiendesigns Für die empirische Überprüfung von Forschungsfragen werden Daten benötigt, d. h. beobachtete Werte eines Merkmals oder mehrerer Merkmale in einer Grund- oder Teilgesamtheit von Merkmalsträgern. Die Qualität der Aussagen, die sich aus der Analyse statistischer Daten ableiten lassen, hängt wesentlich von der Datenqualität ab. Die Vorgehensweise bei der Datengewinnung ist daher bei einer statistischen Untersuchung sorgfältig zu planen. Die Gewinnung von Daten bezeichnet man auch als Datenerhebung, während die Planung der Datengewinnung Erhebungsdesign genannt wird. Datenerhebungen lassen sich nach verschiedenen Kriterien klassifizieren. Nach der Art der Datenquelle unterscheidet man zwischen Primär- und Sekundärerhebungen. Bei Primärerhebungen werden die Daten eigens für das jeweilige Untersuchungsziel gewonnen. Bei Sekundärerhebungen wird hingegen auf Daten aus schon vorhandenen Quellen zurückgegriffen. Man unterscheidet entsprechend zwischen primär- und sekundärstatistischen Daten. Gelegentlich spricht man auch von Tertiärerhebungen, nämlich dann, wenn statistische Information aus vorhandenen Quellen geschöpft wird, aber nicht in Form der Originaldaten, sondern in aggregierter Form (z. B. gruppierte Daten oder Mittelwerte ungruppierter Daten).1 Beispiel 3.1 Primär-, Sekundär- und Tertiärerhebungen Die regelmäßig erscheinenden Berichte des Münchner IFO-Instituts zum aktuellen Geschäftsklima in Deutschland beziehen sich auf Primärerhebungen, denn sie basieren auf Daten, die direkt für die Erstellung der Berichte erhoben werden. Statistische Analysen, die sich z. B. auf Daten des Statistischen Bundesamts stützen, verwenden hingegen sekundärstatistische Daten und sind somit Sekundärerhebungen. Die Europäische Gehalts- und Lohnstrukturerhebung (engl: Structure of Earnings Survey) erfasst Individualdaten für Millionen von Arbeitnehmern in fast allen europäischen Staaten. Die Verwendung der amtlichen Ergebnisse beinhaltet die Nutzung tertiärstatistischer Daten, weil die Ergebnisse der Erhebung aufgrund der strikten Vertraulichkeit der orginären Mikrodaten nur in hochaggregierter Form von Eurostat und den an der Erhebung beteiligten nationalen Statistikämtern kommuniziert werden. Die Vertraulichkeit der Mikrodaten ist durch Verordnungen mit Gesetzeskraft geregelt. Die Aussagekraft statistischer Auswertungen, die auf Tertiärdaten beruhen, ist natürlich reduziert, weil 1
In der Psychologie werden in den meisten Fällen Primärerhebungen durchgeführt. Bei solchen psychologischen Primärerhebungen lassen sich die Datenquellen – z. B. Verhaltensbeobachtung, Tests, Fragebögen – dann nochmals nach verschiedenen Kriterien unterscheiden (s. hierzu Kapitel 6 in Kurs 03401 von Modul 1 im B.Sc. „Psychologie“).
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_3, © Springer-Verlag Berlin Heidelberg 2011
19
Klassifikation von Erhebungen hinsichtlich der Datenquelle
20
3 Datengewinnung und Auswahlverfahren
die ursprünglich vorhandene statistische Information verkürzt wird. Wissenschaftler sind an den Mikrodaten der Europäischen Wirtschafts- und Sozialstatistik interessiert, deren Vertraulichkeit – möglichst ohne nennenswerten Informationsverlust – durch geeignete Anonymisierungsverfahren zu sichern ist.
Klassifikation von Primärerhebungen nach der Art der Datengewinnung
Varianten der Befragung
Für die Forschung in den Sozialwissenschaften, der Psychologie und auch in der Medizin sind Primärerhebungen von besonderer Bedeutung. Man kann hier hinsichtlich der Art der Datengewinnung zwischen einer Befragung, einer Beobachtungsstudie und einem Experiment unterscheiden. Alle genannten Erhebungstypen können sich sowohl auf Einzelpersonen als auch auf Personengruppen beziehen. Die Befragung ist das dominierende Instrument sozialwissenschaftlicher Forschung. Sie lässt sich mündlich (persönlich oder per Telefon), schriftlich und auch internetgestützt durchführen. Bei mündlichen Befragungen dominiert z. Z. noch das Telefoninterview gegenüber dem persönlichen Interview. Allerdings hat das Online-Interview in den letzten Jahren deutlich an Boden gewonnen. Eine mündliche Befragung kann unstrukturiert, teilstrukturiert oder strukturiert erfolgen. Eine unstrukturierte Befragung hat einen offenen Charakter und kann ohne Fragebogen realisiert werden. Bei teilstrukturierten und strukturierten Interviews ist die Befragung teilweise oder ganz standardisiert. Dies lässt sich durch die Verwendung von Fragebögen mit teilweise oder vollständig geschlossenen Fragen erreichen.
Abb. 3.1: Fernmündliche Befragungen (CATI) im Telefonstudio; Quelle: TNS Infratest
Flash-Animation „Befragungen“
Mündliche Befragungen lassen sich mit modernen Kommunikationstechnologien verknüpfen. So kann etwa eine direkte oder telefonische Befragung per Interview mit softwaregesteuerter Interviewführung und automatisierter Ergebnisverarbeitung erfolgen. In der Literatur findet man in diesem Kontext häufig die Abkürzungen CAPI (computer
3.1 Erhebungsarten und Studiendesigns
21
assisted personal i nterviewing) für das persönlich geführte Interview mit tragbarem Computer (meist Notebook) und CATI (computer assisted telophone i nterviewing) für das fernmündlich geführte Interview, bei dem der Interviewer mit Sprecheinrichtung vor dem Computer sitzt und die Antworten der befragten Person direkt eingibt. In beiden Fällen spricht man von einem interviewer-administrierten Interview, weil die Antworteingabe am Computer vom Interviewer vorgenommen wird. 2 Abbildung 3.1 zeigt ein Telefonstudio eines Marktforschungsinstituts, in dem fernmündliche Befragungen durchgeführt werden. Bei der schriftlichen Befragung werden Fragebögen per Post oder per E-Mail an ausgewählte Adressaten verteilt oder auf einer Internetseite bereitgestellt. Um ausreichende Rücklaufquoten zu erzielen sind oft noch ergänzende Maßnahmen vorgesehen, etwa die Vergabe kleinerer Belohnungen. Netzbasierte schriftliche Befragungen können interaktive Befragungsprogramme sein, die den Befragten flexibel durch einen Fragenkatalog führen. Da der Befragte die Antworteingabe selbst vornimmt, spricht man hier auch von einer selbst-administrierten computergestützten Befragung. Für welche Form einer Befragung man sich bei der Planung einer Erhebung entscheidet, hängt u. a. von der Größe des zu gewinnenden Datensatzes, von der Zielgruppe sowie vom verfügbaren Untersuchungsbudget und Zeitrahmen ab. Computerunterstützte Varianten werden jedenfalls immer wichtiger, z. B. etwa in der Markt- und Meinungsforschung in Form internet- oder intranetbasierter Befragungen.
Abb. 3.2: Simultane Erfassung zweier Merkmale eines Serienteils bei der industriellen Fertigungsüberwachung; Quelle: Fa. Q-DAS
2
Der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute (ADM) gibt auf seiner Internetseite unter dem Link „Zahlen“ an (Stand: Anfang September 2009), dass in Deutschland 2008 mehr als 3900 CATI-Plätze eingerichtet und gut 5600 CAPI-Geräte im Einsatz waren.
Welche Befragungsart ist zu wählen?
22
Wo werden Daten per Beobachtung gewonnen?
3 Datengewinnung und Auswahlverfahren
Auch die Beobachtung ist ein sehr verbreitetes Verfahren der Datenerhebung. Beobachtung kann sich auf ganz unterschiedliche Objekte beziehen, etwa auf Volkswirtschaften, auf technische Prozesse in Unternehmen oder auf das Verhalten von Personen. In den Wirtschaftswissenschaften werden z. B. Aktienindizes, Renditen, Inflationsraten oder Beschäftigungsquoten fortlaufend verfolgt, wobei die Beobachtung mit Maßnahmen verbunden sein kann, z. B. mit Interventionen durch die Europäische Zentralbank. Bei der industriellen Qualitätssicherung werden Fertigungsprozesse kontinuierlich beobachtet und dokumentiert, i. d. R. automatisiert unter Einsatz moderner Messtechniken, mit dem Ziel der Vermeidung nicht-spezifikationskonformer Produkte. Abbildung 3.2 illustriert dies anhand eines Fotos aus der Fertigungsüberwachung. Bei diesem Beispiel werden die Ausprägungen zweier qualitätsrelevanter geometrischer Merkmale (Durchmesser von Kurbelwellen) gleichzeitig erfasst und die Ergebnisse fortlaufend als Zeitreihe gespeichert. Auch hier können intervenierende Maßnahmen zum Zuge kommen, etwa das Nachjustieren einer Fertigungseinrichtung. In den Sozialwissenschaften und der Psychologie geht es um die Beobachtung von Einzelpersonen oder Gruppen. Die Beobachtung kann hier offen oder verdeckt erfolgen. Charakteristisch für Beobachtungen in der empirischen Sozialforschung ist, dass die Beoachtungen systematisch geplant und dokumentiert werden und einem spezifizierten Forschungszweck dienen. Für die Dokumentation der Beobachtungen bedient man sich eines Beobachtungsprotokolls.
Neuere Entwicklungen in der Marktund Konsumforschung
Die verdeckte Beobachtung oder auch die Auswertung von Verhaltensspuren – z. B. die Durchführung von Logfile-Analysen zur Untersuchung des Verhaltens von Internetnutzern – sind nicht-reaktive Erhebungsverfahren, also Verfahren, bei denen die Zielpersonen i. d. R. gar nicht wahrnehmen, dass sie Gegenstand einer Beobachtung sind. Ihr Einsatz sollte sich strikt an ethischen und datenschutzrechtlichen Richtlinien orientieren. Google-Analytics ist z. B. ein noch jüngerer Informationsdienst, der von Datenschützern nicht unkritisch gesehen wird. In der Markt- und Konsumforschung gewinnen nicht-reaktive Methoden der Datengewinnung an Bedeutung, bei denen moderne Technik genutzt wird. Als Beispiel genannt seien Frequenzzählungen oder Aufzeichnungen von Blickbewegungen und Blickwinkeln von Kunden in den Gängen von Supermärkten, mit denen Unternehmen Informationen zur Optimierung des Warensortiments gewinnen. Auch Geoinformationssysteme werden zunehmend zur Identifikation raumbezogener Zusammenhänge herangezogen, etwa bei der Messung von Pendlerströmen. Im Leipziger Zoo lief ein Projekt, bei dem GPS-Daten zur Gewinnung von Informationen zur Verweildauer von Zoobesuchern bei den einzelnen Tiergehegen genutzt werden. Die Gesellschaft für Konsumforschung (GfK) setzt in mehreren Ländern eine spezielle Armbanduhr ein, die ohne Zutun des Trägers dessen Radio- und TV-Nutzung erfasst. Die erfassten Frequenzprofile können dann anschließend – über ein als Audiomatching bezeichnetes Verfahren – den entsprechenden Sendern zugeordnet werden. Abbildung 3.3 zeigt im linken Teil den Sender (am Arm der liegenden Person) und im rechten Teil einen Arbeitsplatz, an dem die darauffolgende Ergebniserfassung stattfindet.
3.1 Erhebungsarten und Studiendesigns
23
Abb. 3.3: Gewinnung von Daten zur Nutzung von Radio- und TV-Sendern; Quelle: GfK Telecontrol AG, Schweiz
Ein ganz anderer Ansatz zur Datengewinnung ist der Einsatz von Experimenten. Diese wurden zuerst in den Agrar- und Naturwissenschaften und später in der Technik angewendet, sind aber heute auch in der Medizin und der Psychologie weitverbreitet. Bei einem Experiment geht es um die empirische Überprüfung von Hypothesen über kausale Zusammenhänge zwischen Merkmalen. Die Überprüfung erfolgt anhand einer geplanten Untersuchung, bei der die Ausprägungen eines Merkmals oder mehrerer Merkmale (unabhängige Variablen, Einflussfaktoren) unter Laborbedingungen systematisch variiert und der Effekt auf ein anderes Merkmal (abhängige Variable, Zielgröße) studiert wird. Dabei will man durch eine geeignete Organisation der Untersuchungsanordnung den Einfluss weiterer Variablen möglichst ausschalten (Kontrolle von Störvariablen). Die Untersuchungsanordnung wird durch einen Versuchsplan festgelegt. In den Wirtschafts- und Sozialwissenschaften sind Experimente kaum verbreitet, weil sich Forschung hier typischerweise auf Feldbeobachtung bezieht und selten auf Laborsituationen übertragen lässt. Bei den in der wirtschafts- und sozialwissenschaftlichen Forschung verbreiteten Beobachtungsstudien lässt ein beobachteter Zusammenhang zwischen zwei Merkmalen – anders als beim Experiment – nicht zwingend auf einen Kausalzusammenhang schließen, weil der Zusammenhang auch über eine dritte Variable vermittelt sein kann (vgl. hierzu Abschnitt 9.2). Zwischen Experimenten in den einzelnen Anwendungsbereichen, etwa in der Technik oder in der Psychologie und Medizin, gibt es Unterschiede, die durch die Natur der zu untersuchenden Merkmale bedingt sind. In der Technik geht es darum, Merkmale unbelebter Objekte zu untersuchen, z. B. bei Werkstoffen den Zusammenhang zwischen der Zusammensetzung von Legierungen und der Werkstoffeigenschaft „Reißfähigkeit“ oder
Anwendungsfelder für Experimente
Fachspezifische Unterschiede beim Design von Experimenten
24
3 Datengewinnung und Auswahlverfahren
„Härte“. Auch die planmäßige Veränderung von Formparametern eines Kraftfahrzeugs und die Untersuchung des Effekts auf den Luftwiderstand (cw -Wert) im Windkanal ist ein Beispiel für eine industrielle Anwendung von Versuchsplänen. Die Messung der Merkmalsausprägungen anhand moderner Messtechniken ist hier i. d. R. kein Problem und auch Messwiederholungen lassen sich leicht realisieren. Experimente in der Psychologie beziehen sich hingegen auf Merkmale von Personen, wobei die Merkmale oft den Charakter hypothetischer Konstrukte haben (etwa Leistungsmotivation, Hilfsbereitschaft, Aggression, Lebenszufriedenheit). Hier ist oft schon die Operationalisierung der latenten Variablen schwierig. Ähnliches gilt für die Ausschaltung von Störeinflussen oder die Wiederholung von Messungen. Typisch für Experimente in der Psychologie und auch in der Medizin ist die Ergänzung der Gruppe von Versuchspersonen um eine Kontrollgruppe. Nur in der Versuchsgruppe werden dann Einflussfaktoren variiert. Bei echten experimentellen Designs erfolgt die Zuordnung zu den beiden Gruppen durch Zufallsauswahl. Nicht immer ist eine zufallsgesteuerte Zuordnung von Personen zu einer Kontroll- und einer Versuchsgruppe realisierbar oder ethisch vertretbar. Man denke etwa an eine Untersuchung von Effekten neuer Behandlungsmethoden in der Medizin, die aus ethischen Gründen so organisiert wird, dass sich die beteiligten Patienten selbst für eine von zwei alternativen Behandlungsmethoden frei entscheiden können. Man spricht bei einem solchen Erhebungsdesign mit nicht-randomisierter Zuordnung von einem Quasi-Experiment. Eine ausführlichere Darstellung der vorgestellten Grundtypen „Befragung“, „Beobachtung“ und „Experiment“ findet man bei Sedlmeier / Renkewitz (2008, Kapitel 4 - 5). Die beiden erstgenannten Typen einschließlich einer Würdigung ihrer Vor- und Nachteile sind auch bei Diekmann (2007, Kapitel X - XI) sowie bei Schnell / Hill / Esser (2008, Abschnitte 7.1 - 7.2) detailliert behandelt. Der Gestaltung von Fragebögen, der Schulung von Interviewern und Beobachtern sowie dem Design von Experimenten widmet sich eine kaum zu überschauende Flut von Veröffentlichungen. Beispiel 3.2 Beobachtungen in verschiedenen Anwendungsfeldern Die Ergebnisse des Mikrozensus sind eine für Planungen in Politik und Wirtschaft zentrale Informationsquelle, die sich aus mündlichen Befragungen speist. Es werden hier alljährlich 1 % der Haushalte in Deutschland (ca. 370.000 Haushalte mit etwa 820.000 Personen) auf der Basis von Zufallsstichproben ausgewählt. Erfasst werden u.a neben Geschlecht, Alter und Familienstand vor allem Daten über die Wohnung, Art und Umfang der Erwerbstätigkeit sowie das Nettoeinkommen. Dabei gehen Interviewer im Auftrag der Statistischen Landesämter mit einem Notebook in die Haushalte und geben die Befragungsergebnisse sofort in mitgebrachte Notebooks ein (Datenerhebung via CAPI). Die Interviewsteuerung einschließlich der Prüfung der Antwortenkonsistenz wird von der auf dem Notebook vorinstallierten Beratungssoftware geleistet. Beobachtung in der Arbeits- und Organisationspsychologie kann sich auf die Erfassung und Bewertung von menschlichem Verhalten in einem Vorstellungsgespräch beziehen (offene Beobachtung). Hier lassen sich mehrere für die künftige Tätigkeit relevante
3.1 Erhebungsarten und Studiendesigns
25
Merkmale anhand einer Ratingskala bewerten und das Ergebnis bei der Personalauswahl berücksichtigen. Ein Beispiel für ein Experiment in der Lernpsychologie ist die Untersuchung des Lernerfolgs in der Statistikgrundausbildung mit und ohne Einsatz neuer Medien, etwa bei Vorlesungen mit und ohne Einbezug multimedialer Elemente und virtueller Lernumgebungen. Der Lernerfolg lässt sich über die Punktzahl bei der Abschlussklausur abbilden. Man bildet zwei Gruppen, wobei nur eine Gruppe die neuen Medien nutzt. Es wäre nicht sachadäquat, wenn die Beteiligten sich selbst eine Gruppe auswählen dürften, weil bei einer nicht-zufälligen Zuordnung zu den beiden Gruppen mit unerwünschten Verzerrungen und Störeinflüssen gerechnet werden muss. Bei Beobachtungsstudien kann man noch zwischen Querschnittsstudien und Längsschnittsstudien unterscheiden. Wenn an verschiedenen Merkmalsträgern zu einem festen Zeitpunkt die Ausprägungen eines Merkmals erfasst werden, resultiert eine Querschnittsreihe. Verfolgt man hingegen ein Merkmal an einer statistischen Einheit im Zeitverlauf, erhält man eine Zeitreihe. Häufig wird ein Merkmal anhand mehrerer fester Merkmalsträger im Zeitverlauf beobachtet. Ein Panel kombiniert Querschnitts- und Zeitreihenanalysen. Hier werden für dieselben Objekte wiederholt Merkmalsausprägungen ermittelt. Bei Panel-Untersuchungen, die sich auf Personen beziehen und sich über einen längeren Zeitraum erstrecken, ist es kaum zu vermeiden, dass Teilnehmer ausscheiden, etwa durch Krankheit oder Umzug. Man spricht in diesem Zusammenhang von Panelmortalität, die mit unerwünschten Verzerrungen einhergehen kann.
Klassifikation von Erhebungen nach dem zeitlichen Zusammenhang der Daten
Eine weitere Klassifikation für Erhebungen bezieht sich auf den Umfang der erhobenen Daten. Bei einer Vollerhebung werden alle Elemente einer Grundgesamtheit in die Erhebung einbezogen, während man bei einer Teilerhebung oder Stichprobenerhebung nur Daten für eine Teilmenge der für die jeweilige Fragestellung relevanten Grundgesamtheit heranzieht. Die Volkszählungen des Jahres 1987 in der alten Bundesrepublik Deutschland und 1981 in der damaligen DDR waren Vollerhebungen, während der alljährlich durchgeführte Mikrozensus eine Stichprobenerhebung darstellt. Die nächste Volkszählung ist für alle Länder der EU-27 für das Jahr 2011 vorgesehen (Zensus 2011), wobei dann in Deutschland erstmals aus Kostengründen und wegen einer höheren Akzeptanz bei der Bevölkerung wesentlich auf Verwaltungsregister zurückgegriffen wird (registergestützter Zensus), vor allem auf Melderegister und Register der Bundesagentur für Arbeit. In Deutschland beruhen die aktuellen amtlichen Bevölkerungszahlen auf Fortschreibungen der letzten Volkszählung anhand der Mikrozensusdaten. Inzwischen sind die Hochrechnungen aber sehr unzuverlässig geworden – man vermutet, dass die jetzige amtliche Bevölkerungszahl für Deutschland um über eine Million zu hoch liegt. Zuverlässige Bevölkerungsdaten sind aber für viele Bereiche unabdingbar, etwa für Planungen auf kommunaler Ebene (Schulen, Krankenhäuser), für den Länderfinanzausgleich sowie auch für die Bemessung der Beiträge Deutschlands zum EU-Haushalt.
Einteilung nach dem Umfang der erhobenen Daten
Stichprobenerhebungen sind vor allem bei sehr großen Grundgesamtheiten geboten oder oft auch der einzig gangbare Weg, weil Vollerhebungen teuer, aufwändig und nicht immer praktikabel sind. Dies gilt für die Gewinnung von sozioökonomischen Daten für
Vorteile und Grenzen von Stichprobenerhebungen
Flash-Animation „Mikrozensus und Zensus 2011“
26
Aufgabe 3.1
3 Datengewinnung und Auswahlverfahren
große Regionen, etwa Daten zu Arbeitskosten oder Einkommen in Deutschland. Stichprobenbasierte Erhebungen liefern auch u. U. zuverlässigere Ergebnisse, weil hier für die Datengewinnung für jeden Merkmalsträger mehr Zeit investiert werden kann. In der industriellen Qualitätssicherung ist die Merkmalserfassung manchmal – z. B. bei der Ermittlung der Lebensdauer von Leuchtmitteln – mit der Zerstörung des Merkmalsträgers verbunden. In solchen Fällen gibt es zur Stichprobenprüfung keine Alternative. Bei der Prüfung sicherheitsrelevanter Produkte, etwa bei Airbags oder Reißleinen von Fallschirmen, sind hingegen Vollerhebungen geboten, weil hier Restrisiken nicht vertretbar sind.
Beispiel 3.3 SOEP und ALLBUS Das Sozioökonomische Panel (SOEP ) ist eine seit 1984 durchgeführte stichprobenbasierte Befragung von etwa 12.000 Haushalten (gleichbleibende Haushalte), die auf die Identifikation politischer und gesellschaftlicher Veränderungen in Deutschland abzielt. Die Befragung bezieht sich auf alle erwachsenen Haushaltsmitglieder und erfasst u. a. Persönlichkeitsmerkmale, Lebensbedingungen, Erwerbssituation, berufliche Mobilität, Wertvorstellungen, Gesundheit und Lebenszufriedenheit. Die Befragung wird in Form persönlicher Interviews von einem Umfrageinstitut durchgeführt und die Ergebnisse vom Deutschen Institut für Wirtschaft (DIW) in Form anonymisierter Mikrodaten an die interessierte Fachöffentlichkeit weitergegeben. Anders als beim Mikrozensus ist die Teilnahme am Sozioökonomischen Panel freiwillig. Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS ) ist eine seit 1980 im Zweijahresturnus durchgeführte Mehrthemenbefragung einer Stichprobe von ca. 3.000 Personen. Die Erhebung dient der Dauerbeobachtung gesellschaftlichen Wandels. Die Fragen beziehen sich u. a. auf Einstellungen, Erwerbstätigkeit, Umwelt und Politik. Anders als beim SOEP wird bei jeder Erhebung eine neue Stichprobe gezogen (Querschnittsdesign). Die Befragungen werden von wechselnden Marktforschungsinstituten im Auftrag der Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS ) durchgeführt, die seit 2008 den Namen GESIS – Leibniz-Institut für Sozialwissenschaften trägt. Auch hier werden die Ergebnisse der interessierten Fachöffentlichkeit zugänglich gemacht.
3.2 Stichprobenauswahl Bei Teilerhebungen ist die Verfahrensweise bei der Auswahl von Stichprobenelementen festzulegen sowie der Umfang der Stichprobe. Ziel ist es, aus einer Teilmenge einer Grundgesamtheit Aussagen abzuleiten, die sich auf die Grundgesamtheit übertragen lassen. Der Stichprobenentnahme vorgelagert ist eine eindeutige Festlegung der Grundgesamtheit. Wenn es z. B. darum geht, aus einer Stichprobe von Bürgern einer Großstadt Aussagen für die gesamte Stadt zu gewinnen, muss u. a. durch räumliche Abgrenzung und inhaltliche Vorgaben (z. B. Einbezug nur der an einem Stichtag in der Stadt wohnhaften Personen) klargestellt sein, wer zur Grundgesamtheit gehört und wer nicht.
3.2 Stichprobenauswahl
27
In der Praxis kann es passieren, dass die Population, aus der eine Stichprobe gezogen wird, die sog. Auswahlpopulation, Elemente enthält, die nicht zu der im Untersuchungsdesign definierten Grundgesamtheit gehören oder auch, dass einige Elemente der definierten Grundgesamtheit bei der Stichprobenziehung gar nicht berücksichtigt werden. Im letztgenannten Fall spricht man von Undercoverage, im erstgenannten von Overcoverage. Bei der Erhebung von Bevölkerungsdaten für eine Großstadt könnten etwa Personen in der Stadt wohnen, ohne amtlich gemeldet zu sein oder aber gemeldet sein, obwohl schon längst verzogen. Um mit der Stichprobe ein repräsentives Abbild der Grundgesamtheit zu bekommen, zieht man eine Zufallsstichprobe. Bei einer Zufallsstichprobe hat jedes Element der Grundgesamtheit eine von Null verschiedene und mit den Instrumenten der Wahrscheinlichkeitsrechnung ermittelbare Wahrscheinlichkeit in die Stichprobe zu gelangen. Nur bei Realisierung einer Zufallsauswahl kann von einer Stichprobe mit einer kontrollierten kleinen Irrtumswahrscheinlichkeit auf die zugrunde liegende Grundgesamtheit zurückgeschlossen werden. Dieser auch als Inferenzschluss bezeichnete Rückschluss von Eigenschaften einer Stichprobe auf Eigenschaften einer Grundgesamtheit anhand von Schätzund Testverfahren ist Gegenstand der schließenden Statistik. Ein Inferenzschluss ist stets mit Unsicherheit verknüpft, die sich daraus ergibt, dass nur die Teilinformation der Merkmalsträger der Stichprobe und nicht die volle Information aller Merkmalsträger der Grundgesamtheit zur Verfügung steht. Man spricht in diesem Zusammenhang von einem Stichprobenfehler. Wenn man einen Inferenzschluss auf eine Stichprobe stützt, die nicht repräsentativ ist für eine Grundgesamtheit (verzerrte Stichprobe), kommt zu dem unvermeidlichen Stichprobenfehler noch eine durch die Verzerrung (engl.: bias) der Stichprobe bedingte systematische Verzerrung hinzu, der sog. Auswahlbias. Der Inferenzschluss kann dann zu gravierenden Fehlschlüssen führen. Würde man z. B. in Finnland anhand eines Verzeichnisses stationärer Telefonanschlüsse eine Stichprobe auswählen, hieße dies, von vorneherein einen erheblichen Teil der Bevölkerung auszuschließen. Schon 2006 hatte nämlich bereits ca. 40 % der finnischen Bevölkerung nur noch ein Mobiltelefon. Vor allem der jüngere Teil der Bevölkerung wäre in der Stichprobe stark unterrepräsentiert.
Flash-Animation „Over- und Undercoverage“
Warum zufällige Auswahl?
Flash-Animation „Inferenzschluss“
Flash-Animation „Verzerrte Stichprobe“
Bei einer einfachen Zufallsstichprobe des Umfangs n ist die Stichprobenauswahl nicht nur zufällig, sondern auch so geplant, dass jede Teilmenge der Grundgesamtheit mit n Elementen dieselbe Auswahlwahrscheinlichkeit besitzt. Gedanklich kann man sich die Verfahrensweise anhand eines hypothetischen Gefäßes mit Kugeln oder Losen verdeutlichen (Urnenmodell), wobei aus dem Gefäß entweder in einem Zuge oder nacheinander n Elemente gezogen werden. Die Ziehung der Lottozahlen ist z. B. so organisiert. Manchmal verfügt man auch über Vorinformation, die bei der Auswahl der Stichprobenauswahl herangezogen werden kann und i. d. R. zu verlässlicheren Inferenzschlüssen führt. Dies gilt für die geschichtete Zufallsauswahl, ein in der Praxis sehr verbreitetes Verfahren der Stichprobenziehung. Man zerlegt hier die Grundgesamtheit in sich nicht überlappende (= disjunkte) Teilgesamtheiten, sog. Schichten. Die Schichten sollen bezüglich des zu untersuchenden Merkmals in sich möglichst homogen und untereinander
Zweistufige Verfahren
28
3 Datengewinnung und Auswahlverfahren
möglichst heterogen sein. Aus jeder Schicht wird dann eine Zufallsstichprobe gezogen. Die Vorinformation besteht aus der Kenntnis des auch als Schichtungsvariable bezeichneten Merkmals, nach dem die Grundgesamtheit in Schichten zerlegt wird. Bei einer Einkommenserhebung bei Hochschulabsolventen könnte etwa nach Berufsgruppen geschichtet werden. Beim Sozioökonomischen Panel werden z. B. Haushalte von Deutschen und Ausländern in zwei getrennten Schichten untersucht. Formal ist eine geschichtete Stichprobenauswahl ein zweistufiges Auswahlverfahren, bei der eine Grundgesamtheit mit N Elementen zunächst anhand eines Hilfsmerkmals – der Schichtungsvariablen – in L disjunkte Teilgesamtheiten des Umfangs N1 , N2 , . . . ,NL zerlegt wird (N1 + N2 + .. + NL = N ), aus denen im zweiten Schritt Zufallsstichproben des Umfangs n1 , n2 , . . . ,nL gezogen werden (n1 + n2 + .. + nL = n). Aufgabe 3.2
Abb. 3.4: Schichtung mit proportionaler Stichprobenauswahl
Java-Applet „Proportional / disproportional geschichtete Stichprobe“
Je nachdem, ob der Anteil Nnii (i = 1, 2, .., L) der einer Schicht entnommenen Stichprobenelemente fest ist oder nicht, liegt eine proportional geschichtete Stichprobe resp. eine disproportional geschichtete Stichprobe vor. Abbildung 3.4 zeigt eine Grundgesamtheit von N = 50 Elementen, bei der zunächst eine Zerlegung in drei Schichten mit den Umfängen N1 = 25, N2 = 15, N3 = 10 und dann in jeder Schicht eine zum Schichtumfang proportionale Zufallsstichprobe gezogen wird. Bei dem Illustrationsbeispiel beträgt der Auswahlsatz 20 % der Elemente einer Schicht. Bei einer disproportional geschichteten Stichprobe wäre die Auswahlwahrscheinlichkeit der Stichprobenelemente zwar innerhalb einer Schicht konstant, nicht aber von Schicht zu Schicht. Dies bedingt, dass man hier beim Rückschluss auf die Grundgesamtheit die Stichprobenelemente gewichten muss – die Gewichte sind dabei zu den Auswahlwahrscheinlichkeiten reziprok. Disproportionale Schichtung wird z. B. oft angewendet, wenn Schichten sehr dünn besetzt sind. Bei geschichteten Zufallsstichproben wird eine Grundgesamtheit anhand eines Hilfsmerkmals (Schichtungsvariable) in disjunkte Teilmengen zerlegt. Manchmal zerfällt aber
3.3 Träger amtlicher und nicht-amtlicher Statistik
29
eine Grundgesamtheit auf „natürliche“ Weise, also von vorneherein, in disjunkte Teilgesamtheiten, die hier Klumpen genannt werden. Bei einer Grundgesamtheit von Schülern könnten die Klumpen durch Klassenverbände und bei Tieren durch Herden gegeben sein. In solchen Fällen zieht man manchmal ein anderes zweistufiges Auswahlverfahren heran, die sog. Klumpenstichprobe. Hier wird im ersten Schritt eine Zufallsstichprobe aus der Menge aller Klumpen gezogen. Im zweiten Schritt werden dann alle Elemente der ausgewählten Klumpen untersucht. In der Praxis, etwa in der Markt- und Meinungsforschung, werden Stichproben nicht immer zufällig, sondern auf der Basis einer Systematik ausgewählt. Ein Beispiel ist die Quotenauswahl. Bei dieser versucht man eine Stichprobe durch Vorgabe von Quoten bezüglich eines meist sozioökonomischen Merkmals, z. B. Geschlecht oder Alter, zu erzeugen, dass die Stichprobe hinsichtlich dieses Merkmals – damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals – eine Art verkleinertes Abbild der Grundgesamtheit darstellt.
Flash-Animation „Klumpenstichprobe“
Systematische Auswahlprozeduren
Einige Probleme, die mit diesem und anderen systematischen Stichprobenauswahlverfahren verknüpft sein können, werden bei Schnell / Hill / Esser (2008, Abschnitt 6.5) angesprochen. Eine sehr umfassende und fundierte Darstellung von Stichprobenverfahren, auch ein- und mehrstufiger Zufallsauswahlverfahren, findet man bei Kauermann / Küchenhoff (2011).
3.3 Träger amtlicher und nicht-amtlicher Statistik Entscheidungen in Wirtschaft und Politik in nationalem wie auch in supranationalem Kontext basieren wesentlich auf statistischen Informationen. Letztere werden nicht nur für die Entscheidungsvorbereitung, sondern auch für die Kommunikation mit dem Bürger sowie für das Monitoring und die Erfolgsbewertung von Politiken benötigt und von nationalen und internationalen Trägern amtlicher Statistik bereitgestellt. Daten stammen aber nicht nur von Statistischen Ämtern, sondern auch von nicht-amtlichen Trägern, die statistische Information auch auf Anforderung liefern, etwa für Werbezwecke. Zu nennen sind hier Wirtschaftsforschungsinstitute, Institute von Interessenverbänden sowie privatwirtschaftlich organisierte Markt-, Meinungs- und Umfrageinstitute. Im Folgenden werden einige Träger amtlicher und nicht-amtlicher Statistik in knapper Form vorgestellt. In manchen Ländern, etwa in Japan, gehört die amtliche Statistik zum Aufgabenbereich bestimmter Ministerien. In Deutschland ist sie hingegen institutionell weitgehend losgelöst von Ministerien und wird von eigenständigen Behörden verantwortet (Prinzip der „fachlichen Konzentration“). Dies sichert Unabhängigkeit von der Tagespolitik. Für Datensammlungen, die ganz Deutschland betreffen, ist das Statistische Bundesamt zuständig, für regionale Daten die Statistischen Landesämter. Daneben gibt es auch einige kommunale Statistikämter. Nur wenige amtliche Statistiken werden unter direkter Kontrolle von Ministerien geführt, etwa die Arbeitsmarktstatistik der Bundesagentur für Arbeit, bei der das Bundesministerium für Arbeit und Soziales Mitverantwortung trägt.
Organisation der amtlichen Statistik in Deutschland
30
Träger nicht-amtlicher Statistik
3 Datengewinnung und Auswahlverfahren
Während die Träger der amtlichen Statistik eine Informationspflicht gegenüber der Öffentlichkeit haben, gilt dies nicht für die Träger der nicht-amtlichen Statistik. Zu diesen zählen Institutionen und Firmen mit sehr unterschiedlichen Zielsetzungen, etwa Wirtschaftsforschungsinstitute, Interessen- und Wirtschaftsverbände (Gewerkschaften, Arbeitgeber, Kammern) sowie private Institute für Markt- und Meinungsforschung. Die oft an Universitäten angegliederten und i. d. R. teilweise öffentlich finanzierten Wirtschaftsforschungsinstitute widmen sich vor allem der Analyse statistischer Daten, etwa im Rahmen der Politikberatung, und weniger der Datengewinnung. Die größten Wirtschaftsforschungsinstitute in Deutschland sind das Institut für Wirtschaftsforschung (IFO) in München und das Deutsche Institut für Wirtschaftsforschung (DIW) in Berlin, das Rheinisch-Westfälische Institut für Wirtschaftsforschung in Essen (RWI), das Institut für Weltwirtschaft in Kiel (IfW) und das Institut für Wirtschaftsforschung Halle (IWH). In die Markt- und Meinungsforschung, die im Auftrag von Unternehmen oder öffentlichen Einrichtungen erfolgt, werden erhebliche Summen investiert. Der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute in Bonn (ADM), eine Interessengemeinschaft von z. Z. 66 auf dem Gebiet der Markt- und Sozialforschung tätigen Instituten, hat das Geschäftvolumen für Marktforschung für das Jahr 2008 in Europa auf 8.36 Milliarden Euro beziffert, wobei 21% dieser Summe auf Deutschland entfielen. Relativ bekannte Institute sind z. B. die Gesellschaft für Konsumforschung in Nürnberg (GfK), die u. a. das Fernsehverhalten in Deutschland untersucht, oder das aus dem Zusammenschluss von EMNID und Infratest hervorgegangene Institut TNS Infratest, das u. a. für das Eurobarometer verantwortlich zeichnet. Zu nennen ist auch die Forschungsgruppe Wahlen, die vor allem mit dem Politbarometer und mit Berichten zu Bundestags- und Europawahlen in der Öffentlichkeit sichtbar wird. Die Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS) ist ein Zusammenschluss von Instituten, die Methodenberatung und umfangreiche Datenarchive für die empirische Sozialforschung anbieten.
Internationale Träger amtlicher Statistik
Träger amtlicher und nicht-amtlicher Statistik gibt es weltweit. Als bedeutender Träger amtlicher supranationaler Statistik ist Eurostat zu nennen, das in Luxemburg ansässige Europäische Amt für Statistik. Dieses spielt für die europäische Politik eine wichtige Rolle. Eurostat führt nicht nur Datenbestände der Ämter von EU-Mitgliedstaaten und EU-Beitrittskandidaten zusammen, sondern ist vor allem federführend bei der Harmonisierung der Datengewinnung. Letzteres geschieht durch die Entwicklung und fortlaufende Aktualisierung von Verordnungen, in denen die Datenerhebung auf allen politikrelevanten Feldern auf europäischer Ebene verbindlich geregelt wird. Erst so wird vergleichbar, was die nationalen Ämter an statistischer Information bereitstellen. Eurostat hat erst 2004 seine Datenarchive und Online-Publikationen frei zugänglich gemacht. Seit August 2009 bietet Eurostat ein Wissensportal unter dem Label „Statistics Explained“ an, das im Wikipedia-Stil geschrieben ist und zu den verschiedenen Themenfeldern der amtlichen Statistik Texte und Grafiken für den interessierten Laien bereitstellt. Die Texte enthalten Verknüpfungen zur Datenbank von Eurostat und anderen internationalen Organiationen sowie zu zahlreichen Publikationen der EU-Kommission.
3.3 Träger amtlicher und nicht-amtlicher Statistik
31
Internationale amtliche Daten werden auch von der Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD , engl.: Organisation for E conomic C o-operation and Development) bereit gestellt. Die OECD ist aufgrund stärkerer Marketingaktivitäten häufiger als Eurostat als Datenquelle in den Medien genannt, z. B. im Zusammenhang mit den Pisa-Studien, wirkt aber, anders als Eurostat, nicht aktiv an der Harmonisierung von Datenerhebungen auf nationaler Ebene mit. Zu erwähnen ist auf internationaler Ebene auch die UN Statistics Division, das Statistikreferat der Vereinten Nationen. Dieses hat – wie Eurostat und anders als die OECD – seine Datenbestände frei zugänglich gemacht.
4 Univariate Häufigkeitsverteilungen 4.1 Absolute und relative Häufigkeiten Bei statistischen Erhebungen werden Ausprägungen von Merkmalen erfasst und ausgewertet. Da in der Regel die Ausprägungen vieler Einzelmerkmale erhoben werden, fällt i. a. eine kaum überschaubare Fülle von Datensätzen an, die es zu charakterisieren und zu visualisieren gilt. Um auch bei großen Datenmengen eine Übersicht zu gewinnen, wird die in den Daten steckende Information unter Verwendung statistischer Kenngrößen (Lageund Streuungsparameter) und einfacher grafischer Instrumente verdichtet. Je nachdem, ob man Daten für ein Merkmal oder für mehrere Merkmale auswertet, spricht man von univariater oder multivariater Datenanalyse. Bei letzterer steht die Analyse von Zusammenhängen zwischen Merkmalen im Vordergrund. Im Folgenden geht es erst einmal nur um die univariate Datenanalyse. Betrachtet sei eine Erhebung, bei der für ein beliebig skaliertes Merkmal X an n Merkmalsträgern oder Untersuchungseinheiten jeweils die Merkmalsausprägung festgestellt wird. Die beobachteten oder gemessenen Merkmalswerte x1 , . . . , xn konstituieren die Urliste. Da sich die Urliste auf ein einziges Merkmal bezieht, liegt hier eine univariate Urliste vor. In dieser können Werte auch mehrfach auftreten. Ein mehrfaches Auftreten von Merkmalswerten in einer Urliste tritt z. B. bei diskreten Merkmalen auf, wenn die Länge n der Urliste die Anzahl k der möglichen Merkmalsausprägungen überschreitet. Wenn man z. B. eine Münze mehr als zweimal wirft, wird mindestens einer der beiden möglichen Ausgänge „Kopf“ und „Zahl“ des Münzwurfexperiments zwangsläufig mehr als einmal beobachtet. Bei stetigen Merkmalen ist das wiederholte Auftreten von Merkmalswerten um so seltener, je genauer gemessen wird. Bei hoher Messgenauigkeit kann es auch bei großer Anzahl n von Beobachtungswerten passieren, dass alle Merkmalswerte unterschiedlich ausfallen, d. h. die Anzahl der realisierten Ausprägungen mit n übereinstimmt. Wenn man z. B. in einer kleineren Kommune für alle Haushalte die jährlich anfallenden Rechnungsbeträge der Stadtwerke für Wasser und Strom ohne Rundung auf volle Eurobeträge auswiese, so würden kaum zwei Beträge exakt übereinstimmen. In solchen Fällen kann man die Daten zu Gruppen oder Klassen zusammenfassen. Dies geschieht dadurch, dass man den Gesamtbereich, in dem die Merkmalsausprägungen liegen, in eine überschaubare Anzahl von Teilintervallen zerlegt und die Daten den Teilintervallen zuordnet. Man spricht dann von gruppierten Daten oder von klassierten Daten. Bei einer Urliste mit Bruttostundenverdiensten für alle Arbeitnehmer eines Landes könnte man etwa wenige Einkommensklassen unterscheiden (z. B. Stundenverdienste von „0 bis unter 5 Euro“, „5 bis unter 10 Euro“, . . . , „45 bis unter 50“ und die nach oben offene Klasse „50 und mehr“). Urlisten werden mit wachsender Länge n und sich wiederholenden Merkmalswerten rasch unübersichtlich. Es empfiehlt sich dann, die in den Rohdaten enthaltene Informa-
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_4, © Springer-Verlag Berlin Heidelberg 2011
33
Klassenbildung bei stetigen Merkmalen
34
Verteilung von absoluten und relativen Häufigkeiten
4 Univariate Häufigkeitsverteilungen
tion durch Angabe von Häufigkeiten für die Merkmalsausprägungen – oder, bei gruppierten Daten, für Klassenbesetzungshäufigkeiten – zusammenzufassen. Hat man ein diskretes Merkmal mit Ausprägungen a1 , . . . , ak , so ist die im Folgenden mit hi := h(ai )
i = 1, 2, . . . , k
(4.1)
bezeichnete absolute Häufigkeit für die Ausprägung ai die Anzahl der Elemente der Urliste, die mit dem Wert ai übereinstimmen. Absolute Häufigkeiten haben den Nachteil, dass sie von der Länge n der Urliste abhängen. Um Häufigkeiten auch für Datensätze unterschiedlichen Umfangs direkt vergleichbar zu machen, teilt man die absoluten Häufigkeiten durch den Umfang n der Beobachtungsreihe. Die resultierenden relativen Häufigkeiten fi := f (ai ) =
h(ai ) n
i = 1, 2, . . . , k
(4.2)
repräsentieren Anteile, die man auch oft in Form von Prozentwerten ausweist (Multiplikation mit 100). Häufigkeiten lassen sich, wie anhand von Beispiel 4.1 illustriert, in Tabellenform ausweisen. Dabei resultieren Häufigkeitsverteilungen für absolute oder relative Häufigkeiten. Eine Häufigkeitsverteilung für ein Merkmal X wird auch als empirische Verteilung für dieses Merkmal bezeichnet. Es ist sofort einsichtig, das sich die absoluten Häufigkeiten zu n und die relativen Häufigkeiten zu 1 addieren. Im Vorcomputerzeitalter wurden für absolute Häufigkeiten anstelle von Zahlen auch manchmal Strichlisten verwendet, also z. B. „ “ anstelle von „7“ geschrieben. Diese Verfahrensweise bot sich aber allenfalls bei kleinen Werten h(ai ) an.1
Visualisierung univariater Häufigkeitsverteilungen
Häufigkeitstabellen lassen sich auch grafisch darstellen. Dabei kommen unterschiedliche Visualierungsoptionen in Betracht.Bei einem Kreisdiagramm werden die absoluten oder relativen Häufigkeiten durch Kreissektoren repräsentiert. Der Mittelpunktswinkel αi , der die Größe des Kreissektors definiert, ist sowohl bei absoluten Häufigkeiten hi als auch bei relativen Häufigkeiten fi durch fi · 360◦ gegeben. Als Alternative kommen Stab- oder Säulendiagramme in Betracht. Beim Stabdiagramm werden die Häufigkeiten durch vertikale dünne Stäbe (Striche), beim Säulendiagramm durch vertikale dicke Stäbe (Rechtecke) dargestellt. Ein Säulendiagramm wird auch Balkendiagramm genannt. Wenn die Merkmalsausprägungen Kategorien mit längeren Namen sind (etwa Namen von Staaten, Bundesländern oder Parteien), empfiehlt es sich, entweder – wie in Abbildung 4.1 – Codes zu verwenden oder ein Säulen- bzw. Balkendiagramm um 90◦ zu drehen, um die Namen der Kategorien waagerecht präsentieren zu können.2 1
Die Bezeichnungen für absolute und relative Häufigkeiten sind in der Literatur nicht immer einheitlich. Die hier verwendete Notation hi für absolute und fi für relative Häufigkeiten ist allerdings sehr verbreitet – vgl. z. B. die Lehrbücher von Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 2.1.1) oder Steland (2010, Abschnitt 1.5.2). 2 In einigen Lehrbüchern und auch in der Tabellenkalkulationssoftware Excel wird die Bezeichnung „Balkendiagramm“ nur auf diese gedrehten Säulendiagramme bezogen, der Begriff „Säulendiagramm“ also nur für Darstellungen mit vertikal angeordneten Säulen verwendet. In diesem Manuskript werden beide Begriffe als Synonyme behandelt.
4.1 Absolute und relative Häufigkeiten
35
Abbildung 4.1 zeigt mittlere Bruttostundenverdienste in Euro von Arbeitnehmern im Bereich „Industrie und Dienstleistungen“ in 27 europäischen Ländern für 2002 anhand eines Säulendiagramms. Die Ländernamen sind codiert; z. B. steht „AT“ für Österreich (Austria). Neben 24 Ländern der EU-25 (alle EU-Mitgliedsstaaten außer Malta) des Jahres 2006, in dem die Ergebnisse veröffentlicht wurden, waren auch die damaligen Kandidatenländer Bulgarien und Rumänien sowie das EFTA-Land Norwegen an der Erhebung beteiligt. Die Länder sind hier in der Reihenfolge angeordnet, die 2006 innerhalb der EU-Kommission üblich war. Staaten, die 2006 keine EU-Mitglieder waren, sind am Ende eingereiht.3
Java-Applet „Bruttoverdienste in Europa 2002“
EUR 24 22 20 18 16 14 12 10 8 6 4 2 BE CZ DK DE EE EL ES FR IE IT CY LV LT LU HU NL AT PL PT SI SK FI SE UK BG RO NO
Abb. 4.1: Bruttostundenverdienste in Europa (Ergebnispräsentation via Säulendiagramm)
In Zeitungen sowie im Fernsehen sieht man manchmal dreidimensional ausgestaltete Kreis- oder Säulendiagramme, bei denen die dritte Dimension ohne inhaltliche Bedeutung ist, also rein dekorativen Charakter hat. Bei Kreisdiagrammen sollte diese Darstellungsform generell vermieden werden, weil sie hier stets reine Effekthascherei ist. Hingegen kann man 3D-Säulendiagramme für Häufigkeitsverteilungen durchaus in Betracht ziehen, wenn die dritte Dimension inhaltlich interpretierbar ist. Dies ist z. B. der Fall, wenn man zwei Häufigkeitsverteilungen in einer einzigen Grafik präsentiert und dies dadurch realisiert, dass man zwei Säulendiagramme hintereinander anordnet (vgl. die noch folgende Abbildung 4.8) oder jeweils zwei Säulen nebeneinander stellt. Gewollt oder ungewollt manipulativ können Säulendiagramme oder Zeitreihengraphen sein, bei denen die vertikale Achse nicht auf dem Niveau 0 beginnt. Vergleicht man z. B. die Präferenzen einer Stichprobe von Wählern für die SPD und die CDU / CSU zu zwei Zeitpunkten, so können selbst kleine Veränderungen in einer Grafik beachtlich wirken, wenn man die Achse mit den Prozentwerten kappt und etwa bei 10% beginnen lässt. In der amtlichen Statistik, die noch vor wenigen Jahrzehnten im Rufe stand staubtrocken zu sein, ist ein Trend zu einer nutzerfreundlichen und interaktiven Datenkommuni3
Die 2002 erhobenen Daten sind amtliche Ergebnisse einer großen im 4-Jahres-Turnus durchgeführten Europäischen Verdienststrukturerhebung, die von Eurostat ausgewertet wird. Ergebnisse der Verdienststrukturerhebung für 2006 wurden im März 2010 von Eurostat veröffentlicht.
Mehr Nutzerfreundlichkeit in der amtlichen Statistik
36
Bundestagswahlergebnisse 2009 (interaktiv)
4 Univariate Häufigkeitsverteilungen
kation zu beobachten. So werden z. B. grafische Darstellungen von Häufigkeitsverteilungen zunehmend mit Landkarten verknüpft, wobei sich mit der Maus einzelne Regionen ansprechen und auf dem Bildschirm dann unmittelbar Daten für die ausgewählte Region grafisch präsentieren lassen. Abbildung 4.2 zeigt dies für das amtliche Endergebnis der letzten Wahl zum Deutschen Bundestag. Im oberen Teil des umrahmten rechten Bereichs lässt sich eine Variable auswählen, etwa die Wahlbeteiligung oder der Erst- oder Zweitstimmenanteil einer Partei. Die Karte zeigt dann das Niveau der ausgewählten Variablen für alle Wahlkreise auf der Basis einer vom Nutzer veränderbaren Klassenbildung. Die einzelnen Klassen sind dabei farblich gestuft. Für die in Abbildung 4.2 gewählte Variable „Zweitstimmenanteil von CDU / CSU“ sind z. B. fünf Klassen eingestellt und in der Karte durch unterschiedliche Violettstufen repräsentiert, wobei eine helle Farbausprägung einen niedrigen und ein dunkles Violett einen hohen Zweitstimmenanteil widerspiegelt.
Abb. 4.2: Ergebnisse der Bundestagswahl 2009 (links: eingefärbte Landkarte mit Ausweis des Zweitstimmenanteils von CDU / CSU in allen Wahlkreisen; rechts unten: Säulendiagramm mit den Zweitstimmenanteilen aller Parteien für den Wahlkreis Osnabrück-Land; Quelle: Bundeswahlleiter / Statistisches Bundesamt)
Mit der Maus lässt sich ein Wahlkreis auf der Karte auswählen – hier ist es der weiß erscheinende Wahlkreis Osnabrück-Land. Für diesen Wahlkreis erhält man ein Balkendiagramm, welches den Zweitstimmenanteil aller Parteien visualisiert, die die Fünfprozenthürde überspringen konnten. Die Ergebnisdarstellung anhand der eingefärbten Karte bezieht sich also auf gruppierte Daten, die Säulendiagrammdarstellung hingegen auf Originaldaten.
4.1 Absolute und relative Häufigkeiten
37
Beispiel 4.1 Ergebnisse des ZDF-Politbarometers vom 16. Oktober 2009 Bei der bekannten „Sonntagsfrage“ – einer im Auftrag des ZDF im Zwei-Wochen-Turnus durchgeführten Telefonbefragung – wird die Wahlentscheidung für den fiktiven Fall erfragt, dass am nächsten Sonntag Bundestagswahlen stattfinden. Abbildung 4.3 zeigt die am 16. Oktober 2009 veröffentlichten Ergebnisse einer solchen Befragung, die in der Zeit vom 13. - 15. Oktober lief. Die Ausprägungen a1 , . . . , a6 des Merkmals „präferierte Partei“ stehen für die CDU/CSU, SPD, FDP, die Linken, die Grünen resp. für „Sonstige“. Angegeben sind die absoluten Häufigkeiten h(ai ) und die aus diesen abgeleiteten relativen Häufigkeiten f (ai ) (i = 1, 2, . . . , 6), letztere auf drei Dezimalstellen gerundet. h(a1 ) 383
h(a2 ) 217
h(a3 ) 139
h(a4 ) 117
h(a5 ) 116
h(a6 ) 49
Division durch h(a1 ) + . . . + h(a6 ) = n
(hier: n = 1021)
f (a1 ) 0,375
f (a2 ) 0,213
f (a3 ) 0,136
f (a4 ) 0,115
f (a5 ) 0,114
f (a6 ) 0,048
a1
a2
a3
a4
a5
a6
Abb. 4.3: Häufigkeiten beim ZDF-Politbarometer vom 16. Oktober 2009; Quelle: Forschungsgruppe Wahlen
Befragt wurden 1298 Personen, die per Zufallsauswahl aus der Grundgesamtheit aller Wahlberechtigten ausgewählt wurden. Hiervon sahen sich 277 Personen außerstande eine Präferenz zu nennen oder gaben an, überhaupt nicht zur Wahl gehen zu wollen. Diese Personen blieben unberücksichtigt. Die veröffentlichten Ergebnisse basierten also auf einer Stichprobe von n = 1021 Personen, die sich für eine Partei entscheiden konnten. Die Häufigkeitstabelle für das nominalskalierte Merkmal „Parteipräferenz“ ist in Tabelle 4.1 wiedergegeben. In der letzten Spalte der Tabelle sind – zum Vergleich mit den relativen Häufigkeiten in der dritten Tabellenspalte – auch die Zweitstimmenanteile bei der Bundestagswahl vom 27. September 2009 ausgewiesen. Da zwischen der Befragung und der vorausgegangenen Bundestagswahl nur knapp drei Wochen lagen, ist es nicht verwunderlich, dass die relativen Häufigkeiten in den letzten beiden Tabellenspalten nicht stark differieren. Unterschiede resultieren natürlich auch daraus, dass die „Sonntagsfrage“ nur eine relativ kleine Stichprobe der Wahlberechtigten umfasst.
38
4 Univariate Häufigkeitsverteilungen
Merkmalsausprägungen ai
„Sonntagsfrage“ Absolute Häufig- Relative Häufigkeiten h(ai ) keiten f (ai )
Bundestagswahl Zweitstimmenanteile
a1
383
0,375
0,338
a2
217
0,213
0,230
a3
139
0,136
0,146
a4
117
0,115
0,119
a5
116
0,114
0,107
a6
49
0,048
0,060
Summe
n = 1021
1
1
Sonstige
Tab. 4.1: Politbarometer vom 16. Oktober 2009 und Bundestagswahl 2009
Abbildung 4.4 zeigt für die obige Häufigkeitsverteilung je ein Kreis-, Stab- und Säulendiagramm. Beim Kreisdiagramm lassen sich Anteile ähnlicher Größe, etwa f (a3 ) und f (a4 ), nicht so gut unterscheiden wie beim Stab- oder Säulendiagramm. h(ai ) bzw. f (ai )
a1 a2 a3
a6 a4
a5
100 bzw.
100 n
a1
a2
a3
a4
a5
a6
a1
a2
a3
a4
a5
a6
h(ai ) bzw. f (ai ) a1 = CDU/CSU a2 = SPD a3 = FDP a4 = Die Linke a5 = Die Grünen a6 = Sonstige
100 bzw.
100 n
Abb. 4.4: Kreis-, Stab- und Säulendiagramm (ZDF-Politbarometer vom 16. Oktober 2009)
4.1 Absolute und relative Häufigkeiten
39
Bei klassierten Daten bezieht sich eine Häufigkeitsverteilung auf Klassenbesetzungshäufigkeiten. Auch hier kann man die absoluten oder relativen Häufigkeiten anhand von Säulen darstellen, wobei die Breite der Säulen sich an der Breite der Klassen orientiert, d. h. die durch Rechtecke repräsentierten Besetzungshäufigkeiten schließen direkt aneinander an, anders als im Säulendiagramm aus Abbildung 4.4. Die resultierende Grafik nennt man Histogramm. Nur wenn die Klassen alle gleich breit sind, lassen sich die einzelnen Rechtecke anhand ihrer Längen (Klassenbesetzungshäufigkeiten) direkt miteinander vergleichen.
Abb. 4.5: Bruttojahresverdienste in Spanien und Portugal in Tausend Euro (Präsentation der Einkommensverteilungen anhand von Histogrammen)
Abbildung 4.5 zeigt erneut Bruttoverdienste von Arbeitnehmern in Europa im Bereich „Industrie und Dienstleistungen“ für 2002, nun aber Bruttojahresverdienste und nur für Spanien und Portugal. Die Jahreseinkommen umfassen auch Sonderzahlungen, etwa Boni, Weihnachtsgeld und Urlaubsgeld. Die Daten werden anhand von Histogrammen visualisiert (Klassierung der ursprünglichen Individualdaten).4 Es ist zu beachten, 4
Die oberhalb der Histogramme eingeblendeten Zusatzinformationen werden erst in Kapitel 5 erläutert.
Darstellung von Häufigkeitsverteilungen für klassierte Daten
40
4 Univariate Häufigkeitsverteilungen
dass hier die letzte der 15 Klassen, zu der im Vergleich zur vorletzten Klasse ein etwas höheres Rechteck gehört, nach oben offen ist. Würde man die Anzahl der Klassen (Intervalle von jeweils 5000 Euro) deutlich erhöhen, würde die leichte Auffälligkeit der Höhe des letzten Rechtecks verschwinden.5
Aufgabe 4.1
Ein Nachteil von Histogrammen liegt darin, dass der optische Eindruck wesentlich von der Klasseneinteilung abhängt, also von der Breite der Klassen und von der Festlegung der Anfangspunkte der Klassen. Oft werden daher alternativ sog. Kerndichteschätzer verwendet, die man als Verallgemeinerung des Konzepts der Histogramme ansehen kann. Auf diese kann hier aus Platzgründen nicht näher eingegangen werden (vgl. aber z. B. Toutenburg / Heumann (2009, Abschnitt 2.3.5)). Es sei nur erwähnt, dass die Treppenfunktion, die den oberen Rand eines Histogramms darstellt, bei Kerndichteschätzern durch eine stetige Funktion ersetzt wird.
Beispiel 4.2 Visualisierung von Altersstrukturen Auch bei Bevölkerungsdaten für größere Grundgesamtheiten bietet sich eine Klassenbildung an, z. B. nach Jahrgängen oder nach mehrere Jahre umfassenden Altersklassen. Das Statistische Bundesamt präsentiert im Internet eine ansprechende interaktive Visualisierung der beobachteten bzw. prognostizierten Bevölkerungsentwicklung in Deutschland für den Zeitraum 1950 bis 2060. Gezeigt werden zwei vertikal und spiegelbildlich zueinander angeordnete Histogramme, die die Anzahl von Männern und Frauen für 100 Jahrgänge (0 bis 100 Jahre) ausweist. Für die zukünftige Entwicklung werden insgesamt vier Varianten visualisiert, die von einem positiven Wanderungssaldo für Deutschland von 100.000 Personen oder 200.000 Personen pro Jahr ausgehen und sich auch bezüglich der Annahmen zur Geburtenrate und der Lebenserwartung Neugeborener unterscheiden.
Animation „Altersstruktur der deutschen Bevölkerung“
Abbbildung 4.6 zeigt ein solches Doppel-Histogramm, das von einem positiven Wanderungssaldo von 100.000 Personen ausgeht. Man sieht in der Abbildung noch deutlich die kriegsbedingten Einschnitte, etwa bei den 65-Jährigen (Jahrgang 1945).Eingeblendet sind Informationen zum Jahrgang 1950, auf den 2010 bei einer Gesamtbevölkerung von ca. 81, 5 Millionen 521.000 Männer und 539.000 Frauen entfallen. Interessanter noch ist das Verhältnis der Anzahl älterer Menschen im Ruhestandsalter (ab 65 Jahre) und jüngerer Menschen im erwerbsfähigen Alter (meist definiert als Altersbereich von 20 − 64 Jahren). Im Jahre 2010 gehören zur ersten Gruppe etwa 21%, zur zweiten Gruppe etwa 61% der Bevölkerung. Wenn man die interaktive Darstellung (Variante 1) im Internet auf das Jahr 2050 stellt, hat sich hiernach der Anteil der ersten Gruppe an der Gesamtbevölkerung (Prognose für 2050: 69, 4 Millionen), auf etwa 33% erhöht. Der Anteil der zweiten Gruppe wird sich dagegen auf ungefähr 51% vermindert haben. Das oft als „Altersquotient“ angesprochene Verhältnis „Anzahl älterer Menschen (ab 65 Jahre) / Anzahl der Menschen im Erwerbsalter (20−64 Jahre)“ wird in der Wirtschafts- und Sozi5
Die Grafiken sind einer von Eurostat herausgegebenen Schrift zur Europäischen Verdienststrukturerhebung entnommen; s. Mittag (2006). Es ist hier nicht explizit erwähnt, dass bei den 5000-EuroIntervallen jeweils die rechte Intervallgrenze nicht eingeschlossen ist, d. h. die erste Einkommensklasse umfasst z. B. alle Werte von 0 bis unter 5000 Euro.
4.1 Absolute und relative Häufigkeiten
41
Abb. 4.6: Visualisierung gruppierter Bevölkerungsdaten für Deutschland im Jahr 2010 (Quelle: Statistisches Bundesamt, Rubrik „Bevölkerung“)
alpolitik zur Quantifizierung von Veränderungen von Bevölkerungsstrukturen verwendet. Wenn man die Altersstrukturen eines Landes für einzelne Regionen darstellen will, kann man Bevölkerungspyramiden für die betreffenden Gebiete verwenden, wie es das Statistische Bundesamt für die Bundesländer macht. Alternativ bietet sich die Einbeziehung von Landkarten an. Das Statistische Amt von Großbritannien hat hier innovative Präsentationen entwickelt. Die Komponenten, deren Längen sich bei absoluten Häufigkeitsverteilungen zum Umfang n des Datensatzes bzw. bei relativen Häufigkeitsverteilungen zu 1 addieren, können durch unterschiedliche Schraffierung oder Färbung optisch unterschieden werden. Der Vorteil dieser Darstellung liegt darin, dass sie es ermöglicht mehrere univariate Verteilungen in einer einzigen Grafik zu veranschaulichen – jede empirische Verteilung ist durch eine Säule bzw. einen Balken repräsentiert. Das Übereinanderstapeln von Häufigkeiten kann man auch bei gruppierten Daten anwenden, hier als Alternative zur Verwendung von Histogrammen. Die Besetzungshäufigkeiten für die einzelnen Klassen werden dann anhand einer einzigen Säule bzw. eines Balkens visualisiert. So könnte man eine Stichprobe von Personen unter Verwendung einer geeigneten Operationalisierungsvorschrift drei Gewichtsklassen zuordnen, etwa a1 (unter- oder normalgewichtig), a2 (übergewichtig) und a3 (fettleibig / stark übergewichtig / adipös) und die relativen Besetzungshäufigkeiten für die drei Klassen anhand einer dreiteiligen Säule veranschaulichen. Wenn man mehrere Stichproben von Perso-
Stapelung von Häufigkeiten – bei ungruppierten Daten
– bei gruppierten Daten
42
4 Univariate Häufigkeitsverteilungen
nen hat, kann man mehrere solcher unterteilten Säulen bzw. Balken heranziehen. Bei einer Zerlegung in mehr als zwei Komponenten wird ein gestapeltes Säulendiagramm allerdings schnell unübersichtlich. Durch Einblendung der numerischen Angaben in die Teilabschnitte kann dieser Nachteil aber gemildert werden (vgl. Abbildung 4.7). Beispiel 4.3 Ergebnisse der Nationalen Verzehrstudie II Im Auftrag des Bundesministeriums für Landwirtschaft und Ernährung wurde von Ende 2005 bis Anfang 2007 eine ca. 20.000 Personen umfassende Stichprobe der Bevölkerung Deutschlands nach ihrem Ernährungsverhalten befragt. Dabei wurde auch der Anteil der Übergewichtigen und Fettleibigen anhand des sog. Body-Mass-Index ermittelt.6 Die Ergebnisse dieser Nationalen Verzehrstudie II wurden in der ersten Hälfte des Jahres 2008 veröffentlicht. Sie fließen in ein europäisches Gesundheits- und Ernährungsmonitoring ein. Bundesland (männliche Teilnehmer) Baden-Württemberg (846) Bayern (1018) Berlin (218) Brandenburg (164) Bremen (62) Hamburg (91) Hessen (456) Mecklenburg-Vorpommern (87) Niedersachsen (750) Nordrhein-Westfalen (1237) Rheinland-Pfalz (315) Saarland (71) Sachsen (302) Sachsen-Anhalt (136) Schleswig-Holstein (202) Thüringen (162)
Absolute und relative Häufigkeiten h(a1 ) f (a1 ) h(a2 ) f (a2 ) h(a3 ) f (a3 ) 264 0,312 408 0,482 174 0,206 345 0,339 455 0,447 218 0,214 74 0,339 104 0,477 40 0,184 51 0,311 71 0,433 42 0,256 24 0,387 29 0,468 9 0,145 35 0,385 42 0,462 14 0,154 140 0,307 220 0,483 96 0,211 28 0,322 38 0,437 21 0,241 242 0,323 338 0,451 170 0,227 405 0,327 583 0,471 249 0,201 101 0,321 155 0,492 59 0,187 24 0,338 37 0,521 10 0,141 96 0,318 136 0,450 70 0,232 42 0,309 65 0,478 29 0,213 64 0,317 89 0,441 49 0,243 50 0,309 74 0,457 38 0,235
Summe: 6117
1985
2844
1288
Tab. 4.2: Häufigkeiten für auffällige BMI-Werte bei Männern (ungewichtete Daten; Quelle: Persönliche Mitteilung des Max-Rubner-Instituts)
Tabelle 4.2 zeigt die Ausprägungen des BMI-Wertes für die an der Studie beteiligten Männer in den deutschen Bundesländern. Bei den BMI-Werten wurde hier nur zwischen drei Ausprägungen a1 , a2 und a3 unterschieden (Gruppierung der Daten): a1 entspricht 6
Der Body-Mass-Index BMI ist definiert als BM I = m/l2 , wobei m das Körpergewicht in kg und l die Körpergröße in Metern bezeichnet. Es wurde eine alters- und geschlechtsunabhängige Klassifikation herangezogen, nach der Personen mit einem BMI-Wert unter 18, 5 als untergewichtig, bei Werten von 18, 5 bis unter 25, 0 als normalgewichtig, von 25, 0 bis unter 30, 0 als übergewichtig und ab einem Wert von 30, 0 als fettleibig gelten. In Beispiel 4.3 werden die beiden erstgenannten Klassen zu einer Klasse zusammengefasst (Ausblendung des Problems von Untergewichtigkeit).
4.1 Absolute und relative Häufigkeiten
43
Unter- oder Normalgewicht, a2 bedeutet Übergewicht und a3 Fettleibigkeit. Die Tabelle fasst nicht eine, sondern insgesamt 16 absolute und relative Häufigkeitsverteilungen zusammen, nämlich je eine pro Bundesland für das klassierte Merkmal „BMI-Wert“. Die Verteilungen umfassen bei der vorgenommenen Bildung von 3 Klassen Häufigkeiten für jeweils drei Ausprägungen. Die Summe der absoluten Häufigkeiten in jeder Zeile von Tabelle 4.2 ergibt die Anzahl der in einem Bundesland befragten Männer, die jeweils nach dem Bundesland in Klammern aufgeführt ist. Für das Bundesland Bayern verifiziert man z. B., dass die Summe der Häufigkeiten h(a1 ) = 345, h(a2 ) = 455 und h(a3 ) = 218 den in Klammern ausgewiesenen Wert 1018 ergibt. 7
Abb. 4.7: Ergebnisse der Nationalen Verzehrstudie II für Männer (Teilbalken rechts: Anteil der Übergewichtigen; links: Anteil der Fettleibigen; in %; Daten aus Tabelle 4.2)
Abbildung 4.7 zeigt die relativen Häufigkeiten in Form gestapelter Säulendiagramme. In Abbildung 4.7 wurden die Häufigkeiten f (a1 ) unterdrückt und die Balken nach zunehmendem Wert von f (a2 )+f (a3 ) = 1−f (a1 ) geordnet. Die Grafik weist also im Gegensatz zu Tabelle 4.2 keine vollständigen Verteilungen aus.8 Die Säulen beginnen jeweils mit den relativen Häufigkeiten f (a3 ) für Fettleibigkeit. Die Anteile f (a2 ) der Übergewichtigen lassen sich optisch nicht so leicht unterscheiden, weil die sie repräsentierenden 7
Die Häufigkeiten in Tabelle 4.2 sind reale Beobachtungen. Diese wurden vor der Weitergabe an die Presse noch über Gewichtungsfaktoren leicht korrigiert, u. a. um unterschiedliche Auswahlwahrscheinlichkeiten für die Zielpersonen der Stichprobe auszugleichen. Eine interaktive Grafik mit den gewichteten Ergebnissen wurde bei Spiegel online präsentiert (Ausgabe vom 4. Mai 2008). 8 Eine grafische Darstellung der kompletten relativen Häufigkeitsverteilungen erhält man, wenn man in Abbildung 4.7 die Abszissenachse bis 100 verlängert und bei allen Balken einen dritten, bei 100 endenden Teilbalken anhängt.
44
4 Univariate Häufigkeitsverteilungen
Säulen unterschiedliche Anfangspunkte aufweisen. Deshalb sind auch die numerischen Werte eingeblendet. Man sieht, dass der Prozentsatz der Männer, die als übergewichtig oder gar als fettleibig zu klassifizieren waren, in allen Bundesländern oberhalb von 60% lag, in den meisten Bundesländern sogar in der Nähe von 70%. Die besten Werte mit unter 62% wurden in den beiden Stadtstaaten Bremen und Hamburg registriert.
Aufgabe 4.2
Die hier nicht wiedergegebenen Werte für Frauen fielen günstiger aus. Während der Prozentsatz der Männer mit Übergewicht oder Fettleibigkeit durchweg über 60% liegt, wird dieser Wert bei den Frauen nur in Mecklenburg-Vorpommern überschritten. In Hamburg liegt er bei den Frauen sogar unter 40%.
Abb. 4.8: Ergebnisse der Nationalen Verzehrstudie II für Männer (Teilbalken hinten: Anteil der Übergewichtigen; vorne: Anteil der Fettleibigen; in %; Daten aus Tabelle 4.2)
Als Alternative zu Abbildung 4.7 kann man die Häufigkeiten für a2 und a3 auch hintereinander stellen statt sie zu stapeln, also ein 3D-Säulendiagramm heranziehen. Dies ist in Abbildung 4.8 realisiert. Bei dieser Abbildung stören die z. T. sehr langen Ländernamen etwas – hier wäre eine Codierung zu erwägen (z. B. „HH“ für Hamburg). Generell sollte man 3D-Säulendiagramme eher zurückhaltend verwenden, weil sie stets mit perspektivischen Verzerrungen einhergehen, die das Ablesen numerischer Werte erschweren. Dieser Nachteil lässt sich aber abmildern, wenn man die numerischen Werte zusätzlich präsentiert, etwa in einer die Grafik ergänzenden Tabelle.
4.2 Die empirische Verteilungsfunktion
45
4.2 Die empirische Verteilungsfunktion In Abschnitt 4.1 wurde dargelegt, dass sich ein diskretes Merkmal X mit k Ausprägungen a1 , . . . , ak anhand der absoluten oder relativen Häufigkeiten h(a1 ), . . . , h(ak ) bzw. f (a1 ), . . . , f (ak ) beschreiben lässt und zwar für jeden Typ von Merkmalsskalierung. Die k Häufigkeiten repräsentieren die absolute Häufigkeitsverteilung resp. relative Häufigkeitsverteilung des Merkmals. Sie gibt Aufschluss darüber, wie oft jede Ausprägung in einem Datensatz vorkommt. Grafisch kann eine Häufigkeitsverteilung u. a. anhand eines Stab- oder Balkendiagramms veranschaulicht werden. Dies wurde beispielhaft in Abbildung 4.4 anhand der Häufigkeiten aus Tabelle 4.1 gezeigt. Für stetige Merkmale kann man die Werte einer Urliste zu k Klassen zusammenfassen und die Klassenbesetzungshäufigkeiten, wie in Abbildung 4.5 illustriert, anhand eines Histogramms visualisieren. Wenn die Merkmalswerte metrisch oder zumindest ordinalskaliert sind, also eine natürliche Rangordnung erklärt ist, will man oft auch wissen, wieviele Werte unterhalb oder oberhalb eines Schwellenwertes x liegen. Bei einem Datensatz, der den höchsten erreichten Bildungsabschluss einer Personengruppe beschreibt (ordinalskaliertes Merkmal „höchster erreichter Bildungsabschluss“), kann man z. B. fragen, wieviele Personen einen Abschluss unterhalb eines Hochschulabschlusses haben, also die Hochschulreife oder einen darunter liegenden Abschluss besitzen. Beim n-fachen Würfeln mit einem Würfel kann man etwa an der Häufigkeit von Ergebnissen interessiert sein, die die Augenzahl 5 unterschreiten. Eine Antwort auf solche Fragen liefert die absolute oder relative kumulierte Häufigkeitsverteilung. Betrachtet sei also ein zumindest ordinalskaliertes Merkmal X mit Ausprägungen a1 , . . . , ak . Für das Merkmal liegen n Beobachtungen xi vor (i = 1, 2, . . . , n), die bereits aufsteigend geordnet seien. Die absolute kumulierte Häufigkeitsverteilung für X ergibt sich, wenn man für einen beliebigen reellen Wert x die Anzahl der Beobachtungen ermittelt, die x nicht überschreiten. Formal ergibt sich diese kumulierte Häufigkeitsverteilung H(x) als Summe der absoluten Häufigkeiten h(ai ), die der Bedingung ai ≤ x genügen. Die Funktion H(x) ist also für x < a1 Null, springt in x = a1 auf den Wert h(a1 ) und bleibt auf diesem Niveau bis zur Stelle x = a2 , an der sie auf den Wert h(a1 ) + h(a2 ) springt usw. Die absolute kumulierte Häufigkeitsverteilung H(x) für ein Merkmal X ist somit eine monoton steigende Treppenfunktion, die jeweils in x = ai um den Betrag hi nach oben springt. Formal lässt sich H(x) wie folgt schreiben: 0 für x < a1 für a1 ≤ x < a2 h1 .. .. H(x) = . (4.3) . h1 + h2 + . . . + hk−1 für ak−1 ≤ x < ak n für x ≥ ak . Die relative kumulierte Häufigkeitsverteilung F (x) resultiert, wenn man H(x) durch den Umfang n des Datensatzes dividiert: F (x) =
H(x) . n
(4.4)
Übergang zu kumulierten Häufigkeitsverteilungen
46
4 Univariate Häufigkeitsverteilungen
Die Funktion (4.4) wird oft als empirische Verteilungsfunktion angesprochen. Sie besitzt in ausführlicher Schreibweise die Darstellung 0, f1 . F (x) = .. f1 + f2 + . . . + fk−1 1
für x < a1 für a1 ≤ x < a2 .. .
(4.5) für ak−1 ≤ x < ak für x ≥ ak ,
repräsentiert also ebenfalls eine monoton steigende Treppenfunktion, die aber in x = ai (i = 1, 2, . . . , k) jeweils um fi springt. Die Funktion F (x) geht demnach aus (4.3) hervor, wenn man dort die absoluten Häufigkeiten hi durch die relativen Häufigkeiten fi ersetzt.
fi 0, 5 0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
x
2
3
4
5
6
x
F (x) 1, 0 0, 8
i 1 2 3 4 5 6
fi 0,4 0 0 0,2 0,3 0,1
Fi 0,4 0,4 0,4 0,6 0,9 1,0
0, 6 0, 4 0, 2 1
Abb. 4.9: Relative Häufigkeitsverteilung und relative kumulierte Häufigkeitsverteilung für das Ergebnis eines Würfelexperiments (10-faches Würfeln mit einem Würfel)
Abbildung 4.9 zeigt im oberen Teil die beobachteten relativen Häufigkeiten fi = f (ai ) für die Augenzahlen ai = i (i = 1, 2, . . . , 6) bei einem Würfelexperiment, bei dem ein Würfel 10-mal geworfen wurde und dabei die 6 ein Mal, die 5 drei Mal, die 4 zwei Mal und die 1 vier Mal erschien. Der untere Teil der Grafik veranschaulicht den Anteil F (x) der Ausgänge mit ai ≤ x, zeigt also die empirische Verteilungsfunktion des Merkmals „Augenzahl X“. Neben der Grafik sind die Werte fi und die mit Fi bezeichneten Werte F (ai ) der empirischen Verteilungsfunktion an den Stellen x = ai tabelliert. Man erkennt,
4.2 Die empirische Verteilungsfunktion
47
dass F (x) an den Stellen x = ai = i um fi springt. Für i = 2 und i = 3 ist die Sprunghöhe fi allerdings 0, weil die Augenzahlen 2 und 3 bei dem betrachteten Würfelexperiment nicht auftraten und f2 sowie f3 folglich 0 sind. Zwischen zwei benachbarten Ausprägungen von X ändert sich an der Summe der Häufigkeiten grundsätzlich nichts, d. h. die empirische Verteilungsfunktion bleibt hier ebenfalls auf konstantem Niveau.
0, 10
fi
0, 08
0, 06
0, 04
0, 02
2
1, 0
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
x
Fi
0, 8
0, 6
0, 4
0, 2
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
34
36
x
i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 .. .
fi 0,00 0,02 0,01 0,05 0,03 0,03 0,04 0,00 0,03 0,01 0,06 0,03 0,03 0,04 .. .
Fi 0,00 0,02 0,03 0,08 0,11 0,14 0,18 0,18 0,21 0,22 0,28 0,31 0,34 0,38 .. .
26 27 28 29 30 31 32 33 34 35 36
0,01 0,04 0,03 0,00 0,03 0,03 0,04 0,05 0,03 0,02 0,04
0,69 0,73 0,76 0,76 0,79 0,82 0,86 0,91 0,94 0,96 1,00
Abb. 4.10: Relative Häufigkeitsverteilung und relative kumulierte Häufigkeitsverteilung beim Roulettespiel (Serie von n = 100 Spielen)
Aus Abbildung 4.9 gewinnt man sofort eine grafische Darstellung der absoluten Häufigkeiten und der absoluten kumulierten Häufigkeiten, wenn man lediglich die Skalierung der Ordinatenachsen durch Multiplikation mit n abändert. Dort, wo in Abbildung 4.9 auf den Ordinatenachsen die Zahl 1 steht (Summe aller relativen Häufigkeiten fi ), erscheint dann der Wert n (Summe der absoluten Häufigkeiten hi ). Bereits in Abbildung 4.4 wurde explizit anhand des dort dargestellten Stab- und Säulendiagramms verdeutlicht, dass sich absolute und relative Häufigkeitsverteilungen nur hinsichtlich der Skalierung der Ordinatenachse unterscheiden.
48
4 Univariate Häufigkeitsverteilungen
Der untere Teil von Abbildung 4.9 bezog sich auf eine empirische Verteilungsfunktion für ein diskretes Merkmal mit nur wenigen Merkmalsausprägungen. Da beim Würfeln mit einem Würfel nur wenige verschiedene Ausprägungen beobachtet werden können (maximal 6; hier waren es 4), kann die Verteilungsfunktion auch nur wenige Sprünge aufweisen. Abbildung 4.10 zeigt am Beispiel des diskreten Merkmals „Ausgang beim Roulettespiel“ eine Häufigkeitsverteilung, bei der eine deutlich größere Anzahl von Merkmalsausprägungen beobachtbar ist. Die Grafik weist im oberen Teil die relativen Häufigkeiten fi = f (ai ) für die 37 möglichen Ausgänge ai = i aus (i = 0, 1, 2, . . . , 36). Visualisiert werden die Ergebnisse von n = 100 Spielen. Der untere Teil der Grafik zeigt die durch Aufsummieren resultierende empirische Verteilungsfunktion F (x). Die Tabelle neben der Grafik gibt für einige Werte ai die zugehörigen relativen Häufigkeiten fi und die auch hier mit Fi bezeichneten Werte F (ai ) der empirischen Verteilungsfunktion an den Stellen x = ai wieder. Der Ausgang 0 trat bei dieser Serie von n = 100 Spielen nicht auf. Bei einem Datensatz für ein diskretes Merkmal, bei dem eine noch größere Anzahl von Ausprägungen möglich ist, kann die Verteilungsfunktion häufiger und in so kurzen Abständen springen, dass sie eventuell kaum noch als Sprungfunktion wahrzunehmen ist und als relativ glatter Kurvenzug erscheint. Bei Datensätzen für stetige Merkmale sind i. d. R. sogar alle Elemente des Datensatzes verschieden, so dass auch hier für die empirische Verteilungsfunktion bei größerem Umfang n des Datensatzes ein relativ glatter Kurvenzug resultierte, wenn man Häufigkeiten für die Originaldaten visualisierte. Hier wird man aber zweckmäßigerweise zu einer Klassenbildung übergehen und Klassenbesetzungshäufigkeiten darstellen, also ein Histogramm wählen. Die beiden Histogramme in Abbildung 4.5, die sich auf sehr große Datensätze für Bruttojahresverdienste von Arbeitnehmern in Spanien resp. Portugal beziehen, sind z. B. weitaus übersichtlicher und damit auch aussagekräftiger als eine Darstellung der Häufigkeiten für die originären Verdienstdaten in Euro und Cent.
5 Kenngrößen univariater empirischer Verteilungen 5.1 Lagemaße Häufigkeitsverteilungen für ungruppierte oder gruppierte Daten vermitteln einen Eindruck von der Gestalt der Verteilung eines Datensatzes. Die Histogramme in Abbildung 4.5 zur Verteilung von Bruttoverdiensten in zwei südeuropäischen Staaten zeigen z. B., dass die Verteilung der Daten in beiden Fällen eine deutliche Asymmetrie aufweist, also eine gewisse „Schiefe“ der Verteilung zu beobachten ist. Ferner sieht man bei beiden Teilgrafiken, dass das „Zentrum“ (oder der „Schwerpunkt“) der Einkommensverteilung für Portugal im Bereich kleinerer Werte liegt und auch die „Streuung“ hier geringer ist. Die Begriffe „Zentrum“, „Schwerpunkt“, „Streuung“ oder „Schiefe“ einer Verteilung sind zunächst unscharf und bedürfen der Präzisierung. Lage- und Streuungsparameter dienen dem Zweck, solche Befunde zu präzisieren und zu objektivieren. Es geht darum, die in einem Datensatz steckende Information zu wenigen Kenngrößen zu verdichten. Eine solche Informationsverdichtung ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden. So können zwei sehr unterschiedliche Datensätze einen ähnlichen Schwerpunkt oder eine vergleichbare Streuung aufweisen. Kenngrößen zur Beschreibung empirischer Verteilungen sind aber dennoch überaus wichtig. Sie liefern für einen gegebenen Datensatz nämlich wertvolle zusätzliche Informationen, die sich visuell aus der grafischen Darstellung einer empirischen Verteilung nicht immer ohne weiteres erschließen. Zur Charakterisierung des „Zentrums“ einer Verteilung werden Lageparameter herangezogen. Ein besonders leicht zu bestimmender Lageparameter ist der Modus oder Modalwert xmod . Dieser lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägungen nur Kategorien sind (qualitative Merkmale). Er ist definiert als die Merkmalsausprägung mit der größten Häufigkeit. Beispiel 5.1 Modus beim Datensatz zum ZDF-Politbarometer Beim Beispiel 4.1 (ZDF-Politbarometer vom 16. Oktober 2009, Merkmal „Parteipräferenz“) war die Ausprägung a1 (Präferenz für die CDU/CSU) mit der größten Häufigkeit verbunden, d. h. hier ist xmod = a1 . Anhand von Abbildung 4.4 lässt sich der Modus leicht bestimmen, weil die Häufigkeit h(a1 ) deutlich größer als alle anderen Häufigkeiten war. Wären zwei Häufigkeiten, z. B. h(a1 ) und h(a2 ) gleich groß, hätte man eine zweigipflige Häufigkeitsverteilung und es gäbe zwei Modalwerte (Modi). Der Modus ist also nur dann eindeutig erklärt, wenn die Häufigkeitsverteilung ein eindeutig bestimmtes Maximum aufweist.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_5, © Springer-Verlag Berlin Heidelberg 2011
49
Wofür werden Kenngrößen von Verteilungen benötigt?
50
5 Kenngrößen univariater empirischer Verteilungen
Ein weiterer Lageparameter ist der Median x e (lies: x-Schlange), der gelegentlich mit xmed abgekürzt wird und für den man auch die Bezeichnung Zentralwert findet. Der Median ist nur bei mindestens ordinalskalierten Merkmalen anwendbar, also bei Merkmalen, für deren Werte eine natürliche Rangordnung erklärt ist. Betrachtet sei also ein – noch nicht notwendigerweise geordnet vorliegender – Datensatz x1 , x2 , . . . , xn für ein solches Merkmal. Um zwischen dem ursprünglichen und dem geordneten Datensatz unterscheiden zu können, sei letzterer mit x(1) , x(2) , . . . , x(n) bezeichnet.1 Der Median ist dann, grob gesprochen, der „mittlere“ Wert des geordneten Datensatzes. Bei ungeradem n ist dies der eindeutig bestimmte Wert x( n+1 ) . Bei geradem n gibt es hingegen zwei 2 Werte x( n2 ) und x( n2 +1) , die die Mitte des Datensatzes repräsentieren. In diesem Falle ist der Median bei einem ordinalskalierten Merkmal nicht eindeutig bestimmt, sofern sich die beiden Werte x( n2 ) und x( n2 +1) voneinander unterscheiden. Bezieht sich der Datensatz hingegen auf ein metrisch skaliertes Merkmal, so bildet man aus den beiden zentralen Werten den Mittelwert. Der Median ist dann also definiert durch
x e=
( x( n+1 )
falls n ungerade
2
1 2
· (x( n2 ) + x( n2 +1) ) falls n gerade.
(5.1)
Der bekannteste Lageparameter ist der Mittelwert, der auch arithmetisches Mittel genannt und mit x abgekürzt wird (lies: x-quer ). Er ist nur bei metrisch skalierten Merkmalen anwendbar und ergibt sich, indem man alle Werte x1 , x2 , . . . , xn eines Datensatzes addiert und die resultierende Summe durch n dividiert:2 n 1 1 X x := · (x1 + x2 + . . . + xn ) = · xi . (5.2) n n i=1 Der Mittelwert berücksichtigt demnach alle Werte eines Datensatzes mit gleichem Gewicht n1 , während in die Berechnung eines Medians nur ein oder zwei zentrale Elemente eines Datensatzes eingehen. Wenn man also bei einem Datensatz den größten Wert xmax = x(n) deutlich vergrößert, hat dies nur auf den Mittelwert einen Effekt. Der Mittelwert reagiert demnach, anders als der Median, empfindlich gegenüber extremen Werten. Man spricht in diesem Zusammenhang von einer höheren Sensitivität oder auch von einer geringeren Robustheit des Mittelwerts gegenüber Ausreißern, d. h. gegenüber auffällig großen oder kleinen Beobachtungswerten. Java-Applet „Lageparameter“
Wenn man von jedem der Elemente x1 , x2 , . . . , xn eines Datensatzes den Mittelwert subtrahiert und aufsummiert, resultiert 0, d. h. die Summe der Abweichungen xi − x verschwindet: n X (5.3) (xi − x) = 0. i=1
Gleichung (5.3) beinhaltet, dass sich der Mittelwert als Schwerpunkt des Datensatzes interpretieren lässt. 1
Man kann auf die Notation x(1) , x(2) , . . . , x(n) verzichten, wenn man von der Annahme ausgeht, dass der Datensatz x1 , x2 , . . . , xn schon geordnet vorliegt. 2 Das Summenzeichen Σ und andere mathematische Symbole sind in Tabelle 22.3 erklärt. Unter dem Summenzeichen wird für den – in (5.2) mit „i“ bezeichneten – ganzzahligen Laufindex der Startwert angegeben, über dem Summenzeichen der letzte zu berücksichtigende Wert des Laufindexes.
5.1 Lagemaße
51
Beispiel 5.2 Median und Mittelwert für Daten zum Energieverbrauch In der Wochenzeitung „Die Zeit“, Ausgabe vom 11. 4. 2002, fand man in Ergänzung des Beitrags „Big Oil regiert“ von Th. Fischermann die nachstehende Tabelle mit umweltrelevanten Kennzahlen für die USA, Deutschland, Japan, China und Indien. Die Daten beziehen sich auf das Jahr 1999 und stammen von der Internationalen Energieagentur.
Land USA Deutschland Japan China Indien
Erdölverbrauch Stromverbrauch CO2 -Emissionen (in t/Kopf) (in 1000 kWh/Kopf) (in t/Kopf) 8,32 4,11 4,07 0,87 0,48
13,45 6,48 8,13 0,91 0,42
20,46 10,01 9,14 2,40 0,91
Tab. 5.1: Umweltrelevante Daten für fünf Staaten
Man erkennt, dass die USA vergleichsweise großzügig Energie verbrauchen und CO2 emittieren. Gedanklich stelle man sich 5 Personen vor, je eine Person aus den Ländern USA, Deutschland, Japan, China und Indien, für die jeweils die in Tabelle 5.1 angegebenen Verbrauchs- und Emissionswerte zutreffen, die also bezüglich der drei Merkmale als typische Vertreter ihrer Länder gelten können. Für diese kleine Personengruppe lässt sich dann der „mittlere“ Pro-Kopf-Verbrauch für Öl und Strom bzw. eine „mittlere“ CO2 -Emission ermitteln, wobei man den Median oder den Mittelwert des jeweiligen Datensatzes heranziehen kann. Es seien hier die Daten für das metrisch skalierte Merkmal „Stromverbrauch / Kopf“ (in 1000 kWh) in der mittleren Spalte von Tabelle 5.1 betrachtet. Um den Median zu errechnen, sind die Werte x1 = 13, 45, x2 = 6, 48, x3 = 8, 13, x4 = 0, 91 , x5 = 0, 42 zunächst nach Größe zu ordnen. Aus der resultierenden Folge x(1) = 0, 42, x(2) = 0, 91, x(3) = 6, 48, x(4) = 8, 13, x(5) = 13, 45 ergibt sich der Median für den hier vorliegenden Fall n = 5 nach (5.1) als x e = x(3) = 6, 48. Würde man bei dem ursprünglichen Datensatz den Wert x5 = 0, 42 für Indien unberücksichtigt lassen, den Median also nur auf der Basis der Datenreihe x1 , . . . , x4 ermitteln, erhielte man für x e den Wert x e = 12 · (x(2) + x(3) ) = 7, 305. Bestimmt man mit denselben Ausgangsdaten den Mittelwert, so erhält man nach (5.2) den Wert x = 15 · 29, 39 = 5, 878. Würde man für x1 anstelle von 13, 45 z. B. den 10-fach größeren Wert 134, 50 einsetzen, bliebe der Median unverändert bei x e = 6, 48, während sich für den Mittelwert nun x = 15 · 150, 44 = 30, 088 ergäbe. Die Berechnung des Mittelwerts kann etwas einfacher bewerkstelligt werden, wenn Merkmalswerte mehrfach auftreten. Hat man für ein diskretes Merkmal X mit den Ausprägungen a1 , . . . , ak insgesamt n Beobachtungswerte x1 , . . . , xn (n > k), so würde die
52
Alternative Berechnung des Mittelwerts
5 Kenngrößen univariater empirischer Verteilungen
Anwendung von (5.2) implizieren, dass n Werte zu addieren sind. Anstelle der Urliste kann man hier für die Berechnung des Mittelwerts auch die relative Häufigkeitsverteilung f (a1 ), . . . , f (ak ) verwenden und x nach x := a1 · f1 + a2 · f2 + . . . + ak · fk =
k X
ai · fi
(5.4)
i=1
als Summe von nur k Termen berechnen. Der Mittelwert x lässt sich also alternativ als Summe der mit den relativen Häufigkeiten fi gewichteten Ausprägungen ai ermitteln (i = 1, 2, . . . , k). Die Formel (5.4) lässt sich in leicht modifizierter Fassung auch zur Berechnung des Mittelwerts bei gruppierten Daten verwenden. Man hat nur die Ausprägungen ai durch die Mitte mi der Klassen zu ersetzen und die Häufigkeiten fi sind dann die relativen Klassenbesetzungshäufigkeiten.
Beispiel 5.3 Bestimmung des Mittelwerts bei einem Würfelexperiment In Abbildung 4.9 wurde das Ergebnis eines 10 Würfe umfassenden Würfelexperiments veranschaulicht, bei dem vier Mal die 1, zwei Mal die 4, drei Mal die 5 und einmal die 6 beobachtet wurde. Nach (5.2) erhält man für x den Wert x=
1 1 · (1 + 1 + 1 + 1 + 4 + 4 + 5 + 5 + 5 + 6) = · 33 = 3, 3. 10 10
Zieht man bei der Berechnung des Mittelwerts (5.4) heran, resultiert mit den neben Abbildung 4.9 tabellierten relativen Häufigkeiten fi = f (ai ) x = 1 · 0, 4 + 2 · 0 + 3 · 0 + 4 · 0, 2 + 5 · 0, 3 + 6 · 0, 1 = 3, 3. Die Vorteile der Formel (5.4) verstärken sich, wenn für n ein im Vergleich zu k noch größerer Wert gewählt wird, z. B. bei einem Würfelexperiment n = 1000 Würfe. Gibt es einen „besten“ Lageparameter?
Welchen der vorgestellten Lageparameter sollte man aber verwenden? Hierzu gibt es keine allgemeingültige Ausage. Die Antwort hängt sowohl von der Skalierung des Merkmals ab als auch von der jeweiligen Fragestellung. Bei einem nominalskalierten Merkmal kann man nur den Modalwert verwenden. Bei einem metrisch skalierten Merkmal hat man schon drei Alternativen, nämlich den Modalwert, den Median und den Mittelwert und es ist zu überlegen, wie robust die zu berechnende Kenngröße gegenüber Extremwerten sein soll. Bei einem kleinen Datensatz für das Merkmal „Bruttoverdienst“ (in Euro / Stunde) kann z. B. ein einziger Extremwert den Mittelwert erheblich beeinflussen. Hier kann dann der Median aussagekräftiger sein, während der Modalwert i. a. wenig Information liefert, vor allem wenn die Verdienste auf Cent genau ausgewiesen werden. Bei metrisch skalierten Daten wird oft nicht nur ein Lageparameter berechnet, weil ein zweiter Parameter, etwa der Median zusätzlich neben dem Mittelwert, noch zusätzliche Information über die empirische Verteilung eines Datensatzes liefern kann. Bei einer
5.1 Lagemaße
53
Einkommensverteilung kann man z. B. x und x e vergleichen und hieraus Aussagen zur Symmetrie oder Asymmetrie der Verteilung ableiten.
Beispiel 5.4 Irreführende Presseberichte zum realen Haushaltseinkommen Im März 2005 veröffentlichte das Institute for Fiscal Studies (IFS), ein unabhängiges Wirtschaftsforschungsinstitut in Großbritannien, einen Bericht „Poverty and Inequality in Britain“, in dem u. a. angeführt wurde, dass das mittlere verfügbare Hauseinkommen („average take-home income“) im Land im Zeitraum 2003/04 gegenüber dem Vorjahreszeitraum abgenommen habe, zum ersten Mal seit Beginn der 90-er Jahre, und zwar um 0, 2 % auf nunmehr 408 Britische Pfund. Dieser Befund wurde von der Presse sehr kritisch kommentiert, so dass schließlich Gordon Brown, der damalige Schatzkanzler und spätere Premierminister, unter Druck geriet und Stellung beziehen musste. Die von den Medien aufgegriffene Information bezog sich auf den Mittelwert der Variablen „verfügbares Hauseinkommen“. Der Bericht führte aber auch an, ohne dass dies allerdings von den Journalisten aufgegriffen wurde, dass der Median im fraglichen Zeitraum um 0, 5 % gestiegen war und jetzt 336 Britische Pfund betrug. Der Median wäre aber zur Charakterisierung des „durchschnittlichen“ Haushaltseinkommens weitaus geeigneter als der Mittelwert, weil Einkommensverteilungen asymmetrisch sind und der Mittelwert hier durch extrem hohe und für die Grundgesamtheit eher untypische Werte stark beeinflusst werden kann. Man erkennt dies z. B. am Beispiel der Abbildung 4.5. Diese zeigte zwei Einkommensverteilungen und zusätzlich – oberhalb der Grafiken – den aus den Individualdaten errechneten Mittelwert sowie drei Dezile, von denen eines der dort mit D5 bezeichnete Median war. Bloßes Betrachten der Abbildungen macht schon deutlich, dass der Mittelwert für die betrachteten Grundgesamtheiten weniger repräsentativ als der Median ist. Der Anstieg des Medians um 0, 5 % war also bei dem IFS-Bericht die weitaus aussagekräftigere und positiv zu bewertende Information. Sie beinhaltete nämlich, dass der Wert, der die unteren 50 % der Haushaltseinkommen von den oberen 50 % trennte, sich leicht nach oben verschoben hatte, d. h. die Ungleichheit der Verteilung der Haushaltseinkommen hatte leicht abgenommen. 3 Dass die Journalisten den Report negativ kommentierten, lag entweder daran, dass sie zwischen Mittelwert und Median nicht recht zu unterscheiden wussten oder aber unterstellten, dass dies für die Leser zutrifft. Statistische Methodenkompetenz ist offenbar eine Voraussetzung dafür, besser gegenüber unscharfen oder manipulativen Darstellungen statistischer Sachverhalte in den Medien gefeit zu sein.
3
Dieser Befund schlug sich im Bericht in einer leichten Zunahme des Gini-Koeffizienten nieder, der neben dem Quotienten von Dezilen, etwa D9 D1 , als Maß für Einkommensungleichheiten Verwendung findet (vgl. hierzu Kapitel 6).
Gordon Brown. Quelle: World Economic Forum
54
5 Kenngrößen univariater empirischer Verteilungen
Exkurs 5.1
Weitere Lageparameter
Mittelwert und Median sind Lösungen unterschiedlicher Minimierungsprobleme. Der Mittelwert hat die Eigenschaft, für einen gegebenen Datensatz x1 , x2 , . . . , xn denjenigen Wert z zu repräsentieren, der die Summe der quadrierten Abweichungen (xi − z)2 minimiert: z=x:
n X
(xi − z)2 → M in.
i=1
Der Median minimiert hingegen die Summe der absoluten Abweichungen |xi − z|: n X
z=x e:
|xi − z| → M in.
i=1
Einen Beweis dieser Aussagen findet man z. B. bei Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 2.2.1) oder Burkschat / Cramer / Kamps (2004, Abschnitt 3.2). Neben den vorgestellten Kenngrößen zur Charakterisierung der Lage empirischer Verteilungen gibt es für metrisch skalierte Merkmale noch einige weitere Lageparameter. Zu nennen ist hier vor allem das gewichtete arithmetische Mittel, bei dem die Werte x1 , x2 , . . . , xn eines Datensatzes, anders als beim ungewichteten „gewöhnlichen“ Mittelwert (5.2), mit unterschiedlichen Gewichten versehen werden. Will man z. B. anhand der Stromverbrauchsdaten aus Tabelle (5.1) den mittleren Stromverbrauch für alle Einwohner der 5 in der Tabelle aufgeführten Länder berechnen, also nicht nur für eine modellhafte Gruppe von fünf Ländervertretern, so bezöge sich die Mittelwertbildung auf einen Datensatz, dessen Umfang n durch die Summe n1 +n2 +n3 +n4 +n5 der Bevölkerungszahlen aller 5 Länder gegeben wäre. Damit Länder mit sehr unterschiedlichen Bevölkerungszahlen, etwa China und Deutschland, bei der Bildung des Mittelwerts angemessen berücksichtigt werden, wird der Wert xi für ein Land jeweils mit dem als Gewichtungsfaktor fungierenden Wert ni multipliziert. Zu erwähnen ist ferner das getrimmte arithmetische Mittel. Dieses lässt einen kleineren Anteil der Randdaten x(1) , x(2) , . . . , x(n) eines nach aufsteigender Größe geordneten Datensatzes unberücksichtigt. Wenn dieser Anteil α beträgt, spricht man auch von einem α-getrimmten Mittelwert und kürzt diesen mit xα ab. Bei der Berechnung von xα werden die unteren und oberen α2 · 100% des geordneten Datensatzes vor der Mittelwertberechnung eliminiert. Dies führt dazu, dass getrimmte Mittelwerte, ähnlich wie der Median, robuster gegenüber Extremwerten (Ausreißerdaten) sind. Als weiterer Lageparameter ist das geometrische Mittel xg zu nennen. Dieses wird für Datensätze x1 , x2 , . . . , xn verwendet, die Veränderungsraten repräsentieren, z. B. zur Quantifizierung von Wachstumsraten bei Unternehmensgewinnen oder von Lernzuwächsen, die anhand lernpsychologischer Experimente bestimmt werden. Das geometrische Mittel errechnet sich als xg =
√ n
x1 · x2 · . . . · xn .
3
5.2 Streuungsmaße
55
5.2 Streuungsmaße Ein Datensatz definiert eine empirische Verteilung eines Merkmals. Im vorigen Abschnitt wurde illustriert, dass eine solche Verteilung ein „Zentrum“ besitzt, das man anhand einer oder mehrerer Kenngrößen charakterisieren kann. Bei einem metrisch skalierten Merkmal stehen vor allem der Modalwert, der Median und der Mittelwert zur Verfügung, wobei man hier i. a. den Mittelwert oder den Median verwenden wird. Die Kenntnis des Schwerpunktes reicht aber nicht aus, um einen Datensatz zu beschreiben. Zwei Datensätze können in den Lageparametern übereinstimmen und sich dennoch bezüglich der Variation der Merkmalswerte deutlich unterscheiden. Hat man z. B. einen Datensatz x1 , x2 , . . . , xn mit Mittelwert x, so lässt die alleinige Kenntnis von x offen, ob die einzelnen Elemente des Datensatzes alle sehr nahe am Mittelwert liegen, mit ihm gar alle übereinstimmen oder von x stark nach oben und unten abweichen und sich nur „ausmitteln“. Zur Charakterisierung von Merkmalen, für die Abstände zwischen Merkmalsausprägungen erklärt sind, also bei quantitativen Merkmalen (metrische Merkmalsskalierung), muss man somit noch Kenngrößen heranziehen, die die Streuung innerhalb des Datensatzes messen. Ein besonders einfaches Streuungsmaß für metrisch skalierte Merkmale ist die Spannweite R eines Datensatzes.4 Um diese zu berechnen, ordnet man – wie bei der Berechnung des Medians x e – den Datensatz zunächst nach aufsteigender Größe. Die Spannweite ergibt sich dann aus dem geordneten Datensatz x(1) , x(2) , . . . , x(n) als Differenz aus dem größten Wert x(n) und dem kleinsten Wert x(1) : R := x(n) − x(1) .
(5.5)
Die Spannweite hat den Nachteil, dass sie eine hohe Empfindlichkeit bzw. eine geringe Robustheit gegenüber Ausreißern besitzt. Ändert man in einem Datensatz den maximalen oder den minimalen Wert stark, wirkt sich dies auch massiv auf den Wert von R aus. Ein sehr häufig verwendetes Maß für die Streuung eines Datensatzes ist die Varianz oder Stichprobenvarianz s2 , die auch empirische Varianz genannt wird.5 In die Varianz gehen die Abweichungen xi − x der Merkmalswerte vom Mittelwert x ein; i = 1, 2, . . . , n. Wegen (5.3) kommt die Verwendung des Mittelwerts aus allen Abweichungen xi − x nicht in Betracht. Die Varianz bildet statt dessen den Mittelwert aus den quadrierten Abweichungen (xi − x)2 , d. h. es gilt s2 :=
n 1 X 1 · (x1 − x)2 + (x2 − x)2 + . . . + (xn − x)2 ) = · (xi − x)2 . n n i=1
(5.6)
Bei der Varianzberechnung kann die nachstehende Darstellung nützlich sein, bei der 4
Die Abkürzung „R“ leitet sich aus dem englischen Wort „range“ für Spannweite her. Die Verwendung eines Großbuchstabens „R“ trägt dazu bei, dass Verwechslungen mit dem Korrelationskoeffizienten r nach Bravais-Pearson (s. Abschnitt 9.2) vermieden werden. 5 Das Verhalten von Zufallsvariablen wird in Kapitel 11 - 12 anhand von Modellen (Wahrscheinlichkeitsverteilungen) charakterisiert. Hier spricht man von theoretischen Verteilungen und diese lassen sich ebenfalls anhand von Lage- und Streuungsparametern beschreiben, z. B. anhand des Erwartungswerts µ (lies: mü) und der theoretischen Varianz σ 2 (lies: sigma-Quadrat). Kenngrößen empirischer und theoretischer Verteilungen sollten jedenfalls mit unterschiedlichen Notationen belegt sein.
Warum braucht man auch Kenngrößen für die Streuung von Datensätzen?
56
5 Kenngrößen univariater empirischer Verteilungen
x2 das arithmetische Mittel der quadrierten Elemente x21 , . . . , x2n des Datensatzes bezeichnet: 6 s2 =
n 1 X 2 · x − x2 = x2 − x2 . n i=1 i
(5.7)
Die Darstellung (5.7) geht aus (5.6) hervor, wenn man dort den quadrierten Term (xi − x)2 hinter dem Summenzeichen ausmultipliziert (binomische Formel) und die Summierung dann gliedweise vornimmt. Java-Applet „Lage und Streuungsparameter“
Die Varianz s2 ist ein quadratisches Streuungsmaß. Sind die Originaldaten z. B. Werte in cm oder in sec, so wird die Varianz in cm2 bzw. in sec2 gemessen. Die Kenngröße (5.6) geht in ein lineares Streuungsmaß über, wenn man die Wurzel zieht. Man erhält so die Standardabweichung oder, genauer, die empirische Standardabweichung v u n p u1 X t (5.8) s := · (xi − x)2 = x2 − x2 n i=1 des Datensatzes. Diese wird – wie auch Median x e und Mittelwert x – in der Einheit angegeben, in der die Ausgangsdaten gemessen werden. Die Standardabweichung ist daher im Vergleich zur Varianz ein wesentlich anschaulicheres Streuungsmaß.
Vorsicht: Uneinheitliche Definition von Varianz und Standardabweichung
Die Bezeichnungen für Varianz und Standardabweichung eines Datensatzes sind in der Lehrbuchliteratur leider nicht einheitlich. Häufig wird für die Varianz anstelle von (5.6) 1 eine Formel verwendet, bei der vor dem Summenterm anstelle von n1 der Term n−1 steht. ∗2 Das dann resultierende und hier mit s abgekürzte Streuungsmaß s∗2 :=
n X 1 n · (xi − x)2 = · s2 . n − 1 i=1 n−1
(5.9)
wird korrigierte Varianz oder korrigierte Stichprobenvarianz genannt (vgl. auch Mosler / Schmid (2009, Abschnitt 5.1.4)). Durch Wurzelziehen geht aus (5.9) die korrigierte Standardabweichung s∗ hervor. Die korrigierte Varianz wird beim Schätzen und Testen anstelle von (5.7) bevorzugt verwendet, weil sie – wie mit (14.8) und (14.9) noch gezeigt wird – günstigere Eigenschaften besitzt. Die Division durch n − 1 wird jedenfalls erst im Kontext der schließenden Statistik nachvollziehbar; sie lässt sich im Rahmen der beschreibenden Statistik nicht motivieren. Wichtig ist aber, dass man bei Verwendung eines Taschenrechners oder einer Statistiksoftware weiß, welche Formel der Berechnungsprozedur zugrunde lag. In diesem Manuskript werden die Bezeichnungen „Varianz“ und „Standardabweichung“ für Kenngrößen eines Datensatzes stets auf (5.6) bzw. (5.7) bezogen und mit s2 bzw s n abgekürzt. Aus der Varianz s2 kann man wegen s∗2 = n−1 ·s2 leicht die korrigierte Varianz 6
Sind mehrere Merkmale im Spiel, etwa X und Y , so kann man zwischen den empirischen Varianzen und Standardabweichungen durch Verwendung tiefgestellter Indizes differenzieren, etwa s2x und s2y im Falle der Varianzen.
5.2 Streuungsmaße
57
s∗2 berechnen und umgekehrt. Die Unterschiede zwischen beiden Größen verschwinden mit zunehmendem n, können aber bei kleinem n durchaus ins Gewicht fallen. 7 Beispiel 5.5 Spannweite und Standardabweichung (Stromverbrauchsdaten) Geht man erneut vom Datensatz zum Pro-Kopf-Strom-Verbrauch in den USA, Deutschland, Japan, China resp. Indien aus (mittlere Spalte in Tabelle 5.1), so ist dieser für die Berechnung von R zunächst in die geordnete Folge x(1) = 0, 42, x(2) = 0, 91, x(3) = 6, 48, x(4) = 8, 13, x(5) = 13, 45 zu überführen. Es errechnet sich dann R = 13, 45 − 0, 42 = 13, 03. Würde man bei dem ursprünglichen Datensatz den Wert 13, 45 für die USA z. B. auf den Wert 8, 13 von Japan herabsetzen, hätte dies für die Spannweite einen erheblichen Effekt. Es resultierte nun für R der Wert R = 8, 13 − 0, 42 = 7, 71. Bei der Berechnung der empirischen Varianz nach (5.6) werden die Originaldaten um den Mittelwert x = 5, 878 vermindert und die resultierenden Mittelwertabweichungen quadriert, aufsummiert und durch n = 5 dividiert. Man erhält so bei Rundung auf drei Nachkommastellen s2 =
1 · 7, 5722 + 0, 6022 + 2, 2522 + (−4, 968)2 + (−5, 458)2 ≈ 23, 448. 5
Geht man alternativ von (5.7) aus, erhält man, wenn man wieder auf drei Dezimalstellen rundet und auf den in Beispiel 5.2 errechneten Mittelwert x = 5, 878 zurückgreift die etwas kürzere Rechnung s2 =
1 · 289, 9943 − 5, 8782 ≈ 57, 999 − 34, 551 = 23, 448. 5
Für die Standardabweichung folgt mit (5.8) r 1 s= · [7, 5722 + 0, 6022 + 2, 2522 + (−4, 968)2 + (−5, 458)2 ] ≈ 4, 842. 5 Die korrigierte empirische Varianz errechnet sich nach (5.9) als s∗2 = 54 · s2 ≈ 29, 310. Der Unterschied zu s2 ≈ 23, 448 ist deutlich, weil der Umfang n des Datensatzes hier klein ist (n = 5).
7
In EXCEL wird eine Prozedur zur Berechnung der empirischen Standardabweichung s gemäß (5.7) angeboten und zusätzlich eine für die korrigierte Standardabweichung s∗ . Bei der Statistiksoftware SPSS wird hingegen bei der Berechnung von Varianz und Standardabweichung eines Datensatzes stets durch n − 1 dividiert. SPSS bezeichnet ein in den Sozialwissenschaften und in der Psychologie häufig verwendetes Statistik-Softwarepaket (die Abkürzung stand anfangs für S tatistical Package for the S ocial S ciences), das seit Herbst 2010 in der Version 19 vorliegt. Als Alternative zu kommerzieller Statistiksoftware wird bei der statistischen Analyse von Daten zunehmend R eingesetzt – eine kostenfreie und sehr leistungsfähige Statistik-Software und Programmierumgebung.
58
Alternative Berechnung der Varianz
5 Kenngrößen univariater empirischer Verteilungen
Wie bei der Berechnung des Mittelwertes x kann man auch bei der Ermittlung der Varianz im Falle mehrfach auftretender Merkmalswerte auf relative Häufigkeiten zurückgreifen. Liegt für ein diskretes Merkmal X mit den Ausprägungen a1 , . . . , ak eine größere Anzahl n von Beobachtungswerten x1 , . . . , xn vor (n > k), so wären bei der Anwendung von (5.7) n Mittelwertabweichungen xi − x zu quadrieren. Statt der Abweichungen xi − x der Urwerte vom Mittelwert kann man alternativ die Abweichungen ai − x der Merkmalsausprägungen vom Mittelwert heranziehen und deren Quadrate mit den Elementen fi der relativen Häufigkeitsverteilung f1 = f (a1 ), . . . , fk = f (ak ) gewichten. Man erhält so für s2 die zu (5.4) analoge alternative Berechnungsformel 2
2
2
2
s = (a1 − x) · f1 + (a2 − x) · f2 + . . . + (ak − x) · fk =
k X
(ai − x)2 · fi ,
(5.10)
i=1
bei der sich die Summenbildung auf nur k Terme bezieht. Auch diese Formel lässt sich zur Varianzberechnung bei gruppierten Daten heranziehen, wenn man die Ausprägungen ai durch die Mitte mi der Klassen ersetzt. Die Häufigkeiten fi entprechen dann wieder den relativen Besetzungshäufigkeiten der einzelnen Klassen.
Beispiel 5.6 Varianz bei einem Würfelexperiment Es sei noch einmal der Datensatz {1, 1, 1, 1, 4, 4, 5, 5, 5, 6} zugrunde gelegt, der den Ausgang des in Abbildung 4.9 veranschaulichten Würfelexperiments beschreibt (Augenzahlen bei 10 Würfen mit einem Würfel). In Beispiel 5.3 war auf der Basis dieser 10 Werte der Mittelwert x = 3, 3 berechnet worden und zwar anhand der Urwerte und alternativ unter Verwendung der relativen Häufigkeiten. Wenn man die Varianz s2 unter Rückgriff auf die Urwerte berechnet, kann man (5.6) oder (5.7) verwenden. Bei Verwendung von (5.7) ergibt sich Aufgabe 5.1
s2 =
1 · 147 − 3, 32 = 14, 70 − 10, 89 = 3, 81. 10
Zieht man bei der Berechnung der Varianz des Datensatzes (5.10) heran, resultiert s2 : = (−2, 3)2 · 0, 4 + (−1, 3)2 · 0 + (−0, 3)2 · 0 + 0, 72 · 0, 2 + 1, 72 · 0, 3 + 2, 72 · 0, 1 = 2, 116 + 0, 098 + 0, 867 + 0, 729 = 3, 81.
Standardisierung von Datensätzen
Wenn man Datensätze x1 , x2 , . . . , xn , die sich auf Messungen in unterschiedlichen Grundgesamtheiten beziehen oder die mit unterschiedlichen Messinstrumenten gewonnen wurden, direkt vergleichbar machen will, kann man von jedem Element eines Datensatzes jeweils dessen Mittelwert x subtrahieren und die Differenz noch durch die Standardabweichung s oder die korrigierte Standardabweichung s∗ dividieren. Es resultieren neue Datensätze y1 , y2 , . . . , yn mit Mittelwert y = 0 und Standardabweichung s = 1 resp. s∗ = 1. Solche Transformationen sind z. B. sinnvoll, wenn man Intelligenzmessungen in unterschiedlichen Grundgesamtheiten durchführen oder schulische Leistungen anhand unterschiedlicher Fragebögen messen will. Die beschriebene Transformation wird in der
5.3 Quantile und Boxplots
59
Psychologie und in den Sozialwissenschaften auch z-Transformation genannt. Sie ist das empirische Analogon zu der in Abschnitt 12.2 dieses Manuskripts noch ausführlicher behandelten Transformation (12.11), die zur Standardisierung von Zufallsvariablen herangezogen wird. Exkurs 5.2
Verhalten der Kenngrößen bei Lineartransformation
Varianz s2 und Standardabweichung s sind Streuungsmaße, die sich auf Abweichungen xi −x vom Mittelwert eines Datensatzes für ein metrisch skaliertes Merkmal beziehen. Ein alternatives Streuungsmaß ist die mittlere absolute Abweichung vom Median . Dieses oft mit d abgekürzte Maß basiert auf Abweichungen xi − x e vom Median, bildet aber nicht den Mittelwert aus den Quadraten, sondern aus den Absolutbeträgen dieser Abweichungen: n
d :=
1X |xi − x e| n i=1
Wenn man die Daten xi für ein quantitatives Merkmal einer Transformation yi = a+b·xi unterzieht, so werden Median und Mittelwert sowie die Standardabweichung in gleicher Weise transformiert, d. h es gilt z. B. für den Mittelwert y der transformierten Daten die Beziehung y = a+b ·x. Auf die Varianz und die Standardabweichung wirkt sich die Niveauverschiebung a nicht aus; nur der Wert von b ist hier relevant. Bezeichnet man die empirische Varianz des ursprünglichen Merkmals X mit s2x und die des transformierten Merkmals Y mit s2y , so gilt s2y = b2 · s2x und sy = |b| · sx . Mediane, Mittelwerte und Standardabweichungen von Datensätzen sind also vom Maßstab abhängig. Für quantitative Merkmale mit nicht-negativen Ausprägungen wird oft der durch v :=
s x
definierte Variationskoeffizient verwendet (maßstabsunabhängiges Streuungsmaß).
3
5.3 Quantile und Boxplots Der für ein metrisch oder mindestens ordinalskaliertes Merkmal erklärte Median x e hat die Eigenschaft, dass mindestens 50% der nach Größe geordneten Elemente x(1) , x(2) , . . . , x(n) eines Datensatzes kleiner oder gleich und mindestens 50% größer oder gleich x e sind. Bei den 5 Werten in der mittleren Spalte von Tabelle 5.1 war der Median z. B. durch x e = x(3) = 6, 48 gegeben und je 3 der 5 Elemente in dieser Spalte, d. h. 60% der Werte, waren kleiner oder gleich resp. größer oder gleich x e. Bei ordinalskaliertem Merkmal ist x e nicht immer eindeutig bestimmt. Bei metrischer Skalierung gilt dies im Prinzip auch; hier lässt sich aber über (5.1) eine eindeutige Festlegung erreichen. Der Median markiert also die „Mitte“ eines Datensatzes. Eine Verallgemeinerung des Medians ist das p-Quantil. Auch dieses setzt wieder ein metrisch oder zumindest ordinalskaliertes Merkmal voraus. Ein p-Quantil wird mit xp abgekürzt und hat die Eigenschaft, dass mindestens p · 100% der Elemente der geordneten Folge x(1) , x(2) , . . . , x(n)
Verallgemeinerung des Medians
60
5 Kenngrößen univariater empirischer Verteilungen
kleiner oder gleich und mindestens (1 − p) · 100% größer oder gleich xp sind.8 Abbildung 5.1 veranschaulicht diese Definition.
Anteil p x(1) x(2)
xp
Anteil 1 − p x(n−1) x(n)
Merkmalswerte
Abb. 5.1: Veranschaulichung des p-Quantils
Auch das p-Quantil ist bei einem ordinalskalierten Merkmal i. d. R. nicht eindeutig bestimmt. Bei metrischer Merkmalsskalierung kann, analog zur Definition des Medians, eine eindeutige Bestimmbarkeit erreicht werden, wenn das arithmetische Mittel derjenigen zwei Merkmalsausprägungen herangezogen wird, zwischen denen das p-Quantil liegt. Bezeichne [np] die größte ganze Zahl, die kleiner oder gleich np ist. Es ist dann [np] + 1 die kleinste ganze Zahl, die größer als np ist.9 Mit dieser Notation kann xp bei einem metrisch skalierten Merkmal in Verallgemeinerung von (5.1) definiert werden durch (vgl. z. B. Burkschat / Cramer / Kamps (2004, Abschnitt 3.2). ( xp = Spezielle Quantile
x([np]+1) falls np nicht ganzzahlig 1 · (x(np) + x(np+1) ) falls np ganzzahlig. 2
(5.11)
Der Median ist demnach ein spezielles Quantil, nämlich das 0, 5-Quantil. Weitere wichtige Quantile sind das 0, 25-Quantil und das 0, 75-Quantil, die unteres Quartil resp. oberes Quartil genannt werden. Abbildung 5.2 veranschaulicht diese drei Spezialfälle. Die häufig mit Q abgekürzte Differenz der beiden Quartile x0,75 und x0,25 , also Q := x0,75 − x0,25 ,
Flash-Animation „Quantile“
Wie erkennt man eine asymmetrische Verteilung?
(5.12)
wird Quartilsabstand genannt. Sie wird in manchen Lehrbüchern auch als Interquartilsabstand IQR angesprochen (engl: interquartile r ange). Ferner sind noch die Dezile zu nennen, die sich bei Wahl von p = 0, 1, p = 0, 2, . . . , p = 0, 9 ergeben und oft mit D1, D2, ..., D9 abgekürzt werden. Der Median x e = x0,5 stimmt also mit dem Dezil D5 überein. In Abbildung 4.5 waren für spanische und portugiesische Arbeitnehmer Bruttojahresverdienste in Form von Histogrammen visualisiert, wobei über den Histogrammen jeweils die aus den Originaldaten (ungruppierte Daten) errechneten Dezile D1 und D9 sowie der Median D5 = x e und der Mittelwert x wiedergegeben war. Das ebenfalls ausgewiesene Verhältnis D9 der extremen Dezile liefert eine Information über den Grad der D1 Ungleichheit der Verdienste in der betrachteten Grundgesamtheit von Arbeitnehmern – 8
Die Notation für Quantile ist in der Literatur nicht ganz einheitlich. Man findet z. B. auch die Schreibweise x ep anstelle von xp ; vgl. z. B. Steland (2010, Abschnitt 1.6.4) oder Toutenburg / Heumann (2009, Abschnitt 3.1.2) 9 Die auf Carl Friedrich Gauß zurückgehende Funktion f (x) = [x] wird Gauß-Klammer-Funktion oder Abrundungsfunktion genannt. Sie ist eine für alle reellen Zahlen erklärte Treppenfunktion mit Sprungstellen bei jeder ganzen Zahl (Sprunghöhe 1). Es ist z. B. [3, 8] = 3.
5.3 Quantile und Boxplots
61 x0,5
Anteil 1 − p = 0, 5
x(1) x(2)
x(n−1) x(n)
Merkmalswerte
Anteil p = 0, 5
x0,25
Anteil 1 − p = 0, 75
x(1) x(2)
x(n−1) x(n)
Merkmalswerte
Anteil p = 0, 25
x0,75
x(1) x(2)
Anteil 1 − p = 0, 25
x(n−1) x(n)
Merkmalswerte
Anteil p = 0, 75
Abb. 5.2: Median x0,5 , unteres Quartil x0,25 und oberes Quartil x0,75 als spezielle Quantile
hohe Werte des Quotienten sprechen für eine ausgeprägte Ungleichheit. Man erkennt natürlich schon anhand der Grafiken, dass sich der überwiegende Teil der in Abbildung 4.5 veranschaulichten Verdienste, insbesondere bei der Grafik für Portugal, in den unteren Einkommensbereichen bewegen, d. h. der überwiegende Teil der Daten ist linksseitig konzentriert – hier sind höhere Klassenbesetzungshäufigkeiten und damit ein steilerer Abfall der Verteilung zu beobachten. Man spricht dann von einer linkssteilen Verteilung. Eine rechtssteile Verteilung würde hingegen an der rechten Flanke steiler abfallen. In beiden Fällen liegt eine asymmetrische Verteilung vor. Die Nicht-Übereinstimmung von Median und Mittelwert einer empirischen Verteilung ist ebenfalls schon ein Indiz für eine Asymmetrie der betreffenden Verteilung. Ein sehr aussagekräftiges grafisches Instrument zur Beurteilung einer empirischen Verteilung (Zentrum, Streuung, Asymmetrie) ist der sog. Boxplot („Schachtelzeichnung“). Dieser fasst in seiner einfachsten Form fünf Charakteristika eines Datensatzes zusammen, nämlich die beiden Extremwerte xmin = x(1) und xmax = x(n) , deren Differenz x(n) − x(1) nach (5.5) die Spannweite R darstellt, die beiden Quartile x0,25 und x0,75 sowie den Median x0,5 . Die beiden Quartile definieren die Länge einer Box („Schachtel“), in der noch der Median in Form eines Strichs oder Punktes markiert ist. Die Box wird mit den Extremwerten durch Linien verbunden (sog. „whisker“, übersetzt: Schnurrhaare), deren Ende durch einen Strich markiert wird. Die Länge der Box entspricht also dem Quartilsabstand Q. Abbildung 5.3 veranschaulicht die Konstruktion. Innerhalb der Box liegen etwa 50% der Daten, unterhalb und oberhalb der Box jeweils ca. 25%. Der Median liefert eine Information zum Zentrum des Datensatzes. Manchmal wird neben dem Median auch noch der Mittelwert innerhalb der Box dargestellt. Bei einer symmetrischen Verteilung liegt der Median genau in der Mitte der Box.
Boxplots: - Basisvariante
Aufgabe 5.2
62
5 Kenngrößen univariater empirischer Verteilungen x(1) x(2)
x0,25
x(n−1)
x0,5
x(n)
Merkmalswerte
x0,75
Spannweite
Abb. 5.3: Aufbau eines Boxplots (Basisversion)
- Modifikation (Visualisierung von Ausreißern)
Abbildung 5.3 zeigt nur die einfachste Boxplot-Variante. Häufig wird eine andere, hier nur der Vollständigkeit halber erwähnte Version mit gleichem Aufbau der Box, aber anderer Begrenzung der an der Box angebrachten Linien verwendet. Statt die Linien stets genau bis zu den Extremwerten zu führen, kann man auch so verfahren, dass man die Linien nur dann bis zu den Extremwerten zeichnet, wenn deren Abstand zur Box nicht größer ist als das 1, 5-fache des Interquartilabstands IQR. Die an der Box angesetzten Linien werden andernfalls auf die Länge 1, 5 IQR begrenzt und weiter entfernt liegende Werte separat eingezeichnet. So lassen sich auffällige Datenpunkte („Ausreißer“) hervorheben.
Beispiel 5.7 Boxplots zu Bruttoverdiensten in Europa
Java-Applet „Bruttoverdienste in Europa 2002“ (View-Option „Boxplots“)
Abbildung 4.1 zeigte Bruttostundenverdienste des Europäischen Amts für Statistik (Eurostat) in 27 europäischen Staaten für das Referenzjahr 2002 anhand eines Säulendiagramms. Die Darstellung bezog sich auf den Bereich „Industrie und Dienstleistungen“, in dem 9 Wirtschaftszweige zusammengefasst sind. Die in Abbildung 4.1 veranschaulichten Werte sind Mittelwerte aus den Verdiensten in diesen Branchen (gewichtete Mittel mit der Anzahl der in einem Wirtschaftszweig Beschäftigten als Gewichte). Wenn man ein etwas differenziertes Bild gewinnen will und z. B. auf einen Blick erfassen möchte, wie die Verdienste in den einzelnen Ländern von Branche zu Branche streuen, kann man für jedes Land einen Boxplot heranziehen, der den aus 9 Branchenverdiensten bestehenden Datensatz für jedes Land zu 5 Charakteristika aggregiert. Der Boxplot für Deutschland ist in der Grafik betont. Der die obere Begrenzung des Boxplots definierende maximale Wert des Datensatzes, also die Branche, in der in Deutschland die Verdienste am höchsten sind, ist ebenfalls hervorgehoben. Es ist dies der Finanzsektor „Kreditinstitute und Versicherungen“, der nach der „nomenclature générale des activités économique“ (amtliche Klassifikation NACE für Wirtschaftszweige; Stand 2006) mit “J“ codiert wurde. Man erkennt anhand des Niveaus der Mediane, wie extrem das mittlere Verdienstniveau zwischen den Staaten variiert – mit sehr niedrigen Niveaus in Bulgarien (BG) und Rumänien (RO) und hohen Niveaus in Dänemark (DK) oder Norwegen (NO). Die Grafik
5.3 Quantile und Boxplots
63
Abb. 5.4: Streuung von Bruttoverdiensten zwischen den Wirtschaftszweigen in Europa
kann zum Verständnis der fortschreitenden Arbeitsplatzverlagerungen in Niedriglohnländer im Zuge der Globalisierung beitragen. Starke Verdienstniveauunterschiede in Europa ließen sich allerdings schon aus Abbildung 4.1 ableiten. Die Boxplots liefern aber ein wesentlich differenzierteres Bild als Abbildung 4.1. Man erkennt nämlich hier auch, dass die Spannweite zwischen den Branchen mit minimalen und maximalen Verdiensten von Land zu Land recht unterschiedlich ausfällt (z. B. kleinere Spannweite für Dänemark im Vergleich zu Norwegen). Boxplots mit großer Spannweite und kleinem Quartilsabstand (kürzere Boxen) weisen auf wenig ausgeglichene Einkommensverteilungen hin. Abbildung 5.4, hinter der Individualdaten von Millionen europäischer Arbeitnehmer stehen, illustriert, dass man mit geeigneten Visualisierungsinstrumenten zentrale „Botschaften“ und Auffälligkeiten sichtbar machen kann, die sich aus unüberschaubaren „Zahlenfriedhöfen“ alleine nicht ohne weiteres erschließen lassen.10
10
Eine ausführliche Darstellung von Verdienstunterschieden zwischen europäischen Ländern und Regionen für 2002 findet man bei Mittag (2006), Eurostat-Schriftenreihe „Statistics in Focus“.
6 Konzentration von Merkmalswerten 6.1 Die Lorenzkurve Bei metrisch skalierten Merkmalen mit nicht-negativen Ausprägungen – z. B. Umsätze oder Marktanteile von Firmen – interessiert man sich häufig dafür, wie sich die Summe aller Merkmalswerte innerhalb einer Grundgesamtheit verteilt. Konzentration bezüglich des jeweiligen Merkmals liegt vor, wenn sich die Merkmalssumme ungleichmäßig auf die betrachteten statistischen Einheiten verteilt. Fragen, die auf die Identifikation von Konzentrationsphänomen abzielen, sind etwa: - Gibt es beim Vergleich ausgewählter Staaten größere Unterschiede hinsichtlich des Pro-Kopf-Energieverbrauchs? - Wie ist das Einkommen von Arbeitnehmern in einer Volkswirtschaft oder einem Wirtschaftszweig verteilt? - Gibt es innerhalb der Gruppe der weltweit größten Chip-Hersteller oder auf dem europäischen Automarkt einen marktbeherrschenden Produzenten? - Gibt es in der Landwirtschaft eine Tendenz zu immer größeren Betrieben?
Beispiel 6.1 Energieverbrauch und CO2 -Emissionen In Tabelle 5.1 waren Daten der Internationalen Energieagentur zum Pro-Kopf-Verbrauch von Erdöl und Strom sowie zu den CO2 -Emissionen pro Kopf für die USA, Deutschland, Japan, China und Indien wiedergegeben. Zum Datensatz für den Stromverbrauch (in t / Kopf) wurden in den Beispielen 5.2 und 5.4 bereits Kenngrößen berechnet, die sich für die Beschreibung des Zentrums oder der Streuung des Datensatzes eignen. Bei der Konzentrationsmessung geht es nicht mehr darum, die Lage und Streuung eines Datensatzes zu charakterisieren. Vielmehr steht hier die numerische Bewertung von Ungleichheiten bei der Verteilung von Merkmalswerten auf die einzelnen Merkmalsträger im Vordergrund. Bezogen auf die Umweltdaten aus Tabelle 5.1 heißt dies z. B., dass man sich dafür interessiert zu quantifizieren, wie sich der gesamte Erdölverbrauch oder die gesamte CO2 -Emission aller fünf Länder innerhalb der 5 Elemente umfassenden Grundgesamtheit verteilt.
Ein wichtiges Instrument für die grafische Beurteilung von Konzentrationsphänomenen ist die Lorenzkurve. Sie ist nach dem amerikanischen Statistiker Max Otto Lorenz
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_6, © Springer-Verlag Berlin Heidelberg 2011
65
Was bedeutet „Konzentration“?
66
Flash-Animation „Merkmalskonzentration“
6 Konzentration von Merkmalswerten
(1876 - 1959) benannt, der sie 1905 erstmals zur Veranschaulichung von Einkommensungleichheit einsetzte. Ausgangspunkt für die Herleitung einer Lorenzkurve ist eine Grundgesamtheit mit n Merkmalsträgern. Die zugehörigen Merkmalswerte konstituieren eine Urliste x1 . . . , xn . Wenn man deren Elemente nach zunehmender Größe sortiert, resultiert eine geordnete Liste x(1) . . . , x(n) . Die über dem Intervall [0; 1] definierte Lorenzkurve visualisiert, wie sich die Summe aller Merkmalswerte innerhalb der Grundgesamtheit verteilt. Markiert man im Intervall [0; 1] die Punkte ui :=
i ; n
i = 1, . . . , n,
(6.1)
so resultiert eine Zerlegung in n gleich lange Teilintervalle. Jeder Wert ui lässt sich interpretieren als Anteil der ersten i Werte der Liste an der Gesamtzahl n der Elemente der Urliste. Bezeichnet man nun noch die Summe der kleinsten i Merkmalswerte mit pi := x(1) + x(2) + . . . + x(i) ;
i = 1, . . . , n
(6.2)
und den Anteil der zugehörigen Merkmalsträger an der Merkmalssumme pn mit vi :=
Java-Applet „Lorenzkurve“
pi ; pn
i = 1, . . . , n,
(6.3)
so ist die Lorenzkurve ein aus n Teilstrecken bestehender monoton steigender Polygonzug, der den Nullpunkt (0; 0) mit den Punkten (u1 ; v1 ), . . . , (un ; vn ) verbindet. Offenbar ist (un ; vn ) = (1; 1), d.h. die Lorenzkurve endet in (1; 1). Wenn alle Merkmalswerte gleich groß sind (fehlende Merkmalskonzentration), stimmen ui und vi jeweils überein, d. h. die Lorenzkurve verbindet dann die Punkte (0; 0) und (1; 1) direkt. Um Konzentration anhand einer Lorenzkurve zu beurteilen, empfiehlt es sich auch die im konzentrationsfreien Fall resultierende Diagonale zu zeichnen. Je stärker die Lorenzkurve von der Diagonalen abweicht, d. h. je stärker sie „durchhängt“, desto größer ist die Konzentration. Abbildung 6.1 zeigt beispielhaft die Lorenzkurve, die sich für eine Urliste mit den Werten 20, 20, 40, 40 und 120 ergibt. Für den Wert (u3 ; v3 ) der Lorenzkurve errechnet 80 man mit (6.1) - (6.3), dass u3 = 0, 6 und v3 = 240 ≈ 0, 333. Dies beinhaltet, dass die kleinsten drei Werte der Urliste (60 % aller Merkmalswerte) nur insgesamt ca. 33, 3 % der Merkmalssumme p5 = 240 auf sich vereinen. Bei einer gleichmäßigen Verteilung der Merkmalssumme auf alle Merkmalsträger wäre v3 = 0, 6. Dies ist der Wert, den die in Abbildung 6.1 eingezeichnete Diagonale an der Stelle u3 = 0, 6 annimmt. Die Stützpunkte der Lorenzkurve bleiben offenbar unverändert, wenn man die Werte der Urliste mit einem positiven Faktor multipliziert. Es sei erwähnt, dass die Berechnung von Lorenzkurven auch bei gruppierten Daten möglich ist. Der Polygonzug besteht im Falle einer Gruppierung zu k Klassen aus k Teilstrecken.1 1
Details zur Berechnung der Stützpunkte der Lorenzkurve im Falle gruppierter Daten findet man z. B. bei Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 2.3.1) oder Toutenburg / Heumann (2009, Abschnitt 3.5.1).
6.2 Konzentrationsmaße
67
1, 0
Anteil vi
0, 8 0, 6 0, 4 0, 2
0, 2
0, 4
0, 6
0, 8
1, 0 Anteil ui
Abb. 6.1: Beispiel einer Lorenzkurve im Falle n = 5
6.2 Konzentrationsmaße Die Lorenzkurve visualisiert Konzentrationsphänomene, repräsentiert aber noch kein Maß für die Stärke von Konzentration. Da sie sich mit zunehmender Konzentration immer mehr von der im konzentrationsfreien Fall resultierenden Diagonalen entfernt, liegt es nahe, die Fläche A zwischen der Diagonalen im Einheitsquadrat und der Lorenzkurve zur Konzentrationsmessung heranzuziehen. Der auf den italienischen Statistiker Gini (1884 - 1965) zurückgehende Gini-Koeffizient G ist ein solches Konzentrationsmaß.
1, 0
Anteil vi
0, 8 0, 6 A = 12 G
0, 4 0, 2
0, 2
0, 4
0, 6
0, 8
1, 0 Anteil ui
Abb. 6.2: Veranschaulichung von
G 2
im Falle n = 5
Corrado Gini
68
6 Konzentration von Merkmalswerten
Der Gini-Koeffizient G, der zuerst für die Quantifizierung von Ungleichheiten bei Einkommensverteilungen herangezogen wurde, ergibt sich aus dem Flächeninhalt A, indem man diesen mit dem Inhalt 0, 5 eines der beiden Dreiecke vergleicht, in die das Einheitsquadrat durch die Diagonale zerlegt wird. Der Vergleich erfolgt durch Bildung des A Quotienten G = 0,5 = 2 · A beider Flächeninhalte. Abbildung 6.2 weist erneut die Lorenzkurve aus Abbildung 6.1 für die Urwerte 20, 20, 40, 40 und 120 aus, nun aber mit Hervorhebung der genannten Fläche A = G2 . Um G = 2 · A zu berechnen, ist es zweckmäßig – wie in Abbildung 6.3 dargestellt – das obere Dreieck, das bei der Zerlegung des Einheitsquadrats entsteht, mit der Fläche A zu verbinden. Für den Inhalt B der resultierenden Gesamtfläche gilt B = G2 + 0, 5, d. h. für den Gini-Koeffizienten hat man die Beziehung G = 2B − 1.
1, 0
Anteil vi
0, 8
1 2
0, 6 A = 12 G
0, 4 0, 2
0, 2
0, 4
0, 6
0, 8
1, 0 Anteil ui
Abb. 6.3: Geometriegestützte Herleitung einer Formel für G
Die Fläche B lässt sich nun, wie in Abbildung 6.3 für den Fall n = 5 angedeutet, anhand horizontaler Schnitte in n Teilflächen (Trapeze bzw. Dreiecke) zerlegen, deren Flächen sich elementar bestimmen lassen. Für die Herleitung einer Formel für den GiniKoeffizienten hat man also zunächst G = 2·(Summe der Inhalte der n Teilflächen) − 1. Hieraus erhält man bei Anwendung elementarer Flächeninhaltsformeln nach einigen Umformungen mit pn aus (6.2) und mit der gewichteten Merkmalssumme qn := 1 · x(1) + 2 · x(2) + . . . + n · x(n)
(6.4)
für den Gini-Koeffizienten die Darstellung2 2 · qn n+1 1 G= − = n · pn n n 2
2 · qn − 1 − 1. pn
Vgl. etwa Bamberg / Baur / Krapp (2009, Abschnitt 3.4.2).
(6.5)
6.2 Konzentrationsmaße
69
Für die Urliste mit den Elementen 20, 20, 40, 40 und 120, deren Lorenzkurve in den vorausgegangenen Abbildungen dargestellt wurde, errechnet man p5 = 240 und q5 = 940 und hieraus G ≈ 0, 367. Die Berechnung von G setzt also nicht die Kenntnis der Stützpunkte (ui ; vi ) der Lorenzkurve voraus. In Abbildung 6.4 ist der Fall maximaler Konzentration dargestellt. Zugrunde gelegt wurde erneut eine Urliste mit n = 5 Elementen, bei der aber nur ein Wert positiv ist, etwa x(5) = 120, und die anderen Werte Null sind. Die gesamte Merkmalssumme pn konzentriert sich hier auf einen einzigen Merkmalsträger. Die Fläche A und damit auch der Gini-Koeffizient G = 2A nehmen dann – im hier betrachteten Spezialfall n = 5 – den maximalen Wert Amax = 0, 4 resp. Gmax = 0, 8 an.
1, 0
Anteil vi
0, 8 0, 6 0, 4
Amax = 12 Gmax
0, 2
0, 2
0, 4
0, 6
0, 8
1, 0 Anteil ui
Abb. 6.4: Veranschaulichung von A =
G 2
im Falle n = 5 bei maximaler Konzentration
Bei beliebigem n ist Amax = n−1 , wie man anhand einfacher geometrischer Überle2n gungen verifizieren kann. Der Gini-Koeffizient G = 2A ist also durch Gmax = 2 · Amax =
n−1 n
nach oben begrenzt. Bei fehlender Konzentration ist A = 0; der Gini-Koeffizient G nimmt dann sein Minimum Gmin = 0 an. Für den Gini-Koeffizienten gilt also stets 0≤G≤
n−1 . n
(6.6)
Dass die obere Schranke von G von der Länge n der Urliste abhängt, ist ein Nachteil, den man durch Einführung des normierten Gini-Koeffizienten G∗ :=
G n = ·G Gmax n−1
(6.7)
Java-Applet „GiniKoeffizient“
70
6 Konzentration von Merkmalswerten
beheben kann. Für den normierten Gini-Koeffizienten hat man also 0 ≤ G∗ ≤ 1,
(6.8)
wobei die untere Schranke bei fehlender und die obere bei maximaler Merkmalskonzentration erreicht wird. Die Fälle G∗ = 0 und G∗ = 1 repräsentieren also die Extremfälle fehlender bzw. vollständiger Konzentration. Im Falle 0 < G∗ ≤ 0, 5 spricht man i. a. von mäßiger, im Falle 0, 5 < G∗ < 1 von deutlicher Konzentration. Bei der Interpretation des Gini-Koeffizienten sollte man stets die Lorenzkurve hinzuziehen.
Anwendungsfeld für den GiniKoeffizienten
Relative und absolute Konzentration
Besondere Anwendungsrelevanz kommt dem Gini-Koeffizienten bei der Quantifizierung von Einkommensungleichheiten zu. Wenn man z. B. im Mai 2008 in der freien Enzyklopädie „Wikipedia“ das Stichwort „Gini-Koeffizient“ eingab, erhielt man eine lange Länderliste, wobei für jedes Land der Gini-Koeffizient zum Merkmal „Einkommen von Arbeitnehmern im betreffenden Land“ für das Jahr 2000 oder ein nicht zu weit von diesem Referenzjahr entferntes Jahr ausgewiesen war. Da die Länderliste weit über 100 Staaten umfasst, ist der Unterschied zwischen G und G∗ vernachlässigbar. Die Werte für die skandinavischen Länder waren durchweg niedrig (im Bereich von 0, 24 bis 0, 27) und auch Deutschland hatte mit ca. 0, 28 einen relativ niedrigen Gini-Koeffizienten. Werte über 0, 60 wurden hingegen für etliche afrikanische Staaten beobachtet (z. B. Namibia 0, 71), während die Werte für China und die USA im oberen Mittelfeld lagen (Bereich von 0, 45 bis 0, 47). Eine Alternative zur Verwendung des Gini-Koeffizienten bei der Beschreibung von Einkommensungleichheiten ist die Heranziehung von Quantilsquotienten der empirischen Einkommensverteilung. Wenn man z. B., wie in Abbildung 4.5 illustriert, das Verhältnis D9 aus oberem Dezil D9 und unterem Dezil D1 betrachtet, erhält man D1 ebenfalls eine Information über Asymmetrien bei Einkommensverteilungen. Die Quantile D9 und D1 weisen aus, unterhalb welcher Schwelle 90 % bzw. 10 % der Einkommen liegen. Wie groß die oberhalb von D9 liegenden Einkommen sind, spielt keine Rolle. Es wird also beim Rückgriff auf Quantilsquotienten – wie bei jeder Informationsverdichtung – die in den Daten steckende Information nicht in vollem Umfang ausgeschöpft. Letzteres gilt auch für den Gini-Koeffizienten. Zum einen können unterschiedliche Urlisten der Länge n zum gleichen Gini-Koeffizienten führen. Die Hauptkritik am GiniKoeffizienten bezieht sich aber auf die Konzentrationsmessung bei kleinen Datensätzen. Der Gini-Koeffizient zeigt fehlende Konzentration an (G = Gmin = 0), wenn alle Merkmalsträger einer Urliste übereinstimmen, also den gleichen Anteil an der Merkmalssumme pn haben. Die Länge n der Urliste spielt dabei keine Rolle. Dies bedeutet, dass die Lorenzkurve, aus der sich der Gini-Koeffizient G ableitet, Aussagen des Typs “x % der Merkmalsträger teilen sich y % der Merkmalssumme“ liefert, nicht aber Ausagen der Art „x Merkmalsträger sind für y % der Merkmalssumme verantwortlich“. Je nachdem, ob man Aussagen für einzelne Merkmalsträger oder für Anteile in der Grundgesamtheit formuliert, wird absolute Konzentration bzw. relative Konzentration bewertet. Der GiniKoeffizient misst relative Konzentration. Wenn aber z. B. ein Markt für ein bestimmtes Produkt oder eine bestimmte Dienstleistung von nur sehr wenigen Unternehmen beherrscht wird, kann man auch bei einem Wert von G = 0 nicht mit Berechtigung von fehlender Marktkonzentration sprechen. In diesem Falle lassen sich Maße für absolute Konzentration heranziehen.
6.2 Konzentrationsmaße
71
Ein zur Erfassung absoluter Merkmalskonzentration geeignetes Maß ist der nach dem US-Ökonomen Orris C. Herfindahl(1918 - 1972) benannte Herfindahl-Index. Dieser ist definiert durch 2 n n X xi 1 X 2 H := = 2 · x, (6.9) pn pn i=1 i i=1 also als Summe der quadrierten Anteile pxni der einzelnen Elemente der Urliste. Der Wert der in (6.9) auftretenden Summen hängt offenbar nicht davon ab, ob die Werte xi der Urliste geordnet oder ungeordnet vorliegen, d. h. bei der Berechnung des HerfindahlIndexes ist es – anders als beim Gini-Koeffizienten – nicht unbedingt erforderlich, die Elemente der Ausgangsurliste nach Größe zu ordnen. Wenn vollständige Konzentration vorliegt, die gesamte Merkmalssumme also auf ein einziges Element entfällt, ist der Anteil dieses Elements an pn offenbar 1 und der der anderen Elemente Null. Der Herfindahl-Index nimmt dann den Wert 1 an. Bei gleichmäßiger Merkmalsverteilung besitzen hingegen alle Anteile den Wert n1 und der Index 2 H nimmt sein Minimum Hmin = n · n1 = n1 an. Es gilt demnach 1 ≤ H ≤ 1. n
(6.10)
Der Herfindahl-Index besitzt folglich, anders als der Gini-Koeffizient, eine positive untere Schranke, die mit abnehmender Länge n der Urliste größer wird (Hmin = 0, 5 im Falle n = 2). Für die Urliste mit den Werten 20, 20, 40, 40 und 120, für die sich G ≈ 0, 367 und G∗ = 54 · G ≈ 0, 458 ergibt, errechnet man mit p5 = 240 den Wert 1 H = 240 2 · 18400 ≈ 0, 319. Beim Herfindahl-Index können auch Werte, die nicht weit von der unteren Schranke Hmin entfernt liegen (im Falle n = 5 also 0, 2), bereits deutliche Konzentration beinhalten. Bei größeren Werten von n wird schon ein Indexwert H von ca. 0, 18 als Indiz für deutliche Konzentration angesehen. In der Praxis wird der Herfindahl-Index u. a. von Kartellbehörden zur Messung unerwünschter Anbieterkonzentration eingesetzt, so z. B. in Deutschland von der Monopolkommission zur empirischen Absicherung kartellrechtlicher Entscheidungen oder in den USA vom dortigen Antitrust Department. Beispiel 6.2 Messung der Konzentration bei Stromverbrauchsdaten Will man für die Daten zum Stromverbrauch in Tabelle 5.1 die Stützpunkte der Lorenzkurve sowie den Gini-Koeffizienten und den Herfindahl-Index berechnen, empfiehlt sich die Anlage einer kleinen Arbeitstabelle. Die Abszissenwerte der Stützpunkte (ui ; vi ) der Lorenzkurve sind nach (6.1) durch ui = 5i gegeben, also durch 0, 2, 0, 4, . . . , 1, 0; die Ordinatenwerte vi errechnen sich nach (6.3). Für die Ermittlung des Gini-Koeffizienten G benötigt man noch die in (6.4) eingeführte gewichtete Merkmalssumme q5 und für den Herfindahl-Index die Summe der quadrierten Urwerte. Wollte man nur den HerfindahlIndex berechnen, wäre die Ordnung der Urliste nach Größe nicht erforderlich.
Anwendungsfeld für den Herfindahl-Index
72
6 Konzentration von Merkmalswerten
i 1 2 3 4 5 Summe
xi x(i) 13,45 0,42 6,48 0,91 8,13 6,48 0,91 8,13 0,42 13,45
pi vi 0,42 0,014 1,33 0,045 7,81 0,266 15,94 0,542 29,39 1,0 p5 = 29,39
i · x(i) 0,42 1,82 19,44 32,52 67,25 q5 = 121,45
x2(i) 0,176 0,828 41,990 66,097 180,902 289,993
Tab. 6.1: Berechnung von Lorenzkurve und Gini-Koeffizient (Stromverbrauchsdaten)
Stellt man sich, analog zu Beispiel 5.1, wieder gedanklich eine Gruppe von 5 Personen vor, je eine Person aus den Ländern USA, Deutschland, Japan, China und Indien, und nimmt man an, dass für diese jeweils der in Tabelle 5.1 angegebene mittlere Jahresstromverbrauch ihres Landes zutrifft, so besagt z. B. der Punkt (u2 ; v2 ) = (0, 4; 0, 045) der Lorenzkurve, dass 40 % der Gruppe (die beiden Personen aus Indien und China mit dem niedrigsten Stromverbrauch) nur für etwa 4, 5 % des Gesamtstromverbrauchs der Gruppe verantwortlich sind, d. h. die restlichen 60 % der Gruppe verbrauchen 95, 5 %. Entsprechend lässt sich aus (u4 ; v4 ) = (0, 8; 0, 542) ableiten, dass die USA allein bereits 45, 8 % des Gesamtstromverbrauchs verursachen. Für den normierten Gini-Koeffizienten G∗ sollte man also hier einen Wert erwarten, der eine deutliche Merkmalskonzentration beinhaltet. In der Tat ergibt sich mit (6.5) und den Werten p5 und q5 aus Tabelle 6.1 1 2 · 121, 45 G= − 1 − 1 ≈ 0, 453 5 29, 39 und hieraus nach (6.7) G∗ =
Aufgabe 6.1-2
5 · G ≈ 0, 566. 4
Auch für den Herfindahl-Index erhält man nach (6.9) einen Wert, der auf eine nennenswerte Konzentration verweist: H=
Exkurs 6.1
1 · 289, 993 ≈ 0, 336. 29, 392
Internationale Verwendung des Gini-Koeffizienten
Von den Vereinten Nationen und von der Central Intelligence Agency (CIA) der USA wird der Gini-Koeffizient zur Messung von Einkommensungleichheiten in Ländern herangezogen, von der CIA im Rahmen des von ihr herausgegebenen World Factbook . Die Ergebnisse werden tabellarisch in Form von Länderrankings oder anhand einer auch bei Wikipedia eingestellten Weltkarte für den Gini-Koeffizienten veröffentlicht. Die Karte weist Länder, deren GiniKoeffizienten in derselben Größenklasse liegen, mit gleicher Farbe aus, zeigt aber nicht mehr die originären Werte. Neben den Gini-Koeffizienten werden auch Quotienten von Quantilen der nationalen Einkommensverteilungen eingesetzt.
3
7 Index- und Verhältniszahlen 7.1 Verhältniszahlen In den Kapiteln 4-5 wurde dargestellt, wie man empirische Verteilungen für ein Merkmal anhand von Häufigkeiten sowie anhand weniger Kenngrößen zur Charakterisierung der Lage oder Streuung beschreiben und veranschaulichen kann. Zahlen, die einen Sachverhalt quantifizieren, nennt man allgemein Maßzahlen. Wenn man zwei Maßzahlen durch Quotientenbildung miteinander verknüpft, spricht man von einer Verhältniszahl. Verhältniszahlen sollen die Vergleichbarkeit statistischer Informationen für unterschiedliche Regionen oder Zeitpunkte ermöglichen. Es wäre z. B. kaum informativ oder gar irreführend, wenn man die Schuldenlast der Bundesländer Nordrhein-Westfalen und Bremen oder die registrierten Aidsfälle in Deutschland und in Luxemburg vergliche, ohne in beiden Fällen die sehr unterschiedlichen Bevölkerungszahlen einzubeziehen. Sehr anschauliche Verhältniszahlen sind die in Abschnitt 4.1 bereits ausführlicher behandelten relativen Häufigkeiten. Diese verknüpfen durch Anteilsbildung eine Teilgesamtheit mit einer Grundgesamtheit. Solche Verhältniszahlen, bei denen eine Grundgesamtheit durch Anteilsbildung bezüglich eines Merkmals strukturiert wird, nennt man auch Gliederungszahlen. Sie sind dimensionslos. Ein Beispiel ist der Anteil p der im WS 2009/10 an der Fakultät „Kultur- und Sozialwissenschaften“ eingeschriebenen Studierenden (Teilgesamtheit) an der Zahl aller im SS 2009 an der FernUniversität Hagen eingeschriebenen Studierenden (Grundgesamtheit). Auch die Erwerbslosenquote p ist eine Gliederungszahl; sie verknüpft die Anzahl der Erwerbslosen mit der Anzahl aller Personen im erwerbsfähigen Alter. Eine Gliederungszahl p wird meist als Prozentwert ausgewiesen (Multiplikation mit 100). Es gibt Verhältniszahlen, die durch Quotientenbildung eine Verbindung zwischen zwei unterschiedlichen Merkmalen herstellen. Man spricht dann von Beziehungszahlen. Beispiele für Beziehungszahlen sind die Bevölkerungsdichte einer Region, die sich durch Division von Einwohnerzahl und Größe der Region ergibt (Dimension: Einwohner / km2 ) oder das Bruttoinlandsprodukt einer Nation pro Kopf (gemessen z. B. in Euro / Einwohner). Die Verknüpfung der beiden Merkmale muss inhaltlich Sinn geben. In der Praxis wird oft der Quotient aus zwei Maßzahlen bestimmt, die sich zwar auf dasselbe Merkmal, aber auf Werte aus unterschiedlichen Beobachtungsperioden beziehen. Bei Zeitreihen, etwa für den Preis eines Produkts oder einer Dienstleistung, werden die Daten in der aktuellen Periode t (t > 0) durch die Werte einer Referenz- oder Basisperiode (Periode t = 0) geteilt. So werden Veränderungen gegenüber der Referenzperiode besser sichtbar. Das Statistische Bundesamt bezieht z. B. momentan Preise für den privaten Verbrauch auf das Jahr 2005. Der Preis xt für Diesel-Kraftstoff im Jahr t = 2009 wird also nicht direkt, sondern in Form des Quotienten It := xx0t ausgewiesen,
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_7, © Springer-Verlag Berlin Heidelberg 2011
73
Arten von Verhältniszahlen
74
7 Index- und Verhältniszahlen
wobei x0 den Preis im Referenzjahr 2005 bezeichnet. Verhältniszahlen, die die Werte für ein Merkmal für zwei Zeitpunkte verknüpfen, werden einfache Indexzahlen genannt. Der Zusatz „einfach“ soll darauf verweisen, dass sich die Indexzahl nur auf ein einziges Merkmal bezieht. Erfassung komplexer Entwicklungen anhand von Indikatoren
Geeignete Maß- und Verhältniszahlen werden oft als Indikatoren herangezogen, um komplexe Entwicklungen, etwa die Veränderung von objektiven Lebensbedingungen und subjektivem Wohlbefinden oder von sozialer Kohäsion in einer Bevölkerung, möglichst repräsentativ abzubilden und Vergleiche zwischen Regionen zu ermöglichen. Es seien hier beispielhaft einige gesellschaftsrelevante Dimensionen genannt, für deren Messung unterschiedliche Indikatoren herangezogen werden: - Gesundheit: Lebenserwartung Neugeborener, Anteil von Personen mit Fettleibigkeit, Anteil der Gesundheitskosten am Bruttoinlandsprodukt (BIP); Ärztedichte; - Wohlstand: BIP pro Kopf; Bruttoeinkommen von Arbeitnehmern pro Stunde; Sparquote privater Haushalte; - Bildung: Abiturientenquote eines Jahrgangs; Anteil der öffentlichen Ausgaben für Bildung; Anteil von Schülern eines Jahrgangs mit unzureichenden Mathematikkenntnissen; - Umwelt: Anteil erneuerbarer Energien am Primärenergieverbrauch; Treibhausemissionen in CO2 -Äquivalenten; Energieproduktivität (BIP / Primärenergieverbrauch); - Öffentliche Sicherheit: Polizeidichte; Aufklärungsquote bei Gewaltkriminalität; inhaftierter Bevölkerungsanteil; - Innovationskraft: Anzahl der Patente pro Einwohner; Bevölkerungsanteil mit Hochschulabschluss; Anteil der Staatsausgaben für Forschung und Entwicklung.
Wo findet man Informationen über Indikatoren?
Das Statistische Bundesamt veröffentlicht Zeitreihen für Indikatoren und Indikatorensysteme für verschiedene Bereiche, u. a. Indikatoren zur nachhaltigen Entwicklung in Deutschland. Auf europäischer Ebene werden zahlreiche Indikatoren von Eurostat publiziert, z. B. Schlüsselindikatoren für die wirtschaftliche Entwicklung. Die Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS ) bietet ein umfassendes System sozialer Indikatoren für Deutschland und für europäische Länder an. Die Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) hält zahlreiche Indikatoren auch für außereuropäische Länder bereit, u. a. für die Bereiche „Bildung“ und „Gesundheit“. Welche Indikatoren oder Indikatorensysteme für die Erfassung einer gesellschaftsrelevanten Dimension oder für die Untersuchung einer bestimmten Fragestellung jeweils besonders aussagekräftig sind, ist nicht immer leicht zu beantworten. Dies zeigt sich z. B. an aktuellen Diskussionen – etwa in der Wochenzeitung Die Zeit vom 23. September 2009 – zu Alternativen zum noch immer dominierenden Wohlfahrtsmaß “Bruttoinlandsprodukt“, das auch mit Umweltvernichtung einhergehendes Wirtschaftswachstum als Fortschritt bewertet und weder unbezahlte Arbeit noch Einkommensungleichheiten
7.1 Verhältniszahlen
75
in einer Gesellschaft erfasst. Probleme, die mit der Verwendung hochaggregierter Indikatoren verbunden sein können, zeigen sich aber schon an der zunächst sehr einfach erscheinenden Frage nach der sportlich erfolgreichsten Nation bei der Olympiade 2008. Beispiel 7.1 Medaillenspiegel bei der Olympiade Die vergleichende Bewertung des sportlichen Erfolgs von Ländern bei der Olympiade wird in den Medien anhand von Medaillenspiegeln vorgenommen. Diese erfreuen sich größter Beliebtheit, wurden aber bei der Olympiade 2008 in verschiedenen InternetForen kontrovers diskutiert. Es kursierten nämlich nach der Olympiade in den Medien sehr unterschiedliche Varianten des Medaillenspiegels. Im Guardian und auch in der Süddeutschen Zeitung erschienen Beiträge, die die Fragwürdigkeit des offiziellen Rankings thematisierten.
Rang 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Nation
Rang 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Nation
China USA Russland Großbritannien Deutschland Australien Südkorea Japan Italien Frankreich
Gold 51 36 23 19 16 14 13 9 8 7
USA China Russland Großbritannien Australien Deutschland Frankreich Südkorea Italien Japan
Gesamt 110 100 72 47 46 41 40 31 28 25
Silber 21 38 21 13 10 15 10 6 10 16
Gold 36 51 23 19 14 16 7 13 8 9
Bronze 28 36 28 15 15 17 8 10 10 17
Silber 38 21 21 13 15 10 16 10 10 6
Gesamt 100 110 72 47 41 46 31 25 28 40
Bronze 36 28 28 15 17 15 17 8 10 10
Tab. 7.1: Zwei Varianten des Medaillenspiegels (Auszüge) für die Sommerolympiade 2008
Der obere Teil von Tabelle 7.1 zeigt die ersten zehn Platzierungen beim offiziellen Medaillenspiegel. Dieser orientiert sich allein an der Anzahl der Goldmedaillen. Die anderen Medaillen werden zwar mit aufgelistet, beeinflussen aber nicht den Rangplatz. In amerikanischen Zeitungen, z. B. in der New York Times fand man andere Medaillenspiegel,
76
7 Index- und Verhältniszahlen
bei denen die Gesamtzahl der Medaillen als Indikator für den sportlichen Erfolg einer Nation fungierte. Die dann resultierenden ersten zehn Platzierungen sind im unteren Teil der Tabelle wiedergegeben. Es wurden weitere Versionen des Medaillenspiegels vorgeschlagen, etwa eine Bewertung nach der Beziehungszahl Anzahl der Goldmedaillen pro Kopf. Bei Verwendung dieses Ansatzes lagen Jamaica und Bahrain ganz vorne und die führenden Länder der amtlichen Liste rückten auf weit hinten liegende Plätze. Es gab Vorschläge, auch die Wirtschaftskraft eines Landes einzubeziehen, weil diese die Trainingschancen von Sportlern beeinflussen kann.
Aufgabe 7.1
Über die Sinnhaftigkeit des offiziellen Medaillenspiegels, der die Silber- und Bronzemedaillen gar nicht berücksichtigt, lässt sich sicher streiten. Das einfache Addieren von Medaillen ohne Differenzierung zwischen Gold, Silber und Bronze erscheint allerdings ebenfalls willkürlich. Ein Kompromiss, der zwischen beiden Ansätzen vermittelt, könnte darin bestehen, zwar alle Medaillen zu addieren, aber mit unterschiedlichen Gewichten für Gold, Silber und Bronze, also drei Indikatoren zu verknüpfen. Hier wäre aber zu klären, wie die Gewichte festgelegt werden sollen. Sind z. B. 3 Punkte für Gold, 2 für Silber und 1 Punkt für Bronze passender als die Abstufung 5-3-2? Selbst wenn man sich über einen Satz von Gewichten verständigt hätte, wäre zu klären, ob es nicht wirklich angemessener wäre, die Gewichtung auf die Anzahl der Gold-, Silber- und Bronzemedaillen pro Einwohner eines Landes zu beziehen. Statistiker können allerdings die Frage nach der sachadäquatesten Operationalisierung des Merkmals „Sportlicher Erfolg einer Nation bei der Olympiade“ nicht beantworten. Welcher der konkurrierenden Ansätze die sportliche Leistung eines Landes am besten widerspiegelt, kann am ehesten innerhalb eines internationalen Sportkomitees auf dem Kompromissweg und auf der Basis sachlogischer Überlegungen geklärt werden.
7.2 Zusammengesetzte Indexzahlen
Verknüpfung von Maß- und Verhältniszahlen
Ranglisten wie der Medaillenspiegel einer Olympiade sind sehr beliebt und erfreuen sich großer Aufmerksamkeit in den Medien – man denke etwa an das öffentliche Interesse an Ranglisten für Universitäten oder an die von Bildungspolitikern stark beachteten Ergebnisse der Pisa-Studien. Für viele Bereiche gesellschaftlichen Lebens werden heute Indexzahlen angewendet, die mehrere Indikatoren zu einer einzigen Maßzahl aggregieren und einen direkten Vergleich von Regionen und Ländern zu unterschiedlichen Zeitpunkten ermöglichen. Die aggregierten Maß- und Verhältniszahlen können dabei unterschiedlich gewichtet sein. Solche aus mehreren Indikatoren gebildeten Aggregate werden zusammengesetzte Indexzahlen oder zusammengesetzte Indikatoren genannt (engl.: composite indices). Der untere Teil von Tabelle 7.1 beinhaltet die Anwendung einer zusammengesetzten Indexzahl, die drei Indikatoren mit gleichem Gewicht additiv verknüpft. Zusammengesetzte Indikatoren werden auch zur Beschreibung von Entwicklungen im ökonomischen Bereich herangezogen. Als Beispiel seien Aktienindizes angeführt, etwa der Deutsche Aktienindex (DAX) oder der Dow Jones Index. Ein weiteres bekanntes Beispiel ist
7.2 Zusammengesetzte Indexzahlen
77
der amtliche Verbraucherpreisindex. Letzterer wird vom Statistischen Bundesamt sehr benutzerfreundlich anhand eines interaktiven Inflationsrechners präsentiert.
Beispiel 7.2 Der amtliche Verbraucherpreisindex Der Verbraucherpreisindex ist ein gewichteter Mittelwert der auf eine Basisperiode bezogenen Preise für die Güter (Waren und Dienstleistungen) eines „repräsentativen“ Warenkorbs, der ungefähr 750 Güter umfasst. Als Gewichte verwendet man die Ausgabenanteile der Güter im Warenkorb in einer Referenzperiode – z. Z. ist es das Jahr 2005, für das der Index auf 100 gesetzt ist. Die Inflationsrate gibt die prozentuale Veränderung des Preises für den Warenkorb gegenüber dem Vorjahr an. Der interaktive Inflationsrechner zeigt die Entwicklung ab Januar 2000 in Form eines Zeitreihengraphen für den Verbraucherpreisindex und zusätzlich für eine vom Betrachter frei wählbare Güterklasse. Wenn man mit der Maus über einen Graphen fährt, wird der Zeitpunkt ausgewiesen, auf den sich der jeweilige Kurvenpunkt bezieht. Wer bestimmte Güter – etwa Rauchwaren – nicht oder nur in geringem Umfange benötigt, kann die Gütergruppe ausblenden oder ihr Gewicht reduzieren und sich auf der Basis dieses personalisierten Warenkorbs seinen individuellen Verbraucherpreisindex anzeigen lassen. Wenn man die – in Abbildung 7.1 nicht wiedergegebene – Preisentwicklung bei Pauschalreisen visualisiert, sieht man deutliche zyklische Schwankungen. Die höchsten Werte werden in Perioden mit hoher Nachfrage beobachtet, z. B. am Jahresende. Inflationsrechner des Statistischen Bundesamts
Abb. 7.1: Inflationsrechner des Statistischen Bundesamts (Stand: Oktober 2010)
Abbildung 7.1 zeigt neben dem allgemeinen Verbraucherpreisindex die Preisentwicklung für PKW-Kraftstoffe. Auffälligkeiten beim Entwicklungspfad bei den Kraftstoffen sind vor allem auf Schwankungen der Preise für Rohöl zurückzuführen. Mit Beginn der Finanzkrise im Sommer 2008 gingen industrielles Wachstum und damit auch die Ölnachfrage zurück. Dies erklärt den scharfen Preisrückgang ab diesem Zeitpunkt. Wie sich der
Aufgabe 7.2
78
Preiskaleidoskop
7 Index- und Verhältniszahlen
zur Berechnung des Verbraucherpreisindexes herangezogene Warenkorb zusammensetzt und wie groß das Gewicht der einzelnen Güter ist, veranschaulicht das Statistische Bundesamt seit 2009 anhand eines innovativen, als Preiskaleidoskop bezeichneten Visualisierungsinstruments. Der Warenkorb ist hier durch einen Kreis repräsentiert, während die Warengruppen und deren Komponenten mosaiksteinartig durch Anteile an der Kreisfläche dargestellt sind. Die Größe der einzelnen „Mosaiksteine“ spiegelt jeweils den Anteil der Warengruppe am Warenkorb wider. Die Flächeninhalte visualisieren somit das Gewicht, mit dem die Warengruppe oder eine bestimmte Komponente einer Warengruppe in den Verbraucherpreisindex eingeht. Durch unterschiedliche Färbungen werden auch die Veränderungen gegenüber dem Vorjahresmonat sichtbar gemacht. Geht man mit der Maus auf eine Mosaikfläche, werden der Name der Warengruppe bzw. der Komponente angezeigt sowie das Gewicht und die Preisänderung gegenüber dem Vorjahresmonat. In Abbildung 7.2 ist z.B. die Komponente „Zentralheizung / Fernwärme“ der Ausgabengruppe „Wohnung“ hervorgehoben. Die Ausgaben hierfür gingen demnach mit einem Gewicht von 1, 2 % in den Warenkorb ein und lagen etwa 3, 2 % unter dem Vorjahresniveau.
Abb. 7.2: Preiskaleidoskop des Statistischen Bundesamts (Stand: Oktober 2010)
Verwendung zusammengesetzter Indexzahlen
Zusammengesetzte Indexzahlen werden heute von verschiedenen supranationalen Institutionen wie der OECD, der Europäischen Kommission und den Vereinten Nationen eingesetzt, etwa zur Messung von Wohlfahrt oder zur Bewertung von Politiken und Fortschritten im Bereich der Entwicklungshilfe, des Umweltschutzes sowie der Technologieförderung. Genannt seien beispielhaft der Human Development Index, der als Al-
7.2 Zusammengesetzte Indexzahlen
79
ternative zum Bruttoinlandsprodukt zu verstehen ist, und der Human Poverty Index der Vereinten Nationen. Beide bilden die Wohlfahrtsentwicklung in verschiedenen Ländern ab. Erwähnt seien auch der E-Business-Readiness-Index und das European Innovation Scoreboard (EIS) der Generaldirektion „Unternehmen und Industrie“ der EU-Kommission. Die beiden letztgenannten zusammengesetzten Indexzahlen vermitteln Informationen über europäische Länder bezüglich der Verwendung moderner Kommunikationstechnologien in Geschäftsprozessen bzw. zur Innovationskraft der Länder.
Java-Applet „EIS 2007“
Die z. Z. verwendeten zusammengesetzten Indexzahlen repräsentieren additive Verknüpfungen eines Sets von Maß- und Verhältniszahlen, brechen also umfassende Indikatorensysteme auf eine einzige Variable herunter. Das gewachsene Interesse an ihnen erklärt sich daraus, dass sie - eine eindimensionale Betrachtung multidimensionaler Phänomene ermöglichen; - dem verständlichen Interesse von Politikern nach möglichst überschaubaren Informationsbasen Rechnung tragen; - einen direkten Ländervergleich gestatten und damit mehr Beachtung in den Medien finden als komplexe Systeme von Einzelwerten. Es gibt aber auch gewichtige Nachteile. Diese sind darin zu sehen, dass - zusammengesetzte Indikatoren oft nur eine begrenzte Aussagekraft haben, weil ihre Werte von den Gewichten für die einfließenden Maß- und Verhältniszahlen abhängen und die Festlegung der Gewichte nicht immer unmittelbar nachvollziehbar oder motivierbar ist; - die in sie eingehenden Einzelindikatoren im Zeitverlauf nicht selten geändert werden (Aufnahme neuer Indikatoren, Veränderung der Operationalisierung der bestehenden Indikatoren) und damit Rangplätze für Länder für verschiedene Zeitpunkte nicht unbedingt vergleichbar sind. Die Rankings für Länder hängen jedenfalls davon ab, wie die Gewichte der einzelnen Indikatoren spezifiziert werden. Häufig werden alle Indikatoren mit gleichem Gewicht verknüpft, weil man keine Informationen hat, die eine unterschiedliche Gewichtung motivieren. Es ist nachvollziehbar, dass Eurostat, das Europäische Amt für Statistik, der Verwendung von zusammengesetzten Indikatoren bisher eher zurückhaltend gegenüber steht, obwohl andere Generaldirektionen der EU-Kommision und auch mehrere supranationale Institutionen (OECD, UN) sie zunehmend einsetzen. Wenn man zusammengesetzte Indexzahlen verwendet, sollte man sie jedenfalls lediglich als grobe erste Orientierungsmarken verstehen. Man muss wissen, dass ihr Gebrauch eine genauere Betrachtung der in sie eingehenden Einzelindikatoren nicht ersetzen kann, weil nur diese eine differenzierte Bewertung komplexer Sachverhalte erlauben.
Kritische Anmerkung zu Ranglisten
80
7 Index- und Verhältniszahlen
Exkurs 7.1
Der Human Development Index der Vereinten Nationen
Der Human Development Index (HDI ) der Vereinten Nationen verknüpft drei Dimensionen, die den Entwicklungsstand eines Landes charakterisieren, nämlich Gesundheit, Bildungsstand und Lebensstandard der Bevölkerung. Diese drei Aspekte werden erfasst über die Lebenserwartung von Neugeborenen, die Alphabetisierungs- und Einschulungsrate und das in Kaufkraftparitäten umgerechnete Bruttoinlandsprodukt pro Einwohner. Aus den verwendeten Indikatoren wird ein gewichteter Mittelwert gebildet, der so normiert wird, dass er stets Werte im Intervall [0; 1] annimmt. Ein HDI-Wert unter 0, 5 wird als Indiz für einen geringen Entwicklungsstand des Landes interpretiert, Werte zwischen 0, 5 und 0, 8 als Zeichen für einen mittleren Stand und HDI-Werte ab 0, 8 als Ausweis eines hohen Entwicklungsstandes. Europäische Länder finden sich regelmäßig im oberen Feld, während die untere Kategorie durchweg von afrikanischen Staaten belegt ist. Die Veröffentlichung der Werte erfolgt jährlich im Rahmen der Human Development Reports der Vereinten Nationen. HDI (Gesamtindex) 1. Island (0,968) 2. Norwegen (0,968) 3. 4. 5. 6.
Kanada (0,967) Australien (0,965) Irland (0,960) Niederlande (0,958) .. . 179. Repub. Sierra Leone (0,329)
Lebenserwartung (Gesundheit) 1. Japan (82,4) 2. Hong Kong, China (82,1) 3. Island (81,6) 4. Schweiz (81,4) 5. Australien (81,0) 6. Spanien (80,7) .. . 179. Swaziland (40,2)
Komb. Index „Wissen“ (Bildungsstand) 1. Australien (114,2) 10. Niederlande (97,5)
Index „Kaufkraft“ (Lebensstandard) 1. Luxembourg (77089) 12. Kanada (36687)
11. Spanien (96,5) 12. Island (96,0) 13. Libyen (95,8) 14. Frankreich (95,4) .. . 179. Djibouti (25,5)
13. Niederlande (35814) 14. Island (35814) 15. Österreich (35523) 16. Dänemark (35125) .. . 178. Demokr. Rep. Kongo (281)
Tab. 7.2: HDI-Werte und Sub-Indikatoren ausgewählter Länder für 2006 (Quelle: Human Development Report der Vereinten Nationen, 2008)
Interaktive Weltkarte für den HDI
Tabelle 7.2 zeigt die im HDI-Report für 2006 ausgewiesenen besten sechs HDI-Werte und einen besonders niedrigen Wert. Die drei Indikatorwerte, aus denen sich der HDI zusammensetzt, sind ebenfalls für ausgewählte Länder ausgewiesen. Die Werte für Island – ein Land, das nach Beginn der Wirtschaftskrise im Sommer 2008 beim Index „Kaufkraft“ an Boden verloren hat – sind in allen Kategorien hervorgehoben. Man erkennt, dass man auf die Sub-Indikatoren bei einer Gesamtbeurteilung der Entwicklungssituation eines Staates nicht verzichten sollte, weil sich hier ein differenzierteres Bild ergibt. Man sieht auch, dass sich die HDI-Werte bei den vorderen Rangplätzen kaum unterscheiden. Luxemburg belegte z. B. 2006 mit einem HDI-Wert von 0, 956 nur Platz 9 – Island und Norwegen auf den ersten Plätzen erreichten den Wert 0, 968. Kleinste Messfehler oder aber eine leichte Veränderung des Gewichtungsschemas würden eine andere Rangfolge liefern. Der inzwischen erschienene Human Development Report für 2010 weist Deutschland mit einem HDI-Wert von 0, 885 auf Platz 10 der Rangliste aus, Island mit 0, 869 nur noch auf Platz 17. Der HDI-Index und auch andere zusammengesetzten Indexzahlen basieren primär auf Daten aus amtlichen Quellen. In den Sozialwissenschaften gibt es Ansätze zur Messung von Wohlfahrt, subjektivem Wohlbefinden und soziokultureller Wertemuster auf der Basis individueller Befragungen. Genannt sei hier der World Values Survey, der sich auf persönliche Interviews stützt (mindestens 1000 pro Land) und umfangreiche Fragebögen verwendet.
3
8 Bivariate Häufigkeitsverteilungen 8.1 Darstellung empirischer Verteilungen für diskrete Merkmale In Abschnitt 4.1 wurde beschrieben, wie man Daten für ein diskretes oder ein gruppiertes stetiges Merkmal X anhand von absoluten oder relativen Häufigkeitsverteilungen charakterisieren und grafisch präsentieren kann. In vielen Anwendungen interessiert man sich aber nicht nur für ein einziges, sondern gleichzeitig für zwei oder mehr Merkmale, für die ein Datensatz von je n Beobachtungswerten vorliegt. Diese Daten will man grafisch aufbereiten und Zusammenhänge zwischen den Merkmalen erfassen. Die folgenden Ausführungen beschränken sich auf den Fall zweier Merkmale, also auf die bivariate Datenanalyse. Als Beispiele für die gemeinsame Erhebung zweier Merkmale seien die simultane Erfassung der Merkmale „Parteipräferenz X von Wählern“ und „Geschlecht Y “ genannt oder „Jahresbruttoeinkommen X eines Arbeitnehmers“ und „Bildungsstand Y “, letzterer operationalisiert über den höchsten erreichten Bildungsabschluss einer Person. Wie man Datensätze für zwei Merkmale aufbereitet und welches Zusammenhangsmaß verwendet werden kann, hängt von der Merkmalsskalierung ab. Ausgangspunkt sei eine Erhebung, bei der für zwei diskrete Merkmale X und Y mit beliebiger Skalierung an n Untersuchungseinheiten jeweils die Merkmalsausprägung festgestellt wird. Die folgenden Ausführungen lassen sich auch auf gruppierte stetige Merkmale beziehen; die Ausprägungen entsprechen dann den Klassen. Das Merkmal X weise die Ausprägungen a1 , . . . , ak , das Merkmal Y die Ausprägungen b1 , . . . , bm auf. Die Merkmalswerte x1 , . . . , xn und y1 , . . . , yn repräsentieren eine bivariate Urliste. Diese lässt sich z. B. in der Form (x1 , y1 ), . . . , (xn , yn ) schreiben, wobei Merkmalspaare (xi , yi ) mehrfach auftreten können. Auch bei bivariaten Urlisten kann man die in den Rohdaten enthaltene Information aggregieren, hier durch Angabe von Häufigkeiten für das Aufreten von Ausprägungskombinationen – oder, bei gruppierten Daten – für Kombinationen von Klassenbesetzungshäufigkeiten. Analog zu (4.1) bezeichne hij := h(ai , bj )
i = 1, 2, . . . , k;
j = 1, 2, . . . , m
(8.1)
die absolute Häufigkeit für die Ausprägungskombination (ai , bj ), also die Anzahl der Elemente der bivariaten Urliste, die mit (ai , bj ) übereinstimmen. Entsprechend sei analog zu (4.2) fij := f (ai , bj )
i = 1, 2, . . . , k;
j = 1, 2, . . . , m
(8.2)
die relative Häufigkeit für die Ausprägungskombination (ai , bj ). Die k · m Häufigkeiten hij und fij definieren die gemeinsame absolute Häufigkeitsverteilung resp. relative Häufigkeitsverteilung der Merkmale X und Y . Man kann diese besonders übersichtlich in tabellarischer Form wiedergeben. Die resultierende Tabelle heißt Kontingenztafel oder Kontingenztabelle, gelegentlich auch Kreuztabelle. Sie definiert
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_8, © Springer-Verlag Berlin Heidelberg 2011
81
Gemeinsame Verteilung zweier Merkmale
82
die gemeinsame empirische Verteilung der beiden Merkmale. Die Dimension einer Kontingenztafel wird durch die Anzahl k und m der Ausprägungen für X und Y bestimmt. Meist gibt man die Dimension mit an und spricht im Falle von k · m Ausprägungskombinationen von einer (k × m)-Kontingenztabelle. Nachstehend ist diese für den Fall absoluter Häufigkeiten wiedergegeben. Die Tabelle weist in einer Vorspalte die Ausprägungen von X und in einer Kopfzeile die von Y aus. Ausprägungen von Y
Ausprägungen von X
Tabellen für bivariate Häufigkeitsverteilungen
8 Bivariate Häufigkeitsverteilungen
b1
b2
...
bj
...
bm
a1
h11
h12
...
h1j
...
h1m
a2 .. .
h21 .. .
h22
... .. .
h2j
...
h2m .. .
ai .. .
hi1 .. .
hi2
...
hij
... .. .
him .. .
ak
hk1
hk2
. . . hkj
. . . hkm
Tab. 8.1: (k × m)-Kontingenztafel für absolute Häufigkeiten ohne Randhäufigkeiten
Kontingenztafeln werden üblicherweise noch um je eine weitere Zeile und Spalte ergänzt, wobei die zusätzliche Spalte bei einer Tabelle für absolute Häufigkeiten die k Zeilensummen hi· := hi1 + hi2 + . . . + him =
m X
hij
i = 1, 2, . . . , k
(8.3)
i = 1, 2, . . . , k
(8.4)
j=1
und analog bei relativen Häufigkeiten die Summen fi· := fi1 + fi2 + . . . + fim =
m X
fij
j=1
ausweist (lies: h-i-Punkt resp. f-i-Punkt). Die Summe (8.3) bzw. (8.4) entspricht der absoluten bzw. relativen Häufigkeit derjenigen Merkmalskombinationen, bei denen X die Ausprägung ai und Y eine beliebige der m Ausprägungen b1 , . . . , bm hat. Letzteres bedeutet, dass Y nicht berücksichtigt wird. Die Häufigkeiten h1· , h2· , . . . , hk· werden absolute Randhäufigkeiten von X genannt, die Häufigkeiten f1· , f2· , . . . , fk· relative Randhäufigkeiten von X. Durch sie ist die sog. Randverteilung von X definiert. Die zusätzliche Zeile, um die man eine Kontingenztafel erweitert, enthält die m Spaltensummen h·j := h1j + h2j + . . . + hkj =
k X i=1
hij
j = 1, 2, . . . , m
(8.5)
8.1 Darstellung empirischer Verteilungen für diskrete Merkmale
83
resp. f·j := f1j + f2j + . . . + fkj =
k X
fij
j = 1, 2, . . . , m.
(8.6)
i=1
(lies: h-Punkt-j bzw. f-Punkt-j ). Die Häufigkeiten h·1 , h·2 , . . . , h·m und f·1 , f·2 , . . . , f·m sind die absoluten Randhäufigkeiten bzw. die relativen Randhäufigkeiten von Y . Sie konstituieren die Randverteilung von Y . Randverteilungen sind nichts anderes als die Häufigkeitsverteilungen der Einzelmerkmale. Die Summe jeder der beiden Randverteilungen besitzt im Falle absoluter Häufigkeiten offenbar den Wert n und im Falle relativer Häufigkeiten den Wert 1.
b1
b2
...
bj
...
bm
a1
h11
h12
...
h1j
...
h1m
h1·
a2 .. .
h21 .. .
h22
... .. .
h2j
...
h2m .. .
h2· .. .
ai .. .
hi1 .. .
hi2
...
hij
... .. .
him .. .
hi· .. .
ak
hk1
hk2
. . . hkj
. . . hkm
hk·
h·1
h·2
...
...
h·j
h·m
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
n
Randverteilung von Y
Tab. 8.2: Vollständige (k × m)-Kontingenztafel für absolute Häufigkeiten
Durch die Randverteilungen wird eine Verbindung zwischen univariaten und bivariaten Häufigkeitsverteilungen hergestellt. Aus den gemeinsamen Häufigkeiten (8.1) bzw. (8.2) zweier Merkmale X und Y lassen sich stets gemäß (8.3) und (8.5) bzw. (8.4) und (8.6) die Randhäufigkeiten beider Merkmale bestimmen. Die Umkehrung gilt aber nicht, d. h. durch zwei gegebene Randverteilungen kann man i. a. nicht eindeutig auf die gemeinsamen Häufigkeiten zurückschließen. Dies ist plausibel, denn die Summenbildung beinhaltet Verdichtung von Information und jede Aggregation von Information impliziert auch Informationsverlust. Beispiel 8.1 Geschlechtspezifische Ergebnisse beim ZDF-Politbarometer In Tabelle 4.1 waren Ergebnisse des ZDF-Politbarometers vom 16. Oktober 2009 wiedergegeben. Die dort präsentierten Häufigkeiten bezogen sich auf n = 1021 befragte Personen, die ihre Parteipräferenz für den fiktiven Fall einer am nächsten Sonntag bevorstehenden Bundestagswahl geäußert hatten.
Flash-Animation „Kontingenztafel (Politbarometer)“
84
8 Bivariate Häufigkeitsverteilungen
Tabelle 8.3 zeigt die Häufigkeiten zur „Sonntagsfrage“ von Tabelle 4.1 erneut, nun differenziert nach Geschlecht. Im oberen Teil ist die absolute und darunter die relative Häufigkeitsverteilung für das Merkmal „Parteipräferenz“ wiedergegeben, jeweils mit Angabe der beiden Randverteilungen. Vergleicht man in beiden Teiltabellen die Randverteilung von X mit den univariaten Häufigkeitsverteilungen aus Tabelle 4.1, stellt man fest, dass beide übereinstimmen. Die Randverteilung des Merkmals „Parteipräferenz X“ ist also identisch mit der Häufigkeitsverteilung dieses Merkmals, welche sich bei Verzicht auf die Differenzierung nach Frauen und Männern ergibt. Aufgabe 8.1
Sonstige
♂ b1
♀ b2
a1
179
204
383
a2
100
117
217
a3
80
59
139
a4
67
50
117
a5
54
62
116
a6
21 501
28 520
49 1021
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
Randverteilung von Y
Sonstige
♂ b1
♀ b2
a1
0,175
0,200
0,375
a2
0,098
0,115
0,213
a3
0,078
0,058
0,136
a4
0,066
0,049
0,115
a5
0,053
0,061
0,114
a6
0,021 0,491
0,027 0,509
0,048 1
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
Randverteilung von Y
Tab. 8.3: (6×2)-Kontingenztafel für absolute und für relative Häufigkeiten (Politbarometer)
Spezialfall: (2 × 2)-Kontingenztafel
Ein Spezialfall einer Kontingenztabelle ist die Vierfeldertafel, die sich für k = m = 2 ergibt und in Tabelle 8.4 für den Fall absoluter Häufigkeiten wiedergegeben ist. Vierfeldertafeln werden in den Sozialwissenschaften und auch in der Psychologie oft im Zusammenhang mit der Untersuchung von Zusammenhängen zwischen zwei Merkmalen verwendet, die je nur zwei Ausprägungen aufweisen. Solche Merkmale nennt man bi-
8.1 Darstellung empirischer Verteilungen für diskrete Merkmale
85
näre Merkmale oder dichotome Merkmale. Beispiele sind etwa „Geschlecht“ und „Prüfungserfolg“, wenn man beim letztgenannten Merkmal nur zwischen „Bestehen“ und „Nicht-Bestehen“ differenziert.
a1 a2 Spaltensummen
b1 h11 h21 h·1
b2 h12 h22 h·2
Zeilensummen h1· h2· n
Tab. 8.4: Vierfeldertafel für absolute Häufigkeiten
In Zeitungen findet man oft Informationen, die sich zwar in einer Vierfeldertafel zusammenfassen lassen, aber nicht direkt in dieser Form gegeben sind. Die Übertragung der veröffentlichten Information in eine Vierfeldertafel kann dadurch erschwert sein, dass die Informationen sich teilweise auf absolute und teilweise auf relative Häufigkeiten beziehen. In solchen Fällen kann es zweckmäßig sein, anstelle einer Vierfeldertafel zunächst ein Baumdiagramm zu entwickeln. Letzteres ist eine Darstellung, die eine hierarchische Struktur – analog zu einem Stammbaum – in Form sich verzweigender Äste darstellt. Anstelle der Darstellung in Tabelle 8.4 könnte man z. B. das folgende Baumdiagramm wählen: h11 h1· h12 n h21 h2· h22 Abb. 8.1: Baumdiagramm zur Darstellung der Information einer Vierfeldertafel
Beispiel 8.2 Baumdiagramm zu amtlichen Bevölkerungsdaten In einer Pressemitteilung des Statistischen Bundesamtes vom 24. Juni 2004 hieß es, dass 51, 1 % der damals mit 82, 5 Millionen veranschlagten Bevölkerung Deutschlands Frauen sind (Bevölkerungsstand Anfang 2009: 82, 0 Millionen). Ferner wurde mitgeteilt, dass der Anteil der Erwerbstätigen bei den Frauen bei 42, 4 % und bei den Männern bei 55, 3 % lag. (Kinder sind hier jeweils einbezogen und der Kategorie „nicht erwerbstätig“ zugeordnet.) Aus dieser sehr knapp gehaltenen Verlautbarung lässt sich z. B. nicht unmittelbar ablesen, wieviele Männer und Frauen ohne Erwerbstätigkeit waren.
86
8 Bivariate Häufigkeitsverteilungen
Bevor man eine Vierfeldertafel für absolute Häufigkeiten ableitet, ist es hilfreich, die in der Pressenotiz enthaltenen Substanz erst einmal in ein Baumdiagramm zu übertragen. Dieses ist in Abbildung 8.2 wiedergegeben, wobei die vom Statistischen Bundesamt direkt kommunizierte Information durch Fettdruck betont ist. Erwerbstätig: h11 ≈ 22,3094 (55,3 % von h1· ) Männer: h1· = 40,3425 (48,9 % von n) Erwerbslos: h12 ≈ 18,0331 (44,7 % von h1· )
n = 82,5
Erwerbstätig: h21 ≈ 17,8748 (42,4 % von h2· ) Frauen: h2· = 42,1575 (51,1 % von n) Erwerbslos: h22 ≈ 24,2827 (57,6 % von h2· )
Abb. 8.2: Baumdiagramm für die Merkmale „Geschlecht“ und „Erwerbstätigkeit“
Hieraus ergibt sich dann für die beiden Merkmale bei Rundung auf volle Hunderter die in Tabelle 8.5 wiedergegebene Vierfeldertafel für absolute Häufigkeiten, bei der – anders als bei der Kontingenztabelle aus Beispiel 8.1 – die Ausprägungen des Merkmals „Geschlecht“ vertikal aufgelistet sind. Wenn man bei dem obigen Baumdiagramm auf der zweiten Ebene nach dem Erwerbsstatus und auf der dritten Ebene nach Geschlecht unterteilte und dann die Häufigkeiten wieder in eine Vierfeldertafel übertrüge, würden die Ausprägungen des Merkmals „Geschlecht“ im Tabellenkopf stehen.
Männer Frauen Spaltensummen
Erwerbstätige Erwerbslose 22, 3094 18, 0331 17, 8748 24, 2827 40, 1842 42, 3158
Zeilensummen 40, 3425 42, 1575 82, 5
Tab. 8.5: Vierfeldertafel für absolute Häufigkeiten
8.2 Empirische Unabhängigkeit diskreter Merkmale
87
8.2 Empirische Unabhängigkeit diskreter Merkmale Aus den gemeinsamen Häufigkeiten für zwei Merkmale X und Y kann man noch nicht direkt Aussagen über Zusammenhänge zwischen den Merkmalen ableiten. Aus der Tatsache etwa, dass sich bei der „Sonntagsfrage“ des ZDF vom 16. Oktober 2009 insgesamt 11, 5 % der Personen der Stichprobe weibliche Wähler mit SPD-Präferenz waren (117 von 1021 Personen), lässt sich nicht unmittelbar eine Aussage über eine geschlechtsspezifische Präferenz dieser Partei gewinnen. Zur Herleitung einer solchen Aussage muss man auch die Information verwenden, wie oft die SPD insgesamt favorisiert wurde, d.h. wie groß die Teilmenge aller Befragten in der Stichprobe war, die sich für die SPD aussprach. Diese Information wird durch eine Randhäufigkeit vermittelt (hier: h2· = 217). Eine geeignete Verknüpfung der gemeinsamen Häufigkeiten für zwei diskrete Merkmale X und Y mit den Randhäufigkeiten führt zu bedingten relativen Häufigkeiten, die der Ausgangspunkt sind für die Untersuchung von Zusammenhängen zwischen zwei diskreten Merkmalen. Um das Konzept der bedingten Häufigkeiten verständlich zu machen, ist in Tabelle 8.6 nochmals eine (k × m)-Kontingenztafel veranschaulicht, nun aber mit Hervorhebung der i-ten Zeile (Betonung durch Umrahmung). Man findet im hervorgehobenen Bereich neben der Angabe der Ausprägung ai für das Merkmal X die m gemeinsamen absoluten Häufigkeiten hij = h(ai , bj ) beider Merkmale, welche der Bedingung X = ai genügen. Am Ende des betonten Bereichs steht die durch Aufsummieren der m genannten Häufigkeiten resultierende Randhäufigkeit hi· von X.
b1
b2
...
bj
...
bm
a1
h11
h12
...
h1j
...
h1m
h1·
a2 .. .
h21 .. .
h22
... .. .
h2j
...
h2m .. .
h2· .. .
ai .. .
hi1 .. .
hi2
...
hij
... .. .
him .. .
hi· .. .
ak
hk1
hk2
. . . hkj
. . . hkm
hk·
h·1
h·2
...
...
h·j
h·m
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
n
Randverteilung von Y
Tab. 8.6: Absolute Häufigkeiten für die Ausprägungen von Y unter der Bedingung X = ai
Dividiert man nun jedes der m Elemente hi1 , hi2 , . . . , him durch die Randhäufigkeit hi· , so erhält man die relativen Häufigkeiten für das Auftreten der Ausprägungen b1 , b2 , . . . , bm bei Gültigkeit von X = ai . Das Ergebnis sind bedingte relative Häufigkeiten für
Bedingte Häufigkeitsverteilung für Y
88
8 Bivariate Häufigkeitsverteilungen
Y . Wenn man diese mit fY (bj |ai ) abkürzt, gilt also fY (bj |ai ) :=
hij hi·
j = 1, 2, . . . , m.
(8.7)
Die m bedingten relativen Häufigkeiten fY (b1 |ai ), fY (b2 |ai ), . . . , fY (bm |ai ) definieren die bedingte Häufigkeitsverteilung für Y unter der Bedingung X = ai . Analog kann man, wie in Tabelle 8.7 illustriert, in der (k × m)-Kontingenztafel die j-te Spalte hervorheben. In der Kopfzeile steht dann für Y die Ausprägung bj . Darunter folgen die k gemeinsamen absoluten Häufigkeiten h1j , h2j , . . . ,hkj der Merkmale X und Y , bei denen bezüglich Y die Bedingung Y = bj zutrifft. Am Ende des betonten Bereichs steht die durch Aufsummieren der k genannten Häufigkeiten errechnete Randhäufigkeit h·j von Y .
b1
b2
...
bj
...
bm
a1
h11
h12
...
h1j
...
h1m
h1·
a2 .. .
h21 .. .
h22
... .. .
h2j
...
h2m .. .
h2· .. .
ai .. .
hi1 .. .
hi2
...
hij
... .. .
him .. .
hi· .. .
ak
hk1
hk2
...
hkj
. . . hkm
hk·
h·1
h·2
...
h·j
...
h·m
Randverteilung von X
Ausprägungen von Y
Ausprägungen von X
Bedingte Häufigkeitsverteilung für X
n
Randverteilung von Y
Tab. 8.7: Absolute Häufigkeiten für die Ausprägungen von X unter der Bedingung Y = bj
Teilt man jedes der k Elemente h1j , h2j , . . . , hkj durch die Randhäufigkeit h·j , so erhält man die relativen Häufigkeiten für das Auftreten der Ausprägungen a1 , a2 , . . . , ak unter der Bedingung Y = bj . Es resultieren bedingte relative Häufigkeiten für X unter der Bedingung Y = bj . Kürzt man diese mit fX (ai |bj ) ab, hat man fX (ai |bj ) :=
hij h·j
i = 1, 2, . . . , k.
(8.8)
Die k bedingten relativen Häufigkeiten fX (a1 |bj ), fX (a2 |bj ), . . . , fX (ak |bj ) konstituieren die bedingte Häufigkeitsverteilung für X unter der Bedingung Y = bj . Abbildung 8.3 fasst zusammen, wie man aus einer Kontingenztabelle für zwei diskrete oder gruppierte stetige Merkmale X und Y unter Verwendung der Randhäufigkeiten die bedingten Häufigkeitsverteilungen für beide Merkmale gewinnt. Eine bedingte Häufigkeitsverteilung resultiert, wenn man jedes Element einer Zeile oder Spalte eine Kontingenztabelle durch die zur jeweiligen Zeile oder Spalte gehörende Randhäufigkeit teilt.
b1
...
bm
a1 .. .
h11 .. .
... .. .
h1m .. .
h1· .. .
ai .. .
hi1 .. .
... .. .
him .. .
hi· .. .
ak
hk1
...
hkm
hk·
Randverteilung von X
8.2 Empirische Unabhängigkeit diskreter Merkmale
89
b1
...
bj
...
bm
a1 .. .
h11 .. .
... ...
h1j .. .
... .. .
h1m .. .
ak
hk1
...
hkj
. . . hkm
h·1
...
h·j
...
h·m
Randverteilung von Y
Division aller Elemente der iten Zeile durch hi·
Division aller Elemente der j-ten Spalte durch h·j
Bedingte Häufigkeitsverteilung von Y unter der Bedingung X = ai (i = 1, . . . , k)
Bedingte Häufigkeitsverteilung von X unter der Bedingung Y = bj (j = 1, . . . , m)
Abb. 8.3: Bestimmung bedingter Häufigkeitsverteilungen
Bedingte Häufigkeitsverteilungen sind univariate Verteilungen, weil nur die Merkmalsausprägungen für ein einziges Merkmal variieren.
Beispiel 8.3 Bedingte Häufigkeiten beim ZDF-Politbarometer Die Bestimmung bedingter relativer Häufigkeiten und deren Interpretation sei anhand der Daten zum ZDF-Politbarometer aus Beispiel 8.1 illustriert. Bei diesem Datensatz ist z. B. die Frage von Interesse, ob zwischen der Parteipräferenz X und dem Geschlecht Y der befragten Personen in der Stichprobe ein Zusammenhang besteht. Tabelle 8.8 zeigt nochmals die Kontingenztafel für absolute Häufigkeiten aus Beispiel 8.1. In der oberen Fassung der Tabelle sind die Häufigkeiten hervorgehoben, die sich auf die Wahlpräferenzen der Männer in der Stichprobe beziehen (Hervorhebung der ersten Spalte), während die untere Fassung diejenigen Häufigkeiten betont, die sich auf die Ausprägung X = a2 beziehen (Hervorhebung der zweiten Zeile der Kontingenztafel). Die obere Version von Tabelle 8.8 betont, dass von den n = 1021 Personen der Stichprobe insgesamt 501 Befragte männlich waren und dass innerhalb dieser Teilstichprobe 179 Männer die CDU/CSU, 100 die SPD, 80 die FDP, 67 die Linken, 54 die Grünen und 21 sonstige Parteien favorisiert hatten. Die bedingten relativen Häufigkeiten fX (a1 |b1 ), fX (a2 |b1 ), . . . , fX (a6 |b1 ), die die bedingte Häufigkeitsverteilung für X unter der Bedin-
Flash-Animation „Bedingte Häufigkeiten (Politbarometer)“
90
8 Bivariate Häufigkeitsverteilungen
♂ b1
♀ b2
a1
179
204
383
a2
100
117
217
a3
80
59
139
a4
67
50
117
a5
54
62
116
Sonstige a6
21 501
28 520
49 1021
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
Randverteilung von Y
Sonstige
♂ b1
♀ b2
a1
179
204
383
a2
100
117
217
a3
80
59
139
a4
67
50
117
a5
54
62
116
a6
21 501
28 520
49 1021
Randverteilung von X
Ausprägungen von X
Ausprägungen von Y
Randverteilung von Y
Tab. 8.8: Exemplarische Berechnung bedingter Häufigkeiten (ZDF-Politbarometer)
gung Y = b1 definieren, bestimmen sich nach (8.8) als h11 179 = ≈ 0, 357 h·1 501 h31 80 fX (a3 |b1 ) = = ≈ 0, 160 h·1 501 h51 54 fX (a5 |b1 ) = = ≈ 0, 108 h·1 501 fX (a1 |b1 ) =
Aufgabe 8.2
h21 100 = ≈ 0, 200 h·1 501 h41 67 fX (a4 |b1 ) = = ≈ 0, 138 h·1 501 h61 21 fX (a6 |b1 ) = = ≈ 0, 042. h·1 501 fX (a2 |b1 ) =
Der Wert 0, 357 sagt z. B. aus, dass von den Personen in der Stichprobe, die männlichen Geschlechts waren, ca. 35, 7 % bei der „Sonntagsfrage“ vom 16. Oktober 2009 die CDU/CSU favorisiert hatten. Im unteren Teil von Tabelle 8.8 ist hervorgehoben, dass von den n = 1021 Personen der Stichprobe 217 Personen die SPD favorisiert hatten, nämlich 100 Männer (Y = b1 )
8.2 Empirische Unabhängigkeit diskreter Merkmale
91
und 117 Frauen (Y = b2 ). Die bedingten relativen Häufigkeiten fY (b1 |a2 ) und fY (b2 |a2 ), die die bedingte Häufigkeitsverteilung für das Merkmal Y unter der Bedingung X = a2 repräsentieren, errechnen sich gemäß (8.7) als fY (b1 |a2 ) =
h21 100 = ≈ 0, 461 h2· 217
fY (b2 |a2 ) =
h22 117 = ≈ 0, 539. h2· 217
Das Ergebnis 0, 539 beinhaltet, dass von den Personen in der Stichprobe, die sich für die SPD entschieden hatten, 53, 9 % weiblich waren. Anhand der bedingten Häufigkeitsverteilungen lässt sich konkretisieren, wann man von einem fehlenden Zusammenhang zweier Merkmale X und Y spricht, d. h. von Unabhängigkeit der Merkmale. Intuitiv wird man Unabhängigkeit von X und Y als gegeben ansehen, wenn die Ausprägung eines Merkmals keinen Einfluss auf die Ausprägung des anderen Merkmals hat. Dies aber bedeutet, dass eine bedingte Häufigkeitsverteilung für ein Merkmal nicht davon abhängt, welche Merkmalsausprägung für das andere Merkmal vorausgesetzt wird. So dürfte die bedingte Häufigkeitsverteilung für X unter der Bedingung Y = bj nicht davon abhängen, welche der m Ausprägungen b1 , b2 , . . . , bm als Bedingung gewählt wird, d. h. die m bedingten Häufigkeitsverteilungen fX (a1 |bj ), fX (a2 |bj ), . . . , fX (ak |bj ) müssten übereinstimmen (j = 1, 2, . . . , m). Insbesondere müssten dann die i-ten Elemente dieser m bedingten Verteilungen identisch sein, d. h. es würde bei Unabhängigkeit gelten
Wann liegt kein Zusammenhang vor?
Flash-Animation „Empirische Unabhängigkeit“
fX (ai |b1 ) = fX (ai |b2 ) = . . . = fX (ai |bm ). Äquivalent ist wegen (8.8) die Darstellung hi1 hi2 him = = ... = . h·1 h·2 h·m Wenn in der letzten Gleichung die m Brüche alle identisch sind, muss auch der Quotient aus der Summe aller m Zähler und der Summe aller m Nenner übereinstimmen. Die erstgenannte Summe ist offenbar die Randhäufigkeit hi· , während die zweite Summe mit dem Stichprobenumfang n übereinstimmt (vgl. Tabelle 8.6). Es gilt also bei Unabhängigkeit von X und Y für jede der gemeinsamen Häufigkeiten hij der Kontingenztafel hij hi· = . h·j n h ·h
Löst man nach hij auf, folgt, dass hij bei Unabhängigkeit der Merkmale mit i·n ·j übereinstimmt. Für die bei empirischer Unabhängigkeit zu erwartenden Werte für die gemeinsamen Häufigkeiten von X und Y wird im Folgenden die Abkürzung hi· · h·j e hij := n
(8.9)
(lies: h-Schlange-i-j ) verwendet. Empirische Unabhängigkeit bzw. Abhängigkeit von X und Y bedeutet dann, dass für die Häufigkeiten hij der (k × m)-Kontingenztafel ( =e hij bei empirischer Unabhängigkeit der Merkmale hij (8.10) 6= e hij bei empirischer Abhängigkeit der Merkmale
Formale Definition der Unabhängigkeit zweier Merkmale
92
8 Bivariate Häufigkeitsverteilungen
gilt. Zwei Merkmale X und Y , deren gemeinsame Häufigkeitsverteilung durch Tabelle 8.2 gegeben ist, sind also genau dann unabhängig, wenn für jedes der k · m Elemente hij der Kontingenztafel hij = e hij ist mit e hij aus (8.9). Da sich eine solche Unabhängigkeitsaussage aus Daten und nicht aus Wahrscheinlichkeitsmodellen ableitet, spricht man auch präziser von empirischer Unabhängigkeit der betreffenden Merkmale. Die bei Unabhängigkeit zu erwartenden, nach (8.9) berechneten (fiktiven) Werte für die gemeinsamen Häufigkeiten sind nicht notwendigerweise ganzzahlig. Die Aussage (8.10) impliziert, dass bei Unabhängigkeit zweier Merkmale X und Y die gesamte Information über die gemeinsame Häufigkeitsverteilung bereits in den Randverteilungen steckt. Wenn zwischen den Merkmalen hingegen ein Zusammenhang besteht, gilt dies nicht und es gibt dann von Null verschiedene Differenzen hij − e hij . Diese sind der Ausgangspunkt für die Konstruktion von Zusammenhangsmaßen für nominalskalierte Merkmale (s. Abschnitt 9.1). Beispiel 8.4 Hängen „Parteipräferenz“ und „Geschlecht“ zusammen? Zur Illustration der Vorgehensweise bei der Untersuchung der empirischen Unabhängkeit bzw. Abhängigkeit von Merkmalen werde erneut die im oberen Teil von Tabelle 8.3 wiedergegebene Kontingenztafel für absolute Häufigkeiten herangezogen. Diese zeigte die Ergebnisse des Politbarometers vom 16. Oktober 2009 in Form der gemeinsamen Häufigkeiten für die Merkmale „Parteipräferenz X“ und „Geschlecht Y “. Interessant ist hier die Fragestellung, ob sich das Wählerverhalten von Frauen und Männern unterscheidet, d. h. ob zwischen den nominalskalierten Merkmalen X und Y ein Zusammenhang besteht.
Flash-Animation „Parteipräferenz und Geschlecht“
Um eine Aussage über einen möglichen Zusammenhang zwischen den beiden Merkmalen zu gewinnen, hat man die in der Kontingenztabelle ausgewiesenen Häufigkeiten hij mit den nach (8.9) zu errechnenden Werten zu vergleichen, die bei empirischer Unabhängigkeit gelten müssten. Die vier Werte h11 = 179, h12 = 204, h21 = 100, h22 = 117 der ersten beiden Zeilen der Kontingenztafel sind also z. B. zu vergleichen mit h1· · h·1 383 · 501 e h11 = = ≈ 187, 9 n 1021
h1· · h·2 383 · 520 e h12 = = ≈ 195, 1 n 1021
h2· · h·1 217 · 501 e h21 = = ≈ 106, 5 n 1021
h2· · h·2 217 · 520 e h22 = = ≈ 110, 5. n 1021
Die anderen 8 Werte e hij sind analog zu bestimmen. Man erhält, wenn man wieder auf eine Dezimalstelle rundet e h31 ≈ 68, 2 e h51 ≈ 56, 9
e h32 ≈ 70, 8 e h52 ≈ 59, 1
e h41 ≈ 57, 4 e h61 ≈ 24, 0
e h42 ≈ 59, 6 e h62 ≈ 25, 0.
Um die Werte hij mit den entsprechenden Werten e hij leichter direkt vergleichen zu können, sind in der nachstehenden Tabelle 8.9 im mitteren Teil (graues Hintergrundraster) die beobachteten absoluten Häufigkeiten hij und im rechten Teil die die bei Unabhängigkeit zu erwartenden fiktiven Werte e hij nebeneinander gestellt.
8.2 Empirische Unabhängigkeit diskreter Merkmale
Ausprägungen von X
Ausprägungen von Y
Sonstige
93 Ausprägungen von Y
♂ b1
♀ b2
♂ b1
♀ b2
a1
179
204
187,9
195,1
a2
100
117
106,5
110,5
a3
80
59
68,2
70,8
a4
67
50
57,4
59,6
a5
54
62
56,9
59,1
a6
21
28
24,0
25,0
Tab. 8.9: Absolute Häufigkeiten (Politbarometer) - beobachtete Werte (gerasterter Teil der Tabelle) und Werte bei empirischer Unabhängigkeit (rechter Teil der Tabelle)
Man erkennt, dass die sich entsprechenden Werte zwar nicht extrem, aber doch in nicht vernachlässigbarem Umfang unterschiedlich sind – es ist z. B. h32 = 59 und e h32 = 70, 8. Die Daten sprechen nicht für eine empirische Unabhängigkeit der beiden Merkmale „Parteipräferenz X“ und „Geschlecht Y “. Bivariate empirische Verteilungen für diskrete oder gruppierte stetige Merkmale lassen sich mit gestapelten Säulen- oder Balkendiagrammen visualisieren. Eine andere Möglichkeit besteht in der Verwendung neben- oder hintereinander gestellter Säulen. Letzteres führt zu einem Doppel-Säulendiagramm bzw. zu einem 3D-Säulendiagramm. Abbildung 8.4 visualisiert anhand eines Doppel-Säulendiagramms eine (4×2)-Kontingenztafel Visualisierung für relative Häufigkeiten – ausgewiesen in Prozent – für ein gruppiertes stetiges Merkmal empirischer Verteilungen X und ein Merkmal Y , das von vorneherein diskret vorliegt.
zweier diskreter Merkmale
Relative Häufigkeiten in % 60 50
Altersklasse 0-14 15-24 25-64 > 65
40 30 20
DE 15,5 11,3 56,5 16,7
IRL 21,5 17,3 50,0 11,2
10 0-14
15-24
25-64
> 64
Alter
Abb. 8.4: Bevölkerungsstrukturen 2001 in Deutschland und Irland (Präsentation anhand von Doppel-Säulendiagrammen; linke Teilbalken: Deutschland)
94
8 Bivariate Häufigkeitsverteilungen
Das erstgenannte Merkmal ist die durch Bildung von vier Klassen diskretisierte demografische Schlüsselvariable „Alter X“ (Bildung der 4 Altersgruppen „0 - 14 Jahre“, „15 24 Jahre“, „25 - 64 Jahre“ und „65 und mehr Jahre“), während für das Merkmal „Land Y “ hier nur zwei Ausprägungen herangezogen werden, nämlich „Deutschland“ und „Irland“. Die Daten sind amtliche Daten von Eurostat für das Jahr 2001. Man erkennt deutliche Unterschiede hinsichtlich der Bevölkerungsstrukturen beider Länder. So entnimmt man der neben der Grafik platzierten Kontingenztabelle z. B., dass der Anteil der unter 15jährigen mit 15, 5 % in Deutschland viel niedriger (Irland: 21, 5 %) und der Anteil der über 64-jährigen mit 16, 7 % viel höher (Vergleichswert: 11, 2 %) als in Irland ist. Bei allen oben genannten Varianten für die grafische Darstellung bivariater empirischer Verteilungen für diskrete oder gruppierte stetige Merkmale lassen sich die absoluten oder relativen Häufigkeiten, welche die Länge der einzelnen Säulen oder Säulenabschnitte definieren, bei Bedarf auch direkt in der Grafik ausweisen. Dies kann z. B. sinnvoll sein, wenn sich mehrere Säulen oder Säulenabschnitte hinsichtlich ihrer Länge kaum unterscheiden und die numerischen Werte nicht zusätzlich tabellarisch ausgewiesen sind.
8.3 Darstellung empirischer Verteilungen für stetige Merkmale Wenn man an n Untersuchungseinheiten die Ausprägungen zweier stetiger Merkmale X und Y ermittelt, wird man bei der resultierenden bivariaten Urliste (x1 , y1 ), . . . , (xn , yn ) selten beobachten, dass Merkmalspaare (xi , yi ) mehrfach auftreten, d. h. die Häufigkeit beträgt für jedes Merkmalspaar meist 1. Grundsätzlich kann man natürlich die Merkmale durch Gruppierung diskretisieren und dann die in Abschnitt 8.1 behandelten Ansätze heranziehen. Gruppierung stetiger Merkmale ist aber mit einem Informationsverlust verbunden. Dieser kann bei sehr großen Datensätzen vertretbar sein, wenn die Aggregation von Information zu mehr Übersichtlichkeit führt.
100
y
100
80
80
60
60
40
40
20
20
y
x 20
40
60
80
100
x 20
Abb. 8.5: Zwei Streudiagramme
40
60
80
100
8.3 Darstellung empirischer Verteilungen für stetige Merkmale
95
Ein Datensatz für zwei stetige Merkmale wird üblicherweise in einem zweidimensionalen Koordinatensystem dargestellt. In diesem Koordinatensystem werden die Merkmalspaare (x1 , y1 ), . . . , (xn , yn ) durch Punkte oder Kreuze repräsentiert. Dabei resultiert ein Streudiagramm. Abbildung 8.5 zeigt zwei solche Streudiagramme. Das Streudiagramm im linken Teil von Abbildung 8.5 legt einen Zusammenhang zwischen den Merkmalen X und Y nahe, während das andere Streudiagramm diesen Eindruck nicht vermittelt. Ein Streudiagramm liefert also einen visuellen Anhaltspunkt für das Bestehen oder Fehlen von Zusammenhängen bei stetigen Merkmalen. Zur Quantifizierung des visuellen Eindrucks benötigt man ein Zusammenhangsmaß. Ein solches wird in Abschnitt 9.2 abgeleitet.
Visualisierung empirischer Verteilungen bei stetigen Merkmalen
9 Zusammenhangsmaße 9.1 Nominalskalierte Merkmale In Abschnitt 8.2 wurde mit (8.10) formalisiert, was unter einem fehlenden Zusammenhang für zwei nominalskalierte Merkmale X und Y zu verstehen ist, also unter empirischer Unabhängigkeit dieser Merkmale. Sie wurde genau dann als gegeben angenommen, wenn beim Vergleich der in einer (k × m)-Kontingenztabelle zusammengefassten gemeinsamen Häufigkeiten hij für diese Merkmale mit den bei Unabhängigkeit zu erwartenden Häufigkeiten e hij aus (8.9) eine durchgehende Übereinstimmung festgestellt wird. Wenn keine Übereinstimmung festgestellt wird, also ein empirischer Zusammenhang vorliegt, will man diesen anhand eines geeigneten Zusammenhangsmaßes quantifizieren. Es liegt nahe, die k × m Differenzen hij − e hij für die Konstruktion eines Maßes heranzuziehen. Da diese Differenzen sowohl positiv als auch negativ sein können, sich also bei Aufsummierung ganz oder teilweise zu neutralisieren vermögen, verwendet man die Summe der quadrierten Differenzen. Diese werden noch auf e hij bezogen, d.h. man bildet die Summe der k × m Terme
(hij −e hij )2 . e hij
Wenn man diese Terme analog zu Tabelle 8.1 (innerer Bereich) in einer Tabelle mit k Zeilen und m Spalten anordnet, kann man die genannte Summe errechnen, indem man z. (h −e h )2 B. zuerst die Terme ij eh ij in jeder der k Zeilen addiert und dann die k Zeilensummen ij aufsummiert. Die Summe der normierten Differenzterme in der i-ten Zeile (i fest) ist gegeben durch m X (hij − e hij )2 (hi1 − e hi1 )2 (hi2 − e hi2 )2 (him − e him )2 = + + ... + . e e e e hij hi1 hi2 him j=1
Summiert man nun noch die k Zeilensummen auf, erhält man einen Term mit zwei Summenzeichen (Doppelsumme), der mit χ2 (lies: Chi-Quadrat) abgekürzt und χ2 Koeffizient genannt wird: 1 k X m X (hij − e hij )2 χ := . e hij 2
Ein nicht-normiertes Zusammenhangsmaß
(9.1)
i=1 j=1
Der χ2 -Koeffizient ist ein Zusammenhangsmaß für zwei nominalskalierte Merkmale, das nach Konstruktion Null ist, wenn die Merkmale empirisch unabhängig sind. Bei einem schwachen Merkmalszusammenhang nimmt (9.1) kleine und bei starkem Zusammenhang große Werte an. Das Maß χ2 kann aber nicht beliebig groß werden, d. h. es ist nach oben beschränkt. Die obere Schranke χ2max hängt sowohl vom Umfang n des 1
Das Zusammenhangsmaß (9.1) wird in der induktiven Statistik u. a. verwendet, um Hypothesen über Merkmalszusammenhänge zu testen (sog. χ2 -Unabhängigkeitstest).
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_9, © Springer-Verlag Berlin Heidelberg 2011
97
Flash-Animation „χ2 -Koeffizient“
98
9 Zusammenhangsmaße
Datensatzes ab wie auch vom kleineren der beiden Werte k und m, die die Dimension der Kontingenztabelle festlegen. Bezeichnet man das Minimum der beiden Werte k und m mit M , so kann man zeigen (vgl. etwa Toutenburg / Heumann (2009, Abschnitt 4.2)), dass 0 ≤ χ2 ≤ χ2max = n · (M − 1)
M := min(k; m).
(9.2)
Wenn der χ2 -Koeffizient den Wert χ2max annimmt, spricht man von vollständiger Abhängigkeit der beiden Merkmale. Herleitung eines normierten Zusammenhangsmaßes
Wenn man zwei Kontingenztafeln gleicher Dimension hat, so erlaubt der χ2 -Koeffizient nur dann den Vergleich der Stärke der Merkmalszusammenhänge in beiden Tabellen, wenn auch der Umfang n der in die Kontingenztafeln eingehenden Häufigkeiten übereinstimmt. Der χ2 -Koeffizient ist daher für die Praxis noch nicht sonderlich geeignet. Ein aus (9.1) abgeleitetes Zusammenhangsmaß, dessen Wert nicht mehr von n abhängt, ist der durch r χ2 Φ := (9.3) n definierte Phi-Koeffizient. Auch dieses Maß ist nicht-negativ und nimmt bei einem schwachen Merkmalszusammenhang √ kleine Werte an. Bei einem starken Zusammenhang ist der Φ-Koeffizient offenbar durch M − 1 nach oben beschränkt, d. h. es gilt mit M aus (9.2): √ 0 ≤ Φ ≤ Φmax := M − 1. (9.4)
Harald Cramér
Flash-Animation „Cramér’s V“
Der maximale Wert Φmax , den der Phi-Koeffizient bei vollständiger Abhängigkeit der beiden Merkmale annimmt, hängt zwar nicht mehr von n ab, wohl aber immer noch von M , also von der Dimension der Kontingenztabelle. Auch mit dem Phi-Koeffizienten kann man also die Stärke von Merkmalszusammenhängen bei Kontingenztabellen unterschiedlicher Dimension noch nicht direkt vergleichen. Diesen Nachteil vermeidet der auf den schwedischen Mathematiker und Statistiker Harald Cramér (1893 - 1985) zurückgehende Kontingenzkoeffizient s s χ2 χ2 V := = . (9.5) χ2max n · (M − 1) Das Zusammenhangsmaß von Cramér, häufig kurz als Cramér’s V angesprochen, nimmt stets Werte zwischen 0 und 1 an, ist also ein normiertes Zusammenhangsmaß: 0 ≤ V ≤ 1.
(9.6)
Mit (9.6) lässt sich die Stärke von Merkmalszusammenhängen bei Kontingenztabellen beliebiger Dimension direkt vergleichen. Aussagen über die Richtung eines Zusammenhangs sind allerdings bei allen hier vorgestellten Zusammenhangsmaßen nicht möglich.
9.1 Nominalskalierte Merkmale
99
Beispiel 9.1 Zusammenhang zwischen „Parteipräferenz“ und „Geschlecht“ Auf der Basis der (6 × 2)-Kontingenztabelle mit den Daten vom Politbarometer vom 16. Oktober 2009 wurde in Beispiel 8.4 festgestellt (vgl. Tabelle 8.9), dass man von einem Zusammenhang zwischen den beiden nominalskalierten Merkmalen „Parteipräferenz X“ und „Geschlecht Y “ ausgehen muss. Die Stärke des Zusammenhangs wurde aber dort noch nicht quantifiziert. Zur Quantifizierung der Zusammenhangsstärke lassen sich nun die Zusammenhangsmaße (9.1), (9.3) und (9.5) heranziehen. Die Berechnung des χ2 -Koeffizienten (9.1) be(h −e h )2 steht hier aus der Bestimmung von 6 · 2 = 12 Termen ij eh ij . Für den ersten Term ij errechnet man z. B.
Flash-Animation „Parteipräferenz und Geschlecht (Zusammenhangsmessung)“
(h11 − e h11 )2 (179 − 187, 9)2 = ≈ 0, 42. 187, 9 hf 11 Analog ermittelt man unter Rückgriff auf die in Beispiel 8.3 bestimmten Werte e hij die übrigen 11 Terme. Man erhält bei Rundung auf 2 Dezimalstellen 2 χ2 ≈ 0, 42 + 0, 40 + 2, 04 + 1, 61 + 0, 15 + 0, 38 + 0, 41 + 0, 38 + 1, 97 + 1, 55 + 0, 14 + 0, 36 = 9, 79.
Da hier n = 1021 sowie k = 6, m = 2 und damit M = min(6; 2) = 2 ist, folgt für die kleinste obere Schranke χ2max des χ2 -Koeffizienten nach (9.2) χ2max = 1021 · 1 = 1021. Der Wert χ2 ≈ 9, 79 liegt deutlich näher an der unteren Schranke 0, was für einen nur schwach ausgeprägten Merkmalszusammenhang spricht. Für den Φ-Koeffizienten (9.3) gilt r Φ=
9, 79 ≈ 0, 098. 1021
Dieser Wert und der für das Cramérsche Zusammenhangsmaß V aus (9.5) stimmen hier wegen n = n · (M − 1) überein. Man kann die vorstehenden Berechnungen natürlich auch unter Heranziehung geeigneter Statistiksoftware durchführen, wie der nachstehende SPSS-Ausdruck illustriert. Die letzte Spalte des Ausdrucks ist hier irrelevant und wird daher nicht weiter kommentiert.
2
Hier sind die 12 Summanden zwecks übersichtlicherer Präsentation gerundet wiedergegeben. Normalerweise wird man aber erst am Schluss der Rechnung runden, um die Rundungsfehler klein zu halten. Wenn man so verfährt, resultiert 9, 81 anstelle von 9, 79. In beiden Fällen ergibt sich aber für den Φ-Koeffizienten bei Berücksichtigung von drei Dezimalstellen der Wert 0, 098.
100
9 Zusammenhangsmaße
Tab. 9.1: SPSS-Computerausdruck zur Berechnung der Zusammenhangsmaße Φ und V mit den Daten aus der Kontingenztabelle zum Politbarometer aus Beispiel 8.1
Zusammenhangsmessung bei Merkmalen mit nur zwei Ausprägungen
Im Spezialfall der in Tabelle 8.4 wiedergegebenen Vierfeldertafel hat man für den χ2 -Koeffizienten (9.1) zunächst die aus nur vier Summanden bestehende Doppelsumme 2 X 2 X (hij − e hij )2 χ := . e hij 2
i=1 j=1
Aus dieser Darstellung gewinnt man nach Einsetzen von 8.9 und einigen – hier nicht wiedergegebenen – Umformungen die Formel χ2 =
n · (h11 h22 − h12 h21 )2 , h1· h2· h·1 h·2
(9.7)
bei der im Nenner das Produkt der Randhäufigkeiten der Vierfeldertafel steht. Aufgabe 9.1
Bei einer Vierfeldertafel, oder – allgemeiner – im Falle M = 2 stimmen der PhiKoeffizient Φ aus (9.3) und das Kontentingenzmaß (9.5) von Cramér stets überein. Es gilt dann offenbar
Φ=V =
|h11 h22 − h12 h21 | √ . h1· h2· h·1 h·2
(9.8)
Die Betragsbildung ist hier notwendig, weil die Differenz im Zähler negativ sein kann. Exkurs 9.1
Weitere Zusammenhangsmaße
Es gibt noch weitere Ansätze zur Messung von Zusammenhängen bei nominalskalierten Merkmalen, die wie der Φ-Koeffizient und Cramér’s V Modifikationen von (9.1) darstellen. Erwähnt sei hier ein etwas älteres Zusammenhangsmaß von Karl Pearson, das in der Literatur meist mit K oder auch mit C abgekürzt wird und sich vom Φ-Koeffizienten nur dadurch unterscheidet, dass unter dem Wurzelzeichen im Nenner von (9.3) statt n der Term χ2 + n steht: s K :=
χ2 χ2 + n
9.2 Metrische Merkmale
101
Auch dieses Maß ist – wie der Φ-Koeffizient – noch dimensionsabhängig. Analog zu (9.4) gilt r M −1 0 ≤ K ≤ Kmax = . M q Mit Division durch die kleinste obere Schranke Kmax := MM−1 erhält man das korrigierte Zusammenhangsmaß K∗ =
K , Kmax
das wie Cramér’s V nur Werte zwischen 0 und 1 annimmt. Der Ansatz (9.5), der vom χ2 Koeffizient in einem Schritt zu einem normierten Zusammenhangsmaß führt, ist allerdings transparenter und weniger umständlich.
3
9.2 Metrische Merkmale Bei Merkmalen mit metrischer Skalierung sind, anders als bei nominalskalierten Merkmalen, die Abstände zwischen den Merkmalsausprägungen interpretierbar (vgl. erneut Tabelle 2.1). Sie können daher bei der Konstruktion von Zusammenhangsmaßen verwendet werden. Ein erstes Maß für den Zusammenhang zwischen zwei metrischen Merkmalen X und Y ist die analog zu (5.6) definierte Kovarianz n
sxy
1 1 X := · [(x1 − x)(y1 − y) + . . . + (xn − x)(yn − y)] = · (xi − x)(yi − y), (9.9) n n i=1
die präziser auch empirische Kovarianz genannt wird. Wenn man die Kovarianz ohne Rechner bestimmt, kann die nachstehende Zerlegungsformel nützlich sein, bei der xy das arithmetische Mittel aus den Produkttermen x1 · y1 , . . . , xn · yn bezeichnet: sxy
n 1 X = · xi · yi − x · y = xy − x · y. n i=1
Diese Formel verifiziert man, ähnlich wie (5.7), wenn man den in (9.9) hinter dem Summenzeichen stehenden Produktterm ausmultipliziert und dann die Summierung gliedweise vornimmt. Was die Kovarianz inhaltlich bezeichnet wird verständlich, wenn man die Datenpaare (x1 , y1 ), . . . , (xn , yn ) für X und Y in einem Streudiagramm präsentiert, in das man – parallel zum ersten – noch ein zweites Koordinatensystem einzeichnet, dessen Ursprung im Punkt (x, y) liegt. Durch das zweite Bezugssystem sind, wie in Abbildung 9.1 dargestellt, vier Quadranten definiert. Jeder Punkt (xi , yi ) definiert zusammen mit den auf den Achsen des zweiten Koordinatensystems liegenden Punkten (xi , y) und (x, yi ) sowie dem neuen Ursprung (x, y) (lies: x-quer-y-quer ) ein Rechteck mit Flächeninhalt Ai .
Ein nicht-normiertes Zusammenhangsmaß: die empirische Kovarianz
102
9 Zusammenhangsmaße y
II
y
I Ai = pi
III
Ai = −pi
y
III
IV x
I (xi , yi )
(xi , yi ) y
II
x
IV x
x
Abb. 9.1: Interpretation der Summanden in der Kovarianzformel
Verwendet man abkürzend für das Produkt der Mittelwertabweichungen xi − x und yi − y die Notation pi := (xi − x)(yi − y)
Flash-Animation „Empirische Kovarianz“
Flash-Animation „Vorzeichen der Kovarianz“
Ein normiertes Zusammenhangsmaß
i = 1, . . . , n,
so gilt offenbar Ai = pi , wenn der Produktterm pi positiv ist, und Ai = −pi , wenn pi negative Werte annimmt. Der erste Fall tritt genau dann ein, wenn die in pi eingehenden Terme (xi − x) und (yi − y) entweder beide positiv oder beide negativ sind. Diese Bedingungen sind erfüllt, wenn der Punkt (xi , yi ) im ersten oder im dritten Quadranten des neuen Bezugssystems liegt. Der zweite Fall ist genau dann gegeben, wenn einer der beiden genannten Differenzterme positiv und der andere negativ ist.Dies wiederum trifft zu, wenn (xi , yi ) im zweiten oder vierten Quadranten des zweiten Koordinatensystems liegt. Abbildung 9.1 veranschaulicht die beiden denkbaren Fälle. Im linken Teil der Abbildung ist ein im ersten Quadranten liegender Punkt (xi , yi ) eingezeichnet (pi > 0, Ai = pi ), im rechten Abbildungsteil ein Punkt im zweiten Quadranten (pi < 0, Ai = −pi ). Datenpunkte (xi , yi ), die im ersten oder dritten Quadranten des mit (x, y) als Bezugspunkt arbeitenden Koordinatensystems liegen, liefern also einen positiven, Punkte im zweiten oder vierten Quadranten hingegen einen negativen Beitrag zur Kovarianz. Je mehr Datenpunkte im ersten und dritten Quadranten liegen, desto größer wird die Kovarianz. Wenn alle Punkte auf einer steigenden Geraden durch (x, y) liegen, liefert jeder Punkt einen nicht-negativen Beitrag. Entsprechend gilt, dass die Kovarianz um so kleiner wird, je mehr Datenpunkte im zweiten und vierten Quadranten liegen. Wenn alle Punkte auf einer fallenden Geraden durch (x, y) liegen, liefert kein Punkt einen positiven Beitrag zur Kovarianz. Eine positive Kovarianz bedeutet also, dass die Ausprägungen der Merkmale X und Y eine gleichgerichtete Tendenz haben – kleinere bzw. größere Werte des einen Merkmals gehen tendenziell mit kleineren resp. größeren Werten des anderen Merkmals einher. Umgekehrt gibt es bei negativer Kovarianz eine gegenläufige Tendenz. Wie der Median, der Mittelwert und die Standardabweichung ist auch die Kovarianz maßstabsabhängig. Sie kann durch Maßstabsänderung beliebig vergrößert oder verkleinert werden. Außerdem ist sie nicht dimensionslos. Ein maßstabsunabhängiges und di-
9.2 Metrische Merkmale
103
mensionsloses Zusammenhangsmaß erhält man, wenn man die empirische Kovarianz sxy zweier metrischer Merkmale X und Y durch das Produkt ihrer Standardabweichungen sx resp. sy dividiert. Das resultierende Zusammenhangsmaß r :=
sxy sx · sy
(9.10)
wird Korrelationskoeffizient genannt. Da der Ansatz (9.10) dem französischen Physiker Auguste Bravais (1811 - 1863) und dem britischen Statistiker Karl Pearson (1857 - 1936) zugeschrieben wird, spricht man auch vom Korrelationskoeffizienten nach Bravais-Pearson. Aus der Darstellung (9.10) ersieht man, dass die Merkmale X und Y symmetrisch eingehen. Eine Vertauschung der Merkmalsbezeichnungen ändert nichts am Wert von r.
Karl Pearson
Wenn man in (9.10) für den Zähler den Summenterm aus (9.9), im Nenner für die Standardabweichung von X den Wurzelausdruck aus (5.8) – nun mit der präziseren Schreibweise sx anstelle von s – und für die Standardabweichung sy ebenfalls den analog nach (5.8) erklärten Wurzelterm einsetzt, erhält man für r die ausführlichere Formeldarstellung Pn i=1 (xi − x)(yi − y) pPn r = pPn . (9.11) 2 2 i=1 (xi − x) · i=1 (yi − y) Mit (9.9) und (5.8) gewinnt man aus (9.11) noch als weitere Darstellung r=p
xy − x · y q . 2 2 2 2 x −x · y −y
(9.12)
Da die im Nenner von (9.10) auftretenden Standardabweichungen sx und sy positiv sind, ist das Vorzeichen von r stets mit dem Vorzeichen der Kovarianz sxy identisch, d. h. der Korrelationskoeffizient r kann sowohl positive als auch negative Werte annehmen. Im ersten Fall spricht man von einer positiven, im zweiten Fall von einer negativen Korrelation zwischen X und Y und im Falle r = 0 von Unkorreliertheit beider Merkmale. Der Korrelationskoeffizient liegt stets zwischen −1 und +1, d. h. es gilt −1 ≤ r ≤ 1.
Flash-Animation „Schranken für r“
(9.13)
Die obere Schranke r = 1 wird erreicht, wenn alle Datenpunkte auf einer steigenden, die untere Schranke r = −1 hingegen, wenn sich alle Datenpunkte auf einer fallenden Geraden liegen. In beiden Fällen, also für |r| = 1 (lies: r-Betrag = 1), besteht lineare Abhängigkeit zwischen den Merkmalen und die Gerade verläuft durch den Punkt (x, y). Abbildung 9.2 veranschaulicht vier Streudiagramme, die unterschiedliche Situationen für den Zusammenhang zwischen zwei Merkmalen widerspiegeln. Die Grafiken in der oberen Hälfte zeigen erneut die Streudiagramme der Abbildung 8.5, nun aber mit Ausweis des Zusammenhangsmaßes r. Das erste Streudiagramm repräsentiert einen Fall starker positiver Korrelation (r = 0, 9), während der Wert r = 0 im zweiten Fall Unkorreliertheit beinhaltet. Die Datenpaare (x1 , y1 ), . . . , (xn , yn ) sind im letztgenannten Fall so auf die
Java-Applet “Korrelationsmessung“
104
100
9 Zusammenhangsmaße
y
100
r≈0
r ≈ 0, 9
80
y
80
60
60
40
40
20
20 x 20
100
40
60
80
x
100
20
y
100
r ≈ −0, 7
80
60
40
40
20
20
60
80
100
y
r≈0
80
60
40
x 20
40
60
80
100
x 20
40
60
80
100
Abb. 9.2: Korrelationskoeffizienten für verschiedene Streudiagramme
vier Quadranten des in Abbildung 9.1 wiedergebenen Koordinatensystems mit Bezugspunkt (x, y) verteilt, dass sich die Beiträge pi beim Aufsummieren gerade aufheben.
Korrelationskoeffizient r: Maß für linearen Zusammenhang
Das dritte Streudiagramm – untere Hälfte von Abbildung 9.2 – zeigt mäßig ausgeprägte negative Korrelation (r = −0, 7). Obwohl das vierte Diagramm Unkorreliertheit ausweist (r = 0), lässt es einen nicht-linearen Merkmalszusammenhang vermuten. Auch hier sind die Datenpaare so auf die vier Quadranten verteilt, dass sich die Kovarianzbeiträge pi kompensieren. Der letzte Fall macht deutlich, dass der Korrelationskoeffizient r ein Maß für linearen Zusammenhang darstellt. Korrelation bedeutet, dass ein linearer Merkmalszusammenhang gegeben ist. Wenn r = 0 ist, kann durchaus ein nicht-linearer Zusammenhang vorliegen. Ein Wert r 6= 0 lässt also nur auf das Vorliegen eines linearen Merkmalszusammenhangs schließen. Im Falle |r| = 1 spricht man vollständiger Korrelation (lineare Abhängigkeit), im Falle 0 < |r| < 0, 5 häufig von schwacher, bei Werten 0, 5 ≤ |r| < 1 von mäßiger bis starker Korrelation.
9.2 Metrische Merkmale
105
Beispiel 9.2 Wie gut waren die Vorhersagen des Sachverständigenrats? Der Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung („Die 5 Weisen“) legt alljährlich eine Prognose zur wirtschaftlichen Entwicklung in Deutschland für das nächste Jahr vor. Prognostiziert wird insbesondere die Wachstumsrate für das Bruttoinlandsprodukt. Interessant ist es für eine zurückliegende Periode zu vergleichen, wie weit sich die prognostizierten Werte von den hinterher tatsächlich beobachteten Werten unterschieden haben. Als Gütemaß kann der Korrelationskoeffizient r herangezogen werden. Bei perfekter Vorhersage würden die Ausprägungen der Merkmale „Prognose X“ und „realer Wert Y “ übereinstimmen. Die Datenpaare (x1 , y1 ), . . . , (xn , yn ) lägen dann auf einer steigenden Geraden (r = 1). Ein hoher Wert für r wäre also ein Ausweis hoher Prognosegüte. Der Wert r = 1 ist natürlich in der Realität nie erreichbar, weil stets nach Abgabe einer Vorhersage noch unvorhersehbare Einflüsse und Turbulenzen auftreten können, die die tatsächlichen wirtschaftlichen Entwicklungen verändern – man denke z. B. an die Krise im Finanz- und Immobiliensektor, die sich 2008 zunehmend verschärfte und zu weltweiten Restruktierungen innerhalb des Bankensystems führte. Prognosen werden daher während des Prognosezeitraums bei Bedarf noch korrigiert. Tabelle 9.2 weist im linken Teil (Spalten 1−3) für 15 Perioden i (Jahre 1983, . . . , 1997) die jeweils im Herbst des Vorjahres abgegebenen Prognosen xi des Sachverständigenrats für die Periode i und die hinterher realisierten Werte yi aus. Wenn man für diesen Dai 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 Summe Mittelwert
xi 1,00 2,50 3,00 3,00 2,00 1,50 2,50 3,00 3,50 2,50 0,00 0,00 3,00 2,00 2,50 32,00 2,133
yi 1,20 2,60 2,50 2,50 1,70 3,40 4,00 4,60 3,40 1,50 -1,90 2,30 1,90 1,40 2,20 33,30 2,220
xi yi 1,20 6,50 7,50 7,50 3,40 5,10 10,00 13,80 11,90 3,75 0,00 0,00 5,70 2,80 5,50 84,65 5,643
x2i 1,00 6,25 9,00 9,00 4,00 2,25 6,25 9,00 12,25 6,25 0,00 0,00 9,00 4,00 6,25 84,50 5,633
yi2 1,44 6,76 6,25 6,25 2,89 11,56 16,00 21,16 11,56 2,25 3,61 5,29 3,61 1,96 4,84 105,43 7,029
Tab. 9.2: Wachstumsprognosen der „Fünf Weisen“ und wahre Werte (linker Teil: Datentabelle; rechter Teil: Arbeitstabelle)
tensatz den Bravais-Pearsonschen Korrelationskoeffizient r bestimmen will, wird man in der Praxis eine Statistiksoftware anwenden, weil die Berechnung anhand von (9.11) oder
106
9 Zusammenhangsmaße
(9.12) etwas mühsam ist. Es sei aber dennoch hier einmal exemplarisch vorgeführt, wie man bei der manuellen Berechnung vorgehen kann. Um die Formel (9.12) anzuwenden, benötigt man zunächst die Mittelwerte x und y, die man durch Aufsummieren der zweiten resp. dritten Spalte von Tabelle 9.2 und nachfolgende Division durch n = 15 gewinnt. Ferner benötigt man den Mittelwert xy der Produkte aus xi und yi sowie die Mittelwerte x2 und y 2 aus den Quadraten der Werte xi resp. yi . Diese Mittelwerte erhält man durch Erweiterung der Tabelle um drei Hilfsspalten, die im rechten Teil von Tabelle 9.2 ausgewiesen sind. Die Tabelle weist in der unteren Zeile alle Mittelwerte auf drei Dezimalstellen gerundet aus. Einsetzen der Mittelwerte in (9.12) liefert für r r=p
Aufgabe 9.2
5, 643 − 2, 133 · 2, 22 0, 90774 p ≈ ≈ 0, 602. 2 2 1, 50851 5, 633 − 2, 133 · 7, 029 − 2, 22
Das Ergebnis ist nicht überraschend – die prognostizierten und die beobachteten realen Wachstumsraten sind positiv korreliert. Dasselbe Ergebnis erhält man natürlich auch bei Verwendung jeder marktgängigen Statistiksoftware.
Tab. 9.3: SPSS-Computerausdruck zur Berechnung des Korrelationskoeffizienten r für einen bivariaten Datensatz mit 15 Datenpaaren
Der Screenshot in Tabelle 9.3 zeigt das Ergebnis einer Berechnung von r bei Verwendung von SPSS. Die Signifikanzangaben in Tabelle 9.3 werden an dieser Stelle nicht thematisiert. Man sieht – wie in (9.10) – hier erneut, dass es für das Ergebnis keinen Effekt hat, wenn man die Merkmalsbezeichnungen X und Y vertauscht.
Korrelation impliziert nicht zwingend einen sachlogischen Zusammenhang
Der Korrelationskoeffizient r kann Aufschluss darüber geben, ob es einen mehr oder weniger ausgeprägten linearen Zusammenhang zwischen zwei metrischen Merkmalen gibt. Da eine Vertauschung von X und Y den Wert von r nicht berührt, also keines der Merkmale ausgezeichnet ist, sagt r nichts aus über die Richtung eines Zusammenhangs im Sinne eines direkten Einflusses eines Merkmals auf das andere Merkmal aus. Ein hoher Absolutbetrag |r| besagt lediglich, dass die Daten für die in Rede stehenden Merkmale entweder eine gleichgerichtete Tendenz ausweisen (im Falle r > 0) oder eine gegenläufige Tendenz (im Falle r < 0). Ein anhand eines großen Werts |r| festgestellter Zusammenhang muss nicht zwingend bedeuten, dass zwischen den Merkmalen ein Kausalzusammenhang besteht, also eine sachlogische Verbindung.
9.2 Metrische Merkmale
107
Betrachtet man etwa Zeitreihendaten für zwei Merkmale X und Y , für die kein kausaler Zusammenhang erkennbar ist – etwa die in den Jahren 1995 - 2009 von OPEC-Staaten geförderte Erdölmenge X und die Anzahl Y der in den gleichen Jahren in Deutschland eingeschulten Kinder – so könnte es sein, dass beide Merkmale in den 15 Jahren eine gleichgerichtete Entwicklung genommen haben und für r ein Wert r > 0, 5 errechnet wird. Die 15 Datenpunkte (xi ; yi ) weisen dann einen empirischen Zusammenhang aus, der sich allein auf die Daten bezieht und nicht als Wirkzusammenhang interpretiert werden darf. Denkbar ist auch der Fall, dass zwischen X und Y nur ein indirekter Zusammenhang besteht, in dem Sinne, dass ein drittes Merkmal Z im Spiel ist, das mit den beiden anderen Merkmalen korreliert ist. Man bezeichnet diesen speziellen Fall eines fehlenden direkten sachlogischen Zusammenhangs gelegentlich auch als Scheinkorrelation.
Beispiel 9.3 Scheinkorrelation Betrachten wir die vom Deutschen Wetterdienst für Düsseldorf in den Jahren 1970−1994 registrierten Sturmtage xi und die im selben Zeitraum durch Naturkatastrophen weltweit verursachten volkswirtschaftlichen Schäden yi in Milliarden US-Dollar. Der Index i bezeichnet das jeweilige Jahr. Die 25 Datenpaare (xi , yi ) sind im linken Teil von Abbildung 9.3 in Form eines Streudiagramms wiedergegeben. Aus den hier nicht numerisch wiedergegebenen Daten errechnet man einen Korrelationskoeffizienten (r = 0, 324), der eine schwach ausgeprägte positive Korrelation zwischen den Merkmalen zu stützen scheint. Der rechte Teil von Abbildung 9.3 zeigt die Daten für jedes Merkmal einzeln in Form je eines Zeitreihengraphen. Hier erkennt man die zeitliche Entwicklung der beiden Einzelmerkmale X und Y , die im Streudiagramm nicht mehr zu sehen ist. Beide Merkmale weisen tatsächlich einen nach oben gerichteten Trend auf.
Abb. 9.3: Streudiagramm und Zeitreihen für die Merkmale „Anzahl X der Sturmtage in Düsseldorf“ und „Weltweite Schäden Y durch Naturkatastrophen“ (1970 − 1994)
Nur durch sachlogische Überlegungen – nicht aus den Daten und den Grafiken alleine – wird man darauf stoßen, dass ein drittes Merkmal Z für die Veränderung bei den Merkmalen X und Y verantwortlich sein könnte.
108
9 Zusammenhangsmaße
X: Anzahl der Sturmtage pro Jahr in Düsseldorf
Z: Weltweite CO2 -Emissionen (abhängig von der Weltbevölkerung)
Scheinkorrelation
Y : Weltweiter volkswirtschaftlicher Schaden pro Jahr durch Naturkatastrophen Abb. 9.4: Scheinkorrelation zwischen den Merkmalen „Anzahl X der Sturmtage in Düsseldorf“ und „Weltweite Schäden Y durch Naturkatastrophen“ (1970 − 1994)
Als Merkmal Z käme die Klimadeterminante „Weltweite CO2 -Emission“ in Betracht, die wiederum von der Weltbevölkerung und vom Stand der industriellen Entwicklung beeinflusst wird. Die Variable Z könnte hier also für die gleichgerichtete Änderung bei den Merkmalen X und Y verantwortlich sein – der zwischen den Merkmalen X und Y empirisch anhand des Korrelationskoeffizienten r festgestellte Zusammenhang wäre als Scheinkorrelation zu bewerten.
Exkurs 9.2
Bereinigung von Drittvariableneinflüssen
Der in (9.10) eingeführte Korrelationskoeffizient nach Bravais-Pearson quantifiziert die Stärke eines linearen Zusammenhangs zwischen zwei Merkmalen X und Y . Manchmal wird aber ein zwischen zwei Merkmalen X und Y bestehender Zusammenhang durch eine dritte Variable Z beeinflusst. Bei einem vermuteten Einfluss einer Drittvariablen Z ist man daran interessiert, den Einfluss von Z "herauszurechnen". Hierfür wird der sog. partielle Korrelationskoeffizient verwendet, der mit rxy.z abgekürzt sei. Bezeichnet rxy den Korrelationskoeffizienten für die Merkmale X und Y und rxz bzw. ryz den für X und Z resp. Y und Z, so ist rxy.z gegeben durch rxy − rxz · ryz q rxy.z = p . 2 · 2 1 − rxz 1 − ryz Das Zusammenhangsmaß rxy.z gibt also an, wie stark die Korrelation zwischen X und Y ausgeprägt wäre, wenn der Einfluss von Z ausgeblendet würde. Die von Drittvariableneinflüssen bereinigte Korrelation heißt auch partielle Korrelation oder Partialkorrelation. Durch eine solche Bereinigung lassen sich auch Scheinkorrelationen aufdecken. Ein bei Sedlmeier / Renkewitz (2008, Abschnitt 7.6) aufgeführtes Beispiel für die Anwendung des Konzepts der Partialkorrelation bezieht sich auf den Zusammenhang von
9.3 Ordinalskalierte Merkmale
109
Kirchgangshäufigkeit X und Ausländerfeindlichkeit Y , bei der das Alter Z als Moderatorvariable in Betracht kommt.
3
9.3 Ordinalskalierte Merkmale Für ordinalskalierte Merkmale ist der Korrelationskoeffizient r nach Bravais-Pearson nicht anwendbar, weil in dessen Berechnung Differenzen eingehen (vgl. (9.9)), die bei ordinaler Skalierung nicht erklärt sind (vgl. Tabelle 2.1). Ein auf Charles Spearman (1863 - 1945) zurückgehender Ansatz sieht vor, bei ordinalskalierten Merkmalen X und Y zunächst für jeden Wert xi und unabhängig davon auch für jeden Wert yi die Rangposition rg(xi ) bzw. rg(yi ) zu bestimmen und dann die Formel (9.11) für r so zu modifizieren, dass sie sich nicht mehr auf die originären Datenpaare (xi , yi ), sondern auf (rg(xi ), rg(yi )) bezieht. Dazu werden in (9.11) xi und yi durch rg(xi ) bzw. rg(yi ) sowie x und y durch die Mittelwerte rg x resp. rg y der Rangplätze ersetzt. Man erhält so den mit rSP (lies: r-s-p) abgekürzten Rangkorrelationskoeffizienten nach Spearman: Pn i=1 (rg(xi ) − rg x )(rg(yi ) − rg y ) qP rSP = pP . (9.14) n n 2· 2 (rg(x ) − rg ) (rg(y ) − rg ) i i x y i=1 i=1 Da rSP sich als Anwendung des Korrelationskoeffizenten nach Bravais-Pearson auf Paare (rg(xi ), rg(yi )) von Rangpositionen interpretieren lässt, gelten die Schranken aus (9.13) auch für den Rangkorrelationskoeffizienten, d. h. es gilt −1 ≤ rSP ≤ 1.
(9.15)
Während r ein Maß für einen linearen Zusammenhang zwischen den Beobachtungswerten für zwei Merkmale darstellt, misst rSP nur einen linearen Zusammenhang zwischen den Rangplätzen der Merkmalswerte. Bezogen auf die originären Merkmalswerte selbst misst rSP lediglich, ob ein gleichsinniger - oder ein gegensinniger monotoner Zusammenhang vorliegt. Bei gleichsinnigem Zusammenhang ist rSP > 0, bei gegensinnigem Zusammenhang gilt rSP < 0 und bei fehlendem Zusammenhang rSP = 0. Das Zusammenhangsmaß rSP ist grundsätzlich auch für metrische Merkmale anwendbar und hat hier den Vorteil einer geringeren Empfindlichkeit gegenüber extremen Merkmalswerten (höhere Robustheit gegenüber Ausreißern). Der Vorteil wird aber mehr als aufgehoben durch den Nachteil, dass rSP nur die Rangpositionen der einzelnen Merkmalswerte verarbeitet und damit die in metrisch skalierten Daten enthaltene Information nur sehr eingeschränkt ausschöpft. Wenn man voraussetzt, dass kein Rangplatz mehrfach besetzt ist, vereinfacht sich die Darstellung (9.14). Die Mittelwerte rg x resp. rg y der Rangplätze sind dann jeweils identisch mit dem Mittelwert aus den ersten n natürlichen Zahlen, also der Zahlen 1, 2, . . . , n. Man kann zeigen, dass die Summe der Zahlen 1, 2, . . . , n durch n(n+1) gegeben ist, die 2 n+1 Mittelwerte also durch 2 . Einsetzen in (9.14) liefert bei Verwendung der Abkürzung di für die Differenz der Rangpositionen rg(xi ) und rg(yi ) nach elementaren Umformungen P 6 · ni=1 d2i rSP = 1 − di := rg(xi ) − rg(yi ). (9.16) n · (n2 − 1)
Aufgabe 9.3
110
9 Zusammenhangsmaße
Beispiel 9.4 Berechnung von rSP Die Berechnung des Spearmanschen Rangkorrelationskoeffizienten sei anhand eines fiktiven Datensatzes für zwei ordinalskalierte Merkmale illustriert. Es sei angenommen, dass zwei unabhängige Kreditsachbearbeiter die Kreditwürdigkeit von fünf Sparkassenkunden anhand einer 10-stufigen Ratingskala bewerten, bei der die Punktzahl 1 sehr schlechte und die Punktzahl 10 sehr gute Bonität bezeichne. Die Ergebnisse der Bewertungen sind in der zweiten und vierten Spalte von 9.4 ausgewiesen.
Kunden-Nr. i 1 2 3 4 5
Sachbearbeiter A Bewertung xi rg(xi ) 5 4 8 2 9 1 2 5 6 3
Sachbearbeiter B Bewertung yi rg(yi ) 6 3 9 1 7 2 4 5 5 4
di 1 1 -1 0 -1
Tab. 9.4: Bonitätsbewertung von 5 Sparkassenkunden durch 2 Sachbearbeiter
Ausgangspunkt für die Berechnung von rSP ist die Rechenformel (9.16). Um die Formel anwenden zu können, müssen die Rangplätze der Ausgangsdaten x1 , x2 , . . . , x5 und y1 , y2 , . . . , y5 bestimmt werden. Der erste Sachbearbeiter hat den dritten Kunden am besten beurteilt; der Punktzahl x3 = 9 wird daher der Rangplatz 1 zugewiesen. Beim zweiten Sachbearbeiter hat der zweite Kunde die beste Bewertung und infolgedessen erhält hier y2 = 9 den Rangplatz 1. Entsprechend ermittelt man die übrigen acht Rangplätze, die in der dritten und letzten Spalte der Tabelle wiedergegeben sind. Zur Berechnung des Spearmanschen Korrelationskoeffizienten rSP benötigt man neben der Länge n des bivariaten Datensatzes nur die Rangdifferenzen. Setzt man die Differenzen di und n = 5 in (9.16) ein, resultiert der Wert rSP = 1 −
6 · [12 + 12 + (−1)2 + 02 + (−1)2 ] = 0, 8. 5 · (25 − 1)
Zwischen den Beurteilungen der beiden Sachbearbeiter gibt es also einen ausgeprägten gleichsinnig monotonen Zusammenhang.
Teil II Wahrscheinlichkeitsrechnung und schließende Statistik
111
Lernziele zu Teil II
Wenn Sie den zweiten Teil dieses Manuskripts bearbeitet haben, sollten Sie - mit Grundbegriffen der Wahrscheinlichkeitsrechnung und der Kombinatorik vertraut sein; - wissen, dass es diskrete und stetige Zufallsvariablen gibt, deren Verhalten anhand von Verteilungsmodellen charakterisiert wird; - die Binomialverteilung einschließlich des Spezialfalls der Bernoulli-Verteilung sowie die hypergeometrische Verteilung als Vertreter diskreter Verteilungen kennen; - die genannten diskreten Verteilungen anhand ihrer Wahrscheinlichkeits- und Verteilungsfunktion und anhand von Lage- und Streuungsparametern charakterisieren können; - die Normalverteilung als wichtigste stetige Verteilung einschließlich des Spezialfalls der Standardnormalverteilung kennen und anhand ihrer Dichte- und Verteilungsfunktion sowie anhand von Lage- und Streuungsparametern charakterisieren können; - wissen, dass die Chi-Quadrat-, die t- und die F-Verteilung weitere stetige Verteilungen sind, die sich aus der Normalverteilung ableiten; - Maße zur Beschreibung des Zusammenhangs zwischen zwei Zufallsvariablen kennen; - in der Lage sein, einige Stichprobenfunktionen benennen und zur Schätzung von Kenngrößen für Verteilungsmodelle (z. B. Erwartungswert) anwenden können; - neben der Punktschätzung von Modellparametern auch das Konzept der Intervallschätzung verstanden haben; - mit Grundbegriffen des Testens von Hypothesen vertraut sein und verschiedene Arten von Tests benennen können; - mit den beim Testen möglichen Fehlern vertraut sein und wissen, dass sich die Leistungsfähigkeit von Tests anhand der Gütefunktion bewerten lässt; - zu einer Punktwolke anhand der Kleinst-Quadrat-Methode eine Regressionsgerade bestimmen und deren Anpassungsgüte quantifizieren können; - die Grundidee und Zielsetzung der Varianzanalyse sowie den Zusammenhang zwischen Regressions- und Varianzanalyse erläutern können.
112
10 Zufallsvorgänge und Wahrscheinlichkeiten 10.1 Grundbegriffe der Wahrscheinlichkeitsrechnung Aus dem Alltagsleben ist jedem von uns bekannt, dass es Vorgänge gibt, deren Ergebnis vom Zufall abhängt. Man denkt vielleicht zunächst an Glücksspiele (Roulette, Würfelspiele, Ziehung der Lottozahlen), an die Entwicklung von Börsenkursen oder an Wahlergebnisse, die z. B. vom Wetter am Wahltag beeinflusst werden können. Versicherungen sind an der Abschätzung von Schadensverläufen oder der Lebenserwartung von Neugeborenen interessiert, Politikverantwortliche wollen demografische Entwicklungen prognostizieren können und Unternehmen benötigen statistische Informationen zur Quantifizierung von Marktrisiken. Die Wahrscheinlichkeitsrechnung stellt Modelle bereit, die es erlauben, den Verlauf zufallsabhängiger Prozesse abzuschätzen und von Stichproben auf Grundgesamtheiten zu schließen. Die bisher thematisierte beschreibende Statistik charakterisiert gegebene Datensätze ohne einen Rückschluss auf Eigenschaften umfassenderer Grundgesamtheiten zu vermitteln.
Zufallsvorgänge im Alltagsleben
Ein Zufallsvorgang ist ein Prozess, der zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen ω (lies: Klein-Omega) führt. Welches Ergebnis eintritt, ist vorab nicht bekannt. Die möglichen Ergebnisse ω heißen Elementarereignisse und werden in einer mit Ω (lies: Groß-Omega) bezeichneten Menge Ω = {ω : ω ist Elementarereignis}
(10.1)
zusammengefasst. Die Menge Ω heißt Ergebnismenge. Sie kann endlich oder auch unendlich viele Elemente enthalten. Eine Teilmenge A von Ω heißt Ereignis. Elementarereignisse sind somit Ereignisse, die nicht weiter zerlegbar sind, also einelementige Teilmengen von Ω darstellen. Ist A eine Teilmenge von Ω, abgekürzt A ⊂ Ω, und ω das Ergebnis des Zufallsprozesses, so sagt man, dass das Ereignis A eingetreten ist, wenn ω ein Element von A ist, kurz, wenn ω ∈ A gilt. Das mit A (lies: Komplementärmenge zu A) bezeichnete Komplementärereignis zu A ist das Ereignis, das genau dann eintritt, wenn A nicht eintritt. Die Menge A umfasst alle Elementarereignisse, die zu Ω, nicht aber zu A gehören. Man schreibt hierfür auch A = Ω \ A (lies: A ist Differenzmenge von Ω und A). Da auf jeden Fall eines der Elemente der Menge Ω als Ergebnis des Zufallsvorgangs realisiert wird, ist durch Ω ein sicheres Ereignis definiert. Das Komplementärereignis Ω zum sicheren Ereignis Ω ist das unmögliche Ereignis, das durch die leere Menge ∅ dargestellt wird. Aus Ereignissen, also Teilmengen einer Ereignismenge Ω, lassen sich durch logische Verknüpfung der sie repräsentierenden Mengen neue Ereignisse bilden. So ist durch die Schnittmenge A ∩ B der Ereignisse A und B ein Ereignis definiert, das genau dann eintritt, wenn sowohl A als auch B eintritt. Zwei Ereignisse A und B, deren Schnittmenge
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_10, © Springer-Verlag Berlin Heidelberg 2011
113
Darstellung der Ergebnisse von Zufallsvorgängen durch Mengen
114
10 Zufallsvorgänge und Wahrscheinlichkeiten
die leere Menge ∅ ist, schließen sich aus. Man spricht auch von disjunkten Ereignissen. Die Vereinigungsmenge A ∪ B beschreibt ein Ereignis, das dann realisiert wird, wenn mindestens eines der beiden Ereignisse A oder B eintritt. Zur Veranschaulichung solcher zusammengesetzter Ereignisse werden häufig sog. Venn-Diagramme verwendet. Diese bestehen aus einem Rechteck, in dem die Ausgangsereignisse (Mengen A, B, . . . ) als Kreise oder Ellipsen dargestellt sind. Das Rechteck repräsentiert die Ergebnismenge Ω, von dem die eingezeichneten Mengen Teilmengen sind.
Aufgabe 10.1
Nachstehend sind vier Venn-Diagramme abgebildet. Die oberen beiden Teilgrafiken veranschaulichen das Komplementärereignis A = Ω \ A und die Schnittmenge A ∩ B. Die unteren zwei Teilgrafiken zeigen die Vereinigungsmenge A ∪ B resp. die Differenzmenge A \ B = A ∩ B. Die dargestellten Ereignisse bzw. Mengen sind innerhalb des Ω symbolisierenden Rechtecks jeweils durch dunklere Färbung ausgewiesen.
Abb. 10.1: Darstellung von A, A ∩ B, A ∪ B und A \ B anhand von Venn-Diagrammen
Beispiel 10.1 Ergebnismenge (Münzwurf und Würfeln) Beim einfachen Münzwurf besteht die Ergebnismenge Ω aus nur zwei Elementen, nämlich den beiden möglichen Ausgängen {Zahl, Kopf}. Da immer entweder „Zahl“ oder „Kopf“ auftritt, ist Ω = {Zahl, Kopf} ein sicheres Ereignis. Das Ereignis, dass beim Münzwurf weder „Zahl“ noch „Kopf“ erscheint, ist ein unmögliches Ereignis. Beim zweifachen Münzwurf ist die Ergebnismenge Ω durch die vier Paare Ω = {(Z, Z), (Z, K), (K, Z), (K, K)} gegeben, wenn man die Abkürzungen „Z“ (Zahl) und „K“ (Kopf) verwendet. Beim Würfeln mit einem Würfel ist die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} mit der Menge der ersten sechs natürlichen Zahlen identisch. Die möglichen Augenzahlen sind
10.1 Grundbegriffe der Wahrscheinlichkeitsrechnung
115
hier die Elementarereignisse. Ein aus mehreren Elementarereignissen zusammengesetztes Ereignis A ist beim Würfeln mit einem Würfel z. B. durch die Menge A = {1, 3, 5} = {Augenzahl ist ungerade} gegeben. Das Komplementärereignis A = Ω \ A zu A ist hier A = {2, 4, 6} = {Augenzahl ist gerade}. Definiert man noch das Ereignis B = {5, 6} = {Augenzahl ist größer als 4}, so gilt für die Schnittmenge der beiden Ereignisse A und B A ∩ B = {5} = {Augenzahl ist ungerade und größer als 4}. Beim Würfeln mit zwei Würfeln umfasst Ω schon 36 Elementarereignisse, nämlich die zu Paaren Ω = {(1; 1), (1; 2), . . . , (1; 6), (2; 1), (2; 2), . . . , (2; 6), . . . , (6; 1), (6; 2), . . . , (6; 6)} zusammengefassten Augenzahlen des ersten und des zweiten Würfels. Durch Aufgabe 10.2
A = {(1; 1), (1; 2), (2; 1)} = {Augensumme beider Würfel beträgt höchstens 3} ist hier ein aus mehreren Elementarereignissen zusammengesetztes Ereignis definiert. Das Komplementärereignis A = {Augensumme beider Würfel ist größer als 3} umfasst dann die 33 Paare der Menge Ω, die nicht zu A gehören. Die obigen Beispiele bezogen sich auf Zufallsvorgänge mit nur endlicher Anzahl von Elementarereignissen. Würde jeder einmal pro Woche Lotto spielen und zwar bis das Traumergebnis „Sechs Richtige und Zusatzzahl“ erreicht wird, so könnte die Anzahl der erforderlichen Spiele von 1 bis ∞ variieren, d. h. die Ergebnismenge wäre hier durch die Menge Ω = {1, 2, 3, . . .} = N der natürlichen Zahlen gegeben. Eine Ergebnismenge Ω mit nicht-endlicher Anzahl von Elementen resultiert ebenfalls, wenn man ein Aktienpaket besitzt und dieses so viele Tage halten will, wie der Verkaufswert eine bestimmte Schranke nicht überschritten hat. Die Überschreitung der kritischen Schranke kann hier schon am ersten Tag, nach einiger Zeit oder nie eintreten. Zufallsvorgänge können unter kontrollierten oder nicht-kontrollierten Bedingungen ablaufen. Im erstgenannten Fall spricht man von einem Zufallsexperiment. Die Ziehung der Lottozahlen ist unter gleichbleibenden Bedingungen wiederholbar und daher ein Beispiel für ein kontrolliertes Zufallsexperiment. Die Durchschnittstemperatur im Monat Juli an einem bestimmten Ort ist hingegen das Ergebnis eines Zufallsprozesses, das unter nicht-kontrollierten Bedingungen zustande kommt.
Zufallsvorgänge mit unendlicher Ergebnismenge
116
Heutiger Wahrscheinlichkeitsbegriff
10 Zufallsvorgänge und Wahrscheinlichkeiten
Unabhängig davon, ob ein Zufallsprozess unter kontrollierten Bedingungen abläuft oder nicht, ist man i. d. R. daran interessiert, die Chance für das Eintreten von Ereignissen A anhand einer Maßzahl P (A) zu bewerten, die nicht von subjektiven Einschätzungen abhängt und im folgenden als Wahrscheinlichkeit für das Eintreten eines Ereignisses A angesprochen wird.1 In der Alltagssprache wird der Begriff „Wahrscheinlichkeit“ häufig mit subjektiven Einschätzungen für das Eintreten von Ereignissen verbunden, etwa bei der Prognose des morgigen Wetters. In der Statistik wird der Wahrscheinlichkeitsbegriff hingegen objektiv quantifiziert. Dabei stützt man sich, wie inzwischen jeder Teilbereich der modernen Mathematik, auf eine axiomatische Fundierung. Der heute gängige Wahrscheinlichkeitsbegriff der Statistik geht auf den russischen Mathematiker Andrej Kolmogoroff (1903 - 1987) zurück. Die Bewertung der Chance für das Eintreten eines Ereignisses (Teilmenge der Ergebnismenge Ω einschließlich des unmöglichen Ereignisses ∅ und des sicheren Ereignisses Ω) erfolgt anhand einer Funktion P , die jedem Ereignis A eine als Wahrscheinlichkeit des Ereignisses A bezeichnete Zahl P (A) zuordnet, welche folgenden Bedingungen genügt:2
Andrej Kolmogoroff
K1: P (A) ≥ 0 (Nicht-Negativitätsbedingung) K2: P (Ω) = 1 (Normierung) K3: P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ (Additivität der Wahrscheinlichkeit disjunkter Ereignisse). Diese als Axiome von Kolmogoroff bezeichneten Bedingungen weisen eine auffallende Analogie mit den Eigenschaften relativer Häufigkeiten auf. Auch relative Häufigkeiten sind nicht-negativ und durch 0 nach unten und 1 nach oben begrenzt. Ferner addieren sich bei einem Merkmal, dessen Ausprägungen durch eine Menge M = {a1 , a2 , . . . , an } beschrieben sind, die relativen Häufigkeiten für je zwei disjunkte Teilmengen von M und die Summe aller relativen Häufigkeiten ist stets 1.
Rechenregeln für Wahrscheinlichkeiten
Aus dem Axiomensystem von Kolmogoroff lassen sich einige elementare Rechenregeln für Wahrscheinlichkeiten ableiten. Unter Heranziehung der Venn-Diagramme aus Abbildung 10.1 verifiziert man die Gleichungen P (A) = 1 − P (A)
(10.2)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
(10.3)
P (A \ B) = P (A) − P (A ∩ B).
(10.4)
Gleichung (10.3) wird z. B. anhand des dritten Venn-Diagramms aus Abbildung 10.1 verständlich (Diagramm für A ∪ B). Da A und B hier nicht disjunkt sind, muss man 1
Der Buchstabe „P“ steht für „probability“, das englische Wort für „Wahrscheinlichkeit“. Man findet anstelle der Notation P (..) in der Literatur auch die Notationen P r(..) oder W (..). 2 Das dritte Axiom ist hier für den Fall formuliert, dass die Ereignismenge Ω nur endlich viele Elemente enthält. Bei Zufallsvorgängen mit nicht-endlicher Ergebnismenge ist K3 etwas allgemeiner zu fassen und schließt hier auch den Fall der Vereinigung abzählbar unendlich vieler und paarweise disjunkter Ereignisse ein (vgl. hierzu z. B. Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 4.8)).
10.1 Grundbegriffe der Wahrscheinlichkeitsrechnung
117
bei der Berechnung von P (A ∪ B) die Summe aus P (A) und P (B) um P (A ∩ B) vermindern, weil man andernfalls die Wahrscheinlichkeit für den Überschneidungsbereich doppelt zählen würde. Das Axiomensystem von Kolmogoroff legt also Eigenschaften fest, die für Wahrscheinlichkeiten gelten müssen, und liefert den Ausgangspunkt für die Herleitung von Rechenregeln für Wahrscheinlichkeiten. Es macht vor allem den Wahrscheinlichkeitsbegriff von persönlichen Einschätzungen unabhängig. Allerdings liefert das System noch keinen Ansatzpunkt zur Berechnung von Wahrscheinlichkeiten für Ereignisse. Um Wahrscheinlichkeiten quantifizieren zu können, benötigt man Zusatzinformationen über den jeweiligen Zufallsvorgang. Eine solche Zusatzinformation kann z. B. darin bestehen, dass man weiß, dass die Ergebnismenge die nachstehenden Bedingungen erfüllt:
Berechnung von Wahrscheinlichkeiten erfordert zusätzliche Information
Bedingungen für LaplaceExperimente
L1: Die Ergebnismenge ist endlich, also Ω = {ω1 , ω2 , . . . , ωn }. L2: Die Wahrscheinlichkeiten für die n Elementarereignisse sind alle gleich groß. Ein Zufallsexperiment mit diesen beiden Eigenschaften wird nach dem französischen Mathematiker Simon Pierre Laplace (1749 - 1827) auch Laplace-Experiment genannt. Dieser berechnete unter den einschränkenden Voraussetzungen L1 und L2 die Wahrscheinlichkeit eines Ereignisses A als Quotient aus der Anzahl der für A „günstigen“ Fälle und der Anzahl aller möglichen Ergebnisse des Zufallsexperiments:3 P (A) =
Anzahl der für A günstigen Ergebnisse . Anzahl aller möglichen Ergebnisse
(10.5)
Im Zähler steht also die Anzahl der Elementarereignisse, für die das Ereignis A als eingetreten gilt, im Nenner die Anzahl aller zu Ω gehörenden Elementarereignisse. Eine nach (10.5) berechnete Wahrscheinlichkeit erfüllt stets die Bedingungen K1 - K3. Der Ansatz von Laplace ist folglich mit dem Axiomensystem von Kolmogoroff verträglich, betrifft aber nur eine spezielle Gruppe von Zufallsvorgängen. Dass K1 und K2 bei Gültigkeit von (10.5) erfüllt sind, folgt z. B. sofort daraus, dass der Zähler in (10.5) stets einen Wert besitzt, der zwischen 0 (Minimum) und dem Wert des Nenners liegt (Maximum). Gleichung (10.5) liefert für viele Anwendungen – etwa bei Glücksspielen – eine leicht handhabbare und sehr nützliche Rechenformel. Eine Definition des Begriffs „Wahrscheinlichkeit“ stellt (10.5) in Verbindung mit L1 und L2 aber nicht dar, weil der zu erklärende Begriff der Wahrscheinlichkeit schon in die Annahme L2 eingeht.
3
Die Bezeichnung „günstig“ ist wertfrei (neutral) zu verstehen, kann sich also sowohl auf besondere Lottoereignisse als auch auf das Vorliegen einer Erkrankung beziehen, und bedeutet lediglich „A ist eingetreten“.
Simon Pierre Laplace
118
10 Zufallsvorgänge und Wahrscheinlichkeiten
Beispiel 10.2 Wahrscheinlichkeiten bei Laplace-Experimenten Mit dem Laplace-Ansatz kann man z. B. die Wahrscheinlichkeit für Ereignisse beim Würfeln, bei Münzwürfen oder beim Roulette bestimmen. Die Ergebnismenge ist hier endlich, d. h. die Bedingung L1 ist erfüllt. Damit auch L2 erfüllt ist, sei die Gleichwahrscheinlichkeit der Elementarereignisse vorausgesetzt – bei Würfelspielen oder bei Münzwürfen spricht man dann auch von der Verwendung „fairer“ Würfel resp. Münzen. Beim Würfeln mit einem Würfel ist dann z. B. die Wahrscheinlichkeit für den Eintritt des Ereignisses A = {5, 6} = {Augenzahl ist größer als 4} durch P (A) = 26 = 13 ≈ 0, 333 gegeben, weil von den 6 möglichen Ausgängen genau 2 für A „günstig“ sind, nämlich die Augenzahlen 5 und 6. Auch die Wahrscheinlichkeit für den Eintritt des Komplementärereignisses A = Ω \ A lässt sich nach (10.5) ermitteln als P (A) = 46 = 23 oder anhand von (10.2) gemäß P (A) = 1 − 13 = 23 ≈ 0, 667. Beim Würfeln mit zwei Würfeln ergibt sich für die Wahrscheinlichkeit des Ereignisses A = {Augensumme aus beiden Würfen ist höchstens 3}, 3 1 der Wert P (A) = 36 = 12 ≈ 0, 0833, weil die Ergebnismenge Ω hier 36 Elementarereignisse umfasst, von denen 3 als „günstig“ einzustufen sind.
Beim dreifachen Münzwurf kann man die Wahrscheinlichkeit für den Eintritt des Ereignisses A = {Bei den drei Münzwürfen tritt zweimal „Zahl“ auf} ebenfalls anhand des Laplace-Ansatzes (10.5) berechnen. Die Ergebnismenge Ω ist beim dreifachen Münzwurf bei erneuter Verwendung von „Z“ für „Zahl“ und „K“ für „Kopf“ durch die acht Tripel Aufgabe 10.3
Ω = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z), (K, K, Z), (K, Z, K), (Z, K, K), (K, K, K)} gegeben. Jedes Tripel besitzt bei der hier getroffenen Annahme einer „fairen“ Münze die gleiche Eintrittswahrscheinlichkeit. Es gilt dann P (A) = 38 = 0, 375, weil bei 3 der 8 Elementarereignisse „Zahl“ zweifach auftritt. Wahrscheinlichkeiten als Grenzwert relativer Häufigkeiten
Ein anderer Ansatz zur Berechnung der Wahrscheinlichkeit P (A) für ein Ereignis A beinhaltet – unter der einschränkenden Voraussetzung der beliebigen Wiederholbarkeit eines Zufallsexperiments unter konstanten Bedingungen – die Bestimmung von P (A) als Grenzwert der relativen Häufigkeit für das Eintreten von A. Wenn man z. B. eine „faire“ Münze n-mal wirft und die relativen Häufigkeiten fj (Zahl) für das Eintreten von „Zahl“ während dieses Zufallsexperiments verfolgt (j = 1, 2, ..., n), so weiß man aus Erfahrung, dass sich am Ende ein Wert fn (Zahl) einstellt, der beliebig nahe an den Wert 0, 5 kommt,
10.1 Grundbegriffe der Wahrscheinlichkeitsrechnung
119
sofern man nur die Anzahl n der Münzwürfe groß genug wählt. Abbildung 10.2 zeigt den Verlauf eines virtuellen Münzwurfexperiments mit n = 1000. Bei einem solchen Simulationsexperiment kann man, anders als in der Realität, die Wahrscheinlichkeit p := P (Zahl) für „Zahl“ und damit auch die von 1 − p = P (Kopf ) für „Kopf“ als bekannt voraussetzen und als Voreinstellung bei der Programmierung festlegen. Java-Applet “Münzwurf“
Abb. 10.2: Relative Häufigkeiten für „Zahl“ bei 1000-fachem Wurf einer fairen Münze (linke Teilgrafik) und einer unfairen Münze (rechte Teilgrafik)
Im linken Teil von Abbildung 10.2 ist der Verlauf eines „fairen“, im rechten Teil der eines „unfairen“ Münzwurfexperiments zu sehen (p = 0, 5 resp. p = 0, 7).4 Da man ein Zufallsexperiment in der Praxis nicht unendlich oft, sondern nur n-mal durchführen kann, verwendet man fn als Approximation (Schätzwert) für die interessierende Wahrscheinlichkeit, wobei die Schätzgüte sich mit wachsendem n tendenziell verbessert. Der rechte Teil von Abbildung 10.2 zeigt, dass die Bestimmung von Wahrscheinlichkeiten als Grenzwert5 n→∞
fn (A) −→ P (A)
(10.6)
relativer Häufigkeiten bei Zufallsexperimenten mit endlicher Ergebnismenge, anders als der Laplace-Ansatz (10.5), nicht an die Bedingung L2 der Gleichwahrscheinlichkeit der Elementarerereignisse gebunden ist. Wirft man bei einem realen Münzwurfexperiment eine Münze n-mal ohne zu wissen, ob es sich um eine „faire“ Münze handelt, so kann der Wert, gegen den die relative Häufigkeit fn (Zahl) mit zunehmendem n konvergiert, Aufschluss darüber gegeben, ob die Münze „fair“ ist. Wenn sich die relative Häufigkeit dem Grenzwert 0,5 annähert, ist von einer fairen Münze auszugehen. 4
Sie können das Experiment nach Anklicken des Icons „Experiment“ für verschiedene Werte n selbst durchführen und auch die Voreinstellung p = 0, 5 verändern. 5 Die Konvergenz in (10.6) bezieht sich auf die Konvergenz eines Zufallsprozesses, auch stochastischer Prozess genannt. Man spricht in diesem Zusammenhang von stochastischer Konvergenz. Zur formalen Definition stochastischer Konvergenz vgl. Toutenburg / Heumann (2008, Abschnitt 5.1).
120
10 Zufallsvorgänge und Wahrscheinlichkeiten
10.2 Zufallsstichproben und Kombinatorik Um die Wahrscheinlichkeit P (A) von Ereignissen A bei Laplace-Experimenten nach (10.5) zu berechnen, muss man zunächst die dort im Nenner auftretende Anzahl aller Elementarereignisse bestimmen – die Anzahl im Zähler ergibt sich dann aus weiteren logischen Überlegungen. Hierzu kann man sich der Methoden der Kombinatorik bedienen. Diese repräsentiert ein Teilgebiet der Mathematik, das sich mit der Ermittlung der Anzahl von Möglichkeiten bei der Anordnung und Auswahl von Objekten befasst. Stichprobenmodelle:
- Ziehen mit und ohne Zurücklegen
Ein anschauliches Modell, das in der Kombinatorik zur Herleitung zentraler Ergebnisse für Zufallsvorgänge mit endlicher Ergebnismenge eingesetzt wird, ist das Urnenmodell. Man stelle sich ein Gefäß (Urne) mit N durchnummerierten Kugeln vor, von denen n zufällig ausgewählt werden. Die Auswahl der Kugeln ist als Ziehung einer Zufallsstichprobe des Umfangs n aus einer Grundgesamtheit mit N Elementen zu interpretieren. Wenn jede denkbare Stichprobe des Umfangs n mit gleicher Wahrscheinlichkeit realisiert wird, liegt eine einfache Zufallsstichprobe vor. Wieviele Möglichkeiten der Auswahl der n Elemente es gibt, hängt davon ab, ob jedes Element der Stichprobe einzeln gezogen und nach der Ziehung wieder zurückgelegt wird oder ob ohne Zurücklegen ausgewählt wird. Im ersten Fall spricht man vom Urnenmodell mit Zurücklegen oder von einer Stichprobenziehung mit Zurücklegen. Der zweite Fall charakterisiert das Urnenmodell ohne Zurücklegen bzw. eine Stichprobenziehung ohne Zurücklegen. Ein n-facher Münzwurf lässt sich z. B. als eine Stichprobenziehung mit Zurücklegen interpretieren. Dazu muss man sich eine Urne mit zwei Kugeln vorstellen (je eine mit der Aufschrift „Zahl“ und „Kopf“), aus der n-mal jeweils eine Kugel gezogen und vor der nächsten Ziehung zurückgelegt wird. Die Ausgangssituation ist also bei der Entnahme eines jeden Elements der Stichprobe unverändert – stets befinden sich zwei Kugeln in der Urne. Ein Beispiel für eine Stichprobenziehung ohne Zurücklegen ist die Ziehung der Lottozahlen. Hier ist es ausgeschlossen, dass eine Zahl wiederholt gezogen wird. Beim Urnenmodell ohne Zurücklegen ändert sich die Ausgangssituation mit Ziehung jeder Kugel – die Anzahl der auswählbaren Kugeln nimmt mit jedem Auswahlschritt ab.
- Ziehen mit und ohne Berücksichtigung der Anordnung
Die Anzahl der Möglichkeiten aus einer Urne n Kugeln zu ziehen, wird aber nicht nur davon bestimmt, ob mit oder ohne Zurücklegen gezogen wird. Sie hängt auch davon ab, ob es darauf ankommt, in welcher Reihenfolge die n nummerierten Kugeln gezogen werden. Man unterscheidet hier zwischen einer Stichprobenziehung mit Berücksichtigung der Anordnung und einer Stichprobenziehung ohne Berücksichtigung der Anordnung. Wenn die Anordnung berücksichtigt wird, liegt eine geordnete Auswahl vor, andernfalls eine ungeordnete Auswahl. Stehen etwa bei der Olympiade im 100-m-Endlauf der Männer 8 Läufer am Start, so kann man die Medaillenvergabe mit der Ziehung einer Stichprobe des Umfangs n = 3 aus einer Grundgesamtheit des Umfangs N = 8 vergleichen, wobei die ersten drei gezogenen Kugeln die Medaillengewinner festlegen. Die Reihenfolge ist hier also wesentlich. Bei der Ziehung der Lottozahlen spielt die Reihenfolge, in der die Zahlen gezogen werden, hingegen keine Rolle.
10.2 Zufallsstichproben und Kombinatorik
121
Die Wahrscheinlichkeiten, die man nach (10.5) bestimmt, hängen also davon ab, welches Modell zugrunde gelegt wird. Es werde zunächst unter Verwendung des Urnenmodells die Anzahl der möglichen Zufallsstichproben des Umfangs n ermittelt, die sich ergeben, wenn die Reihenfolge der gezogenen Elemente berücksichtigt wird. Zieht man aus einer Urne mit N Kugeln eine Stichprobe des Umfangs n ohne Zurücklegen, so gibt es bei der Ziehung der ersten Kugel N Auswahlmöglichkeiten. Bei der zweiten Ziehung gibt es noch N − 1 und bei Auswahl der n-ten Kugel nur noch N − n + 1 Möglichkeiten. Die Anzahl der Möglichkeiten für die Ziehung einer Zufallsstichprobe des Umfangs n aus N Elementen beträgt somit N · (N − 1) · ... · (N − n + 1). Dieser Produktterm lässt sich kompakter schreiben, wenn man auf die Kurzschreibweise N ! (lies: N -Fakultät ) und (N − n)! (lies: (N − n)-Fakultät) für das Produkt der ersten N resp. N − n natürlichen Zahlen zurückgreift.6 Man erhält dann für die gesuchte Anzahl die Darstellung N · (N − 1) · ... · (N − n + 1) =
N · (N − 1) · ... · 1 N! = (N − n) · (N − n − 1) · ... · 1 (N − n)!
- beim Ziehen ohne Zurücklegen
(10.7)
Zieht man hingegen aus einer mit N Kugeln gefüllten Urne nacheinander n Kugeln mit Zurücklegen, so gibt es für die Auswahl jeder einzelnen Kugel stets N Möglichkeiten. Die Gesamtzahl der Möglichkeiten für die Ziehung einer Zufallsstichprobe des Umfangs n aus N Elementen ist nun gegeben durch N · ... · N} = N n . | · N{z
Anzahl der Möglichkeiten einer geordneten Auswahl von n Elementen:
- beim Ziehen mit Zurücklegen
(10.8)
n−mal
Es bleibt noch die Anzahl der möglichen Zufallsstichproben des Umfangs n für den Fall zu bestimmen, dass die Reihenfolge der gezogenen Elemente keine Rolle spielt. Wieder sei zuerst der Fall der Ziehung ohne Zurücklegen betrachtet. Wenn man n nummerierte Kugeln hat, gibt es n! Möglichkeiten, diese anzuordnen. Man nennt die verschiedenen Anordnungen auch Permutationen der n Elemente. Für kleine Werte von n kann man die Anzahl n! leicht verifizieren; für beliebiges n lässt sich die Aussage durch vollständige N! Induktion beweisen.7 Der Bruchterm (N−n)! aus (10.7), der unterschiedliche Anordnungen der n Stichprobenelemente berücksichtigt, ist also durch n! zu dividieren, wenn die Reihenfolge der Stichprobenelemente keine Rolle spielt. Man erhält so N! (N −n)!
n!
=
N! . (N − n)! · n!
Der rechtsstehende Term wird Binomialkoeffizient Es gilt also N N! := . n (N − n)! · n! 6
Anzahl der Möglichkeiten einer ungeordneten Auswahl von n Elementen:
N n
(lies: N über n) genannt.8
(10.9)
Ist k eine natürliche Zahl, so bezeichnet k! := 1 · 2 · ... · k das Produkt aus allen natürlichen Zahlen von 1 bis k. Für 0 ist die Fakultät durch 0! = 1 definiert. 7 Die vollständige Induktion ist ein elegantes Beweisverfahren der Mathematik, mit dem man Aussagen herleiten kann, die für alle natürlichen Zahlen gelten. Die Grundidee besteht darin, die Gültigkeit der betreffenden Ausage für n = 1 zu verifizieren und dann zu zeigen, dass aus der Annahme der Gültigkeit der Aussage für ein beliebiges n auch die Gültigkeit der Aussage für n + 1 folgt. 8 Der Binomialkoeffizient N gibt die Anzahl der Möglichkeiten an, eine Stichprobe ohne Zurücklegen n des Umfangs n aus einer Menge mit N Elementen ohne Berücksichtigung der Reihenfolge zu ziehen. Es ist N0 = 1, N1 = N und N = 1. N
- beim Ziehen ohne Zurücklegen
122
- beim Ziehen mit Zurücklegen
10 Zufallsvorgänge und Wahrscheinlichkeiten
Für den Fall der zufälligen Auswahl von n aus N Elementen mit Zurücklegen sei die Anzahl der Möglichkeiten hier ohne Beweis angegeben – vgl. dazu z. B. Mosler / Schmid (2011, Abschnitt 1.2.3). Sie ist gegeben durch N +n−1 (N + n − 1)! = . (10.10) n (N − 1)! · n! Tabelle 10.1 fasst die Ergebnisse für die vier betrachteten Fälle zusammen. Art der Stichprobe Ziehen mit Berücksichtigung der Reihenfolge Ziehen ohne Berücksichtigung der Reihenfolge
Ziehen ohne Zurücklegen
Ziehen mit Zurücklegen
N! (N−n)!
N n
Nn
N +n−1 n
Tab. 10.1: Anzahl der Möglichkeiten der Ziehung einer Stichprobe des Umfangs n aus einer Grundgesamtheit mit N Elementen
Beispiel 10.3 Anwendung der vier Varianten von Stichprobenziehungen Für die Formeln (10.7) - (10.10) sei je ein Anwendungsbeispiel genannt und durchgerechnet. Als Beispiel für die Anwendung von (10.7) lässt sich die Bestimmung der Anzahl der Möglichkeiten für die Verteilung der Gold-, Silber- und Bronzemedaillen beim 100-mEndlauf der Männer bei der Olympiade anführen. In der Terminologie des Urnenmodells werden n = 3 Kugeln aus einer Urne mit N = 8 nummerierten Kugeln ohne Zurücklegen gezogen und mit Berücksichtigung der Anordnung. Man erhält also 8! 8 · 7 · ... · 1 = = 8 · 7 · 6 = 336. (8 − 3)! 5 · 4 · ... · 1 Zur Illustration der Anwendung von (10.8) kann das Würfeln mit zwei Würfeln herangezogen werden. In Beispiel 10.1 wurde bereits die Ereignismenge Ω dieses Zufallsexperiments wiedergegeben. Die Menge Ω umfasst 36 Zahlenpaare (i; j), wobei i die Augenzahl des ersten und j die des zweiten Würfels darstellt (i = 1, 2, ..., 6; j = 1, 2, ...6). Das Zufallsexperiment lässt sich als Ziehen einer Stichprobe des Umfangs n = 2 aus einer Grundgesamtheit des Umfangs N = 6 mit Zurücklegen und mit Berücksichtigung der Reihenfolge interpretieren. Die Anzahl der möglichen Ausgänge ergibt sich daher auch nach (10.8) als 62 = 36. Die Anzahl der möglichen Ausgänge beim deutschen Zahlenlotto lässt sich anhand von (10.9) ermitteln, weil es hier um eine Stichprobenziehung ohne Zurücklegen und ohne Berücksichtigung der Anordnung geht. Es resultiert 49 49! 49 · 48 · 47 · 46 · 45 · 44 = = = 13983816. 6 43! · 6! 6·5·4·3·2·1
10.3 Bedingte Wahrscheinlichkeiten
123
Von diesen fast 14 Millionen Möglichkeiten wird nur eine einzige realisiert (vgl. auch Abbildung 11.8). Die Wahrscheinlichkeit dafür, 6 Richtige zu erzielen, ist also extrem gering. Man errechnet mit (10.5) den Wert 1 ≈ 0, 0000000715 = 7, 15 · 10−8 . 13.983.816 Als Beispiel für die Anwendung von (10.10) sei die Wahl eines Unternehmensvorstands genannt, bei der 3 Bewerber B1, B2 und B3 zur Auswahl stehen. Die Mitglieder des Auswahlgremiums setzen bei einer geheimen Wahl auf dem Wahlzettel 2 Kreuze, wobei zwei verschiedene Kandidaten je einmal oder ein Bewerber zweimal angekreuzt werden kann (Möglichkeit der Stimmenhäufung). Der Wahlvorgang entspricht in der Sprache des Urnenmodells der Ziehung einer Stichprobe des Umfangs n = 2 aus einer Urne mit N = 3 Kugeln (Ziehen mit Zurücklegen und ohne Berücksichtigung der Anordnung. Die Anzahl der Wahlmöglichkeiten ist also durch (10.10) bestimmt und man erhält 3+2−1 4 4! = = = 6. 2 2 2! · 2!
Aufgabe 10.4
Die 6 Elemente der Ergebnismenge Ω lassen sich bei diesem einfachen Beispiel mit nur 3 Kandidaten leicht angeben. Es gilt offenbar Ω = {(B1, B1), (B1, B2), (B2, B2), (B1, B3), (B2, B3), (B3, B3)}.
10.3 Bedingte Wahrscheinlichkeiten In Abschnitt 8.1 wurden Häufigkeiten auch auf Teilmengen einer Population bezogen. So wurde etwa in den Beispielen 8.1 - 8.2 bei der relativen Häufigkeit für die Wahl einer bestimmten Partei X in einer Grundgesamtheit von befragten Personen nach dem Geschlecht Y der Befragten differenziert. Dies führte zu bedingten Häufigkeiten, z. B. zur bedingten relativen Häufigkeit fX (a1 |b2 ) dafür, dass eine Person die Partei X = a1 wählte (CDU / CSU) und der Bedingung Y = b2 genügte (Person ist weiblichen Geschlechts). In ähnlicher Weise kann man bei der Berechnung von Wahrscheinlichkeiten nach (10.5) innerhalb der Ergebnismenge Ω eine Teilmenge herausgreifen, für die eine Zusatzbedingung erfüllt ist, und diese Zusatzinformation bei der Wahrscheinlichkeitsberechnung nutzen. Will man etwa bei einer unbekannten Familie mit zwei Kindern die Wahrscheinlichkeit P (A) angeben, dass beide Kinder Mädchen sind, käme man bei Annahme der Gleichwahrscheinlichkeit der Geburt eines Jungen und eines Mädchens und Fehlen von Zusatzinformation nach (10.5) auf den Wert 14 , weil es vier Elementarereignisse (J, J), (J, M ), (M, J), (M, M ), gibt, von denen eines als „günstig“ im Sinne des Eintritts des Ereignisses A ist. Hat man aber bereits die Information B, dass auf jeden Fall eines der Kinder ein Mädchen ist, wird man den Fall (J, J) bei der Berechnung der gesuchten Wahrscheinlichkeit ausschließen, die Anzahl der möglichen Ergebnisse im Nenner von (10.5) also nur noch auf die für das Ereignis B günstigen Fälle beziehen, und so auf den Wert 13 kommen. Die mit der Vorinformation B berechnete Wahrscheinlichkeit
Bedingte Wahrscheinlichkeiten
124
10 Zufallsvorgänge und Wahrscheinlichkeiten
wird bedingte Wahrscheinlichkeit von A unter der Bedingung B genannt und mit P (A|B) abgekürzt (lies: Wahrscheinlichkeit von A unter der Bedingung B). Man erhält die bedingte Wahrscheinlichkeit P (A|B) als P (A|B) =
Anzahl der für A ∩ B günstigen Ergebnisse . Anzahl der für B günstigen Ergebnisse
(10.11)
Da die Wahrscheinlichkeit P (A) für den Eintritt von A durch (10.5) erklärt ist, gilt analog für die Wahrscheinlichkeiten P (A ∩ B) und P (B) P (A ∩ B) =
P (B) =
Anzahl der für A ∩ B günstigen Ergebnisse Anzahl aller möglichen Ergebnisse Anzahl der für B günstigen Ergebnisse . Anzahl aller möglichen Ergebnisse
Multipliziert man den Bruchterm in der Formel für P (A ∩ B) mit dem Kehrwert des 1 Bruchterms der letzten Gleichung, also mit dem die Wahrscheinlichkeit P (B) definierenden Quotienten, resultiert offenbar der Bruchterm aus (10.11). Anstelle von (10.11) kann man also auch schreiben P (A|B) =
P (A ∩ B) . P (B)
(10.12)
Analog lässt sich für die bedingte Wahrscheinlichkeit P (B|A) die Beziehung P (B|A) =
P (A ∩ B) P (A)
(10.13)
ableiten. Die Formeln (10.12) und (10.13) kann man verwenden, um P (A ∩ B) zu berechnen, wenn P (A|B) und P (B) resp. P (B|A) und P (A) bekannt sind. Auflösen dieser Gleichungen nach P (A ∩ B) liefert ja P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A). Zusammenhang zwischen bedingten Wahrscheinlichkeiten
(10.14)
Für die bedingten Wahrscheinlichkeiten P (A|B) und P (B|A) gilt also die Beziehung P (A|B) =
P (B|A) · P (A) , P (B)
(10.15)
die nach dem englischen Mathematiker und Pfarrer Thomas Bayes (1702 - 1761) auch Satz von Bayes genannt wird.9
Unabhängigkeit von Ereignissen
Zwei zufällige Ereignisse A und B werden als unabhängig oder auch als stochastisch unabhängig bezeichnet, wenn das Eintreten eines Ereignisses, etwa B, keinen Einfluss auf das andere Ereignis hat. Formal bedeutet dies, dass P (A|B) und P (A|B) beide mit P (A) identisch sind. Man kann in diesem Falle in (10.12) den Term P (A|B) durch P (A) ersetzen und erhält dann nach Multiplikation der resultierenden Gleichung mit P (B) 9
Der Satz von Bayes existiert auch in einer allgemeineren Fassung für Zusammenhänge zwischen mehr als zwei bedingten Wahrscheinlichkeiten – vgl. z. B. Mosler / Schmid (2011, Abschnitt 1.3.3).
10.3 Bedingte Wahrscheinlichkeiten
P (A ∩ B) = P (A) · P (B).
125
(10.16)
Zwei zufällige Ereignisse A und B sind also genau dann unabhängig, wenn sie der Bedingung (10.16) genügen. Unabhängig sind z. B. die Ergebnisse zweier aufeinanderfolgender Roulettespiele oder Münzwürfe. Es sei angemerkt, dass die Verwendung der Formeln (10.12) - (10.15) den Nachteil hat, oft eher Verwirrung zu stiften als eine Lösungshilfe bei konkreten Problemen zu bieten. Die Anzahlen, die bei diesen Gleichungen im Zähler und Nenner eingehen, lassen sich alternativ auch über Baumdiagramme oder Kontingenztabellen für absolute Häufigkeiten mit Randverteilungen erschließen. Man kann viele Fragestellungen, bei denen bedingte Wahrscheinlichkeiten im Spiel sind, auf diese Weise lösen ohne den Satz von Bayes zu kennen (vgl. hierzu das nachstehende Beispiel einschließlich der Aufgaben 10.5 - 10.7). Beispiel 10.4 Bedingte Wahrscheinlichkeiten bei Drogentherapien Es sei eine Gruppe von 60 drogenabhängigen Personen betrachtet, die stationär (Ereignis A) oder ambulant (Ereignis A) behandelt werden.10 Alle Personen werden einem HIV-Test unterzogen. Bei 15 Personen fällt der Test positiv aus (Ereignis B), bei den anderen 45 negativ (Ereignis B). Von den HIV-positiv getesteten Personen sind 80% in stationärer Behandlung, während von den HIV-negativ getesteten Personen nur 40% stationär therapiert werden. Wählt man zufällig eine der 60 Personen aus, so sind - P (B) = 15 = 0, 25 und P (B) = 45 = 0, 75 die Wahrscheinlichkeiten dafür, dass 60 60 diese Person HIV-positiv resp. HIV-negativ ist; - P (A|B) = 0, 8 und P (A|B) = 0, 4 die Wahrscheinlichkeiten dafür, dass eine HIVpositiv resp. HIV-negativ getestete Person in stationärer Behandlung ist. Die Gleichung P (A|B) = 0, 8 ergibt sich z. B. aus der Vorinformation, dass in der Gruppe der HIV-positiv getesteten Personen 80% in stationärer Behandlung sind. Die Wahrscheinlichkeit P (A ∩ B) dafür, dass die zufällig ausgewählte Person stationär therapiert wird und auch HIV-positiv ist, lässt sich dann aus (10.14) gewinnen, wenn man dort die bereits ermittelten Werte für P (A|B) und P (B) einsetzt: P (A ∩ B) = P (A|B) · P (B) = 0, 8 · 0, 25 = 0, 2. Analog verifiziert man für die Wahrscheinlichkeit P (A ∩ B), dass die ausgewählte Person stationär therapiert wird und HIV-negativ ist, den Wert P (A ∩ B) = P (A|B) · P (B) = 0, 4 · 0, 75 = 0, 3. Die Wahrscheinlichkeit P (A) dafür, dass die ausgewählte Person – gleich ob HIVpositiv oder HIV-negativ getestet – stationär behandelt wird, setzt sich dann additiv 10
Dieses Beispiel ist adaptiert aus Caputo / Fahrmeir / Künstler / Lang / Pigeot / Tutz (2009, Kapitel 4).
126
10 Zufallsvorgänge und Wahrscheinlichkeiten
aus den beiden Wahrscheinlichkeiten P (A ∩ B) und P (A ∩ B) zusammen. Dies folgt aus dem Axiom K3 von Kolmogoroff. Dieses ist anwendbar, weil – vgl. die rechte Hälfte der vierteiligen Abbildung 10.1 – die beiden Mengen A ∩ B und A ∩ B disjunkt sind und ihre Vereinigung gerade A ergibt. Es gilt also P (A) = P (A ∩ B) + P (A ∩ B) = 0, 3 + 0, 2 = 0, 5. Bei Unabhängigkeit der Ereignisse A und B dürfte die Wahrscheinlichkeit für A nicht davon abhängen, ob der Fall B oder B vorliegt. Bei obigem Beispiel liegt aber eine solche Abhängigkeit vor, d. h. zwischen A und B besteht hier ein Zusammenhang. Die vorstehenden Berechnungen sind wesentlich transparenter, wenn man ein Baumdiagramm oder eine Vierfeldertafel mit Randverteilungen heranzieht. Die im Vorspann dieses Beispiels vermittelte Information lässt sich z. B. bei Verwendung einer Vierfeldertafel wie folgt darstellen (vgl. hierzu erneut Tabelle 8.4):
stationär (A) ambulant (A) Spaltensummen
Test positiv (B) 12 3 15
Test negativ (B) 18 27 45
Zeilensummen 30 30 60
Tab. 10.2: Kontingenztabelle für vier Kategorien von Suchtpatienten
Die kursiv gesetzten Zahlen sind entweder explizit im Text aufgeführt – wie die Elemente 15 und 45 der Randverteilung des binären Merkmals „Testergebnis“ – oder als relative Häufigkeiten vorgegeben und unter Berücksichtigung von n = 60 in absolute Häufigkeiten umzurechnen (80 % resp. 40 % der 60 Personen umfassenden Grundgesamtheit). Aufgabe 10.5 - 7
Aus Tabelle 10.2 ergibt sich die Wahrscheinlichkeit P (A|B), dass eine HIV-positive Person stationär behandelt wird, als Quotient 12 = 0, 8. Analog liest man aus der Vierfel15 dertafel für die Wahrscheinlichkeit P (A∩B), dass eine Person sowohl stationär behandelt als auch positiv auf HIV getestet wird, unmittelbar das Ergebnis 12 = 0, 2 ab. 60
10.3 Bedingte Wahrscheinlichkeiten
Exkurs 10.1
127
Das „Ziegenproblem“
Eine interessante Denkaufgabe, die einen direkten Bezug zum Thema „Bedingte Wahrscheinlichkeiten“ hat und vor wenigen Jahren in den Medien lange und hitzig diskutiert wurde, ist das sog. „Ziegenproblem“, im angelsächsischen Sprachraum auch „Monty Hall Problem“ genannt. Das Problem, dem der Wissenschaftsjournalist Gero von Randow sogar ein ganzes Buch (Randow (1992)) widmete, wurde in der Wochenzeitung „Die Zeit“ (Ausgabe vom 18. 11. 2004) wie folgt beschrieben: 11 Sie sind Kandidat einer Fernsehshow und dürfen eine von drei verschlossenen Türen auswählen. Hinter einer der Türen wartet der Hauptgewinn, ein prachtvolles Auto, hinter den anderen beiden steht jeweils eine meckernde Ziege. Frohgemut zeigen Sie auf eine der Türen, sagen wir Nummer 1. Doch der Showmaster, der weiß, hinter welcher Tür sich das Auto befindet, lässt sie nicht sofort öffnen, sondern sagt geheimnisvoll: „Ich zeige Ihnen mal was!“ Er lässt eine andere Tür öffnen, sagen wir Nummer 3 - und hinter dieser steht eine Ziege und glotzt erstaunt ins Publikum. Nun fragt der Showmaster lauernd: „Bleiben Sie bei Tür Nummer 1, oder wählen Sie doch lieber Nummer 2?“ Was sollten Sie tun? Der Showmaster interveniert also, bevor die vom Kandidaten gewählte Tür geöffnet wird. Er vermittelt dem Kandidaten mit seinem Einschreiten eine möglicherweise wahlbeeinflussende Zusatzinformation. Dass die vom Kandidaten gewählte Tür die Nummer 1 erhält, stellt keine Beschränkung der Allgemeinheit dar. Es wird unterstellt, dass der Showmaster stets - die Tür mit der zweiten Ziege öffnet, wenn sich der Kandidat bei seiner Wahl von Tür 1 für eine Tür mit einer Ziege entschieden hat; - zufällig eine der beiden Türen auswählt, hinter denen eine Ziege steht, wenn sich der Kandidat mit der Wahl von Tür 1 auf Anhieb für die Tür mit dem Auto entschieden hat. Das Problem wird übersichtlicher, wenn man die Situation unter Verwendung von Wahrscheinlichkeiten und bedingten Wahrscheinlichkeiten darstellt. Möge Ai das Ereignis bezeichnen, dass das Auto hinter der i-ten Tür steht (i = 1, 2, 3) und S2 und S3 das Ereignis, dass der Showmaster nach Wahl von Tür 1 durch den Kandidaten die Tür 2 resp. Tür 3 öffnet. Da der Kandidat am Anfang keine Zusatzinformation hat, gilt für ihn nach (10.5) 1 P (A1 ) = P (A2 ) = P (A3 ) = . 3 Der Kandidat hat sich also zunächst für Tür 1 entschieden und diese Entscheidung führt, wenn auf ihr beharrt wird, mit der Wahrscheinlichkeit P (A1 ) = 13 zum Gewinn des Autos. Man könnte nun meinen, dass die Intervention des Showmasters, die das Ausscheiden der Wahl von Tor 3 impliziert, dazu führt, dass die Chancen für die richtige Entscheidung zwischen den beiden verbleibenden Türen nun gleich groß sind, also je mit der Wahrscheinlichkeit 12 verknüpft sind. Letzteres würde bedeuten, dass eine Änderung der ursprünglichen Entscheidung für Tür 1 keine Verbesserung der Gewinnwahrscheinlichkeit mit sich brächte. Dies ist allerdings nicht korrekt, denn die Zusatzinformation ändert nichts an der Ausgangssituation P (A1 ) = 13 . Es gilt weiterhin P (A2 ) + P (A3 ) = 23 , nur weiß man jetzt, dass einer der beiden Summanden P (A2 ) und P (A3 ) den Wert 0 hat. Ein Wechsel der ursprünglichen gewählten Tür verdoppelt also die Gewinnchancen. Man kann sich diesen Sachverhalt 11
Der vollständige Text des Artikels ist zugänglich unter www.zeit.de/2004/48/N-Ziegenproblem.
128
10 Zufallsvorgänge und Wahrscheinlichkeiten
auch so verdeutlichen: Trifft A1 zu, so führt ein Festhalten an der ursprünglichen Entscheidung für Tür 1 zum Gewinn des Autos. Wäre A2 zutreffend, hätte der Showmaster Tür 3 geöffnet und ein Wechsel der ursprünglichen Entscheidung wäre hier angezeigt. Gleiches gilt für den Fall A3 . Hier würde der Showmaster Tür 2 öffnen und wiederum wäre eine Korrektur der ursprünglichen Entscheidung von Vorteil. In zwei von drei Fällen wäre also ein Umentscheiden ratsam. Natürlich kann man die Konsequenzen einer Korrektur der ursprünglichen Entscheidung für Tür 1 auch formalisieren. Die Strategie des Showmasters beinhaltet, dass - P (S2 |A3 ) = P (S3 |A2 ) = 1 (Strategie des Showmasters, wenn der Kandidat mit Tür 1 eine Tür mit Ziege gewählt hat) - P (S2 |A1 ) = P (S3 |A1 ) = 0, 5 (Strategie des Showmasters, wenn der Kandidat mit Tür 1 die Tür mit dem Auto gewählt hat). Die Wahrscheinlichkeit für den Gewinn des Autos bei Korrektur der ursprünglichen Entscheidung für Tür 1 setzt sich additiv zusammen aus der Wahrscheinlichkeit P (S3 ∩ A2 ) dafür, dass der Showmaster Tür 3 öffnet und gleichzeitig A2 zutrifft und der Wahrscheinlichkeit P (S2 ∩ A3 ) dafür, dass er Tür 2 öffnet und A3 zutrifft. Bei sukzessiver Anwendung von (10.14) und dem Satz von Bayes (10.15) erhält man für die genannnten beiden Wahrscheinlichkeiten P (S3 ∩ A2 ) = P (A2 |S3 ) · P (S3 ) =
P (S3 |A2 ) · P (A2 ) 1 · P (S3 ) = P (S3 |A2 ) · P (A2 ) = . | {z } | {z } 3 P (S3 ) 1
P (S2 ∩ A3 ) = P (A3 |S2 ) · P (S2 ) =
1 3
P (S2 |A3 ) · P (A3 ) 1 · P (S2 ) = P (S2 |A3 ) · P (A3 ) = . | {z } | {z } 3 P (S2 ) 1
1 3
Für die Summe aus P (S3 ∩ A2 ) und P (S2 ∩ A3 ), die die Gewinnwahrscheinlichkeit bei Wechsel von Tür 1 auf die noch nicht vom Showmaster ausgeschlossene alternative Tür darstellt, ergibt sich also auch auf diesem Wege wieder der Wert 23 .
3
11 Diskrete Zufallsvariablen 11.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion In Kapitel 2 wurde zwischen diskreten und stetigen Zufallsvariablen unterschieden. Eine Zufallsvariable X wurde als diskret bezeichnet, wenn sie nur endlich viele, höchstens aber abzählbar unendlich viele Ausprägungen annehmen kann.1 Beispiele für diskrete Zufallsvariablen sind etwa die Merkmale „Augenzahl beim Wurf mit einem Würfel“ (sechs Ausprägungen) oder „Anteil der SPD-Zweitstimmen in % bei den Bundestagswahlen im Zeitraum 1990 - 2005“ (fünf Ausprägungen). Zählvariablen sind stets diskret. Als stetig gelten Zufallsvariablen, bei denen die Menge der Ausprägungen Intervalle sind. Die Anzahl der Ausprägungen ist hier nicht mehr abzählbar. Im Folgenden geht es um die Wahrscheinlichkeitsverteilung diskreter Zufallsvariablen – zunächst allgemein, bevor dann spezielle diskrete Verteilungsmodelle vorgestellt werden, die häufiger verwendet werden. Zwischen den in Kapitel 4 im Rahmen der beschreibenden Statistik behandelten empirischen Verteilungen (Häufigkeitsverteilungen) und den theoretischen Verteilungen von Zufallsvariablen (Wahrscheinlichkeitsverteilungen) gibt es auffällige Analogien. Dennoch ist eine klare Unterscheidung beider Konzepte wichtig. Empirische Verteilungen basieren auf Daten, während theoretische Verteilungen Modelle sind, mit denen man die Realität näherungsweise abzubilden versucht. Auch die Kenngrößen empirischer und theoretischer Verteilungen zur Charakterisierung von Lage und Streuung sollten auseinander gehalten und unterschiedlich benannt werden.
Unterscheidung von Daten- und Modellebene
Betrachtet sei eine diskrete Zufallsvariable X, die k Werte x1 , . . . , xk annehmen kann. Letztere definieren die Trägermenge der Zufallsvariablen X. Das Verhalten von X ist vollständig definiert, wenn für jede Realisation xi die Eintrittswahrscheinlichkeit pi = P (X = xi ) bekannt ist; i = 1, . . . , k. Die Funktion f , die jeder Ausprägung xi eine Eintrittswahrscheinlichkeit pi zuordnet, heißt Wahrscheinlichkeitsfunktion von X. Damit die Wahrscheinlichkeitsfunktion nicht nur auf der Trägermenge {x1 , . . . , xk }, sondern für alle reellen Zahlen x erklärt ist, setzt man sie Null für alle x mit x 6= xi : ( pi für x = xi ; i = 1, 2, . . . , k f (x) = (11.1) 0 für alle sonstigen x.
Option 1: Beschreibung diskreter Zufallsvariablen anhand der Wahrscheinlichkeitsfunktion
Die Funktion f (x) lässt sich anhand eines Stab- oder Säulendiagramms mit k Stäben bzw. Säulen der Länge p1 , p2 , . . . , pk darstellen. Besonders einfach ist der Fall, dass alle Ausprägungen xi die gleiche Eintrittswahrscheinlichkeit p = k1 besitzen, also pi ≡ p gilt (lies: p-i identisch p). Man spricht dann von einer diskreten Gleichverteilung oder genauer von einer diskreten Gleichverteilung mit Parameter p. Eine Gleichverteilung 1
Zum Begriff „abzählbar unendlich“ vgl. erneut die Fußnote in Abschnitt 2.2.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_11, © Springer-Verlag Berlin Heidelberg 2011
129
130
Die diskrete Gleichverteilung
11 Diskrete Zufallsvariablen
trifft z. B. für das Merkmal „Augenzahl X beim Würfeln mit einem Würfel“ zu, wenn man mehrfach würfelt und einen „fairen“ Würfel voraussetzt, also einen Würfel, bei dem alle Augenzahlen mit gleicher Wahrscheinlichkeit auftreten. Die Variable X hat hier sechs Ausprägungen x1 = 1, x2 = 2, . . . , x6 = 6, die alle die Eintrittswahrscheinlichkeit p = 16 aufweisen. Die Wahrscheinlichkeitsfunktion f (x) der zugehörigen Gleichverteilung ist im oberen Teil von Abbildung 11.1 wiedergegeben. f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
x
1
2
3
4
5
6
x
F (x) 1, 0 0, 8 0, 6 0, 4 0, 2
Abb. 11.1: Wahrscheinlichkeits- und Verteilungsfunktion der diskreten Gleichverteilung mit p = 16 (Würfeln mit einem Würfel)
Eine Wahrscheinlichkeitsfunktion kann nur nicht-negative Werte annehmen. Ferner muss die Summe der Eintrittswahrscheinlichkeiten p1 , p2 , . . . , pk in (11.1) stets 1 sein. Hier besteht eine Analogie zu den in Kapitel 4 behandelten relativen Häufigkeitsverteilungen , denn auch relative Häufigkeiten sind nicht-negativ und summieren sich zu 1 auf. Zur Beschreibung des Verhaltens der durch (11.1) definierten diskreten Zufallsvariablen X kann man anstelle der Wahrscheinlichkeitsfunktion auch die Verteilungsfunktion2 F (x) = P (X ≤ x)
(11.2)
von X heranziehen, die man zwecks Unterscheidung von der empirischen Verteilungsfunktion für einen Datensatz präziser theoretische Verteilungsfunktion nennt. 2
Wenn man die Wahrscheinlichkeitsverteilungen zweier Zufallsvariablen unterscheiden will, kann man durch einen tiefgestellten Index deutlich machen, welche Verteilung gerade gemeint ist. Für eine Variable X würde man also z. B. zwecks Präzisierung fX (x) und FX (x) anstelle von f (x) und F (x) schreiben.
11.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion
131
Offenbar hat F (x) für x < x1 den Wert Null und springt in x = x1 auf den Wert F (x1 ) = p1 . Der Funktionswert bleibt auf dem Niveau p1 bis zur Stelle x = x2 , an der ein erneuter Sprung nach oben erfolgt, nun auf F (x2 ) = p1 + p2 , usw. Die Werte der Funktion F (x) ergeben sich also dadurch, dass an den Stellen x = xi jeweils ein positiver Beitrag pi hinzukommt, d.h. F (x) ist eine monoton wachsende Treppenfunktion mit Sprungstellen in x = xi . Bei der letzten Sprungstelle, also in x = xk , erreicht F (x) den Wert 1. Anstelle von (11.2) kann man demnach hier auch schreiben: 0 p1 . F (x) = .. p1 + p2 + . . . + pk−1 1
Option 2: Beschreibung diskreter Zufallsvariablen anhand der Verteilungsfunktion
für x < x1 für x1 ≤ x < x2 .. .
(11.3) für xk−1 ≤ x < xk für x ≥ xk .
Wahrscheinlichkeits- und Verteilungsfunktion einer diskreten Gleichverteilung mit k Ausprägungen x1 , x1 , . . . , xk gehen aus (11.1) und (11.3) als Spezialfall hervor, wenn dort für alle Eintrittswahrscheinlichkeiten pi der Wert p = k1 eingesetzt wird. Der untere Teil von Abbildung 11.1 zeigt die Verteilungsfunktion F (x) des mit p = 16 diskret gleichverteilten Merkmals „Augenzahl X beim Würfeln mit einem Würfel“. Die Funktion weist an den Stellen x1 = 1, x2 = 2, . . . , x6 = 6 jeweils Sprünge der festen Höhe 16 auf.
Charakterisierung der diskreten Gleichverteilung
Es gibt eine weitere Parallele zwischen den in Kapitel 4 behandelten relativen Häufigkeitsverteilungen und den Verteilungen diskreter Zufallsvariablen. Durch Aufsummieren relativer Häufigkeiten kommt man zu empirischen Verteilungsfunktionen, die – wie in Kapitel 4 gezeigt – ebenfalls monoton wachsende Treppenfunktionen sind, welche bis zum ersten Sprung den Wert 0 aufweisen und nach der letzten Sprungstelle den Wert 1 erreichen. Zusammenhänge zwischen Verteilungen diskreter Merkmale (theoretische Verteilungen) und relativen Häufigkeitsverteilungen (empirische Verteilungen) lassen sich anhand des statistischen Experiments „Würfeln mit einem Würfel“ gut sichtbar machen, wenn man das Experiment n-mal durchführt mit hinreichend groß gewähltem n. Abbildung 11.2 zeigt im oberen Teil die per Simulation gewonnenen relativen Häufigkeiten in Form schwarzer Säulen für die sechs möglichen Ausprägungen bei nur 10-facher Durchführung des statistischen Experiments (n = 10). Im unteren Teil ist, ebenfalls in Schwarz, die hieraus resultierende empirische Verteilungsfunktion wiedergegeben. Zu Vergleichszwecken ist auch das schon in Abbildung 11.1 dargestellte Modell der diskreten Gleichverteilung mit dem Parameter p = 16 eingezeichnet. Neben der Abbildung sind in einer Tabelle – dort in der mittleren Spalte – die beobachteten relativen Häufigkeiten fi für die einzelnen Augenzahlen und in der letzten Spalte die hier wieder mit Fi abgekürzten Werte der empirischen Verteilungsfunktion an den Stellen x = xi aufgeführt (i = 1, 2, . . . , 6). Die Tabelle zeigt, dass bei den 10 Würfen viermal die Augenzahl 1, zweimal die Augenzahl 4, dreimal die Augenzahl 5 und einmal die Augenzahl 6 erschien. Abbildung 11.3 zeigt erneut die relativen Häufigkeiten und die daraus abgeleitete empirische Verteilungsfunktion, nun aber für den Fall n = 100. Auch hier ist zusätzlich
Java-Applet „Würfeln mit einem Würfel“
132
11 Diskrete Zufallsvariablen
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
x
1
2
3
4
5
6
x
F (x) 1, 0 0, 8
i 1 2 3 4 5 6
fi 0,4 0 0 0,2 0,3 0,1
Fi 0,4 0,4 0,4 0,6 0,9 1,0
0, 6 0, 4 0, 2
Abb. 11.2: Relative Häufigkeiten für die sechs Augenzahlen bei 10-fachem Würfeln mit einem Würfel und Vergleich mit der diskreten Gleichverteilung mit p = 16
das Modell der diskreten Gleichverteilung mit p = 16 dargestellt. Ferner sind erneut die relativen Häufigkeiten fi und die kumulierten Häufigkeiten Fi tabellarisch ausgewiesen. Man erkennt beim Vergleich von Abbildung 11.3 mit Abbildung 11.2, dass das theoretische Verteilungsmodell die Simulationsergebnisse bei größerem n tendenziell besser beschreibt – die im Experiment beobachteten relativen Häufigkeiten fi nähern sich den Werten f (xi ) = 16 der Wahrscheinlichkeitsfunktion mit Vergrößerung von n an.3 Der erste Wert f1 = 0, 4 der vorletzten Spalte in der Tabelle neben Abbildung 11.2 besagt z. B., dass in 40 % der Fälle, also bei 4 der n = 10 Würfe, die Augenzahl x1 = 1 beobachtet wurde. Der entsprechende Wert f1 = 0, 15 in der Tabelle neben Abbildung 11.3, der sich auf n = 100 bezieht und 15 % der Würfe mit Augenzahl x1 = 1 beinhaltet, liegt schon viel näher am theoretischen Wert f (x1 ) = 16 ≈ 0, 17. Eine analoge Feststellung gilt etwa für den Vergleich der Werte F5 = 0, 90 (Wert der Verteilungsfunktion im Falle n = 10) und F5 = 0, 79 (Wert im Falle n = 100) in der letzten Spalte der beiden Tabellen. Diese Werte geben die kumulierten relativen Häufigkeiten für das Auftreten einer Augenzahl bis einschließlich 5 an und stellen Schätzwerte für den Wert F (x5 ) = 56 ≈ 0, 83 der Verteilungsfunktion an der Stelle x5 = 5 dar. Der Wert F5 = 0, 79 in der Tabelle neben Abbildung 11.3 liegt näher am theoretischen Wert F (x5 ). 3
Nur um die Notation nicht zu sehr zu komplizieren, wird in diesem Manuskript sowohl für die empirische als auch für die theoretische Verteilungsfunktion dieselbe Bezeichnung F (x) verwendet.
11.1 Wahrscheinlichkeitsfunktion und Verteilungsfunktion
133
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
x
1
2
3
4
5
6
x
F (x) 1, 0 0, 8
i 1 2 3 4 5 6
fi 0,15 0,11 0,20 0,19 0,14 0,21
Fi 0,15 0,26 0,46 0,65 0,79 1,00
0, 6 0, 4 0, 2
Abb. 11.3: Relative Häufigkeiten für die sechs Augenzahlen bei 100-fachem Würfeln mit einem Würfel und Vergleich mit der diskreten Gleichverteilung mit p = 16
Neben der diskreten Gleichverteilung ist noch ein weiterer einfacher Spezialfall einer diskreten Verteilung zu erwähnen, nämlich die nach dem Schweizer Mathematiker Jacob I. Bernoulli (1655 - 1705) benannte Bernoulli-Verteilung, für die man auch die Bezeichnung Zweipunkt-Verteilung findet. Diese Verteilung liegt vor, wenn eine Zufallsvariable X nur zwei Ausprägungen aufweist, etwa x1 und x2 oder A und A. Die Variable X spricht man auch als binäre Zufallsvariable an. Bezeichnet p1 = p die Eintrittswahrscheinlichkeit für den Fall x = x1 und p2 die für den Fall x = x2 , so ist offenbar p2 = 1−p. Die Wahrscheinlichkeitsfunktion (11.1) hat dann die spezielle Gestalt für x = x1 ; p f (x) = 1 − p für x = x2 ; (11.4) 0 für alle sonstigen x. Durch die Wahrscheinlichkeitsfunktion (11.4) funktion 0 F (x) = P (X ≤ x) = p 1
oder die aus ihr ableitbare Verteilungsfür x < x1 ; für x1 ≤ x < x2 ; für x ≥ x2
(11.5)
ist eine Bernoulli-Verteilung vollständig definiert. Ihre Gestalt hängt natürlich vom Parameter p ab. Eine mit dem Parameter p bernoulli-verteilte Zufallsvariable X bezeichnet man auch als Be(p)-verteilt und verwendet hierfür die Notation X ∼ Be(p) (lies: X
Jacob I. Bernoulli
Charakterisierung der BernoulliVerteilung
134
11 Diskrete Zufallsvariablen
ist bernoulli-verteilt mit dem Parameter p). Das Merkmal „Ergebnis eines Münzwurfexperiments“ (einmaliger Münzwurf mit den möglichen Realisationen „Zahl“ und „Kopf“) ist z. B. bernoulli-verteilt mit p = 0, 5, wenn man eine „faire“ Münze voraussetzt. Ein statistisches Experiment, dessen Ausgang durch ein bernoulli-verteiltes Merkmal beschrieben wird, heißt Bernoulli-Experiment.
Java-Applet “Münzwurf“
Die nachstehende Grafik vermittelt eine Aussage, die schon in Abbildung 10.2 visualisiert wurde. Sie zeigt den Entwicklungspfad der relativen Häufigkeiten fj = fj (Zahl) des Auftretens der Ausprägung „Zahl“ nach j Münzwurfexperimenten, wobei j = 1, 2, . . . , n mit n = 500. Es wird also ein Bernoulli-Experiment wiederholt durchgeführt – man spricht in diesem Zusammenhang unter der hier erfüllten Voraussetzung der Unabhängigkeit der Einzelexperimente auch von einer Bernoulli-Kette – und die Zwischenstände fj (Zahl) bis zum Endstand fortlaufend visualisiert. Abbildung 11.4 zeigt nicht nur einen, sondern zwei Entwicklungspfade, also zwei Bernoulli-Ketten. Der Endstand f500 (Zahl) der beobachteten relativen Häufigkeit liegt in beiden Fällen sehr dicht am Wert p = 0, 5 der Eintrittswahrscheinlichkeit für „Zahl“, gegen den die Bernoulli-Ketten für n → ∞ stochastisch konvergieren. Wenn man die Ausprägungen x1 und x2 zu 1 und 0 umcodiert (vgl. (11.18)), wird eine Bernoulli-Verteilung auch Null-Eins-Verteilung genannt.
Abb. 11.4: Relative Häufigkeit für „Zahl“ bei 500-fachem Münzwurf und Vergleich mit dem Parameter p = 0, 5 der Bernoulli-Verteilung
11.2 Kenngrößen diskreter Verteilungen
135
11.2 Kenngrößen diskreter Verteilungen In Kapitel 5 wurden empirische Verteilungen durch wenige Kenngrößen charakterisiert. Zu nennen sind hier insbesondere die Lageparameter Mittelwert und Median , mit denen der Schwerpunkt einer Verteilung beschrieben wurde, sowie die Streuungsparameter Spannweite , Standardabweichung und Varianz , mit denen die Variabilität eines Datensatzes ausgedrückt werden kann. Auch theoretische Verteilungen werden durch Lageund Streuungsmaße charakterisiert. Die Analogien zwischen empirischen und theoretischen Verteilungen sind bei den diskreten Zufallsvariablen besonders augenfällig. Das arithmetische Mittel x einer empirischen Verteilung eines Datensatzes x1 , x2 , . . . , xn , der sich auf ein diskretes Merkmal X mit k Ausprägungen a1 , a2 , . . . ak bezieht, lässt sich gemäß (5.4) als Summe der mit den relativen Häufigkeiten gewichteten Merkmalsausprägungen darstellen, also durch a1 f1 + a2 f2 + . . . + ak fk . In ähnlicher Weise lässt sich auch der Schwerpunkt der Verteilung der diskreten Zufallsvariablen (11.1) charakterisieren. Man bildet hier die Summe x1 p1 + x2 p2 + . . . + xk pk der mit den Eintrittswahrscheinlichkeiten p1 , p2 , . . . , pk gewichteten Realisationen. Diese Summe wird als Erwartungswert bezeichnet und mit E(X) oder kürzer mit µ bezeichnet. Der Erwartungswert E(X) (lies: Erwartungswert von X ) einer nach (11.1) definierten diskreten Zufallsvariablen ist also gegeben durch µ := E(X) = x1 p1 + x2 p2 + . . . + xk pk =
k X
xi pi .
Erwartungswert und Varianz einer diskreten Zufallsvariablen
(11.6)
i=1
Die Merkmalsausprägungen a1 , a2 , . . . ak und die relativen Häufigkeiten f1 , f2 , . . . fk aus Kapitel 5 werden also hier, bei der Charakterisierung theoretischer Verteilungsmodelle, durch die Realisationen x1 , x2 , . . . xk einer diskreten Zufallsvariablen und deren Eintrittswahrscheinlichkeiten p1 , p2 , . . . pk ersetzt. Die gleichen Ersetzungen kann man auch in den Formeln (5.8) und (5.7) für die empirische Standardabweichung bzw. die empirische Varianz vornehmen. Man erhält so für die mit V (X) oder σ 2 (lies: Varianz von X resp. sigma-Quadrat) abgekürzte Varianz der diskreten Zufallsvariablen (11.1) mit µ = E(X) die Darstellung 2
2
2
2
σ := V (X) = (x1 − µ) p1 + (x2 − µ) p2 + . . . + (xk − µ) pk =
k X
(xi − µ)2 pi . (11.7)
i=1
Die Darstellung (11.6) geht offenbar in (11.7) über, wenn man in (11.6) anstelle von X den Term (X − µ)2 einsetzt. Die Varianz σ 2 = V (X) einer Zufallsvariablen ist also nichts anderes als der Erwartungswert der quadrierten Differenz zwischen X und µ = E(X): σ 2 = E (X − µ)2 . (11.8) Für die Varianz ist manchmal die Darstellung Aufgabe 11.1
σ 2 = E(X 2 ) − µ2
(11.9)
nützlich, die sich aus (11.8) ergibt, wenn man dort den Term in der eckigen Klammer ausmultipliziert und dann den Erwartungswert gliedweise anwendet – s. hierzu auch die
136
11 Diskrete Zufallsvariablen
noch folgenden Formeln (11.11) und (11.13). Der Varianzdarstellung (11.9) entspricht auf der empirischen Ebene die Zerlegungsformel (5.7). Die mit σ (lies: sigma) bezeichnete Standardabweichung von X ist definiert durch p σ = V (X). (11.10) Zwischen den Kenngrößen empirischer und theoretischer Verteilungen wird in der Lehrbuchliteratur oft nicht klar unterschieden. Der Mittelwert bezieht sich auf eine empirische, der Erwartungswert immer auf eine theoretische Verteilung. Wenn von der Varianz die Rede ist, kann man durch die Verwendung der präziseren Bezeichnungen „empirische Varianz“ bzw. „theoretische Varianz“ deutlich machen, ob die Varianz eines Datensatzes (empirische Ebene) oder die einer Zufallsvariablen (Modellebene) gemeint ist. Eine analoge Aussage gilt für die Standardabweichung. Lineartransformationen bei Zufallsvariablen
Unterzieht man eine Zufallsvariable X mit Erwartungswert µ = E(X) einer Lineartransformation Y = aX + b, so ergeben sich Erwartungswert und Varianz auf einfache Weise, unter Rückgriff auf die Definitionen (11.6) und (11.7), nach E(aX + b) = a · E(X) + b
(11.11)
V (aX + b) = a2 · V (X).
(11.12)
Für den Erwartungswert und die Varianz der Summe zweier unabhängiger Zufallsvariablen X und Y gelten ferner die hier nicht bewiesenen Darstellungen 4 E(X + Y ) = E(X) + E(Y )
(11.13)
V (X + Y ) = V (X) + V (Y ).
(11.14)
Die Darstellungen (11.13) und (11.14) gelten entsprechend auch für die Summen von n unabhängigen Zufallsvariablen (n ≥ 2). Kenngrößen der Null-EinsVerteilung
Erwartungswert und Varianz der Null-Eins-Verteilung ergeben sich unmittelbar aus den Formeln (11.6) und (11.7) für den Erwartungswert bzw. die Varianz diskreter Zufallsvariablen, wenn man dort k = 2 sowie x1 = 1, p1 = p, x2 = 0 und p2 = 1 − p einsetzt und bei der Varianzberechnung auf die Verschiebungsregel zurückgreift:
4
µ = 1 · p + 0 · (1 − p) = p.
(11.15)
σ2 = E(X 2 ) − µ2 = p − p2 = p(1 − p).
(11.16)
Der Begriff der „Unabhängigkeit“ von zwei oder mehreren Zufallsvariablen wird in Abschnitt 13.1 formalisiert. Im Gegensatz zu (11.13) gilt die Darstellung (11.14) nicht mehr bei Abhängigkeit von X und Y ; in diesem Falle ist sie durch (13.14) zu ersetzen.
11.3 Die Binomialverteilung
137
Beispiel 11.1 Erwartungswert und Varianz der Augenzahl beim Würfeln In Abbildung 11.1 wurde die Wahrscheinlichkeitsverteilung der Zufallsvariablen „Augenzahl X beim Würfeln mit einem Würfel“ (Gleichverteilung mit Parameter p = 16 ) anhand ihrer Wahrscheinlichkeitsfunktion f (x) und ihrer Verteilungsfunktion F (x) veranschaulicht. Da X die Ausprägungen xi = i mit den festen Eintrittswahrscheinlichkeiten pi = p = 16 besitzt (i = 1, 2, . . . , 6) erhält man für den Erwartungswert µ = E(X) und die Varianz σ 2 = V (X) aus (11.6) und (11.7) µ=
6 X i=1
σ2 =
6 X
6
1X 21 x i · pi = i= = 3, 5 6 i=1 6 6
(xi − µ)2 pi =
i=1
1X 17, 5 (i − 3, 5)2 = ≈ 2, 92. 6 i=1 6
Wie bei empirischen Verteilungen kann man auch bei theoretischen Verteilungen Quantile zur näheren Charakterisierung heranziehen. Das p-Quantil einer Verteilung ist durch F (xp ) = p
(0 < p < 1)
(11.17)
definiert, also durch den Wert xp der Verteilungsfunktion F (x), an dem F (x) den Wert p annimmt. Der Median x e = x0,5 sowie das untere Quartil x0,25 und das obere Quartil x0,75 einer theoretischen Verteilung sind wieder spezielle Quantile, die sich bei Wahl von p = 0, 5 resp. von p = 0, 25 und p = 0, 75 ergeben. Bei diskreten Verteilungen sind die Quantile durch (11.17) noch nicht eindeutig festgelegt. Bei der im unteren Teil von Abbildung 11.1 wiedergegebenen Verteilungsfunktion einer speziellen diskreten Gleichverteilung gilt z. B. F (x) = 0, 5 für jeden Wert x aus dem Intervall 3 ≤ x < 4. Man benötigt daher hier – analog zur eindeutigen Festlegung von empirischen Quantilen – noch eine Zusatzbedingung. Man kann z. B. den linken Randpunkt des Intervalls wählen, d. h. das p-Quantil xp so festlegen, dass F (xp ) ≥ p gilt und gleichzeitig F (x) < p für x < xp . Für die diskrete Gleichverteilung in Abbildung 11.1 erhält man so für den Median x e = x0,5 den Wert x e = 3.
11.3 Die Binomialverteilung Es fällt nicht schwer, in verschiedenen Lebensbereichen Beispiele für Merkmale X zu finden, die nur zwei mögliche Ausprägungen haben, also den Charakter von Binärvariablen haben. Das Ergebnis eines Münzwurfexperiments wurde schon genannt. Praxisrelevantere Beispiele sind etwa die Geschlechterverteilung bei Geburten, die Verteilung eines Gendefekts in einer Population (nicht betroffene / betroffene Individuen), der beim Mikrozensus erfragte Erwerbsstatus einer Person (erwerbstätig / nicht erwerbstätig) oder
Quantile als weitere Kenngrößen
138
11 Diskrete Zufallsvariablen
der Qualitätsstatus von Produkten bei Serienfertigungen (spezifikationskonform / nichtspezifikationskonform). Aber auch Merkmale mit mehr als zwei Ausprägungen können stets auf Binärvariablen zurückgeführt werden, wenn man sich nur dafür interessiert, ob eine bestimmte Realisation eintritt oder nicht. Das Würfeln mit einem Würfel lässt sich z. B. als Bernoulli-Experiment interpretieren, wenn man sich darauf beschränkt, nur zwischen den Ereignissen „Augenzahl ist 6 / nicht 6“ oder „Augenzahl ist größer als 2 / nicht größer als 2“ zu unterscheiden. Hat man ein Bernoulli-Experiment mit den möglichen Ausgängen x1 = A und x2 = A und den Eintrittswahrscheinlichkeiten P (A) = p bzw. P (A) = 1 − p mehrfach und unabhängig voneinander durchgeführt, so interessiert man sich oft dafür, wie häufig eine der beiden Realisationen auftritt, etwa A. Beim Münzwurfexperiment könnte dies z. B. die Anzahl der Ausgänge mit „Zahl“ sein. Ist n die Anzahl der unabhängig durchgeführten Bernoulli-Experimente und bezeichnet X die Anzahl der Ausgänge A, so ist die Zählvariable X offenbar eine diskrete Zufallsvariable mit den Ausprägungen i (i = 0, 1, . . . , n). Wenn man den Ausgang jedes der n Bernoulli-Experimente anhand einer Indikatorvariablen ( 1 bei Eintritt von x1 = A Xi = (11.18) 0 bei Eintritt von x2 = A beschreibt (null-eins-verteilte Zufallsvariable), so lässt sich X als Summe X=
n X
Xi
(11.19)
i=1
der n voneinander unabhängigen Indikatorvariablen schreiben. Die Verteilung der Zählvariablen X heißt Binomialverteilung. Die Binomialverteilung ist für die statistische Praxis von großer Bedeutung. Die Null-Eins-Verteilung ist offenbar ein Spezialfall der Binomialverteilung (n = 1).
Kenngrößen der Binomialverteilung
Aus (11.19) kann man leicht den Erwartungswert E(X) und die Varianz V (X) der binomialverteilten Variablen X ableiten. Die in (11.19) eingehenden n Indikatorvariablen Xi sind voneinander unabhängig und folgen alle einer Null-Eins-Verteilung, besitzen demnach wegen (11.15) und (11.16) alle den Erwartungswert E(Xi ) = p und die Varianz V (Xi ) = p(1 − p). Mit den Formeln (11.13) und (11.14), die sich auch für die Summe von n unabhängigen Zufallsvariablen formulieren lassen (n ≥ 2), folgen hieraus für die Kenngrößen µ = E(X) und σ 2 = V (X) einer Binomialverteilung die Darstellungen µ=n·p
(11.20)
σ2 = n · p(1 − p).
(11.21)
Da eine diskrete Zufallvariable aber noch nicht durch Erwartungswert und Varianz alleine, sondern erst durch die Wahrscheinlichkeitsfunktion (11.1) oder – alternativ – durch die Verteilungsfunktion (11.2) vollständig beschrieben ist, sei noch die Wahrscheinlichkeitsfunktion der Binomialverteilung abgeleitet. Hierzu werde erst einmal die
11.3 Die Binomialverteilung
139
Wahrscheinlichkeit dafür betrachtet, dass bei dem Bernoulli-Experiment am Anfang genau x-mal der Ausgang A und danach (n − x)-mal der Ausgang A beobachtet wird, die Bernoulli-Kette also die spezielle Gestalt A, A, . . . , A, A, . . . A hat mit zwei homogenen Teilketten der Längen x bzw. n − x. Die Wahrscheinlichkeit für den Eintritt dieser speziellen Ergebnisfolge, die für die Zählvariable X zum Wert x führt, ist wegen der Unabhängigkeit der einzelnen Bernoulli-Experimente px (1 − p)n−x . Nun gibt es aber nicht n nur eine Ergebnisfolge, sondern nach Tabelle 10.1 insgesamt x mögliche Ausprägungen einer Bernoulli-Kette der Länge n, bei der insgesamt x-mal der Ausgang A auftritt. Die Reihenfolge des Auftretens der Ausgänge A innerhalb einer Ergebnisfolge hat ja keinen Effekt auf den Wert der Zählvariablen X. Die Wahrscheinlichkeit P (X = x) dafür, dass die Anzahl der Ausgänge A innerhalb der Bernoulli-Kette einen die Ausprägung n x bestimmten Wert x annimmt, ist damit gegeben durch das x -fache von p (1 − p)n−x . Es gilt also für die Wahrscheinlichkeitsfunktion f (x) = P (X = x) der Binomialverteilung ( n x p (1 − p)n−x für x = 0, 1, . . . , n x f (x) = (11.22) 0 für alle sonstigen x.
Vollständige Beschreibung der Binomialverteilung
Flash-Animation „Galton-Brett und Binomialverteilung“
Die Verteilungsfunktion F (x) = P (X ≤ x) ist auf der Trägermenge {0, 1, . . . , n} durch x X n k F (x) = p (1 − p)n−k x = 0, 1, . . . , n. (11.23) k k=0 definiert. Zwischen zwei benachbarten Elementen der Trägermenge bleibt F (x) auf dem Niveau des kleineren Elements (Treppenfunktion), um dann an der Stelle x = n den Endwert 1 zu erreichen. Eine mit Parametern n und p binomialverteilte Zufallsvariable X bezeichnet man in der Literatur auch als B(n, p)-verteilt und schreibt dafür X ∼ B(n, p) (lies: X ist binomialverteilt mit den Parametern n und p). Die Aussagen X ∼ B(1, p) und X ∼ Be(p) sind identisch, weil die Bernoulli-Verteilung eine Binomialverteilung mit n = 1 ist. Abbildung 11.5 zeigt Wahrscheinlichkeits- und Verteilungsfunktion einer B(10; 0, 5)verteilten Zufallsvariablen. Neben Werten beider Funktionen ist auch der Erwartungswert µ = E(X) wiedergegeben, der sich als µ = 10·0, 5 = 5 errechnet. Der Tabelle neben der Grafik entnimmt man z. B., dass die Verteilungsfunktion F (x) an der Stelle x = 3 den Wert F (3) = 0, 1719 annimmt. Dieser Wert ist wegen F (3) = P (X ≤ 3) die Summe der Werte f (0) = 0, 0010, f (1) = 0, 0098, f (2) = 0, 0439 und f (3) = 0, 1172 der Wahrscheinlichkeitsfunktion bis x = 3. Durch Aufsummieren von Werten der Wahrscheinlichkeitsfunktionen ergeben sich also die Werte der Verteilungsfunktion. Umgekehrt kann man aus F (x) durch Differenzenbildung Werte der Wahrscheinlichkeitsfuntion f (x) gewinnen. Der Wert f (3) = P (X = 3) = 0, 1172 ergibt sich in Abbildung 11.5 etwa als Differenz von F (3) = P (X ≤ 3) = 0, 1719 und F (2) = P (X ≤ 2) = 0, 0547. Es genügt also eine der beiden Funktionen f (x) und F (x) zu tabellieren. Die Wahrscheinlichkeitsfunktion (11.22) der Binomialverteilung ist für p = 0, 5 symmetrisch bezüglich des Erwartungswerts. Für p 6= 0, 5 gilt dies nicht mehr, wie Abbildung
Java-Applet „Die Binomialverteilung“
140
11 Diskrete Zufallsvariablen
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 2
4
6
8
10
12
x
2
4
6
8
10
12
x
F (x) 1, 0 0, 8 0, 6 0, 4 0, 2
i 0 1 2 3 4 5 6 7 8 9 10 11 12
fi 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010 0,0000 0,0000
Fi 0,0010 0,0107 0,0547 0,1719 0,3770 0,6230 0,8281 0,9453 0,9893 0,9990 1,0000 1,0000 1,0000
Abb. 11.5: Binomialverteilung mit n = 10 und p = 0, 50
11.6 beispielhaft illustriert. Die Wahrscheinlichkeitsfunktion weist hier links vom Erwartungswert µ = 2, 5 einen steileren Verlauf auf. In Tabelle 19.1 des Anhangs sind Verteilungsfunktionen von Binomialverteilungen für n = 1, 2, . . . , 20 und p = 0, 05, 0, 10, . . . , 0, 50 tabelliert. Werte der Wahrscheinlichkeitsund der Verteilungsfunktion einer Binomialverteilung und auch anderer Verteilungen lassen sich auch mit jedem gängigen Statistiksoftwarepaket, z. B. SPSS, und auch mit EXCEL oder der kostenfreien Statistiksoftware R berechnen – bezüglich R vgl. z. B. die umfassende Einführung von Gross (2010). 5
5
Bei Verwendung von SPSS findet man die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Binomialverteilung sowie anderer Verteilungen im Menü „Transformieren / Variable berechnen“. Wahrscheinlichkeitsfunktion und Verteilungsfunktion der Binomialverteilung sind dort mit PDF.BINOM(..) resp. mit CDF.BINOM(..) abgekürzt. Dabei steht „pdf“ für „probability density function“ und „cdf“ für „cumulative density function“. Auch in EXCEL findet man die gängigen Wahrscheinlichkeitkeitsverteilungen. Die Verteilungsfunktion der Binomialverteilung ist hier z. B. über „Einfügen / Funktion“ unter BINOMVERT zugänglich.
11.3 Die Binomialverteilung
141
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 2
4
6
8
10
12
x
2
4
6
8
10
12
x
F (x) 1, 0 0, 8 0, 6 0, 4 0, 2
x 0 1 2 3 4 5 6 7 8 9 10 11 12
f (x) 0,0563 0,1877 0,2816 0,2503 0,1460 0,0584 0,0162 0,0031 0,0004 0,0000 0,0000 0,0000 0,0000
F (x) 0,0563 0,2440 0,5256 0,7759 0,9219 0,9803 0,9965 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000
Abb. 11.6: Binomialverteilung mit n = 10 und p = 0, 25
Beispiel 11.2 Berechnung von Wahrscheinlichkeiten via Binomialverteilung Wenn man eine Münze n-mal wirft, so ist die Anzahl X der Ereignisse „Zahl“ eine B(n, p)-verteilte Zufallsvariable. Der Erwartungswert ist hier durch µ = np = n2 und die Varianz durch V (X) = np(1 − p) = n4 gegeben. Bei Verwendung einer „fairen“ Münze, also einer Münze mit gleichen Eintrittswahrscheinlichkeiten für „Zahl (Z)“’ und „Kopf (K)“, gilt p = 0, 5. Die Wahrscheinlichkeit P (X ≤ 2) dafür, bei 3 Würfen höchstens 2-mal den Ausgang „Zahl“ zu erhalten, ist dann durch den Wert F (2) der Verteilungsfunktion der Binomialverteilung mit n = 3 und p = 0, 5 gegeben, nach Tabelle 19.1 also durch F (2) = 0, 875. Die Wahrscheinlichkeit f (2) = P (X = 2) dafür, bei den drei Würfen genau zweimal „Zahl“ zu erzielen, errechnet sich als Differenz der Funktionswerte F (2) = P (X ≤ 2) = 0, 875 und F (1) = P (X ≤ 1) = 0, 500, also als 0, 375. Der letztgenannte Wert wurde auch schon in Beispiel 10.2 elementar unter Verwendung des Laplace-Ansatzes (10.5) über die Kombinatorik abgeleitet. Bei größeren Werten n werden aber kombinatorische Überlegungen recht aufwändig, insbesondere, wenn ein Wert p 6= 0, 5 ins Spiel kommt.Zieht man etwa aus einer Lostrommel, in der ein Anteil p Gewinne und ein Anteil von 1−p Nieten sind, nacheinander n Lose und legt nach jeder Einzelziehung das Los in die Trommel zurück, so ist die Wahrscheinlichkeit nach 20 Ziehungen genau 4 Gewinne gezogen zu haben, offenbar errechenbar als Differenz F (4) − F (3) von zwei Werten der Verteilungsfunktion einer B(20; 0, 05)-
Aufgabe 11.2
142
11 Diskrete Zufallsvariablen
verteilten Zufallsvariablen. Man erhält im Falle p = 0, 05 mit Tabelle 19.1 den Wert 0, 9974 − 0, 9841 = 0, 0133. Für die Wahrscheinlichkeit dafür, im Falle n = 20 und p = 0, 05 mindestens 4 Gewinne zu ziehen, ermittelt man den Wert 1 − F (3) = 0, 0159.
Exkurs 11.1
Fiasko beim Zentralabitur NRW 2008
In Nordrhein-Westfalen wurde 2008 zum zweiten Male ein Zentralabitur organisiert. Dabei gab es hinterher erhebliche Kritik, u. a. an einer Aufgabe zur Wahrscheinlichkeitsrechnung, die für Schüler der Mathematik-Leistungskurse konzipiert war. Die Kritik ging durch alle Medien und führte am Ende zu einem Rücktritt des Pressesprechers der zuständigen Schulministerin in Düsseldorf und für die betroffenen Schüler zum Angebot der Wiederholung der gesamten Mathematikprüfung. Die umstrittene Aufgabe bezog sich auf Trefferquoten von D. Nowitzki, Mannschaftsführer der deutschen Basketball-Mannschaft bei der Olympiade 2008 in Peking. Der erste Teil der Aufgabe lautete wie folgt:6 Der deutsche Basketball-Profi Dirk Nowitzki spielte in der amerikanischen Profiliga beim Club Dallas Mavericks. In der Saison 2006/07 erzielte er bei Freiwürfen eine Trefferquote von 90,4 Prozent. Berechnen Sie die Wahrscheinlichkeit dafür, dass er (1) genau 8 Treffer bei 10 Versuchen erzielt, (2) höchstens 8 Treffer bei 10 Versuchen erzielt, (3) höchstens viermal nacheinander bei Freiwürfen erfolgreich ist. An der Aufgabe lässt sich sehr gut verdeutlichen, wie wichtig es ist, klar zwischen empirischen Befunden (Datenebene) und Modellansätzen zur approximativen Beschreibung solcher Befunde (Modellebene) zu unterscheiden. Die Analogie zum Münzwurfexperiment liegt auf der Hand; auch bei einem Freiwurf gibt es zwei mögliche Ausgänge (Korb wird getroffen / verfehlt). Sei zunächst erneut die Situation beim Münzwurfexperiment betrachtet. Man kann hier davon ausgehen, dass die Wahrscheinlichkeit p für den Eintritt des interessierenden Ereignisses, etwa „Zahl“, sich nicht ändert, wenn man eine Münze n-mal wirft. Bei einer „fairen“ Münze ist p = 0, 5. Ob eine Münze wirklich fair ist, d. h. gleiche Eintrittswahrscheinlichkeiten für „Zahl“ und „Kopf“ aufweist, kann man anhand einer Bernoulli-Kette mit größerem n testen. Abbildung 11.4 zeigt zwei Bernoulli-Ketten, die die Vermutung einer fairen Münze zumindest visuell stützen. In der Regel wird man aufgrund von Symmetrieüberlegungen ohne nähere Prüfung von der Annahme p = 0, 5 ausgehen. Wenn man bei einem Münzwurf Anhaltspunkte dafür hat, dass die Wahrscheinlichkeit p für „Zahl“ nicht der Bedingung p = 0, 5 genügt, kann man p schätzen (vgl. hierzu Kapitel 13) und den Schätzwert pb heranziehen. In beiden Fällen – faire oder nicht-faire Münze – ist die Eintrittswahrscheinlichkeit für „Zahl“ von Wurf zu Wurf eine feste Größe und für die Anzahl X der „Treffer“ (Beobachtung von „Zahl“) gilt X ∼ B(n, p) bzw. X ∼ B(n, pb).
Basketballer Nowitzki (Quelle: dpa)
Wenn die Trefferquote des Basketballers Nowitzki in der Saison 2006/07 als repräsentativ für seine Leistung angesehen werden darf, müsste man dies in der Aufgabe durch die explizite Annahme einer festen Trefferquote von 0, 904 zum Ausdruck bringen. Eine konstante 6
Die vollständige Fassung der Aufgabe wurde im Juni 2008 von Spiegel online ins Netz gestellt.
11.4 Die hypergeometrische Verteilung
143
Trefferquote ist aber keineswegs selbstverständlich; gerade im Sport sind größere Formschwankungen an der Tagesordnung. Ohne die Annahme einer festen Trefferquote p resp. pb ist die Information über die Trefferquote in der letzten Saison lediglich ein – möglicherweise einmaliger – empirischer Befund, der nicht ausreicht für die Berechnung der verlangten Trefferwahrscheinlichkeiten. Das Modell der Binomialverteilung setzt ja voraus, dass die n in (11.19) eingehenden Indikatorvariablen Xi (mit dem Wert 1 bei Eintritt des Ereignisses „Treffer“ und 0 beim Ereignis „kein Treffer“) alle derselben Bernoulli-Verteilung (11.4) folgen. Würde man allerdings die Aufgabe um die Annahme einer konstanten Trefferquote 0, 904 ergänzen, wäre die Wahrscheinlichkeit für die Erzielung von genau 8 Treffern bzw. von höchstens 8 Treffern bei 10 Wurfversuchen durch den Wert f (8) der Wahrscheinlichkeitsfunktion f (x) resp. den Wert F (8) der Verteilungsfunktion F (x) einer B(10; 0, 904)-verteilten Zufallsvariablen gegeben. Man würde dann z. B. für f (8) nach (11.22) 10 f (8) = · 0, 9048 · 0, 0962 = 45 · 0, 4460129 · 0, 009216 ≈ 0, 185. 8 errechnen. Die Wahrscheinlichkeit für die Erzielung von vier Treffern in Folge lässt sich allerdings auch bei Annahme einer festen Trefferquote noch nicht beantworten, weil in Aufgabenteil (c) die Gesamtzahl n der Würfe nicht angegeben ist, von der das Ergebnis abhängt. Die Aufgabe (c) ist also eigentlich nicht lösbar. Unterstellt man, dass auch hier n = 10 gemeint war – die amtliche Musterlösung des Ministeriums ging allerdings ohne nachvollziehbaren Grund von n = 5 aus – und codiert man „Treffer“ mit „1“ und das Komplementärereignis „kein Treffer“ mit „0“, hätte man aus den insgesamt 210 = 1024 möglichen Ergebnisfolgen diejenigen heraus zu suchen, bei denen nie mehr als vier Einsen in Folge erscheinen. Die Ergebnisfolge (1, 0, 1, 1, 1, 1, 0, 0, 1, 1) wäre ein Beispiel für eine Ergebnisfolge, die dem Erfordernis „höchstens vier Treffer in Folge“ genügt.
3
11.4 Die hypergeometrische Verteilung Die Binomialverteilung beschreibt das Zufallsverhalten der Zählvariablen X aus (11.19) bei einem n-fach durchgeführten Bernoulli-Experiment, wobei die einzelnen Experimente voneinander unabhängig sind. Die Zählvariable weist aus, wie häufig einer der beiden möglichen Ausgänge x1 = A und x2 = A und P (A) = p bzw. P (A) = 1 − p innerhalb der Bernoulli-Kette auftrat. Als Beispiele wurden Münzwurf- oder auch Würfelexperimente angeführt, wenn man bei letzteren nur zwischen zwei Ausgängen differenziert (etwa „gerade / ungerade Augenzahl“). Die Grundsituation lässt sich anhand des Urnenmodells beschreiben. Eine Urne (Behälter) enthalte eine Menge roter und schwarzer Kugeln. Der Urne wird n-mal eine Kugel entnommen und man zählt die Anzahl X der roten Kugeln. Nach jeder Ziehung wird die entnommene Kugel in die Urne zurückgelegt. Der Quotient „Anzahl roter Kugeln / Anzahl aller Kugeln“, der die Wahrscheinlichkeit für die Entnahme einer roten Kugel bestimmt, bleibt hier von Ziehung zu Ziehung konstant. Die Binomialverteilung lässt sich also anschaulich durch das Urnenmodell mit Zurücklegen veranschaulichen. Dieses Modell ist z. B. beim wiederholten Münzwurf passend, weil die Ausgangslage sich nicht von Wurf zu Wurf verändert. Es ist so, als ob man einer Urne, die zwei Zettel mit der Aufschrift „Zahl“ bzw. „Kopf“ enthält, jeweils einen Zettel entnimmt und den gezogenen Zettel vor der nächsten Ziehung zurücklegt.
Varianten des Urnenmodells
144
11 Diskrete Zufallsvariablen
In der Realität gibt es Situationen, bei denen das beschriebene Modell des Ziehens mit Zurücklegen nicht oder nur näherungsweise passt – man denke nur an die Ziehung der Lottozahlen oder an Befragungen von Personen auf der Basis zufälliger Stichproben. Auch in der Wareneingangsprüfung bei einem Unternehmen wird man bei Entnahme einer Stichprobe von n Elementen aus einem Warenlos ein entdecktes nichtspezifikationskonformes Element vor der Entnahme eines weiteren Elements nicht zurücklegen. In solchen Fällen wird das Urnenmodell ohne Zurücklegen verwendet.
Flash-Animation „Hypergeometrische Verteilung“
Kenngrößen der hypergeometrischen Verteilung
Wenn man einer Urne mit N Kugeln, von denen M rot und die restlichen N − M schwarz sind, nacheinander n Kugeln ohne Zurücklegen entnimmt, so repräsentiert die Ziehung jeder Kugel zwar weiterhin ein Bernoulli-Experiment, die Einzelexperimente sind aber nicht mehr voneinander unabhängig. Die Eintrittswahrscheinlichkeit für das interessierende Ereignis „Kugel ist rot“ wird jetzt nicht nur von M , sondern auch vom Umfang N der Grundgesamtheit beeinflusst. Die Verteilung der durch (11.19) definierten Zählvariablen X ist bei Annahme einer Stichprobenentnahme ohne Zurücklegen nicht mehr durch eine Biomialverteilung gegeben, sondern durch die hypergeometrische Verteilung. Letztere ist durch drei Parameter beschrieben, nämlich durch N , M und n, und man schreibt hierfür X ∼ H(n; M ; N ) (lies: X ist hypergeometrisch verteilt mit den Parametern n, M und N ). Erwartungswert µ = E(X) und Varianz σ2 = V (X) der hypergeometrischen Verteilung seien hier der Vollständigkeit ohne Beweis angegeben.7 M N
(11.24)
M M N −n (1 − ) · . N N N −1
(11.25)
µ=n· σ2 = n ·
Erwartungswert und Varianz einer H(n, M, N )-verteilten Zufallsvariablen X stimmen nach (11.20) und (11.21) offenbar mit dem Erwartungswert bzw. der Varianz einer B(n; p)-verteilten Variablen mit p = M überein – mit dem einzigen Unterschied, dass N bei der Varianz der Binomialverteilung der in (11.25) auftretende Bruchterm N−n fehlt. N −1 Da dieser Term für n > 1 kleiner als 1 ist (für n = 1 ist er 1), hat die hypergeometrische Verteilung im Vergleich zur Binomialverteilung eine kleinere Varianz, wobei die Unterschiede mit wachsendem N vernachlässigbar werden. Dass die hypergeometrische Verteilung eine kleinere Varianz aufweist, ist einleuchtend, denn beim Ziehen ohne Zurücklegen wird die in einem gezogenen Stichprobenelement steckende Information (Kugel ist rot oder schwarz) nicht immer wieder verschenkt, d. h. es gibt weniger Unsicherheit über den verbleibenden Inhalt der Urne im Vergleich zum Ziehen mit Zurücklegen. Im Extremfall der sukzessiven Ziehung aller in der Urne befindlichen Elemente (n = N ) ohne Zurücklegen liegt vollständige Information über den Urneninhalt vor. Die Zählvariable X ist dann keine Zufallsvariable mehr, sondern eine deterministische Größe mit dem Wert M . Man erkennt den nicht-stochastischen Charakter von X im Falle n = N auch aus der Varianzformel (11.25), denn es gilt dann N−n = 0 und somit V (X) = 0. N −1 Die Angabe der Trägermenge einer H(n; M ; N )-verteilten Zufallsvariablen, also der Menge der möglichen Ausprägungen der Zählvariablen X, ist nicht trivial. Sie ist durch 7
Eine Herleitung von Erwartungswert, Varianz und auch der Wahrscheinlichkeitsfunktion f (x) der hypergeometrischen Verteilung findet man z. B. bei Mosler / Schmid (2011, Abschnitt 2.3.4).
11.4 Die hypergeometrische Verteilung
145
T = {xmin , . . . , xmax } gegeben mit xmin = max(0; n − N + M ) als dem kleinsten und xmax = min(n; M) als dem größten Element der Trägermenge (s. hierzu den Exkurs am Ende dieses Abschnitts).Die Wahrscheinlichkeitsfunktion f (x) = P (X = x) der hypergeometrischen Verteilung ist ebenfalls nicht ganz so einfach ableitbar wie die der Binomialverteilung. Es gilt die Darstellung M N −M ( x )( n−x ) für x ∈ T (Nn ) f (x) = (11.26) 0 für alle sonstigen x, deren Herleitung im Exkurs am Ende dieses Abschnitts skizziert wird. Für die Verteilungsfunktion F (x) = P (X ≤ x) gilt dann auf der Trägermenge x M N−M X k n−k F (x) = x ∈ T. (11.27) N k=0
n
Da die Wahrscheinlichkeitsfunktion für x ∈ / T stets 0 ist, bleibt F (x) zwischen zwei benachbarten Elementen der Trägermenge auf dem Niveau des kleineren Werts, um dann in xmax = min(n; M ) den Endwert 1 anzunehmen (Treppenfunktion).
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 2
4
6
8
10
x
2
4
6
8
10
x
F (x) 1, 0 0, 8 0, 6 0, 4
x f (x) 0 0,0000 1 0,0000 2 0,0833 3 0,4167 4 0,4167 5 0,0833 6 0,0000 7 0,0000 8 0,0000 9 0,0000 10 0,0000
F (x) 0,0000 0,0000 0,0833 0,5000 0,9167 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0, 2
Abb. 11.7: Hypergeometrische Verteilung mit n = 5, M = 7 und N = 10
Abbildung 11.7 veranschaulicht die Wahrscheinlichkeits- und die Verteilungsfunktion einer H(5; 7; 10)-verteilten Zufallsvariablen. Der Erwartungswert µ = E(X) errech7 net sich hier als µ = 5 · 10 = 3, 5. Neben den Graphen sind einige Werte der beiden
Vollständige Beschreibung der hypergeometrischen Verteilung
Java-Applet „Die hypergeometrische Verteilung“
146
11 Diskrete Zufallsvariablen
Funktionen tabelliert. Die Trägermenge T der dargestellten hypergeometrischen Verteilung ist durch T = {xmin , . . . , xmax } gegeben mit xmin = max(0; 5 − 10 + 7) = 2 und xmax = min(5; 7) = 5. Der Abbildung 11.7, insbesondere der letzten Spalte der Tabelle, entnimmt man z. B., dass die Verteilungsfunktion F (x) an der Stelle xmax = 5 auf den Endwert 1 springt.
Approximation der hypergeometrischen Verteilung
BernoulliVerteilung als Spezialfall
Die Tabellierung der Wahrscheinlichkeits- oder der Verteilungsfunktion ist für die hypergeometrische Verteilung viel aufwändiger als bei der Binomialverteilung, weil die Tabellen hier von drei Parametern abhängen. Im vorliegenden Manuskript wird aus diesem Grunde auf eine Tabellierung verzichtet. In der Praxis wendet man anstelle der hypergeometrischen Verteilung meist die einfacher handhabbare Binomialverteilung an, wenn der Umfang N der Grundgesamtheit im Vergleich zum Umfang der Stichprobe n groß ist (Faustregel: Nn < 0, 05). In diesem Falle kann man für eine H(n; M; N )-verteilte Zufallsvariable X in guter Näherung annehmen, dass sie B(p; n)-verteilt ist mit p = M . Die N Tragfähigkeit der Approximation liegt darin begründet, dass die Unterschiede zwischen den Situationen „Ziehen ohne / mit Zurücklegen“ mit Verkleinerung des Auswahlsatzes n immer weniger ins Gewicht fallen. N Die Binomialverteilung und die hypergeometrische Verteilung charakterisieren also beide das Zufallsverhalten der Indikatorvariablen (11.19), allerdings unter verschiedenen Bedingungen. Die Indikatorvariable (11.19) zählt, wie oft bei n-facher Durchführung eines Bernoulli-Experiments (n-faches Ziehen einer Kugel aus einer Urne mit roten und schwarzen Kugeln) mit den möglichen Ausgängen x1 = A (Kugel ist rot) und x2 = A eines der beiden Ereignisse, etwa A, beoachtet wird. Beim Ziehen mit Zurücklegen ist die Zählvariable binomialverteilt, beim Ziehen ohne Zurücklegen folgt sie einer hypergeometrischen Verteilung. Beide Verteilungen gehen im Sonderfall n = 1 offenbar in die Bernoulli-Verteilung über. Beim Ziehen einer einzigen Kugel aus einer Urne mit roten und schwarzen Kugeln und der Wahrscheinlichkeit p für das Ereignis A entfällt nämlich eine Unterscheidung von Ziehen mit oder ohne Zurücklegen und die Wahrscheinlichkeitsfunktion (11.4) beschreibt den Ausgang des einmaligen Bernoulli-Experiments. Beispiel 11.3 Berechnung von Wahrscheinlichkeiten beim Lottospiel Lotto wird in Europa nicht einheitlich gespielt. In Deutschland gibt es z. B. das Lottospiel „6 aus 49“, in der Schweiz „6 aus 45“ und in Italien “6 aus 90“. Die Wahrscheinlichkeiten für die Ereignisse „6 Richtige“, „0 Richtige“, „mindestens 4 Richtige“ o. ä. beim deutschen Lotto lassen sich anhand der hypergeometrischen Verteilung mit den Parametern n = 6, M = 6 und N = 49 berechnen. Dabei beinhaltet n hier die Anzahl der Kreuze auf dem Lottoschein (beim Urnenmodell die Anzahl der gezogenen Kugeln), M die maximale Anzahl der Treffer (beim Urnenmodell die Anzahl der „roten“ Kugeln in der Urne) und N die Anzahl der die Lottozahlen präsentierenden Kugeln in der Trommel (bzw. in der Urne). Der Erwartungswert für die Anzahl X der Richtigen beim Lottospiel „6 aus 49“ ist nach (11.24) durch µ = 36 ≈ 0, 735 gegeben. 49 Für die Berechnung von Wahrscheinlichkeiten der Art „x Richtige“ oder „mindestens x Richtige“ ist der Rückgriff auf eine Tabelle mit Werten der Wahrscheinlichkeitsfunktion
11.4 Die hypergeometrische Verteilung
147
f (x) = P (X = x) oder der Verteilungsfunktion F (x) = P (X ≤ x) der genannten hypergeometrischen Verteilung am einfachsten. Wenn man nicht über eine solche Tabelle
Abb. 11.8: „Lottofee“ (ARD-Ziehung der Lottozahlen; Quelle: Hessischer Rundfunk)
verfügt, kann man die gesuchten Wahrscheinlichkeiten direkt aus (11.26) bzw. aus (11.27) bestimmen. Für das Ereignis „0 Richtige“ erhält man z. B. nach (11.26) mit Einsetzen von n = 6, M = 6 und N = 49 bei Beachtung von 60 = 1 die Darstellung 6 49−6 43 f (0) =
0
6−0 49 6
=
6 49 . 6
Der Nennerterm, für den man mit (10.10) den schon in Beispiel 10.3 angegebenen Wert 49 49! 49 · 48 · 47 · 46 · 45 · 44 = = = 13983816 6 43! · 6! 6·5·4·3·2·1 ermittelt, repräsentiert die Anzahl der möglichen Ausgänge einer Lottoziehung. Für den Zählerterm, der die Anzahl der möglichen Ausgänge mit 0 Richtigen wiedergibt, folgt 43 43! 43 · 42 · 41 · 40 · 39 · 38 = = = 6096454. 6 37! · 6! 6·5·4·3·2·1 Die Wahrscheinlichkeit f (0) = P (X = 0) für das Ereignis „0 Richtige“ ist somit 43 6096454 6 f (0) = 49 = ≈ 0, 436, 13983816 6 also ca. 43,6 % – ein Wert, der manchen Lottofreund irritieren dürfte. Die Wahrscheinlichkeit f (6) = P (X = 6) für „6 Richtige“ ließe sich analog bestimmen. Da allerdings von den 13983816 möglichen Ausgängen einer Lottoziehung nur ein einziger Ausgang „6 Richtige“ beinhaltet, kann man f (6) = P (X = 6) einfacher über f (6) =
1 ≈ 0, 0000000715 = 7, 15 · 10−8 13983816
148
11 Diskrete Zufallsvariablen
errechnen. An Lottospieler, die 6 Richtige reklamieren können (Gewinnklasse 2), werden 8% der Lottoeinnahmen verteilt. Man sollte wissen, dass 50% der Lottoeinnahmen als Steuern abgeführt oder für festgelegte Zwecke verwendet und mithin gar nicht an Spieler verteilt werden.
Aufgabe 11.3
Die ohnehin schon verschwindend kleine Wahrscheinlichkeit für einen Volltreffer ver1 ringert sich beim deutschen Lotto noch um den Faktor 10 auf 139838160 ≈ 7, 15 · 10−9 , wenn man das Spiel „6 aus 49 mit Superzahl“ spielt. Die „Superzahl“ ist eine Zusatzzahl, die aus der Menge {0, 1, ..., 8, 9} gezogen wird („1 aus 10“). Um an den legendären Jackpot zu kommen (Gewinnklasse 1 mit einer Ausschüttungsquote von 10%), muss man „6 Richtige aus 49“ haben und die korrekte Zusatzzahl „1 aus 10“ vorweisen können. Diese Gewinnklasse ist, nicht überraschend, häufig gar nicht besetzt – die vorgesehenen Gewinne werden dann auf die nächste Ziehung übertragen. Noch geringer als ein Erreichen der Gewinnklasse 1 beim deutschen Lotto ist die Wahrscheinlichkeit eines Volltreffers bei der italienischen Lottovariante „6 aus 90“. Sie entspricht dem Wert 1 f (6) = 622614630 ≈ 1, 61 · 10−9 der Wahrscheinlichkeitsfunktion einer hypergeometrischen Verteilung mit n = 6, M = 6 und N = 90.
Exkurs 11.2
Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung
Um die Trägermenge einer H(n; M ; N )-verteilten Zufallsvariablen zu bestimmen, sind nur die kleinst- und die größtmögliche Ausprägung der durch (11.19) erklärten Zählvariablen X im Urnenmodell ohne Zurücklegen zu ermitteln. Die Variable X, die sich hier als Anzahl der gezogenen roten Kugeln nach n Ziehungen interpretieren lässt, kann im Falle n ≤ M den Wert n offenbar nicht überschreiten – es können nicht mehr rote Kugeln gezählt als gezogen werden. Im Falle n > M ist hingegen M die Obergrenze – es können nicht mehr rote Kugeln gezogen werden als in der Urne vorhanden sind. Das größte Element xmax der Trägermenge hat also den Wert xmax = min(n; M ). Ferner gilt, dass n−(N −M ) die Anzahl der roten Kugeln nach n Ziehungen darstellt, diese aber auch nicht kleiner als 0 sein kann, d. h. xmin = max(0; n − N + M ) definiert den kleinstmöglichen Wert. Bei der Herleitung der Wahrscheinlichkeitsfunktion (11.26) kann man auf Tabelle (10.1) zurückgreifen, die Basisformeln der Kombinatorik ausweist. Der Nenner von (11.26) repräsentiert die Anzahl der Möglichkeiten, aus einer Urne mit N Kugeln insgesamtn Kugeln ohne Zurücklegen zu entnehmen. Nach Tabelle (10.1) ist diese Anzahl durch N n gegeben, weil es auf die Reihenfolge der Ergebnisse der Ziehungen hier nicht ankommt. Der Produktterm im Zähler von (11.26) ergibt sich aus folgender Überlegung: In der Urne befinden sich vor Beginn der Ziehung M rote und N − M schwarze Kugeln. Es gibt M Möglichkeiten, x rote x Kugeln aus M roten Kugeln auszuwählen. Damit nach n Ziehungen ohne Zurücklegen die Anzahl der gezogenen roten Kugeln genau x ist, müssen aus dem Anfangsvorrat von N − M −M schwarzen Kugeln n − x schwarze Kugeln gezogen werden. Es gibt Nn−x Möglichkeiten der Auswahl dieser n − x Kugeln.
3
12 Stetige Zufallsvariablen 12.1 Dichtefunktion und Verteilungsfunktion Die in Kapitel 11 behandelten diskreten Zufallsvariablen sind dadurch gekennzeichnet, dass man die Anzahl ihrer Ausprägungen abzählen kann. Sie haben also endlich viele Ausprägungen oder zumindest abzählbar unendlich viele Ausprägungen, die die Trägermenge der Variablen definieren. Das Zufallsverhalten einer diskreten Zufallsvariablen X mit k Ausprägungen xi (i = 1, . . . , k) und den Eintrittswahrscheinlichkeiten pi = P (X = xi ) lässt sich vollständig durch die in (11.1) eingeführte Wahrscheinlichkeitsfunktion f (x) beschreiben. Alternativ kann man auch die Verteilungsfunktion F (x) aus (11.2) bzw. (11.3) zur Beschreibung heranziehen, die sich durch durch Aufsummieren aller Werte ergibt, die die Wahrscheinlichkeitsfunktion bis zur Stelle x annimmt. Bei den im Folgenden thematisierten stetigen Zufallsvariablen ist die Trägermenge T , also die Menge der möglichen Realisationen, ein Intervall. Häufig ist T der gesamte Zahlenstrahl (Menge R aller reellen Zahlen). Das Verhalten einer stetigen Zufallsvariablen X lässt sich wie im diskreten Fall durch die Verteilungsfunktion F (x) = P (X ≤ x) aus (11.2) vollständig charakterisieren. Eine Darstellung der Art (11.3) für die Verteilungsfunktion gibt es aber nicht, wenn die Anzahl der möglichen Werte von X nicht mehr abzählbar ist. Der Ansatz (11.1), der die Wahrscheinlichkeiten bei einer diskreten Zufallsvariablen zusammenfasst und hier die Wahrscheinlichkeitsfunktion definiert, ist bei einer stetigen Zufallsvariablen nicht mehr anwendbar. Man verwendet nun anstelle der Wahrscheinlichkeitsfunktion die sog. Dichtefunktion. Diese Funktion f (x), die auch manchmal als Wahrscheinlichkeitsdichte oder kürzer als Dichte von X angesprochen wird, genügt der Nicht-Negativitätsbedingung f (x) ≥ 0
für alle reellen x
(12.1)
und hat die Eigenschaft, dass sich jeder Wert F (x) der Verteilungsfunktion durch Integration der Dichte bis zur Stelle x ergibt. Es gilt also Z x F (x) = f (t)dt für alle reellen x. (12.2) −∞
Für alle Werte x, bei denen die Dichtefunktion f (x) stetig ist, stimmt sie mit der Ableitung F 0 (x) der Verteilungsfunktion überein: F 0 (x) = f (x).
(12.3)
Aus (12.2) folgt, dass sich bei einer stetigen Zufallsvariable X die Wahrscheinlichkeit P (X ≤ x) nicht nur als Wert der Verteilungsfunktion F (x) an der Stelle x, sondern auch
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_12, © Springer-Verlag Berlin Heidelberg 2011
149
Charakterisierung stetiger Zufallsvariablen anhand von Dichte- und Verteilungsfunktion
150
12 Stetige Zufallsvariablen
als Fläche unter der Dichtekurve f (x) bis zum Punkt x interpretieren lässt (vgl. hierzu auch die noch folgende Abbildung 12.1). Setzt man x = b und x = a in (12.2) ein, erhält man Darstellungen der Werte F (b) und F (a) der Verteilungsfunktion und hieraus für die Differenz F (b) − F (a) die Gleichung Z b Z a Z b F (b) − F (a) = f (t)dt − f (t)dt = f (t)dt. (12.4) −∞
−∞
a
Da die Verteilungsfunktion eine monoton wachsende Funktion ist, die gegen 1 strebt, gilt auch, dass die Gesamtfläche unter der Dichtekurve den Wert 1 besitzt (Normierungseigenschaft): Z ∞ f (x)dx = 1. (12.5) −∞
Stetige Gleichverteilung als einfachste stetige Verteilung
Eine besonders einfache stetige Verteilung ist die Rechteckverteilung, die auch stetige Gleichverteilung genannt wird. Man nennt eine stetige Zufallsvariable rechteckverteilt oder gleichverteilt über dem Intervall [a, b], wenn sie die Dichtefunktion ( 1 für a ≤ x ≤ b f (x) = b−a (12.6) 0 für alle sonstigen x besitzt. Die Verteilungsfunktion F (x) einer über [a, b] rechteckverteilten Zufallsvariablen X ergibt sich dann durch Integration dieser Dichte gemäß (12.2). Die Integration von (12.6) liefert nur im Bereich von a bis b einen von Null verschiedenen Beitrag, d. h. es ist für x < a; 0 x−a F (x) = b−a für a ≤ x ≤ b; (12.7) 1 für x > b. Man verifiziert leicht, dass die Funktion (12.6) die Eigenschaften hat, die eine Dichtefunktion auszeichnen. Sie ist zum einen nicht-negativ und erfüllt außerdem die Normierungseigenschaft (12.5). Letzteres ist sofort einsichtig, wenn man sich vergegenwärtigt, dass man die Integration in (12.5) auf das Intervall [a, b] beschränken kann, weil f (x) außerhalb dieses Bereichs Null ist. Integriert man f (x) über [a, b], entspricht das Ergeb1 nis dem Flächeninhalt A = 1 eines Rechtecks der Länge b − a und der Höhe b−a . Abbildung 12.1 zeigt die Dichtefunktion (12.6) und die Verteilungsfunktion (12.7) einer Rechteckverteilung über [a, b], wobei hier beispielhaft a = 2 und b = 6 gewählt wurde. Beide Funktionen sind über die Beziehung (12.3) verknüpft, wenn man von den beiden Sprungstellen x = a und x = b der Dichtefunktion absieht, in denen F (x) nicht differenzierbar ist. Die Dichte hat zwischen x = 2 und x = 6 den konstanten Wert f (x) = 14 und die unter diesem Bereich liegende Fläche hat den Inhalt 1. Der Wert f (x0 ) der Dichtefunktion einer stetigen Zufallsvariablen X an der Stelle x = x0 ist nicht als Wahrscheinlichkeit P (X = x0 ) dafür zu interpretieren, dass X die Ausprägung x0 annimmt. Man kann vielmehr zeigen (vgl. z. B. Toutenburg /
12.1 Dichtefunktion und Verteilungsfunktion
151
f (x) 0, 5 0, 4 0, 3 0, 2 0, 1 1
2
3
4
5
6
x
2
3
4
5
6
x
F (x) 1, 0 0, 8 0, 6 0, 4 0, 2 1
Abb. 12.1: Dichte- und Verteilungsfunktion einer Rechteckverteilung über [2, 6]
Heumann (2008, Abschnitt 3.4) und auch den folgenden Exkurs 12.1), dass bei einer stetigen Zufallsvariablen X die Wahrscheinlichkeit P (X = x0 ) für jeden einzelnen Wert x0 der Trägermenge Null ist: P (X = x0 ) = 0 für jeden Wert x = x0 .
(12.8)
Die Dichtefunktion wird also nicht zur Berechnung von Wahrscheinlichkeiten für isolierte Werte herangezogen, sondern zur Berechnung von Wahrscheinlichkeiten von Ereignissen der Art „Die Realisationen von X liegen unterhalb oder oberhalb eines bestimmten Schwellenwerts“ oder „X nimmt Realisationen x in einem Intervall [a, b]“ an. Im ersten Fall greift man auf (12.2) resp. die Komplementärbeziehung P (X > x) = 1 − F (x) zurück und im zweiten Fall auf (12.4). Beispiel 12.1 Modellierung von Wartezeiten mit der Rechteckverteilung Die Rechteckverteilung findet u. a. Anwendung als Wartezeitverteilung. Geht man z. B. in einem Außenbezirk einer Großstadt ohne Kenntnis des Fahrplans in eine UBahnstation, von der alle 10 Minuten eine Bahn in Richtung Zentrum abfährt, so kann die Wartezeit X anhand einer Rechteckverteilung über [0, 10] modelliert werden. Die Dichtefunktion (12.6) hat also die spezielle Gestalt ( 1 für 0 ≤ x ≤ 10; f (x) = 10 0 für alle sonstigen x
152
Aufgabe 12.1
12 Stetige Zufallsvariablen
und für die Verteilungsfunktion (12.7) hat man hier für x < 0; 0 x F (x) = 10 für 0 ≤ x ≤ 10; 1 für x > 10. Die Wahrscheinlichkeit dafür, höchstens x Minuten zu warten (0 ≤ x ≤ 10), ist also x gegeben durch P (X ≤ x) = 10 . Exkurs 12.1
Interpretation von Werten der Dichtefunktion
Anhand der Rechteckverteilung über [a, b] lässt sich beispielhaft und auf indirekte Weise verdeutlichen, dass die Wahrscheinlichkeit P (X = x0 ) für jede Realisation x0 einer stetigen Zufallsvariablen X Null sein muss, die Wahrscheinlichkeit P (X = x0 ) für das Eintreten einer bestimmten Ausprägung x0 also nicht mit dem Wert f (x0 ) der Dichtefunktion verwechselt werden darf. Bei der genannten Rechteckverteilung ist jede Realisation innerhalb des Intervalls [a, b] gleichwahrscheinlich. Es sei innerhalb des Intervalls ein Wert x = x0 herausgegriffen. Nimmt man nun an, dass die Wahrscheinlichkeit P (X = x0 ) einen von Null verschiedenen Wert hat, etwa 1p , also P (X = x0 ) = 1p 6= 0, dann müsste diese Wahrscheinlichkeit auch für jeden weiteren Wert x in [a, b] gelten. Für p + 1 beliebige Einzelwerte aus dem Intervall wäre dann die Summe der Wahrscheinlichkeiten 1 + 1p . Dies wäre dann ein Widerspruch zu (12.5).
3
12.2 Kenngrößen stetiger Verteilungen
Erwartungswert und Varianz einer stetigen Zufallsvariablen
Auch bei stetigen Verteilungen ist man daran interessiert, diese durch wenige Kenngrößen zu charakterisieren. Als Lageparameter verwendet man wieder den mit µ (lies: mü) abgekürzten Erwartungswert E(X) (lies: Erwartungswert von X). Für diskrete Zufallsvariablen mit endlich vielen Ausprägungen ist der Erwartungswert durch die Summe (11.6) definiert. Bei stetigen Zufallsvariablen sind die Ausprägungen nicht mehr abzählbar, d. h. eine Summendarstellung ist nicht mehr möglich. Man kann hier, ausgehend von (11.6), durch Grenzwertbetrachtungen die Integraldarstellung Z ∞ µ := E(X) = x · f (x)dx (12.9) −∞
gewinnen. Eine analoge, ebenfalls durch Grenzwertbetrachtungen ableitbare Aussage gilt für die Varianz σ 2 = V (X) (lies: sigma-Quadrat bzw. Varianz von X).Die bei einer diskreten Zufallsvariablen mit endlich vielen Ausprägungen gültige Summendarstellung (11.7) ist bei einer stetigen Verteilung zu ersetzen durch Z ∞ 2 σ := V (X) = (x − µ)2 · f (x)dx. (12.10) −∞
Die Varianz ist wie im diskreten Fall – vgl. (11.8) und (11.9) – nichts anderes als der Erwartungswert der quadrierten Differenz zwischen X und µ = E(X), also σ 2 = E (X − µ)2 = σ 2 = E(X 2 ) − µ2 ,
12.2 Kenngrößen stetiger Verteilungen
153
und auch die Standardabweichung σ (lies: sigma) ist wieder durch p σ = V (X) erklärt. Unverändert gültig sind auch die Eigenschaften (11.11) - (11.14), die das Verhalten von Erwartungswert und Varianz bei einfachen Lineartransformationen charakterisieren. Eine besonders wichtige Lineartransformation ist die als Standardisierung bezeichnete Transformation einer Zufallsvariablen X in eine neue Variable aX + b mit a = σ1 und b = − σµ , die üblicherweise mit Z abgekürzt wird: Z=
X −µ . σ
(12.11)
Der Übergang von X zu Z wird manchmal auch als z-Transformation angesprochen. Durch Einsetzen von a = σ1 und b = − µσ in (11.11) und (11.12) verifiziert man, dass für den Erwartungswert der standardisierten Variablen E(Z) = 0 und für die Varianz V (Z) = 1 gilt. Für den Erwartungswert der durch (12.7) oder (12.8) definierten stetigen Gleichverteilung über [a, b] sollte sich die Mitte a+b des Intervalls [a, b] ergeben, die das Zentrum 2 der Verteilung markiert. Man errechnet diesen Wert in der Tat aus (12.9). Es ist nämlich 2 Z ∞ Z b x 1 b a2 1 E(X) = xf (x) dx = dx = − = (b + a)(b − a) b−a 2 2 2(b − a) −∞ a b−a und somit µ = E(X) =
a+b . 2
(12.12)
Für die Berechnung der Varianz der Rechteckverteilung kann man die Varianzdarstellung σ 2 = E(X 2 ) − µ2 nutzen. Man erhält zunächst 3 Z ∞ Z b 2 x 1 b a3 1 2 2 E(X ) = x f (x) dx = dx = − = (b3 − a3 ) b − a b − a 3 3 3(b − a) −∞ a und hieraus dann σ 2 = E(X 2 ) − µ2 =
(a + b)2 (b − a)3 (b − a)2 b3 − a 3 − = = . 3(b − a) 4 12(b − a) 12
(12.13)
Für die über dem Intervall [0, 10] rechteckverteilte Zufallsvariable X aus Beispiel 12.1 ergeben sich z. B. der Erwartungswert µ = 5, die Varianz σ 2 = 25 ≈ 8, 33 bzw. die 3 5 √ Standardabweichung σ = 3 ≈ 2, 89. Der Wert µ = 5 beinhaltet, dass man „im Mittel“ mit 5 Minuten Wartezeit zu rechnen hat.
Kenngrößen der Rechteckverteilung
154
Weitere Kenngrößen
12 Stetige Zufallsvariablen
Neben dem Erwartungswert und der Varianz bzw. der Standardabweichung kann man noch die Quantile xp heranziehen (p-Quantile), die nach (11.17) durch F (xp ) = p definiert sind. Die Quantile sind durch diese Gleichung bei stetigen Verteilungen eindeutig erklärt, wenn die Verteilungsfunktion streng monoton wächst.1 Der Median x e = x0,5 bezeichnet dann den Punkt auf der x-Achse, für den F (x) = 0, 5 ist. Von besonderer Bedeutung für das Testen von Hypothesen sind p- und (1 − p)-Quantile mit kleinen Werten von p, etwa p = 0, 05 oder p = 0, 01. Sie haben hier die Bedeutung von Irrtumswahrscheinlichkeiten.
12.3 Normalverteilung und Standardnormalverteilung
Karl Friedrich Gauss
Dichte- und Verteilungsfunktion der Normalverteilung
Die Normalverteilung ist die für die Modellierung von Zufallsvorgängen weitaus wichtigste Verteilung. Sie geht auf Carl Friedrich Gauss (1777 - 1855) zurück, der die Funktionsgleichung der glockenförmigen Dichte dieser Verteilung ableitete und erstmals auf praktische Probleme bezog. In Erinnerung an diese Pionierleistung war Gauss mit der Dichtekurve der Normalverteilung im Hintergrund auf der Vorderseite des früheren 10DM-Scheins abgebildet. Die Bedeutung der Normalverteilung rührt daher, dass sie andere Verteilungen unter gewissen Voraussetzungen gut approximiert. Die Normalverteilung wird z. B. häufig zur Modellierung von Zufallsvorgängen eingesetzt, bei denen mehrere zufällige Einflussgrößen zusammenwirken. Dies gilt etwa für die industrielle Überwachung von Serienfertigungen, bei der ein stetiges Qualitätsmerkmal üblicherweise als zumindest approximativ normalverteilt angenommen wird. Aus der Normalverteilung leiten sich zudem wichtige Verteilungen ab, die beim Testen von Hypothesen als Teststatistiken verwendet werden. Eine Zufallsvariable X folgt einer Normalverteilung, wenn ihre Dichtefunktion die Gestalt 1 (x − µ)2 f (x) = √ exp − für alle reellen x (12.14) 2σ 2 σ 2π besitzt.2 Man entnimmt der Darstellung (12.14), dass die Dichte der Normalverteilung von µ und σ 2 abhängt und bezüglich µ symmetrisch ist. Anhand der allgemeinen Formeln (12.9) und (12.10) kann man verifizieren, dass µ und σ 2 der Erwartungswert resp. die Varianz der Normalverteilung sind. Für eine Zufallsvariable X mit der Dichte (12.14) sagt man, dass X mit den Parametern µ und σ 2 normalverteilt sei. Hierfür wird oft die Kurznotation X ∼ N (µ; σ2 ) verwendet (lies:X ist normalverteilt mit Erwartungswert mü und Varianz sigma-Quadrat). 1
Diese Bedingung ist bei der im Folgenden behandelten Normalverteilung erfüllt, nicht aber bei der in Abbildung 12.1 veranschaulichten Rechteckverteilung. Wenn keine strenge Monotonie gegeben ist, benötigt man eine Zusatzbedingung, um die Quantile eindeutig bestimmen zu können. Man kann das p-Quantil xp z. B. wie bei den diskreten Verteilungen so wählen, dass F (xp ) ≥ p gilt und gleichzeitig F (x) < p für x < xp . 2 Die Schreibweise exp x bedeutet nichts anderes als ex . Sie wird gerne verwendet, wenn im Exponenten Brüche stehen, weil die Brüche dann nicht hochgestellt erscheinen und damit besser lesbar sind.
12.3 Normalverteilung und Standardnormalverteilung
155
Die Verteilungsfunktion der Normalverteilung, die wegen (12.14) gegeben ist durch 1 F (x) = √ σ 2π
x
(t − µ)2 exp − dt, 2σ 2 −∞
Z
(12.15)
ist nicht in geschlossener Form darstellbar. Ihre Werte lassen sich aber unter Verwendung von Näherungsverfahren ermitteln. Dichte- und Verteilungsfunktion der Normalverteilung sind nach (12.3) über die Beziehung F 0 (x) = f (x) verbunden.
Abb. 12.2: Dichte- und Verteilungsfunktion der Normalverteilungen N (0; 1) und N (1; 2, 25)
Abbildung 12.2 zeigt Dichte- und Verteilungsfunktion zweier Normalverteilungen. Im oberen Teil der Abbildung ist die Normalverteilung mit µ = 0 und σ 2 = 1 dargestellt, darunter die mit µ = 1 und σ 2 = 2, 25, also σ = 1, 5. In beiden Fällen ist auch der Erwartungswert µ = E(X) eingezeichnet. Man erkennt sofort die Symmetrie der Dichten bezüglich x = µ. Mit Vergrößerung der Varianz σ 2 bzw. der Standardabweichung σ verlaufen Dichte- und Verteilungsfunktion flacher. Man kann mit den Mitteln der Differentialrechnung zeigen, dass die Dichtefunktion der Normalverteilung in x = µ − σ und x = µ + σ Wendepunkte hat.
Java-Applet „Normalverteilung“
156
12 Stetige Zufallsvariablen
Unterzieht man eine normalverteilte Zufallsvariable X mit Erwartungswert µ einer Lineartransformation Y = aX + b, so gilt nicht nur (11.11) und (11.12), sondern darüber hinaus auch, dass die transformierte Variable Y wieder normalverteilt ist: X ∼ N (µ; σ 2 ), Y = aX + b −→ Y ∼ N (aµ + b; a2 σ 2 ). Lineartransformationen bei normalverteilten Zufallsvariablen
(12.16)
Für den Erwartungswert und die Varianz der Summe zweier unabhängiger normalverteilter Zufallsvariablen X und Y gilt ferner analog zu (11.13) und (11.14)3 2 X ∼ N (µX ; σX ); Y ∼ N (µY ; σY2 ), Xund Y
2 unabh. → X + Y ∼ N (µX + µY ; σX + σY2 ). (12.17)
Die Aussage (12.17) lässt sich auch auf Summen von n unabhängigen Zufallsvariablen (n ≥ 2) übertragen. Standardisierung der Normalverteilung
Da die Gestalt der Dichte- und Verteilungsfunktion der Normalverteilung von zwei Parametern abhängt, nämlich vom Erwartungswert µ und der Varianz σ 2 , ist es zweckmäßig, alle Normalverteilungen auf eine einzige Normalverteilung zurückzuführen. Gemeint ist die auch als Standardnormalverteilung bezeichnete Normalverteilung mit µ = 0 und σ2 = 1, die im oberen Teil von Abbildung 12.2 wiedergegeben ist. Hat man eine beliebig normalverteilte Zufallsvariable X ∼ N (µ; σ2 ), so kann man diese stets der speziellen Lineartransformation Z := X−µ aus (12.11) unterziehen. Für σ die resultierende Zufallsvariable Z gilt Z ∼ N (0, 1) (lies: Z ist normalverteilt mit Erwartungswert 0 und Varianz 1 oder Z ist standardnormalverteilt): X ∼ N (µ; σ 2 )
Java-Applet „Standardnormalverteilung“
Transformation von X in Z=(X−µ)/σ
/
Z ∼ N (0, 1)
Die Dichtefunktion der Standardnormalverteilung geht aus (12.14) nach Einsetzen von µ = 0 und σ 2 = 1 hervor. Da sie häufig verwendet wird, hat sich für sie anstelle von f (..) eine spezielle Notation eingebürgert, nämlich φ(..) (lies: Klein-Phi): 2 1 z φ(z) = √ exp − . (12.18) 2 2π Für die Verteilungsfunktion der Standardnormalverteilung hat sich die Bezeichnung Φ(..) (lies: Groß-Phi) etabliert. Sie ist durch 2 Z z 1 t Φ(z) = √ exp − dt (12.19) 2 2π −∞ erklärt und wie (12.15) nicht in geschlossener Form darstellbar. Ihre Werte lassen sich anhand numerischer Verfahren bestimmen. Aus der zweiten Teilgrafik der Abbildung 12.2 erkennt man, dass für Φ(z) die nachstehende Symmetriebeziehung gilt: Φ(−z) = 1 − Φ(z). 3
(12.20)
Der Begriff der „Unabhängigkeit“ von zwei oder mehreren Zufallsvariablen wird in Abschnitt 13.1 noch formalisiert. Eine Herleitung und Verallgemeinerung von (12.16) findet man z. B. bei Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 6.3.1).
12.3 Normalverteilung und Standardnormalverteilung
157
In Tabelle 19.2 des Anhangs sind Werte der Verteilungsfunktion Φ(z) für den Bereich 0 ≤ z < 4 tabelliert. Für negative Werte von z lassen sich die Werte der Verteilungsfunktion mit (12.20) bestimmen. Mit den Werten Φ(z) aus Tabelle 19.2 kann man Werte F (x) der Verteilungsfunktion jeder beliebigen Normalverteilung bestimmen. Gilt nämlich X ∼ N (µ; σ 2 ) und damit Z ∼ N (0; 1), so besteht zwischen den Verteilungsfunktionen F (x) von X und Φ(z) von Z = X−µ die Beziehung σ F (x) = P (X ≤ x) = P
X −µ x−µ ≤ σ σ
=Φ
x−µ . σ
Man leitet hieraus die folgenden Darstellungen ab: a−µ P (X ≤ a) = Φ σ
(12.21)
P (X > a) = 1 − P (X ≤ a) = 1 − Φ
b−µ P (a ≤ X ≤ b) = Φ σ
a−µ σ
a−µ −Φ . σ
(12.22)
(12.23)
Wegen Φ0 (z) = φ(z) ist der Wert Φ(z) an der Stelle z = a auch interpretierbar als Inhalt der Fläche unter der Dichtekurve bis zum Punkt z = a. Abbildung 12.3 illustriert dies für z = 1, 65. Die im oberen Teil von Abbildung 12.3 nicht markierte Restfläche unter der Dichte entspricht dem Wert P (Z > 1, 65) = 1 − Φ(1, 65).
Abb. 12.3: Interpretation von Werten der Verteilungsfunktion Φ(z) am Beispiel z = 1, 65
158
12 Stetige Zufallsvariablen
Das p-Quantil der Normalverteilung ist nach (11.17) der eindeutig bestimmte Wert xp , an dem die Verteilungsfunktion F (x) den Wert p erreicht. Insbesondere sind also die p-Quantile der Standardnormalverteilung durch Φ(zp ) = p Quantile der Standardnormalverteilung
(12.24)
definiert. Der in Abbildung 12.3 auf der z-Achse betonte Punkt z = 1, 65 ist demnach das 0, 9505-Quantil der Standardnormalverteilung. Da die Dichte der Standardnormalverteilung symmetrisch zum Nullpunkt ist, gilt dies auch für zp und z1−p , d. h. es gilt zp = −z1−p .
(12.25)
Abbildung 12.4 veranschaulicht diese Symmetrieeigenschaft der Quantile der Standardnormalverteilung für p = α2 resp. p = 1 − α2 mit α = 0, 05. Wegen (12.25) durfte in der Grafik zα/2 durch −z1−α/2 ersetzt werden.
Abb. 12.4: Symmetrie der Quantile von Normal- und Standardnormalverteilung bezüglich des Erwartungswerts (hier: α = 0, 05)
Die Beziehung (12.11) gilt analog auch für die Quantile zp und xp von Standardnormalverteilung resp. Normalverteilung. Ist also X ∼ N (µ; σ 2 ), so sind die Quantile xp dieser Verteilung mit denen der Standardnormalverteilung über die Gleichung zp =
xp − µ σ
(12.26)
verbunden, d. h. es ist xp = µ + zp · σ. Auch dies ist in Abbildung 12.4 veranschaulicht. Man entnimmt der Grafik erneut, dass die Standardisierung einer normalverteilten Zufallsvariablen X nichts anderes beinhaltet als eine Reskalierung der x-Achse.
12.3 Normalverteilung und Standardnormalverteilung
159
Beispiel 12.2 Berechnung von Wahrscheinlichkeiten und Quantilen Es sei beispielhaft eine normalverteilte, aber nicht-standardnormalverteilte Zufallsvariable X betrachtet, etwa eine N (µ; σ2 )-verteilte Zufallsvariable mit µ = 1 und σ 2 = 2, 25. Für diese leitet man mit (12.21) und Tabelle 19.2 folgende Aussagen her: −0, 5 − 1 P (X ≤ −0, 5) = Φ = Φ(−1) = 1 − Φ(1) = 1 − 0, 8413 = 0, 1587; 1, 5 4−1 P (X ≤ 4) = Φ = Φ(2) = 0, 9772; P (−0, 5 ≤ X ≤ 4) = Φ(2) − Φ(−1) = 0, 8185. 1, 5 Der Wert 0, 1587 entspricht in der oberen Hälfte von Abbildung 12.2 der Fläche unter der Dichte der Standardnormalverteilung bis zum Punkt −1 und im unteren Teil der Abbildung der Fläche unter der Dichte der N (1; 2, 25)-Verteilung bis zum Punkt −0, 5. Analog ist der Wert 0, 9772 zu interpretieren. Aufgabe 12.2-3
Will man für die N (1; 2, 25)-verteilte Variable X die Quantile xp mit x0,975 und x0,025 berechnen, bestimmt man zunächst z0,975 und z0,025 unter Verwendung von Tabelle 19.3 und (12.25). Man erhält z0,975 = 1, 96 und z0,025 = −1, 96. Daraus folgt dann mit (12.26) resp. mit xp = µ + σ · zp für die gesuchten Quantile x0,975 = 1 + 1, 96 · 1, 5 = 3, 94,
x0,025 = 1 − 1, 96 · 1, 5 = −1, 94.
Die Wahrscheinlichkeit dafür, dass X im Intervall [x0,025 ; x0,975 ] = [−1, 94; 3, 94] liegt, ist 0, 95. Dieser Wert ist mit der Wahrscheinlichkeit identisch, dass Z Werte innerhalb des Intervalls [z0,025 ; z0,975 ] = [−1, 96; 1, 96] annimmt (vgl. erneut Abbildung 12.4). Einige Quantile der Standardnormalverteilung spielen beim Testen von Hypothesen eine wichtige Rolle. Es sind dies vor allem p-Quantile mit relativ kleinem oder relativ großem p, z. B. p = 0, 01 oder p = 0, 99. Diese häufig verwendeten Quantile sind in Tabelle 19.3 zusammengefasst. Wegen (12.25) beschränkt sich Tabelle 19.3 auf die Wiedergabe von p-Quantilen mit p > 0, 5.
160
12 Stetige Zufallsvariablen
Beispiel 12.3 Intelligenzmessung In der Psychologie misst man Intelligenz anhand von psychologischen Tests. Diese basieren auf einer möglichst repräsentativen Bevölkerungsstichprobe, die nach bestimmten Kriterien (Alter, Geschlecht) in Teilstichproben aufgegliedert wird. Ein individuelles Testergebnis kann dann zum durchschnittlichen Wert der jeweiligen Alters- und Geschlechtsgruppe in Beziehung gesetzt werden. Die Teilstichproben stellen sozusagen unterschiedliche Grundgesamtheiten dar. Für die einzelnen Aufgaben eines Intelligenztests werden Punkte vergeben und aufsummiert. Für jede Person resultiert so ein Punktrohwert oder Summenscore x, der sich als Ausprägung einer diskreten Zufallsvariablen X interpretieren lässt. Da sich die Verteilung von X i. a. gut durch eine Normalverteilung approximieren lässt und diese besonders einfach handhabbar ist, wird die Normalverteilung als Modell für die Verteilung der Zufallsvariablen „Summenscore X“ herangezogen. Die Verteilungsparameter µ und σ 2 der Normalverteilung hängen von der betrachteten Grundgesamtheit ab. Man könnte nun die Summenscores standardisieren und mit der Standardnormalverteilung arbeiten. Aus historischen Gründen geht man aber in der Praxis nicht zur Standardnormalverteilung über, sondern zu anderen Normalverteilungen, meist zur Normalverteilung mit Erwartungswert µ = 100 und Standardabweichung σ = 15. Man transformiert also X in eine N (100, 152 )-verteilte Variable Y . Diese Transformation kann man sich anhand von Abbildung 12.4 verdeutlichen, wenn man dort unter die z-Achse noch eine y-Achse einzeichnet, die an der Stelle z = 0 den Wert y = 100 und für z = −1 bzw. z = 1 die Werte y = 85 resp. y = 115 annimmt. Formal lässt sich der Übergang vom Summenscore X zur transformierten Zufallsvariablen Y in zwei Schritte zerlegen. Im ersten Schritt wird X gemäß (12.11) in Z überführt, im zweiten Schritt wird Z noch in Y = 100 + 15 · Z transformiert. Die Realisationen von Y ergeben sich also aus den ursprünglichen individuellen Rohwerten x nach x−µ y = 100 + 15 · z = 100 + 15 · . σ Der errechnete y-Wert, also die individuelle Ausprägung der latenten Variablen „Intelligenz“, wird als Intelligenzquotient (kurz IQ) bezeichnet. Die Wahrscheinlichkeit dafür, dass eine zufällig aus der betrachteten Population ausgewählte Person einen IQ-Wert zwischen 85 und 115 hat, errechnet sich z. B. mit Tabelle 19.2 und Beachtung von Φ(−1) = 1 − Φ(1) nach P (85 ≤ Y ≤ 115) = P (−1 ≤ Z ≤ 1) = Φ(1) − Φ(−1) = 2 · Φ(1) − 1 ≈ 0, 683, also als 68, 3 %. Quantile, mit 100 multipliziert, werden in der Psychologie auch als Prozentränge angesprochen. Der 99, 5-Prozentrang der bei der Intelligenzmessung verwendeten Normalverteilung bezeichnet also z. B. denjenigen IQ-Wert y = y0,995 , der von nicht mehr als 0, 5 % der betrachteten Grundgesamtheit überschritten wird. Man erhält mit Tabelle 19.3 den Wert y0,995 = 100 + 15 · z0,995 ≈ 100 + 15 · 2, 5758 ≈ 138, 64.
12.4 χ2 -, t- und F -Verteilung
161
12.4 χ2 -, t- und F -Verteilung Aus der Normalverteilung lassen sich einige Verteilungen ableiten, die im Zusammenhang mit der Schätzung von Modellparametern und dem Testen von Hypothesen benötigt werden. Es sind dies vor allem die χ2 -Verteilung, die t-Verteilung und die F -Verteilung. Erstere wird u. a. zum Testen von Hypothesen über die Varianz einer Normalverteilung verwendet. Die t-Verteilung findet u. a. Verwendung beim Testen von Hypothesen zum Erwartungswert einer normalverteilten Zufallsvariablen, deren Varianz nicht bekannt ist. Die F -Verteilung spielt u. a. bei der Varianzanalyse eine zentrale Rolle als Teststatistik. Geht man von n unabhängigen standardnormalverteilten Variablen Z1 , Z2 , . . . , Zn aus und bildet die Summe X :=
Z12
+
Z22
+ ... +
Zn2
=
n X
Zi2
Charakterisierung der χ2 -Verteilung
(12.27)
i=1
der quadrierten Variablen, so sagt man, dass die Verteilung der resultierenden Variablen X einer χ2 -Verteilung mit n Freiheitsgraden folgt und verwendet die Kurznotation X ∼ χ2n (lies: X ist χ2 -verteilt mit n Freiheitsgraden). Aus (12.9) und (12.10) und der Dichtefunktion der Verteilung lassen sich für den Erwartungswert und die Varianz einer χ2n -verteilten Variablen X die nachstehenden Gleichungen ableiten: E(X) = n,
V (X) = 2n.
Die Dichtefunktion der χ2 -Verteilung ist in Abbildung 12.5 für zwei ausgewählte Freiheitsgrade n grafisch dargestellt. Die Funktionsdarstellungen für Dichte- und Verteilungsfunktion werden im Folgenden nicht benötigt. Die wiedergegebenen Dichtekurven fallen – ähnlich wie die empirischen Verteilungen aus Abbildung 4.5 – jeweils an der linken Flanke steiler ab. Man spricht daher von einer linkssteilen (theoretischen) Verteilung. Bei einer rechtssteilen Verteilung würde die rechte Flanke steiler abfallen. In beiden Fällen spricht man von einer asymmetrischen Verteilung. Man sieht, dass die Gestalt der Dichtefunktion f (x) und damit auch der Verteilungsfunktion F (x) einer χ2 -Verteilung von der Anzahl n der Freiheitsgrade abhängt. Gleiches gilt somit für die durch (11.19) erklärten Quantile , die mit χ2n;p abgekürzt werden (lies: p-Quantil der χ2 -Verteilung mit n Freiheitsgraden). In Tabelle 19.4 sind Quantile χ2n;p für n = 1 bis n = 40 und ausgewählte Werte p zusammengestellt. Man entnimmt der Tabelle z. B., dass das 0, 95-Quantil der χ2 Verteilung mit n = 10 Freiheitsgraden den Wert χ210;0,95 = 18, 307 besitzt. Aus der Standardnormalverteilung und der χ2 -Verteilung leitet sich die t-Verteilung ab, die gelegentlich auch Student-Verteilung genannt wird.4 Sind X und Z unabhän4
Die t-Verteilung wurde erstmals von William S. Gosset (1876 - 1937) beschrieben. Dabei verwendete er anstelle seines Namens das Pseudonym Student. Hieraus erklärt sich die Bezeichnung „StudentVerteilung“. Eine Formalisierung des Begriffs „Unabhängigkeit von Zufallsvariablen“ erfolgt in Abschnitt 13.1.
Charakterisierung der t-Verteilung
162
12 Stetige Zufallsvariablen
Abb. 12.5: Dichtefunktion der χ2 -Verteilungen mit n = 4 und n = 8 Freiheitsgraden
gige Zufallsvariablen mit X ∼ χ2n und Z ∼ N (0; 1), dann folgt die Zufallsvariable Z T := q
(12.28)
X n
einer t-Verteilung mit n Freiheitsgraden und man schreibt T ∼ tn (lies: T ist t -verteilt mit n Freiheitsgraden). Für den Erwartungswert und die Varianz einer tn -verteilten Variablen T lässt sich zeigen, dass E(T ) = 0,
V (T ) =
n n−2
für n ≥ 3.
Die Funktionsdarstellungen für Dichte- und Verteilungsfunktion werden wie bei der χ2 -Verteilung nicht weiter benötigt. Die Dichte der t-Verteilung ist wie die der Standardnormalverteilung symmetrisch zum Nullpunkt. Für die Quantile gilt daher analog zu (12.25) die Symmetriebeziehung tn;p = −tn;1−p .
(12.29)
In Abbildung 12.6 ist die Dichtefunktion der t-Verteilung für zwei ausgewählte Freiheitsgrade n visualisiert. Eingezeichnet sind für beide t-Verteilungen auch die p-Quantile
12.4 χ2 -, t- und F -Verteilung
163
tn;p und tn;1−p , die sich für p = α2 resp. p = 1 − α2 mit α = 0, 05 ergeben. Die Symmetriebeziehung (12.29) rechtfertigt es, in Abbildung 12.6 anstelle des Quantils tn;α/2 das Quantil −tn;1−α/2 einzusetzen. Die Grafik weist jeweils zum Vergleich die Dichte der Standardnormalverteilung aus sowie die entsprechenden Quantile.
Java-Applet „t-Verteilung und Standardnormalverteilung mit Quantilen“
Abb. 12.6: Dichtefunktion der t-Verteilungen mit n = 4 und n = 15 Freiheitsgraden
Man erkennt an den beiden Teilgrafiken, dass die Gestalt der Dichte der t-Verteilung der der Standardnormalverteilung sehr ähnelt. Die Dichtekurve der t-Verteilung verläuft im Bereich des Erwartungswerts µ = 0 etwas flacher und ist an den Flanken etwas breiter. Dies impliziert, dass die p-Quantile der t-Verteilung bei kleinem oder großem p, z. B. für p = 0, 01 oder p = 0, 99, im Vergleich zur Dichte der Standardnormalverteilung etwas weiter vom Nullpunkt entfernt liegen. Mit zunehmender Anzahl n der Freiheitsgrade nähert sich aber die Dichte der t-Verteilung der der Standardnormalverteilung an. Für große n kann man daher die mit tn;p (lies: p-Quantil der t-Verteilung mit n Freiheitsgraden) abgekürzten und durch (11.19) erklärten Quantile der t-Verteilung durch die Quantile zp der Standardnormalverteilung approximieren. Tabelle 12.1 illustriert dies für einige Werte n und p. Der Vergleich der Werte t30;p und t40;p mit Werten zp in den letzten Spalten der Tabelle zeigt, dass die Approximation von tn;p durch zp ab n = 30 schon recht gut ist. Die Quantile tn;p im mittleren Teil von Tabelle 12.1 und viele weitere Quantile der t-Verteilung sind in Tabelle 19.5 des Anhangs zu finden.
Aufgabe 12.4
164
12 Stetige Zufallsvariablen
p 0,95 0,975 0,99
t4;p t15;p t30;p t40;p 2,132 1,753 1,697 1,684 2,776 2,131 2,042 2,021 3,747 2,602 2,457 2,4233
zp 1,6449 1,9600 2,3263
Tab. 12.1: Vergleich von Quantilen der t-Verteilung und der Standardnormalverteilung Charakterisierung der F -Verteilung
Eine Verteilung, die sich aus der χ2 -Verteilung ableitet und deren Quantile häufig beim Testen von Hypothesen in der Regressions- und Varianzanalyse benötigt werden (Vergleich von Streuungsanteilen), ist die F-Verteilung. Sind X1 und X2 zwei unabhängige Zufallsvariablen mit X1 ∼ χ2m und X2 ∼ χ2n , so folgt die Zufallsvariable Y :=
X1 /m X2 /n
(12.30)
einer F -Verteilung mit m und n Freiheitsgraden und man schreibt Y ∼ Fm;n (lies: Y ist F -verteilt mit m und n Freiheitsgraden). Es sei auf die Wiedergabe von Formeldarstellungen für die Dichtefunktion und auch von Erwartungswert und Varianz der F-Verteilung verzichtet und auf Zucchini / Schlegel / Nenadic / Sperlich (2009, Abschnitt 6.4.2) und Bamberg / Baur / Krapp (2009, Abschnitt 11.2.3) verwiesen. Für diese Einführung soll es genügen, beispielhaft die Dichtekurven zweier Fm;n -verteilter Zufallvariablen zu zeigen und dabei auch für ausgewählte Werte p die mit Fm;n;p bezeichneten p-Quantile dieser F -Verteilungen zu visualisieren.
Abb. 12.7: Dichtefunktion zweier F -Verteilungen mit ausgewählten Quantilen
Abbildung 12.7 veranschaulicht in Teil a die Dichtefunktion der F -Verteilung mit m = 10 und n = 15 Freiheitsgraden sowie das zugehörige 0, 95-Quantil F10;15;0,95 . Teil b der Grafik bezieht sich auf die Dichtefunktion der F -Verteilung mit m = 5 und n = 30 Freiheitsgraden und das 0, 99-Quantil F5;30;0,99 dieser Verteilung. Die Quantile bezeichnen jeweils die Positionen auf der Abszissenachse, bei der die markierten Flächen unter
12.4 χ2 -, t- und F -Verteilung
165
den Dichten beginnen. Die Inhalte der markierten Flächen betragen 0, 05 im Falle des 0, 95-Quantils resp. 0, 01 beim 0, 99-Quantil. Die beiden in Abbildung 12.7 beispielhaft dargestellten Quantile sind auch der Tabelle 19.6 zu entnehmen. Die Tabelle weist Quantile Fm;n;0,95 und Fm;n;0,99 für Freiheitsgrade m und n im Bereich von 1 bis 100 aus. Ist Y ∼ Fm;n , so folgt der Kehrwert W := Y1 einer F -Verteilung mit n und m Freiheitsgraden, also W ∼ Fn;m . Für die mit Fm;n;p bezeichneten p-Quantile einer Fm;n -verteilten Zufallsvariablen Y leitet sich hieraus die Beziehung Fm;n;p =
1 Fn;m;1−p
(12.31)
ab. Bei der Tabellierung von Quantilen der F -Verteilung kann man sich daher auf Quantile Fm;n;p mit m ≤ n beschränken.
13 Bivariate Verteilungen von Zufallsvariablen 13.1 Unabhängigkeit von Zufallsvariablen In Abschnitt 10.4 wurde der Begriff der Unabhängigkeit von Ereignissen erklärt. Zwei Ereignisse A und B gelten als unabhängig, wenn das Eintreten eines Ereignisses keinen Einfluss auf das jeweils andere Ereignis hat. Formal lässt sich Unabhängigkeit gemäß (10.16) definieren. Danach sind A und B unabhängig, wenn die Wahrscheinlichkeit P (A ∩ B) für das gleichzeitige Eintreten von A und B als Produkt der Eintrittswahrscheinlichkeiten P (A) und P (B) der Einzelereignisse darstellbar ist. Zufallsvariablen nehmen Werte an, die sich als Ergebnisse von Zufallsvorgängen interpretieren lassen. Wenn eine diskrete Zufallsvariable eine bestimmte Ausprägung oder eine stetige Zufallsvariable eine Realisation innerhalb eines bestimmten Intervalls annimmt, sind auch dies Ereignisse mit bestimmten Eintrittswahrscheinlichkeiten. Der Unabhängigkeitsbegriff für Ereignisse lässt sich daher direkt auf Zufallsvariablen übertragen. Eine Zufallsvariable X, gleich ob diskret oder stetig, lässt sich durch die Verteilungsfunktion F (x) = P (X ≤ x) aus (11.2) beschreiben. Hat man zwei beliebige Zufallsvariablen X und Y , so lässt sich die gemeinsame Verteilung beider Variablen analog durch deren gemeinsame Verteilungsfunktion F (x; y) := P (X ≤ x; Y ≤ y)
(13.1)
charakterisieren. Sind FX (x) = P (X ≤ x) und FY (y) = P (Y ≤ y) die Verteilungsfunktion von X und Y , so nennt man X und Y unabhängig oder auch stochastisch unabhängig, wenn sich deren gemeinsame Verteilungsfunktion F (x; y) analog zu (10.16) für alle Elemente der Trägermengen von X und Y als Produkt F (x; y) = FX (X ≤ x) · FY (Y ≤ y)
(13.2)
der Verteilungsfunktion FX (x) und FY (y) der Einzelvariablen darstellen lässt. Die Unabhängigkeitsbedingung gilt entsprechend auch für mehr als zwei Zufallsvariablen. Beispiel 13.1 Unabhängige und abhängige Zufallsvariablen Wenn man einen Würfel n-mal wirft, so kann man jeden Wurf durch eine Zufallsvariable Xi modellieren (i = 1, 2, ..., n), wobei diese Variablen bei Verwendung eines „fairen“ Würfels diskret gleichverteilt sind mit gleichen Eintrittswahrscheinlichkeiten p = 16 . Die Zufallsvariablen Xi sind hier unabhängig. Das n-malige Würfeln mit einem Würfel entspricht in der Terminologie des Urnenmodells einer Ziehung von n Kugeln aus einer Urne mit 6 nummerierten Kugeln, wobei die Ziehung mit Zurücklegen erfolgt.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_13, © Springer-Verlag Berlin Heidelberg 2011
167
Gemeinsame Verteilung zweier Zufallsvariablen
168
13 Bivariate Verteilungen von Zufallsvariablen
Wirft man z. B. zweimal und verwendet die Bezeichnungen X und Y anstelle von X1 und X2 , so ist die Wahrscheinlichkeit F (2; 3) dafür, dass der erste Wurf eine Augenzahl X bis höchstens 2 und der zweite Wurf eine Augenzahl Y bis höchstens 3 erzielt, durch das Produkt aus FX (2) = P (X ≤ 2) = 13 und FY (3) = P (Y ≤ 3) = 12 gegeben, also durch den Wert 16 . Dieses Ergebnis erhält man auch anhand kombinatorischer Überlegungen – von den 36 möglichen Augenzahl-Paaren genügen genau 6 Paare gleichzeitig den genannten Obergrenzen für die Augenzahlen X und Y . Zieht man aus einer Urne mit nummerierten Kugeln n-mal ohne Zurücklegen und modelliert man die einzelnen Ziehungen wieder anhand von Zufallsvariablen Xi , so sind diese Zufallsvariablen nicht mehr stochastisch unabhängig. Die Ziehung der Lottozahlen wurde schon in Abschnitt 11.4 als Beispiel für ein solches Experiment genannt.
Exkurs 13.1
Wahrscheinlichkeits- und Dichtefunktion im biviariaten Fall
Neben der Verteilungsfunktion F (x; y) lässt sich zur Charakterisierung der gemeinsamen Verteilung zweier Zufallsvariablen X und Y auch – wie bei univariaten theoretischen Verteilungen – die Wahrscheinlichkeitsfunktion (diskreter Fall) resp. die Dichtefunktion (stetiger Fall) heranziehen. Hat man zwei diskrete Zufallsvariablen X und Y mit der Trägermenge x1 , . . . , xk resp. y1 , . . . , yl und bezeichnet pij := P (X = xi ; Y = yj ) die Eintrittswahrscheinlichkeit für die Realisation (xi ; yj ), so lautet das bivariate Analogon zur Wahrscheinlichkeitsfunktion (11.1) ( f (x; y) =
pij 0
für (x; y) = (xi ; yj ); i = 1, 2, . . . , k; j = 1, 2, . . . , l; für alle sonstigen (x; y).
Diese bivariate Wahrscheinlichkeitsfunktion heißt gemeinsame Wahrscheinlichkeitsfunktion von X und Y . Deren Werte lassen sich in Kontingenztafeln für Wahrscheinlichkeiten darstellen und aus diesen kann man – genau wie bei den bivariaten empirischen Verteilungen – Randverteilungen und bedingte Wahrscheinlichkeiten ableiten. Liegen hingegen zwei stetige Zufallsvariablen X und Y vor, so lässt sich die gemeinsame Verteilung beider Variablen durch die Dichtefunktion f (x; y) charakterisieren. Deren Werte sind stets nicht-negativ. Die Dichtefunktion f (x; y) ist analog zu (12.2) dadurch definiert, dass sie die Eigenschaft hat, dass sich jeder Wert F (x; y) der Verteilungsfunktion aus (13.1) durch Integration der Dichte bis zur Stelle (x; y) ergibt: Z
x
Z
y
F (x; y) =
f (s; t)dsdt −∞
für alle reellwertigen Paare (x; y).
−∞
Auch bei bivariaten stetigen Verteilungen kann man Randverteilungen einer Variablen betrachten, die sich bei Vernachlässigung der jeweils anderen Variablen ergeben, und bedingte Dichtefunktionen bestimmen. Randdichten sind die Dichten der Einzelvariablen und bedingte Dichten resultieren – analog zu (8.7) oder (8.8) bei bivariaten empirischen Verteilungen – nach Division der gemeinsamen Dichtefunktion f (x; y) durch eine der beiden Randdichten.
13.1 Unabhängigkeit von Zufallsvariablen
169
Eine detailliertere Darstellung dieser hier nur angerissenen Begriffe findet man z. B. bei Fahrmeir / Künstler / Pigeot / Tutz oder Toutenburg / Heumann (2008, Abschnitt 3.7).
3 Der Begriff der Unabhängigkeit spielt eine zentrale Rolle beim Schätzen von Modellparametern und auch beim Testen von Hypothesen. Zieht man aus einer Grundgesamtheit eine n-elementige Stichprobe, so wird diese in der schließenden Statistik durch Zufallsvariablen X1 , X2 , ..., Xn modelliert, für die man dann im konkreten Fall Realisationen x1 , x2 , ..., xn beobachtet und verwertet. Die Zufallsvariablen X1 , X2 , ..., Xn werden meist nicht direkt herangezogen, sondern anhand einer Stichprobenfunktion aggregiert: Verdichtung der Stichprobeninformation
X1 , X2 , ..., Xn
/
Wichtige Stichprobenfunktionen
g(X1 , X2 , .., Xn )
Wenn eine Stichprobenfunktion im Kontext der Schätzung verwendet wird, spricht man sie auch als Schätzfunktion an, beim Testen als Test- oder Prüfstatistik. Eine besonders wichtige Stichprobenfunktion ist der Stichprobenmittelwert n
X :=
1 1 X · (X1 + X2 + . . . + Xn ) = · Xi , n n i=1
(13.3)
der auf der Datenebene seine Entsprechung in (5.2) findet. Eine weitere Stichprobenfunktion, die beim Schätzen und Testen oft gebraucht wird, ist die Stichprobenvarianz
S 2 :=
n 1 X · (Xi − X)2 n i=1
(13.4)
bzw. die korrigierte Stichprobenvarianz S
∗2
n X 1 n := · (Xi − X)2 = · S 2, n − 1 i=1 n−1
(13.5)
die in (5.7) und (5.9) ihre empirische Entsprechung haben.1 Etwas komplexere Stichprobenfunktionen, bei denen noch spezielle Verteilungsannahmen ins Spiel kommen und zur Definition von χ2 -, t- und F -Verteilung führen, wurden bereits in Abschnitt 12.4 in (12.27), (12.28) resp. (12.30) vorgestellt. Wenn die Stichprobenvariablen X1 , X2 , ..., Xn alle unabhängig N (µ; σ 2 )-verteilt sind, so kann man auch für die Stichprobenfunktionen (13.3) und (13.5) Verteilungsaussagen ableiten, die u. a. beim Testen von Hypothesen eine wichtige Rolle spielen. Überträgt man (12.17) auf die Summation von n normalverteilten Zufallsvariablen (n ≥ 2) mit gleichem Erwartungswert µ und gleicher Varianz σ 2 , so folgt zunächst für die Summe der n Stichprobenvariablen, dass ihr Erwartungswert durch n·µ und ihre Varianz durch n·σ 2 gegeben ist. Für den Stichprobenmittelwert X verifiziert man dann mit (12.16), wenn 1
Beim Schätzen und Testen wird vor allem die korrigierte Stichprobenvarianz (13.5) gebraucht, die günstigere Schätzeigenschaften hat. Die Bezeichnungen sind in der Literatur nicht einheitlich; in vielen Lehrbüchern wird (13.5) Stichprobenvarianz genannt und (13.4) gar nicht verwendet.
Verteilung des Stichprobenmittelwerts
170
13 Bivariate Verteilungen von Zufallsvariablen
man dort speziell a = n1 und b = 0 einsetzt, dass er normalverteilt ist mit Erwartungswert 2 2 E(X) = µ und Varianz V (X) = σX = σn , also 2 2 X ∼ N (µ; σX )
mit
2 σX =
σ2 . n
(13.6)
Wenn man den Stichprobenmittelwert gemäß (12.11) standardisiert, folgt X −µ X −µ √ = · n ∼ N (0; 1). σX σ
(13.7)
Für die aus n unabhängigen N (µ; σ 2 )-verteilten Stichprobenvariablen Xi gebildete Stichprobenvarianz lässt sich eine Beziehung zur χ2 -Verteilung ableiten. Auch die Variablen Xi kann man zunächst gemäß (12.11) standardisieren. Für die Summe der Quadrate der resultierenden standardnormalverteilten Variablen Zi gilt (vgl. (12.27)), dass sie χ2 verteilt ist mit n Freiheitsgraden: n X i=1
Verteilung der Stichprobenvarianz
Zi2
=
2 n X Xi − µ i=1
σ
∼ χ2n .
(13.8)
Hieraus kann man mit einigen Überlegungen ableiten, dass die mit dem Faktor σn2 multiplizierte Stichprobenvarianz S 2 bzw. – äquivalent – die mit n−1 multiplizierte korσ2 ∗2 2 rigierte Stichprobenvarianz S einer χ -Verteilung mit n − 1 Freiheitsgraden folgt: 2 n n · S2 (n − 1) · S ∗2 X Xi − X = = ∼ χ2n−1 . 2 2 σ σ σ i=1
(13.9)
Ferner lässt sich mit (13.9) zeigen, dass eine Ersetzung von σ in (13.7) durch die als Schätzung für σ verwendete korrigierte Stichprobenstandardabweichung S ∗ := √ S ∗2 zu einer t-Verteilung mit n − 1 Freiheitsgraden führt: X −µ √ X −µ √ · n−1= · n ∼ tn−1 . S S∗
(13.10)
Auf einen Beweis der beiden letzten Verteilungsaussagen, die beide auf der Voraussetzung unabhängiger und normalverteilter Stichprobenvariablen beruhen und beim Schätzen und Testen vielfach gebraucht werden, sei hier verzichtet. Man findet eine Herleitung von (13.10) z. B. bei Mosler / Schmid (2011, Abschnitt 4.3.2).
2
Die Formeln für den Erwartungswert und die Varianz von X sind nicht an die Normalverteilungsannahme gebunden, wie in Abschnitt 14.2 noch gezeigt wird.
13.2 Kovarianz und Korrelation
Exkurs 13.2
171
Der Zentrale Grenzwertsatz
Aussage (13.6) bezieht sich auf die Verteilung eines Stichprobenmittelwerts X, der aus n unabhängigen, mit gleichem Erwartungswert µ und gleicher Varianz σ 2 normalverteilten Zufallsvariablen X1 , X2 , ..., Xn gebildet ist, während (13.7) eine Verteilungsaussage für den aus X abgeleiteten standardisierten Stichprobenmittelwert liefert. Ein direkt an diese Aussagen anknüpfender bedeutender Satz der Wahrscheinlichkeitsrechnung ist der Zentrale Grenzwertsatz. Er beinhaltet, dass die beiden genannten Aussagen für große Werte von n immerhin noch näherungsweise gültig bleiben, wenn die Variablen X1 , X2 , ..., Xn zwar unabhängig sind und bezüglich Erwartungswert und Varianz übereinstimmen, aber nicht mehr normalverteilt sind. Seien also X1 , X2 , ..., Xn unabhängige Zufallsvariablen mit gleichem Erwartungswert µ P und gleicher Varianz σ 2 . Die Summe Yn := ni=1 Xi der n Zufallsvariablen hat dann den Erwartungswert n·µ und die Varianz n·σ 2 . Wenn man zur genaueren Kennzeichnung des Stichprobenmittelwerts X hier noch einen Index anbringt, also die Bezeichnung X n verwendet, so sagt der Zentrale Grenzwertsatz sagt, dass die Verteilungsfunktion der standardisierten Summe n
Yn − E(Yn ) X Xi − n · µ Xn − µ √ Zn := p = = 2 σX n V (Yn ) n·σ i=1 unter diesen Voraussetzungen für n → ∞ gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung konvergiert. Hieraus lässt sich folgern, dass bei großen Werten n für X n näherungsweise (13.6) gilt und dass die Summe Yn der Variablen X1 , X2 , ..., Xn approximativ N (n · µ; n · σ 2 )-verteilt ist. Wählt man speziell die n Variablen X1 , X2 , ..., Xn wie in (11.19), also als identisch bernoulliverteilt, so folgt aus den vorausgegangenen Ausführungen und bei Beachtung von (11.15) und (11.16), dass die binomialverteilte Zählvariable Yn := X aus (11.19) bei großem n approximativ N (n · p; n · p(1 − p))-verteilt ist . Die Verteilungsfunktion F (x) = P (X ≤ x) einer B(n; p)-verteilten Zufallsvariablen X kann also für große n durch die Verteilungsfunktion F (x) einer N (n · p; n · p(1 − p))-verteilten Zufallsvariable approximiert werden, also durch Φ( √ x−n·p ). Hinreichende Approximationsgüte wird in der Praxis meist als gegeben angen·p(1−p)
sehen, wenn die Bedingungen n · p ≥ 5 und n · (1 − p) ≥ 5 erfüllt sind.
3
13.2 Kovarianz und Korrelation In den Abschnitten 11.2 und 12.2 wurden univariate Wahrscheinlichkeitsverteilungen von Zufallsvariablen anhand von Kenngrößen charakterisiert. Als Lageparameter für die Verteilung von X wurde hier der durch (11.6) resp. (12.9) definierte Erwartungswert µ = E(X) aufgeführt und als Streuungsparameterpdie Varianz V (X) = σ 2 = E [(X − µ)2 ] aus (11.8) oder die Standardabweichung σ = V (X) aus (11.10). Hat man zwei Zufallsvariablen X und Y mit Erwartungswerten µX = E(X) und 2 µY = E(Y ) und Varianzen σX = V (X) und σY2 = V (Y ), so ist man auch daran interessiert, einen möglichen Zusammenhang zwischen den Verteilungen der beiden Zufalls-
172
Ein nicht-normiertes Zusammenhangsmaß
13 Bivariate Verteilungen von Zufallsvariablen
variablen zu quantifizieren. Ein nicht-normiertes Maß für einen linearen Zusammenhang ist die im Folgenden mit Cov(X; Y ) abgekürzte Kovarianz von X und Y , die zwecks Unterscheidung von der empirischen Kovarianz (9.9) gelegentlich theoretische Kovarianz genannt wird. Sie ist definiert als Erwartungswert von (X − µX )(Y − µY ), also als Cov(X; Y ) := E [(X − E(X))(Y − E(Y ))] .
(13.11)
Durch Ausmultiplizieren der beiden Differenzterme X − µX und Y − µY und anschließende gliedweise Anwendung des Erwartungswertoperators gewinnt man aus (13.11) noch die äquivalente Darstellung Cov(X; Y ) = E(XY ) − E(X) · E(Y ).
(13.12)
Ähnlich wie bei der empirischen Kovarianz gilt auch bei der theoretischen Kovarianz, dass sie positiv ist, wenn X und Y eine gleichgerichtete Tendenz haben und negativ bei gegenläufiger Tendenz. Im Falle Cov(X; Y ) = 0 kann nicht von einem linearen Zusammenhang zwischen den Zufallsvariablen X und Y ausgegangen werden. Wenn X und Y unabhängig sind, hat ihre Kovarianz stets den Wert 0, d. h. es gilt X und Y sind unabhängig → Cov(X; Y ) = 0.
(13.13)
Sind X und Y zwei Zufallsvariablen mit der Kovarianz Cov(X; Y ), so gilt für die Varianz ihrer Summe V (X + Y ) = V (X) + V (Y ) + 2 · Cov(X; Y ). Ein normiertes Zusammenhangsmaß
(13.14)
Wie die empirische Kovarianz ist auch die theoretische Kovarianz maßstabsabhängig. Sie hat daher keine untere oder obere Schranke. Eine zur Definition (9.10) des empirischen Korrelationskoeffizienten r analoge Normierung wird erreicht, wenn man die Kovarianz durch das Produkt der Standardabweichungen σX und σY dividiert. Dies führt zum Korrelationskoeffizienten ρ (lies: rho) für die Zufallsvariablen X und Y :3 Cov(X; Y ) p ρ= p . V (X) · V (Y )
(13.15)
Der Korrelationskoeffizient ρ liegt wie sein empirisches Analogon r stets zwischen −1 und +1, d. h. es gilt −1 ≤ ρ ≤ 1.
(13.16)
Es gilt |ρ| = 1 (lies: rho-Betrag = 1) genau dann, wenn die beiden Zufallsvariablen X und Y linear abhängig sind, etwa Y = aX + b. Dabei wird die obere Schranke ρ = 1 im Falle a > 0 angenommen (gleichsinnige Tendenz von X und Y ) und die untere Schranke ρ = −1 für a < 0 (gegensinnige Tendenz). Im Falle ρ = 0 spricht man von Unkorreliertheit, im Falle ρ 6= 0 von Korreliertheit der Variablen X und Y . Aus (13.13) folgt, dass Unabhängigkeit von X und Y stets Unkorreliertheit impliziert: X und Y sind unabhängig → ρ = 0. 3
(13.17)
Man verwendet anstelle von ρ auch die Schreibweise ρ(X; Y ) oder ρXY , wenn man betonen will, dass es um ein Zusammenhangsmaß für X und Y geht.
13.2 Kovarianz und Korrelation
173
Der Umkehrschluss gilt nicht, d.h. unkorrelierte Zufallsvariablen sind nicht zwingend auch stochastisch unabhängig. Beispiel 13.2 Berechnung des Korrelationskoeffizienten Beim dreimaligen Werfen einer Münze könnte man die Anzahl der Ausgänge mit „Zahl“ durch eine Zufallsvariable X und die der Ausgänge mit „Kopf“ durch eine Zufallsvariable Y modellieren. Für den Korrelationskoeffizienten dieser beiden Zufallsvariablen gilt ρ = −1, d. h. X und Y sind maximal negativ korreliert. Man kann dieses Ergebnis bei diesem einfachen Illustrationsbeispiel auch ohne Rückgriff auf (13.15) leicht verifizieren. Würde man das Experiment durchführen, so wären hier für (X; Y ) nur vier Realisationen (x; y) möglich, nämlich (0; 3), (1; 2), (2; 1), (3; 0), die alle auf einer fallenden Geraden liegen. Der Wert ρ = −1 leitet sich hier aus dem Modellzusammenhang ab, nicht – wie bei der Berechnung des empirischen Korrelationskoeffizienten r nach Bravais-Pearson – aus Daten.
Aufgabe 13.1
14 Schätzung von Parametern In Abschnitt 3.2 wurde bereits die Ziehung von Stichproben im Kontext der beschreibenden Statistik behandelt. Es wurde dargelegt, dass man anhand von Stichprobendaten Aussagen für Merkmale in einer umfassenderen Grundgesamtheit ableiten will. Wie man diesen Brückenschlag von der Stichprobe zur Grundgesamtheit bewerkstelligen kann, wird erst im Rahmen der schließenden Statistik deutlich. Um von der Stichprobeninformation auf die Grundgesamtheit zu schließen, verwendet man hier i. d. R. Verteilungsmodelle, die das Verhalten des interessierenden Merkmals X in der Grundgesamtheit charakterisieren. Diese Modelle ermöglichen dann die Übertragung von Stichprobenergebnissen auf eine Grundgesamtheit. Da die Informationsbasis bei Verwendung von Stichproben schmaler ist als bei Erfassung der Merkmalsausprägungen aller Elemente der Grundgesamtheit, sind die aus Stichproben abgeleiteten Schlüsse natürlich nicht fehlerfrei. Bei zufälliger Auswahl der Stichprobenelemente kann man Fehlerwahrscheinlichkeiten aber unter Kontrolle halten. Es leuchtet ein, dass größere Stichproben mehr Informationen liefern und die aus ihnen abgeleiteten Schlüsse zuverlässiger sind als bei kleinen Stichproben. Wenn man für ein stochastisches Merkmal X ein geeignetes Verteilungsmodell spezifiziert hat, also eine bestimmte diskrete oder stetige Verteilung, sind die Parameter der Verteilung zunächst noch unbekannt und müssen anhand der Stichprobendaten geschätzt werden. Dabei kommen zwei Ansätze in Betracht, nämlich die Punkt- und die Intervallschätzung. Mit einer Punktschätzung will man einen unbekannten Parameter möglichst gut treffen, während eine Intervallschätzung einen als Konfidenzintervall bezeichneten Bereich festlegt, in dem der unbekannte Parameter mit einer Wahrscheinlichkeit von mindestens 1 − α liegt, wobei α eine vorgegebene kleine Irrtumswahrscheinlichkeit repräsentiert.
Punkt- und Intervallschätzung
14.1 Punktschätzung und Eigenschaften von Schätzfunktionen Will man für einen unbekannten Parameter θ (lies: theta) einer Verteilung – z. B. den Erwartungswert, die Varianz oder einen Anteilswert – eine Punktschätzung anhand von Stichprobendaten x1 , x2 , ..., xn gewinnen, verwendet man die Realisation einer Stichprobenfunktion g(x1 , x2 , ..., xn ) als Schätzwert. Da die Stichprobendaten als Ausprägungen von Zufallsvariablen X1 , X2 , ..., Xn interpetiert werden, ist auch der aus ihnen errechnete Schätzwert eine Realisation einer Zufallsvariablen g(X1 , X2 , ..., Xn ), die hier Schätzstatistik, Schätzfunktion oder kurz Schätzer genannt wird. Im Folgenden wird, wenn von der Schätzung eines nicht näher spezifizierten Parameters θ die Rede ist, bei der Notation nicht zwischen dem Schätzer und dem Schätzwert unterschieden. Vielmehr werden beide mit θb angesprochen (lies: theta-Dach). Die Verwendung von b über einer Kenngröße ist in der Statistik für die Kennzeichnung von Schätzungen üblich.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_14, © Springer-Verlag Berlin Heidelberg 2011
175
Flash-Animation „Punktschätzung“
176
14 Schätzung von Parametern
Beispiel 14.1 Schätzprobleme in der Praxis Aus den Ergebnissen der Europäischen Verdienststrukturerhebung (vgl. erneut Abbildung 4.1 und Abbildung 4.5), die auf großen Stichproben aus der Menge aller Arbeitnehmer zahlreicher europäischer Länder basieren, will man aus den ungruppierten Individualdaten für jedes beteiligte Land Kenngrößen der Einkommensverteilungen schätzen (Lage- und Streuungsparameter). Ein gangbarer Weg besteht darin, für die Einkommensverteilung einen bestimmten Verteilungstyp festzulegen (unter vorgeschalteter Anwendung sog. Anpassungstests) und die Parameter dieser Verteilung dann aus den Daten schätzen. In der Marktforschung verwertet man u. a. Stichprobendaten zum Fernsehverhalten von Zuschauern. Aus diesen will man z. B. den mittleren Fernsehkonsum oder die Verweildauer bei Werbeblöcken für verschiedene Altersgruppen schätzen. Bei den ersten Hochrechnungen bei Landtags- oder Bundestagswahlen geht es darum, auf der Basis einzelner Wahlkreise für ein Bundesland bzw. für die gesamte Bundesrepublik eine Schätzung des Anteils von Wählern zu erhalten, die eine bestimmte Partei gewählt haben. Schätzungen spielen auch bei Glücksspielen eine wichtige Rolle. Lottogesellschaften benötigen z. B. zur Festlegung der Preise für Tippscheine Schätzungen für den Erwartungswert für den Anteil der Lottospieler, die drei, vier, fünf oder sechs „Richtige“ haben. Gütekriterien für Schätzfunktionen:
Bevor Schätzer θb für konkrete Kenngrößen θ vorgestellt werden, gilt es zunächst zu klären, welche Eigenschaften eine Schätzstatistik haben soll, d. h. was eine „gute“ Schätzung ausmacht. Ein einleuchtendes Kriterium ist die Erwartungstreue oder Unverzerrtheit. Diese beinhaltet, dass der Schätzer „im Mittel“ den unbekannten zu schätzenden Wert θ genau trifft, d. h. b = θ. E(θ)
(14.1)
Wenn ein Schätzer θb nicht erwartungstreu ist, heißt die Differenz b := E(θ) b − θ = E(θb − θ) B(θ) - keine oder geringe Verzerrung
(14.2)
Verzerrung oder Bias (engl.: bias). Ein Schätzer für θ ist also genau dann erwartungstreu, wenn seine Verzerrung Null ist. Manchmal ist ein Schätzer θb zwar verzerrt, besitzt aber eine Verzerrung, die gegen Null strebt, wenn der Umfang n des zur Berechnung von θb verwendeten Datensatzes gegen ∞ (lies: unendlich) strebt: b = θ. lim E(θ)
n→∞
(14.3)
Ein Schätzer θb mit dieser Eigenschaft heißt asymptotisch erwartungstreu oder asymptotisch unverzerrt.
14.1 Punktschätzung und Eigenschaften von Schätzfunktionen
177
Neben der Erwartungstreue ist natürlich die anhand der Varianz oder der Standardabweichung ausgedrückte Variabilität einer Schätzung als Präzisionsmaß von Interesse. Die auch als Standardfehler (engl: standard error ) bezeichnete Standardabweichung einer Schätzfunktion wird von Statistiksoftwarepaketen bei der Anwendung von Schätzprozeduren routinemäßig neben den Schätzwerten ausgewiesen (vgl. z. B. Abbildung 16.3). Abbildung 14.1 zeigt die – hier als symmetrisch angenommenen – Dichtefunktionen für drei Schätzfunktionen, wobei die ersten beiden Schätzer, etwa θb1 und θb2 , den Erwartungswert E(θb1 ) = E(θb2 ) = a und der dritte Schätzer θb3 den Erwartungswert E(θb3 ) = b habe. Hat der zu schätzende Parameter den Wert θ = b, so ist θb3 erwartungstreu, während θb1 und θb2 verzerrte Schätzer sind. Allerdings hat θb2 eine kleinere Varianz als θb3 . Da sich die Schätzer θb1 und θb2 nicht bezüglich des Erwartungswerts unterscheiden, ist von beiden der Schätzer mit der geringeren Streuung (steilere Dichtekurve) vorzuziehen, also θb2 .
- kleine Varianz
Flash-Animation „Beurteilung von Schätzern“
Abb. 14.1: Vergleich dreier Schätzfunktionen
In der Praxis hat man häufig verzerrte Schätzer. Wie aber soll man sich zwischen zwei Schätzern entscheiden, wenn – wie in Abbildung 14.1 anhand der Schätzer θb3 und θb2 illustriert – ein Schätzer bezüglich des Kriteriums „Verzerrung“ schlechter, dafür aber beim Streuungsvergleich besser abschneidet? Man benötigt offenbar zur vergleichenden Bewertung solcher Schätzfunktionen noch ein Gütekriterium, das sowohl die Verzerrung als auch die Streuung berücksichtigt. Ein solches Gütemaß ist der mit MSE abgekürzte mittlere quadratische Fehler (engl.: mean squared error) 2 b b M SE(θ) := E θ − θ . (14.4)
- kleiner MSE
Nach elementaren Umformungen erhält man mit (14.2) und der Varianzdefinition (11.8) die äquivalente Darstellung 2 h i2 b b b b − θ = V (θ) b + B(θ) b 2. M SE(θ) = E θ − E(θ) + E(θ) (14.5)
MSEZerlegungsformel
Der MSE stellt demnach eine additive Verknüpfung von Varianz und quadrierter Verzerrung dar. Man wird von den beiden Schätzern θb2 und θb3 in Abbildung 14.1 denjenigen
178
14 Schätzung von Parametern
bevorzugen, dessen MSE kleiner ausfällt. Bei erwartungstreuen Schätzern sind MSE und Varianz offenbar identisch.
14.2 Schätzung von Erwartungswerten, Varianzen und Anteilswerten Schätzung des Erwartungswerts
Will man den Erwartungswert µ einer Zufallsvariablen anhand der Ausprägungen unabhängiger Stichprobenvariablen X1 , X2 , ..., Xn schätzen, bietet sich als Stichprobenfunktion der in (13.3) eingeführten Stichprobenmittelwert X an. Da man die Erwartungswertbildung nach (11.13) auf die Stichprobenvariablen einzeln anwenden kann, gilt E(X) =
1 1 · [E(X1 ) + E(X2 ) + . . . + E(Xn )] = · n · µ = µ. n n
(14.6)
Der Stichprobenmittelwert liefert also eine unverzerrte Schätzung für den Erwartungswert . Wenn die Stichprobenvariablen X1 , X2 , ..., Xn unabhängig sind und die feste Va2 rianz σ 2 haben, kann man für die Varianz V (X) = σX der Schätzfunktion X mit (11.12) und (11.14) die Darstellung V (X) =
σ2 , n
(14.7)
ableiten. Wegen der Unverzerrtheit des Schätzers X stimmt V (X) mit den mittleren quadratischen Fehler von M SE(X) überein. Die Qualität des Schätzers X verbessert sich also, wenn der Stichprobenumfang n erhöht wird. Schätzung der Varianz
Zur Schätzung der Varianz σ2 einer Zufallsvariablen kommt zunächst die Stichprobenvarianz S 2 aus (13.4) in Betracht. Mit elementaren Umformungen und Anwendung der Zerlegungsformel (11.9) auf die Varianz von X kann man zeigen, dass1 E(S 2 ) =
Aufgabe 14.1
n−1 2 ·σ . n
(14.8)
Die Stichprobenvarianz liefert also eine verzerrte Schätzung für σ 2 . Der nach (5.6) errechnete Schätzwert s2 unterschätzt wegen n−1 < 1 den wahren Wert von σ 2 , wobei n die Verzerrung allerdings mit zunehmendem Stichprobenumfang n gegen Null strebt. Um eine unverzerrte Schätzung für σ 2 zu erhalten, verwendet man anstelle von S 2 zur Varianzschätzung die korrigierte Stichprobenvarianz S ∗2 aus (13.5). Für sie gilt E(S ∗2 ) =
n · E(S 2 ) = σ 2 . n−1
(14.9)
Der Stichprobenmittelwert findet auch bei der Schätzung des Erwartungswerts p = E(X) bernoulli-verteilter Merkmale X Anwendung. Die Bernoulli-Verteilung charakterisiert ein Zufallsexperiment mit zwei möglichen Ausgängen A und A, die mit Wahrscheinlichkeit p = P (A) resp. 1 − p = P (A) auftreten. In Abschnitt 11.1 wurde als Beispiel ein 1
2
2 Die Zerlegung der Varianz von X hat die Gestalt σX = E(X ) − µ2 . Eine Herleitung von (14.8) findet man bei Mosler / Schmid (2011, Abschnitt 5.1.4).
14.2 Schätzung von Erwartungswerten, Varianzen und Anteilswerten
179
Münzwurfexperiment genannt (Ausgänge „Zahl“ und „Kopf“). Wenn man ein BernoulliExperiment n-mal durchführt, kann man den Ausgang jedes Einzelexperiments anhand der Indikatorvariablen (11.18) modellieren, die gesamte Bernoulli-Kette also durch eine Folge unabhängiger Stichprobenvariablen X1 , X2 , ..., Xn . Der hieraus gebildete Stichprobenmittelwert X lässt sich zur Schätzung des Erwartungswerts p heranziehen. Der Erwartungswert p repräsentiert hier den zu erwartenden Anteil der Ausgänge mit A. Für die Schätzfunktion pb := X gilt analog zu (14.6) E(b p) =
1 1 · [E(X1 ) + E(X2 ) + . . . + E(Xn )] = · n · p = p. n n
(14.10)
Da die bernoulli-verteilten Variablen Xi nach (11.16) die Varianz σ 2 = p(1 − p) haben, erhält man für die Varianz V (b p) des Schätzers pb mit (14.7) V (b p) =
V (X) p · (1 − p) = . n n
(14.11)
Beispiel 14.2 Zuverlässige Daten als Bedingung für gute Schätzqualität Bei der Schätzung des „durchschnittlichen“ Einkommens in einer größeren Population von Personen wird man anstelle des Stichprobenmittelwerts X den Stichprobenmedian e heranziehen, weil dieser robuster gegenüber Ausreißern reagiert (vgl. erneut Beispiel X 5.4). Noch entscheidender aber als die Wahl der Stichprobenfunktion ist – nicht nur im Kontext „Einkommensschätzung“ – die Qualität der Daten, auf die eine Stichprobenfunktion angewendet wird. Selbst die beste Schätzmethode kann zu unbrauchbaren Ergebnissen führen, wenn die Daten von zweifelhafter Qualität sind. Die vorstehende Aussage lässt sich anhand eines Fallbeispiels illustrieren, das unter dem Schlagwort „Maserati-Affäre“ Anfang 2010 durch die Presse ging (vgl. z. B. den Bericht im Spiegel vom 25. 2. 2010). Der Geschäftsführer einer als gemeinnützig geltenden und in der Obdachlosenhilfe tätigen Berliner Organisation war aufgrund der Verwendung eines für den Tätigkeitsbereich „Wohlfahrtspflege“ ungewöhnlichen Dienstwagens, einem Maserati, in die Schlagzeilen geraten. Dabei kam auch ans Licht, dass der Geschäftsführer ein Jahresbruttogehalt von deutlich über 400.000 Euro bezog. Der Landesverband Berlin des Paritätischen Wohlfahrtsverbands, der den besagten Träger als Mitglied führte und inzwischen ausgeschlossen hat, kam rasch unter öffentlichen Druck. Um dem entstandenen Imageschaden entgegenzuwirken und den akuten Erklärungsbedarf der für die lokale Sozialpolitik verantwortlichen Politiker zu befriedigen, beauftragte der Landesverband eine Wirtschaftsprüfungsgesellschaft damit, bei den insgesamt 650 Mitgliedsorganisationen anhand eines Fragebogens die Geschäftsführergehälter zu ermitteln und hieraus Durchschnittsgehälter zu schätzen. In einer Ende Juli 2010 veröffentlichten Stellungnahme für die Presse zu den Ergebnissen der Erhebung, die auch einen Link zum Originalbericht der Wirtschaftsprüfungsgesellschaft enthielt, sah der Auftraggeber mit der Studie den Beweis als erbracht, dass die Affäre nur einen Einzelfall betraf und die Gehälter von Führungskräften bei den beteiligten Mitgliederorganisationen i. a. durchaus angemessen und verhältnismäßig sind. Aus
Schätzung von Anteilswerten
180
14 Schätzung von Parametern
den eingegangenen Fragebögen hatte sich für das Merkmal „Gesamt-Bruttojahresgehalt“ (Festgehalt einschließlich sonstiger Einkommenskomponenten) der nicht-ehrenamtlich tätigen Geschäftsführer ein Mittelwert von ca. 56.100 Euro und ein Median von ca. 53.300 Euro ergeben. Die Werte ergaben sich aus 246 Fragebögen, die von den in die Erhebung einbezogenen 650 Trägern zurück kamen (Rücklaufquote von nur 38 %). Dass der Median unterhalb des Mittelwerts liegt, ist plausibel und mit den Befunden aus Abbildung 4.5 kompatibel. Wenn man den Fragebogen am Ende des Originalberichts ansieht, stellt man fest, dass nach dem Arbeitgeber bruttogehalt gefragt wurde, nicht nach dem Arbeitnehmer brutto, und zwar – unverständlicherweise – nach dem ausgezahlten Arbeitgeberbrutto. Die Variable, um die es in der Erhebung maßgeblich geht, ist also aus dem Fragebogen heraus nicht zu verstehen. Es verwundert daher nicht, dass die übermittelten Gehaltsangaben sich teilweise auf das Arbeitgeberbrutto, teilweise auf das Arbeitnehmerbrutto oder gar auf das Arbeitnehmernetto bezogen. Nur bei 65 Fragebögen war klar, dass sich Gehaltsangaben auf Arbeitgeberbrutto bezogen – unklar blieb aber selbst in diesen wenigen Fällen, wie die Vorgabe ausgezahltes Arbeitgeberbrutto berücksichtigt wurde. In den genannten 65 Fällen wurde anhand von Näherungsansätzen auf das Arbeitnehmerbruttogehalt zurückgerechnet. In allen anderen Fällen wurden die Daten direkt verwendet aufgrund der Vermutung, dass die Angaben das widerspiegelten, was man erfragen wollte. Allein die mangelhafte Operationalisierung der Variablen „Geschäftsführergehalt“ spricht gegen eine ausreichende Reliabilität und Validität der Ergebnisse. Bedenklich ist zudem, dass alle im Fragebogen abgefragten statistischen Informationen anonym, freiwillig und damit ohne jede Kontrolle oder logische Konsistenzprüfung zustande kamen. Ob die Non-Response-Rate bei den umsatzstärkeren Organisationen mit höheren Gehältern für Führungskräfte höher war als bei kleineren Trägern, kann aus der Studie nicht erschlossen werden. Der Fragebogen differenzierte auch nicht zwischen kostensatzfinanzierten Organisationen und solchen, die im wesentlichen mit Zuwendungen aus öffentlichen Mitteln operieren. Nur bei den Zuwendungsempfängern unterliegen die Gehälter stärkeren Beschränkungen (Deckelung durch das sog. „Besserstellungsverbot“ gegenüber öffentlich Bediensteten mit vergleichbarer Tätigkeit). Es hätte sich angeboten für verschiedene Klassen von Trägern – analog zu Abbildung 5.4 – Boxplots zu generieren, um auch die Streuung innerhalb unterschiedlicher Trägerklassen sichtbar zu machen. Was als „angemessenes“ Gehaltsniveau gelten kann, lässt sich natürlich nicht von der Statistik her beantworten. Die Statistik als Wissenschaft kann nur eine Bewertung von Design und Methodik der Befragung und eine Aussage zur Angemessenheit der zur statistischen Analyse eingesetzten Instrumente liefern. Die von der Wirtschaftsprüfungsgesellschaft ermittelten Schätzergebnisse für Geschäftsführerbezüge haben zwar vermutlich zur Beruhigung der Öffentlichkeit beigetragen, die Art der Durchführung und Auswertung der Erhebung begründen aber erhebliche Zweifel an der Datenqualität und damit auch an den Schätzwerten. Die Ergebnisse der Auftragsstudie dürften daher kaum als Basis für Politikentscheidungen taugen.
14.3 Konfidenzintervalle für Erwartungswerte
181
14.3 Konfidenzintervalle für Erwartungswerte Eine Punktschätzung θb für einen Parameter θ liefert einen einzigen Schätzwert, der meist mit θ nicht exakt übereinstimmt. Zur Beurteilung der Güte einer Punktschätzung spielt die Verzerrung (14.2) eine Rolle, daneben aber auch die Varianz oder die Standardabweichung des Schätzers. Beide gehen in den als Gütemaß für Schätzer verwendeten mittleren quadratischen Fehler M SE aus (14.4) ein. Bei einer Intervallschätzung werden die beiden Aspekte „mittlere Lage“ und „Streuung“ einer Schätzfunktion auf andere Weise verknüpft, nämlich durch Ermittlung eines Intervalls, das den zu schätzenden Parameter θ mit einer Wahrscheinlichkeit von mindestens 1 − α enthält. 2 Das Intervall, dessen Grenzen sich aus den Stichprobendaten errechnen, soll natürlich möglichst schmal sein, also eine geringe Länge aufweisen. Das Konzept der Intervallschätzung sei anhand der Schätzung für den Erwartungswert µ = E(X) eines N (µ; σ 2 )-verteilten Merkmals X illustriert. Es sei zunächst vorausgesetzt, dass die Varianz σ 2 = V (X) bekannt sei. Die Stichprobenwerte x1 , x2 , . . . , xn werden als Ausprägungen unabhängiger N (µ; σ2 )-verteilter Zufallsvariablen X1 , X2 , . . . , Xn interpretiert. Die Zufallsvariable Z := X−µ ist dann gemäß (13.7) standardnormalverσX teilt. Damit liegt sie mit Wahrscheinlichkeit 1 − α in dem durch die Quantile zα/2 = −z1−α/2 und z1−α/2 begrenzten Intervall −z1−α/2 ; z1−α/2 , das in in Abbildung 12.4 veranschaulicht ist. Es gilt also für den standardisierten Stichprobenmittelwert Z die Wahrscheinlichkeitsaussage X −µ √ P −z1−α/2 ≤ · n ≤ z1−α/2 = 1 − α. (14.12) σ Wenn man die drei Terme der Ungleichungskette in der Klammer zunächst mit √σn erweitert, dann jeweils X subtrahiert und schließlich alle drei Terme mit −1 multipliziert folgt σ σ P X − z1−α/2 · √ ≤ µ ≤ X + z1−α/2 · √ = 1 − α. (14.13) n n Für den unbekannten Verteilungsparameter µ hat man also die Wahrscheinlichkeitsaussage, dass dieser mit Wahrscheinlichkeit 1 − α im hier mit KI bezeichneten Intervall σ σ KI = X − z1−α/2 √ ; X + z1−α/2 √ (14.14) n n liegt. Dies ist das Konfidenzintervall zum Konfidenzniveau 1 − α für µ, das eine Intervallschätzung für µ repräsentiert. Die Berechnung von (14.14) setzt voraus, dass die Varianz σ 2 bzw. die Standardabweichung σ der N (µ; σ 2 )-verteilten Variablen X bekannt ist, also nicht erst über eine Schätzung zu ermitteln ist. 2
Bei Intervallschätzungen von Kenngrößen θ stetiger Verteilungen kann man den Zusatz „mindestens“ streichen – hier lässt sich das Intervall exakt so bestimmen, dass es θ mit Wahrscheinlichkeit 1 − α überdeckt.
Illustration für normalverteiltes Merkmal:
- Varianz bekannt
182
14 Schätzung von Parametern
In (14.13) bzw. (14.14) geht die Ausprägung µ b = x des Schätzers X ein, die von Stichprobe zu Stichprobe variiert. Die Intervallgrenzen sind also zufallsabhängig. Die Länge des Konfidenzintervalls ist fest und gegeben durch σ Länge(KI) = 2 · z1−α/2 √ , n
(14.15)
hängt also von der Irrtumswahrscheinlichkeit α und vom Stichprobenumfang n ab. Mit abnehmender Irrtumswahrscheinlichkeit α (wachsendem Konfidenzniveau 1 − α) nimmt die Länge (14.15) zu, weil das Quantil z1−α/2 dann größere Werte annimmt (vgl. erneut Abbildung 12.4). Mit zunehmendem n wird das Konfidenzintervall schmaler.
Abb. 14.2: Konfidenzintervalle für µ bei Normalverteilung (Varianz bekannt; n = 5)
Java-Applet „Konfidenzintervalle für µ bei bekannter Varianz“
Abbildung (14.2) zeigt nach (14.14) berechnete Konfidenzintervalle zum Konfidenzniveau 0, 95 (α = 0, 05), die mit Stichprobendaten aus einem Simulationsexperiment erzeugt wurden. Für die Stichprobenvarianz wurde hier σ2 = 1 gewählt und für den zu schätzenden Erwartungswert µ = 0, d. h. es wurden n standardnormalverteilte Daten generiert. Der Vorgang wurde k-mal ausgeführt mit k = 50. Insgesamt wurden somit k = 50 Konfidenzintervalle per Simulation erzeugt. Eine Simulation bietet den Vorteil, dass der üblicherweise unbekannte Parameter µ, für den man Intervallschätzungen berechnen will, ausnahmsweise bekannt ist (kontrollierte Laborsituation). Die Konfidenzintervalle in Abbildung 14.2 wurden mit n = 5 berechnet. Sie haben alle die gleiche Länge, für die man mit (14.15) und Tabelle 19.3 im Falle n = 5 den Wert 2·1,96 √ ≈ 1, 75 errechnet. Drei der 50 Intervalle (6%) überdecken den Parameter µ = 0 5 nicht – der theoretische Wert, den man approximativ bei Wahl eines sehr großen Wertes für k erreicht, ist α = 0, 05 (5%). Es ist jedenfalls festzuhalten, dass ein konkretes Konfidenzintervall den unbekannten Parameter – auch bei klein gewählter Irrtumswahrscheinlichkeit α – nicht zwingend überdeckt.
14.3 Konfidenzintervalle für Erwartungswerte
183
Abb. 14.3: Konfidenzintervalle für µ bei Normalverteilung (Varianz bekannt; n = 10)
Abbildung 14.3 zeigt ebenfalls k = 50 Konfidenzintervalle, die auf dieselbe Weise erzeugt wurden. Geändert wurde lediglich der Stichprobenumfang, der nun mit n = 10 angesetzt wurde. Die mit diesem n berechneten Konfidenzintervalle sind erwartungsge√ mäß schmaler. Ihre Länge errechnet sich zu 2·1,96 ≈ 1, 24. Die Verdopplung von n führt 10 nach (14.15) dazu, dass die Länge des Konfidenzintervalls sich um den Faktor √12 ≈ 0, 71 verändert, also auf ca. 71% der vorherigen Länge schrumpft. In Abbildung 14.3 überdecken zwei der 50 Intervalle (4%) den Parameter µ = 0 nicht. Auch hier müsste man wieder k deutlich erhöhen, um den theoretischen Wert α = 0, 05 besser zu treffen. Die vorstehenden Ableitungen sind leicht zu modifizieren, wenn man die Varianz σ 2 nur in Form einer Schätzung σ b2 kennt. Ausgangspunkt ist hier nicht mehr der standardisierte Stichprobenmittelwert aus (13.7), sondern die mit n − 1 Freiheitsgraden t-verteilte Zufallsvariable aus (13.10). Man erhält anstelle von (14.14) mit ν := n − 1 (lies: nü) S∗ S∗ KI = X − tν;1−α/2 √ ; X + tν;1−α/2 √ . (14.16) n n Diese Formel unterscheidet sich von (14.14) darin, dass statt der festen Größe σ nun die Zufallsvariable S ∗ erscheint und statt zweier Quantile der Standardnormalverteilung die entsprechenden Quantile der t-Verteilung mit ν = n − 1 Freiheitsgraden. Die erste Ersetzung hat wegen (14.9) im Mittel keinen Effekt auf die Länge des Konfidenzintervalls. Das (1 − α/2)-Quantil der t-Verteilung mit ν = n − 1 Freiheitsgraden ist allerdings stets größer als das 1 − α/2-Quantil der Standardnormalverteilung, wobei die Unterschiede mit Zunahme von ν = n − 1 kleiner werden (vgl. Tabelle 12.1). Das Konfidenzintervall (14.16) ist also im Mittel länger. Ein wesentlicher Unterschied gegenüber (14.14) besteht auch darin, dass die Länge des Konfidenzintervalls (14.16) S∗ Länge(KI) = 2 · tν;1−α/2 √ n
(14.17)
Aufgabe 14.2
- Varianz unbekannt
184
14 Schätzung von Parametern
nun nicht mehr nur von der Irrtumswahrscheinlichkeit α und dem Stichprobenumfang n, sondern auch von der jeweiligen Ausprägung von S ∗ abhängt, also zufallsabhängig ist.
15 Statistische Testverfahren 15.1 Arten statistischer Tests In der Praxis der empirischen Forschung will man nicht nur Modellparameter schätzen, sondern häufig auch Hypothesen H0 und H1 auf der Basis von Daten überprüfen. Ausgangspunkt ist eine Fragestellung, die sich oft auf die Verteilung eines einzigen Merkmals bzw. auf eine Kenngröße der Verteilung dieses Merkmals bezieht und auf der Basis der Daten von Stichprobenbefunden geklärt werden soll. Man spricht von einem Einstichproben-Test, wenn ein Test die Information nur einer Stichprobe verwendet. Manchmal testet man auch Hypothesen, die sich auf zwei Zufallsvariablen beziehen, z. B. auf die Erwartungswerte oder Varianzen zweier Variablen X und Y . Solche Tests, die die Verteilung zweier Zufallsvariablen betreffen und die Information aus zwei Stichproben nutzen, heißen Zweistichproben-Tests. Es gibt auch Tests für k Zufallsvariablen, die mit k Stichproben arbeiten (k > 2) und entsprechend als k-Stichproben-Tests etikettiert werden.
Klassifikationen für statistische Tests:
Wenn man für die Teststatistik die Kenntnis des Verteilungstyps in der Grundgesamtheit voraussetzt, liegt ein parametrischer Test vor, andernfalls ein verteilungsfreier oder nicht-parametrischer Test.
- in Abhängigkeit von Verteilungsannahmen
Man kann Tests auch danach klassifizieren, worauf sich die Hypothesen beziehen. So gibt es Tests für Erwartungswerte, Tests für Varianzen oder Tests für Anteile von Populationen. Für die drei genannten Fälle gibt es Ein- und Mehrstichproben-Tests, d. h. die aufgeführten Testklassifikationen überschneiden sich. Anpassungstests zielen darauf ab, zu untersuchen, ob eine Zufallsvariable einer bestimmten Verteilung folgt, z. B. der Normalverteilung. Bei Unabhängigkeitstests will man eine Aussage darüber gewinnen, ob zwei Zufallsvariablen unabhängig sind.
- nach dem Inhalt der Hypothesen
- nach der Anzahl der verwendeten Stichproben
Häufig werden statistische Tests, deren Prüfstatistik einer bestimmten diskreten oder stetigen Verteilung folgt, zu einer Gruppe zusammengefasst. So gibt es ganz unterschiedliche Tests, die mit einer χ2 -, t- oder F -verteilten Testgröße operieren. Diese Tests werden dann als χ2 -Tests, t-Tests resp. als F-Tests angesprochen. Ein Test mit normalverteilter Prüfstatistik wird auch als Gauß-Test bezeichnet. Der t-Test kommt z. B. beim Testen von Hypothesen über Erwartungswerte normalverteilter Grundgesamtheiten ins Spiel, findet aber auch Anwendung beim Testen von Hypothesen über Regressionskoeffizienten bei normalverteilten Störvariablen. Es gibt also nicht den t-Test, sondern ganz unterschiedliche t-Tests, deren Gemeinsamkeit darin besteht, dass die Prüfstatistik bei Gültigkeit gewisser Annahmen einer t-Verteilung folgt.
- nach der Verteilung der Prüfstatistik
Bei der Prüfung von Hypothesen über Parameter kann es darauf ankommen, Veränderungen nach beiden Seiten zu entdecken oder auch nur in eine Richtung. Man spricht
- nach der Hypothesenformulierung
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_15, © Springer-Verlag Berlin Heidelberg 2011
185
186
15 Statistische Testverfahren
dann von einem zweiseitigen Test bzw. von einem einseitigen Test. Wenn zwei Hypothesen direkt aneinandergrenzen, wie etwa im Falle der Hypothesen H0 : µ = µ0 und H1 : µ 6= µ0 , spricht man von einem Signifikanztest. Andernfalls, etwa im Falle H0 : µ = µ0 und H1 : µ = µ1 (µ0 < µ1 ), liegt ein Alternativtest vor. Im Folgenden stehen ausgewählte parametrische Signifikanztests für Erwartungswerte, Varianzen und Anteilswerte im Vordergrund, an denen die Vorgehensweise beim Testen von Hypothesen erläutert wird. Eine breitere Darstellung würde den Rahmen einer Einführung sprengen. Eine ausführlichere Behandlung statistischer Tests findet man u. a. bei Mosler / Schmid (2011, Kapitel 6) oder Fahrmeir / Künstler / Pigeot / Tutz (2010, Kapitel 10). Beispiel 15.1 Hypothesentests in der Praxis Es fällt nicht schwer, Anwendungsfelder und Beispiele für Hypothesentests aus unterschiedlichen Bereichen aufzuführen: - Anhand der Daten der vom Europäischen Amt für Statistik alle 4 Jahre durchgeführten Verdienststrukturerhebung wird untersucht, ob sich in einzelnen Branchen das Verdienstniveau für Frauen und Männer bei vergleichbarer Qualifikation signifikant unterscheidet. Solche Informationen sind in der europäischen Sozialpolitik der Ausgangspunkt für Strategien zur Verringerung eines geschlechtsspezifischen Verdienstgefälles. - Bildungswissenschaftler können unter Verwendung von Ergebnissen der o. g. Verdienststrukturerhebung testen, ob das Ausbildungsniveau, operationalisiert über die ordinalskalierte Variable „Höchster erreichter Bildungsabschluss“, einen wesentlichen Effekt auf das Einkommen hat und ob die Effekte in einzelnen EU-Staaten differieren. - Im Umweltbereich will man aus Daten Informationen gewinnen, ob bestimmte Variablen, bei denen man einen Effekt auf Schadstoffemissionen vermutet, wirklich zur Emissionsreduktion beitragen. Ähnlich will man in der Medizin aus Beobachtungen an Patienten die Hypothese prüfen, ob mit einem neuen Medikament bei Patienten mit schweren Depressionen tatsächlich eine von einem Pharmakonzern behauptete Wirkung erzielt wird. In der Kieferchirurgie will man testen, ob der Erwartungswert des Merkmals „Lebensdauer von Implantaten“ bei Verwendung von Titan oder den zunehmend propagierten keramischen Werkstoffen signifikant verschieden ist und ob Rauchen die Lebensdauer der Implantate beeinflusst. - In einigen Ländern ist es von besonderem Interesse, aus Daten Informationen über ein etwaiges ungleiches Verhältnis der Geschlechter innerhalb der Bevölkerung zu gewinnen. Dies gilt z. B. für Indien, wo vorgeburtliche Geschlechterselektion durch Traditionen begünstigt werden – u. a. ruinös teure Hochzeiten und hohe Mitgiften, die bei einer Heirat von den Familien der Töchter zu bestreiten sind. - Bei der industriellen Serienproduktion ist man daran interessiert, die mittlere Lage µ = E(X) eines häufig als normalverteilt spezifizierten Qualitätsmerkmals X zu
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
187
überwachen. Anhand von Stichproben, die der laufenden Produktion (Grundgesamtheit) in regelmäßigen Abständen entnommen werden, will man eine Aussage darüber ableiten, ob der Verteilungsparameter µ noch auf einem Sollniveau µ0 liegt oder sich verändert hat. Bei Eintritt eines Shifts soll möglichst rasch zwecks Ausschussvermeidung korrigierend in den Fertigungsprozess eingegriffen werden.
In der Psychologie wird der Begriff „Test“ häufig in anderem Sinne verwendet, nämlich in der Diagnostik als routinemäßig einsetzbares Messinstrument zur Erfassung latenter Variablen bzw. hypothetischer Konstrukte anhand von Fragebögen – vgl. etwa Sedlmeier / Renkewitz (2008, Abschnitt 3.4) oder Marcus / Bühner (2009). Es geht dabei um die Bestimmung der relativen Position von Individuen oder Gruppen bezüglich bestimmter Persönlichkeitsmerkmale, etwa „Leistungsmotivation“, „Intelligenz“ oder „Teamfähigkeit“. Oft werden in der Psychologie anstelle solcher Einzelmerkmale auch ganze Bündel von Persönlichkeitsmerkmalen anhand eines einzigen Tests gemessen, etwa die sog. Big Five der Persönlichkeitspychologie. 1
Unterscheidung von statistischen und pyschologischen Tests
Um solche psychologische Tests geht es aber in diesem Kapitel nicht. Es geht im Folgenden vielmehr um die Konfrontation von Forschungshypothesen mit Daten mit dem Ziel, Aufschluss darüber zu gewinnen, ob eine Hypothese mit vorhandenen Beoachtungen verträglich ist und daher bis auf weiteres beizubehalten ist oder ob sie aufgrund des empirischen Befunds zu verwerfen ist. Die letztgenannte Testentscheidung wird getroffen, wenn das Stichprobenergebnis in signifikantem Gegensatz zur betreffenden Hypothese steht. Bei einem statistischen Test wird aber bei der Konfrontation zweier sich ausschließender Hypothesen mit empirischen Befunden eine Hypothese nie in dem Sinne bewiesen, dass ihre Gültigkeit ohne jede Möglichkeit des Irrtums erwiesen ist. Die am Ende eines statistischen Tests stehende Testentscheidung schließt stets die Möglichkeit einer Fehlentscheidung ein (vgl. Tabelle 15.1).
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte Die Fragestellung, die anhand eines Tests untersucht werden soll, wird in Form einer Nullhypothese H0 und einer Alternativhypothese H1 formuliert. Die Nullhypothese H0 beinhaltet eine bisher als akzeptiert geltende Aussage über den Zustand des Parameters einer Grundgesamtheit. Von dieser Hypothese geht man aus und will ihren Wahrheitsgehalt anhand eines Tests empirisch absichern. Die Alternativhypothese H1 beinhaltet die eigentliche Forschungshypothese. Sie formuliert das, was gezeigt werden soll. Will man etwa bei einer nicht heilbaren Krankheit, bei der der Erwartungswert µ für die verbleibende Restlebenszeit bisher den Wert µ = µ0 hatte, anhand von Patientendaten belegen, dass eine neue Operationsmethode 1
Die „Big Five“ sind „Offenheit gegenüber neuen Erfahrungen“ (engl.: openness to new experience), Gewissenhaftigkeit (conscientiousness), Extraversion“ (extraversion), Verträglichkeit (agreeableness) und „Neurotizismus (neurotizism), die gelegentlich nach den englischsprachigen Faktorenbezeichnungen auch mit dem Kürzel OCEAN belegt werden – zu Details und Modifikationen vgl. z. B. Asendorpf (2007, Kapitel 4).
Null- und Alternativhypothese
188
15 Statistische Testverfahren
oder ein neues Medikament zu einem größeren Erwartungswert für die Restlebenszeit führt, wird man H0 : µ ≤ µ0 gegen H1 : µ > µ0 testen (einseitiger Test). Bei der Überwachung des mittleren Füllvolumens für Tinte bei Tintendruckerpatronen, wird sich das Eichamt oder der Kunde vor allem für Unterschreitungen des angegebenen Füllvolumens interessieren und H0 : µ ≥ µ0 gegen H1 : µ < µ0 testen (einseitiger Test). Der Hersteller wird hingegen das mittlere Niveau µ möglichst genau auf dem Zielwert µ0 halten wollen, um den gesetzlichen Vorschriften zu genügen (keine Unterschreitung des etikettierten Füllvolumens) und gleichzeitig nichts zu verschenken (keine Überschreitung), d. h. er wird H0 : µ = µ0 gegen H1 : µ 6= µ0 testen (zweiseitiger Test). Teststatistiken sind Zufallsvariablen
Ein Test basiert auf einer Prüfvariablen, auch Prüf- oder Teststatistik genannt, deren Ausprägung sich im Ein-Stichprobenfall aus einer Stichprobe x1 , x2 , .., xn ergibt. Letztere wird als Realisation von Stichprobenvariablen X1 , X2 , .., Xn interpretiert. Die Stichprobenvariablen werden nicht direkt verwendet; man aggregiert sie vielmehr anhand einer Stichprobenfunktion g(X1 , X2 , .., Xn ), z. B. anhand des Stichprobenmittelwerts X oder der Stichprobenvarianz S 2 bzw. S ∗2 . Da die Stichprobenvariablen Zufallsvariablen sind, gilt dies auch für die Teststatistik. Die Testentscheidung hängt also von der Ausprägung g(x1 , x2 , .., xn ) der herangezogenen Stichprobenfunktion ab.
Zweiseitiger Test für den Erwartungswert
Die Vorgehensweise bei einem Hypothesentest sei anhand der Überwachung eines Produktmerkmals X bei der industriellen Serienfertigung illustriert (s. erneut Beispiel 15.1, dort den letzten Fall). Man weiß aufgrund von Voruntersuchungen des Produktionsprozesses, dass das Merkmal X (z. B. Durchmesser einer Produktkomponente) exakt oder approximativ normalverteilt ist mit Erwartungswert µ = E(X) und Varianz σ 2 = V (X). Für die Qualität des Endprodukts ist es wichtig, dass die Ausprägungen von X innerhalb eines bestimmten Toleranzintervalls liegen, weil sonst die Funktionsfähigkeit des Produkts nicht mehr gewährleistet ist und Ausschuß produziert wird. Zielwert für X ist die Mitte des Toleranzintervalls, die mit µ0 bezeichnet sei. Man will sich während der Fertigung vergewissern, dass sich das Fertigungsniveau µ = E(X) für das Merkmal nicht signifikant nach oben oder unten vom Zielwert entfernt hat und testet in regelmäßigen Abständen H0 : µ = µ0
gegen
H1 : µ 6= µ0 .
(15.1)
Um den zweiseitigen Test durchführen zu können, benötigt man Daten aus einer Stichprobe x1 , . . . , xn , die bei dem hier gewählten Beispiel der laufenden Produktion entnommen wird. Die Stichprobeninformation ermöglicht es, für den unbekannten Lageparameter µ eine Schätzung µ b zu gewinnen. Als Schätzfunktion bietet sich der Stichprobenmittelwert µ b = X an, der als Prüf- oder Testgröße für den Test (15.1) fungiert. Wenn H0 zutrifft, kann man die Verteilung der Prüfstatistik angeben. Aus der Kenntnis der Verteilung lässt sich ein Intervall ableiten, in das die Prüfgröße mit einer hohen Wahrscheinlichkeit 1 − α fällt. Der Wert α ist ein vorab festzulegender Designparameter des Tests. Man wählt für α immer einen relativ kleinen Wert, z. B. α = 0, 05 oder α = 0, 01. Liegt die aus den Stichprobendaten errechnete Ausprägung der Prüfstatistik außerhalb des Intervalls, wird die Nullhypothese verworfen. Die Testentscheidung basiert also auf der Verteilung der Prüfstatistik unter H0 .
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
189
Wenn die Varianz σ 2 von X bekannt ist, gilt unter H0 , also für µ = µ0 , nach (13.6) die 2 2 2 Aussage X ∼ N (µ0 ; σX ) mit σX = σn . Man kann die Prüfgröße X direkt verwenden oder aber zweckmäßigerweise erst einmal nach (12.11) standardisieren. Für die standardisierte Testvariable Z :=
X − µ0 X − µ0 √ = · n σX σ
Prüfgröße bei bekannter Varianz
(15.2)
gilt, dass eine Ausprägung z mit Wahrscheinlichkeit 1 − α in dem durch das α2 -Quantil zα/2 = −z1−α/2 und das (1 − α2 )-Quantil z1−α/2 der Standardnormalverteilung definierten Intervall liegt (vgl. erneut Abbildung 12.4). Nur wenn die standardisierte Prüfgröße (15.2) innerhalb dieses Intervalls liegt, wird weiter von der Gültigkeit der Nullhypothese H0 ausgegangen. Das Intervall heißt Annahmebereich für H0 . Der Bereich außerhalb des genannten Intervalls definiert den Ablehnungsbereich für die Nullhypothese und die Grenzen des Intervalls werden kritische Werte genannt. Im Falle der Verwerfung von H0 ist die Alternativhypothese H1 statistisch „bewiesen“ in dem Sinne, dass ihre Gültigkeit mit einer Irrtumswahrscheinlichkeit α als gesichert angenommen werden kann. Die fälschliche Zurückweisung der Nullhypothese wird als Fehler 1. Art oder auch als α-Fehler bezeichnet. Die Wahrscheinlichkeit α für den Eintritt eines Fehlers 1. Art definiert das Signifikanzniveau des Tests.
Abb. 15.1: Annahme- und Ablehnungsbereich für H0 (zweiseitiger Test für den Erwartungswert eines normalverteilten Merkmals bei bekannter Varianz)
Abbildung 15.1 zeigt den Annahme- und den Ablehnungsbereich für den zweiseitigen Hypothesentest (15.1), der mit der Prüfgröße X bzw. mit der nach (15.2) standardisierten Variablen Z operiert. Der Test wird auch als Gauß-Test bezeichnet, weil er mit einer normalverteilten Prüfvariablen arbeitet. Die Grafik zeigt die Dichte des Stichprobenmittelwerts X unter H0 , die nach Transformation der Abszissenachse auch die
Flash-Animation „Zweiseitiger Gauß-Test“
190
15 Statistische Testverfahren
Dichte der standardnormalverteilten Variablen Z darstellt. Die obere Grenze des Annahmebereichs, also das (1 − α2 )-Quantil z1−α/2 , hat z. B. bei Wahl von α = 0, 05 nach Tabelle 19.3 den Wert z0,975 = 1, 96. Für die untere Grenze z0,025 gilt wegen (12.25) dann z0,025 = −z0,975 = −1, 96. Für α = 0, 05 ist der Annahmebereich also durch das Intervall [−1, 96; 1, 96] gegeben. Die Wahrscheinlichkeit α für den Eintritt eines Fehlers 1. Art ist in Abbildung 15.1 durch den Inhalt der beiden blau markierten Flächen repräsentiert – jede dieser Flächen hat den Inhalt α2 . Falls die Nullhypothese H0 : µ = µ0 zutrifft, wird sie demnach mit Irrtumswahrscheinlichkeit α verworfen. Die Ablehnung von H0 erfolgt, wenn sich für die aus der Stichprobenfunktion µ b = X durch Standardisierung hervorgegangene Variable Z eine Realisation ergibt, die außerhalb des in Abbildung 15.1 veranschaulichten Intervalls [−z1−α/2 ; z1−α/2 ] liegt. Letzteres beinhaltet, dass für den Betrag |z| der Teststatistik (15.2) die Bedingung |z| > z1−α/2
(15.3)
erfüllt ist. Abbildung 15.1 verdeutlicht auch, dass man den Test ebenso anhand der nicht-standardisierten Prüfgröße X durchführen kann. Obwohl beide Verfahren – Verwendung der nicht-standardisierten und der standardisierten Prüfvariablen – äquivalent sind, bietet sich die Standardisierung natürlich an, weil man hier zu einer Ablehnungsbedingung kommt, die nicht mehr vom Wert µ0 abhängt.
Beispiel 15.2 Anwendung von Qualitätsregelkarten Eine effiziente und weitverbreitete Methode zur Vermeidung von Fehlern in der industriellen Massenfertigung ist die statistische Prozessregelung (engl.: statistical process control, kurz SPC ) mit sog. Qualitätsregelkarten. Deren Anwendung entspricht der wiederholten Durchführung eines Tests. Man geht von einem normalverteilten Qualitätsmerkmal aus – z. B. Länge oder Durchmesser eines Serienteils – und überwacht fortlaufend durch regelmäßige Entnahme von Stichproben, ob sich das mittlere Niveau oder die Streuung des Merkmals während der Produktion in unerwünschter Weise verändern. Der Lageparameter µ ist i. d. R. ein aus Designvorgaben resultierender Sollwert. Bei Qualitätsregelkarten zur Überwachung des mittleren Merkmalsniveaus wird die Streuung, repräsentiert durch die Standardabweichung σ der Normalverteilung, aufgrund der Auswertung von Prozessvorläufen i. a. als bekannt angenommen. Abbildung 15.2 zeigt eine solche Qualitätsregelkarte, die hier zur Überwachung der Länge von Platinen eingesetzt wird. Eine möglichst gute Längenkonstanz ist qualitätsrelevant, weil die Platinen maßgenau in ein Steuergerät einer Maschine (Optomouse) eingebaut werden. Die obere Grafik zeigt den beobachteten Stichprobenmittelwert x im zeitlichen Verlauf. Sobald die untere der beiden rot markierten Linien unterschritten bzw. die obere Linie überschritten wird, erfolgt ein prozesskorrigierender Eingriff. Die hier rot gekennzeichneten Linien werden in der Qualitätssicherung Eingriffsgrenzen genannt. Sie definieren die in Abbildung 15.1 veranschaulichten Grenzen zwischen
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
191
Abb. 15.2: Anwendung einer Qualitätsregelkarte (Fertigungsüberwachung bei der Serienproduktion von Platinen; Quelle: Fa. Böhme und Weihs Systemtechnik)
Annahme- und Ablehnbereich des Gauß-Tests. Die auf dem Foto sichtbare farbliche Betonung eines Zeitfensters dient der Hervorhebung und Analyse von Prozesstrends.
Beim einseitigen Hypothesentest für den Erwartungswert µ besteht die Nullhypothese nicht nur aus einem einzigen Wert, sondern aus allen Werten unterhalb oder oberhalb eines bestimmten Schwellenwertes µ0 . Man testet nun entweder H0 : µ ≤ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
(15.4)
H0 : µ ≥ µ0
gegen
H1 : µ < µ0
(linksseitiger Test).
(15.5)
oder
Während der Annahmebereich beim zweiseitigen Test, wie in Abbildung 15.1 veranschaulicht, durch das α2 -Quantil und das (1 − α2 )-Quantil der Standardnormalverteilung begrenzt wird, ist der Annahmebereich beim einseitigen Test nur durch ein einziges Quantil vom Ablehnungsbereich getrennt. Beim rechtsseitigen Test ist es das (1 − α)Quantil, beim linksseitigen Test das α-Quantil. Die Bedingung für die Ablehnung der Nullhypothese lautet also beim rechtsseitigen Test z > z1−α ,
(15.6)
z < zα = −z1−α .
(15.7)
und beim linksseitigen Test
Der Annahmebereich beim einseitigen Hypothesentest wird allein durch die Verteilung der Prüfgröße im Grenzfall µ = µ0 bestimmt, hängt also von der Verteilung der Prüfgröße am Rande des Gültigkeitsbereichs der Nullhypothese ab.
Einseitiger Test für den Erwartungswert einer normalverteilten Variablen
192
Fehlerarten beim Testen
15 Statistische Testverfahren
Ein statistischer Test führt entweder zur Ablehnung der Nullhypothese H0 (Entscheidung für H1 ) oder zur Nicht-Verwerfung von H0 (Beibehaltung von H0 mangels Evidenz für H1 ). Jede der beiden Testentscheidungen kann richtig oder falsch sein. Es gibt somit insgesamt vier denkbare Fälle, von denen zwei falsche Entscheidungen darstellen. Neben dem schon genannten Fehler 1. Art oder α-Fehler, der fälschlichen Verwerfung der Nullhypothese, kann auch eine Nicht-Verwerfung einer nicht zutreffenden Nullhypothese eintreten. Beim Test (15.1) kann ja der Fall eintreten, dass der unbekannte Parameter µ nicht mit µ0 übereinstimmt, die Realisation der Prüfgröße X aber dennoch in den Annahmebereich fällt. Diese Fehlentscheidung bei einem Hypothesentest heißt Fehler 2. Art oder auch β-Fehler. Bei dem herangezogenen Beispiel der Überwachung des mittleren Niveaus eines Qualitätsmerkmals bei der Serienfertigung ist der Fehler 1. Art als blinder Alarm zu interpretieren, der Fehler 2. Art als unterlassener Alarm. Tabelle 15.1 zeigt übersichtsartig, welche Ausgänge bei einem Hypothesentest möglich sind und wie die Testentscheidungen zu bewerten sind. Testentscheidung Nullhypothese nicht verworfen Nullhypothese verworfen
tatsächlicher Zustand Nullhypothese richtig Nullhypothese falsch richtige Entscheidung Fehler 2. Art (β-Fehler) Fehler 1. Art richtige Entscheidung (α-Fehler)
Tab. 15.1: Ausgänge bei einem Hypothesentest
Die Wahrscheinlichkeiten für die in Tabelle (15.1) aufgeführten Testfehler sind offenbar bedingte Wahrscheinlichkeiten: P (Fehler 1. Art) = P (Ablehnung von H0 |H0 ist wahr)
(15.8)
P (Fehler 2. Art) = P (Nicht-Verwerfung von H0 |H1 ist wahr).
(15.9)
Da sich die Wahrscheinlichkeiten für Verwerfung und Nicht-Verwerfung von H0 komplementär verhalten, d. h. zu 1 ergänzen, kann man die letzte Gleichung auch schreiben als P (Fehler 2. Art) = 1 − P (Verwerfung von H0 |H1 ist wahr).
(15.10)
Abbildung 15.3 veranschaulicht die Fehlerarten am Beispiel des rechtsseitigen Tests (15.4). Sie zeigt in beiden Abbildungsteilen zwei Dichten, wobei die erste Kurve jeweils die Dichte des Stichprobenmittelwerts für µ = µ0 darstellt. Der Inhalt der rot markierten Fläche rechts vom kritischen Wert – dieser ist bei Verwendung der nach Standardisierung von X resultierenden Prüfgröße Z durch das Quantil z1−α gegeben – hat den Wert α, repräsentiert somit das Signifikanzniveau. Wenn man die auf den Fall µ = µ0 bezogene Dichtekurve nach links verschiebt, bleibt die Nullhypothese µ ≤ µ0 gültig, die Fläche rechts vom kritischen Wert wird aber kleiner. Das Signifikanzniveau α ist bei einem
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
193
einseitigen Test also als obere Schranke für den Eintritt eines Fehlers 1. Art zu interpretieren. Ein Fehler 2. Art kann nur eintreten, wenn H1 zutrifft. Die Wahrscheinlichkeit für den Eintritt eines Fehlers 2. Art hängt dabei vom Wert des Parameters µ ab und wird – anders als die Wahrscheinlichkeit für den Eintritt eines Fehlers 1. Art – nicht durch das Testdesign unter Kontrolle gehalten. Dies geht ebenfalls aus Abbildung 15.3 hervor. Die beiden Teile der Abbildung unterscheiden sich durch die Lage der zweiten Dichtekurve. Letztere zeigt die Verteilung des Stichprobenmittelwerts unter H1 an, wobei zwei unterschiedliche Werte µ1 gewählt wurden, die zum Gültigkeitsbereich von H1 gehören. Die Wahrscheinlichkeit für den Eintritt eines Fehlers 2. Art wird durch den Inhalt der blau markierten Fläche links vom kritischen Wert repräsentiert. Je weiter µ1 von µ0 wegrückt, desto kleiner wird offenbar der β-Fehler. Die beiden Fehlerwahrscheinlichkeiten eines Tests stehen nicht in einer Komplementärbeziehung zueinander, ergänzen sich z. B. nicht zum Wert 1.
Abb. 15.3: Wahrscheinlichkeiten für den Eintritt eines Fehlers 2. Art (rechtsseitiger Test)
Abbildung 15.3 zeigt die Dichtekurven für den Stichprobenmittelwert X, also die Dichten der noch nicht standardisierten Prüfgröße. Deren Streuung hängt vom Stichprobenumfang n ab. Wenn n vergrößert wird, bleibt das Zentrum der Verteilung der Stichprobenfunktion X nach (14.6) unverändert. Die Streuung von X nimmt hingegen
Java-Applet „Fehler 1. und 2. Art“
194
15 Statistische Testverfahren
gemäß (14.7) ab, d. h. die in der Grafik wiedergegebenen Kurven werden steiler. Dies wiederum impliziert, dass in Abbildung 15.3 sowohl die rot als auch die blau markierten Flächeninhalte kleiner werden. Eine Erhöhung des Stichprobenumfangs führt also zu einer Verkleinerung für die Eintrittswahrscheinlichkeiten sowohl des α- als auch des β-Fehlers.
Bewertung der Leistungsfähigkeit eines Tests
Abbildung 15.3 verdeutlicht, dass die Wahrscheinlichkeit einer Verwerfung der Nullhypothese davon abhängt, welchen Wert der Verteilungsparameter µ tatsächlich hat. Zur Beurteilung des zweiseitigen Tests der Hypothesen (15.1) oder des einseitigen Tests der Hypothesen (15.4) bzw. (15.5) zieht man die sog. Gütefunktion G(µ) = P (Ablehnung von H0 |µ)
(15.11)
des Tests heran. Diese gibt für jeden möglichen Wert des Erwartungswerts µ des normalverteilten Merkmals X die Wahrscheinlichkeit für die Verwerfung der Nullhypothese an, spezifiziert also die Ablehnungswahrscheinlichkeit für H0 als Funktion von µ. Da G(µ) unter H0 als Wahrscheinlichkeit für den Eintritt eines Fehlers 1. Art und 1 − G(µ) wegen (15.10) für alle Werte µ im Bereich von H1 als Wahrscheinlichkeit für das Testrisiko “Fehler 2. Art“ zu interpretieren ist, kann man anhand des Verlaufs der Gütefunktion die mit dem Test verbundenen Fehlerwahrscheinlichkeiten für jeden Wert µ ablesen. Von zwei Tests, die beide mit dem Signifikanzniveau α arbeiten, wird man den Test bevorzugen, dessen Gütefunktion unter H1 einen steileren Verlauf aufweist, also geringere Wahrscheinlichkeiten für den Eintritt eines Fehlers 2. Art aufweist. Man sagt dann, dass dieser Test eine größere Trennschärfe aufweist. Gütefunktion beim einseitigen Test
Wie die Gütefunktion beim rechtsseitigen Gauß-Test verläuft, kann man – zumindest qualitativ – schon anhand von Abbildung 15.3 erschließen. Für µ = µ0 nimmt G(µ) den Wert α an, der in der Abbildung durch den rot markierten Flächeninhalt unterhalb der linken Dichtekurve dargestellt ist. Bei Werten µ < µ0 , für die ja H0 auch gilt, nimmt G(µ) Werte an, die unterhalb von α liegen und um so näher an 0 rücken, je weiter µ den Wert µ0 unterschreitet. Dies lässt sich gedanklich nachvollziehen, wenn man die auf den Fall µ = µ0 bezogene Dichtekurve in Abbildung 15.3 nach links verschiebt (in der Grafik nicht dargestellt) – die rote Fläche unterhalb der Dichtekurve wird dann kleiner. Wenn µ oberhalb von µ0 liegt, gilt G(µ) > α. Je weiter µ den Wert µ0 überschreitet, desto größer wird G(µ) und um so kleiner wird die in Abbildung 15.3 blau betonte Wahrscheinlichkeit 1 − G(µ) für den Eintritt eines Fehlers 2. Art. Die Werte G(µ) streben schließlich gegen den Wert 1, die Fehlerwahrscheinlichkeit 1 − G(µ) also gegen 0. Die Gütefunktion des rechtsseitigen Tests ist somit eine monoton wachsende Funktion mit Werten zwischen 0 und 1 und mit G(µ0 ) = α. Um sie zeichnen zu können, benötigt man natürlich die Funktionsgleichung. Sie ist durch µ − µ0 √ G(µ) = 1 − Φ z1−α − · n (15.12) σ gegeben – zur Herleitung vgl. Exkurs 15.1. Dabei bezeichnet Φ(..) wieder die in (12.19) eingeführte Verteilungsfunktion der Standardnormalverteilung. Mit (15.12) lässt sich für einen beliebigen Wert µ die Wahrscheinlichkeit G(µ) für die Verwerfung der Nullhypothese berechnen, wenn α, µ0 , σ und n vorgegeben sind. Man erkennt aus der Formeldarstel0 lung, dass man die Gütefunktionen auch als Funktion der relativen Abweichung d := µ−µ σ
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
195
betrachten kann. Dem Wert µ = µ0 entspricht dann d = 0 – hier erreicht die Gütefunktion genau den Wert α – und µ = µ0 + σ entspricht d = 1. Wenn man die Gütefunktion als Funktion der relativen Abweichung d formuliert, hat dies den Vorzug, dass man von den jeweiligen Werten µ0 und σ abstrahieren kann.
Abb. 15.4: Gütefunktion für den rechtsseitigen Gauß-Test (α = 0, 05)
Den Verlauf der Funktion (15.12) für α = 0, 05 und für n = 5 sowie für n = 10 zeigt Abbildung 15.4. Die Grafik bestätigt den schon aus 15.3 erschlossenen Befund, dass eine Erhöhung von n für alle Werte µ 6= µ0 zu einer Reduzierung beider Testrisiken führt. Man verifiziert insbesondere, dass die Gütefunktion für den Test mit dem größeren Stichprobenumfang unter H1 einen steileren Verlauf aufweist, also trennschärfer ist. Für den linksseitigen Test gilt analog zum rechtsseitigen Fall, dass die Gütefunktion eine von 1 nach 0 streng monoton fallende Funktion ist und in µ0 ebenfalls den Wert G(µ0 ) = α annimmt (vgl. Aufgabe 15.2). Sie ist durch µ − µ0 √ G(µ) = Φ −z1−α − · n σ
(15.13)
gegeben. Die hier unterdrückte Herleitung unterscheidet sich kaum von der Herleitung der Gütefunktion (15.12). Beim zweiseitigen Gauß-Test (15.1) ist die Verwerfung der Nullhypothese eine Fehlentscheidung, die nur für µ = µ0 und dort mit Wahrscheinlichkeit α eintreten kann. Trifft hingegen H0 nicht zu, so sind zwei Werte µ, die gleich weit von µ0 entfernt liegen, mit demselben Wert G(µ) verknüpft, d. h. die Gütefunktion ist symmetrisch bezüglich µ0 . Sie verläuft bis µ0 streng monoton fallend und danach streng monoton steigend. Die
Gütefunktion beim zweiseitigen Test
196
15 Statistische Testverfahren
hier ohne Beweis angegebene Formel lautet µ − µ0 √ µ − µ0 √ G(µ) = Φ −z1−α/2 + · n + Φ −z1−α/2 − · n . σ σ
Java-Applet „Gütefunktion (zweiseitiger Gauß-Test)“
(15.14)
Abbildung 15.5 zeigt, dass G(µ) für µ 6= µ0 um so größere Werte annimmt, je weiter µ von µ0 entfernt ist, um schließlich den Wert G(µ) = 1 zu erreichen. Die Wahrscheinlichkeit 1 − G(µ) für den Eintritt eines Fehlers 2. Art nähert sich also um so mehr dem Wert 0, je weiter µ von µ0 entfernt liegt. In die Abbildung 15.5 ist wieder eine zweite Abszissenachse eingezeichnet (Darstellung der Gütefunktion als Funktion der relativen Abweichung d).
Abb. 15.5: Gütefunktion für den zweiseitigen Gauß-Test (α = 0, 05)
Die vorgestellten Gütefunktionen hängen, wie man den Formeldarstellungen entnehmen kann, nicht nur von n, sondern offenbar auch von σ und α ab. In der Praxis liefern Gütefunktionen eine Entscheidungshilfe, wenn man sich bei einem Test für einen Stichprobenumfang n zu entscheiden hat oder auch bei der Wahl zwischen zwei mit unterschiedlichen Prüfgrößen operierenden Tests.
Beispiel 15.3 Test auf Einhaltung von Füllgewichten
In einer Fabrik wird Zucker in Tüten abgefüllt, auf denen das Füllgewicht X auf der Packung mit 2 kg angegeben ist. Aus Voruntersuchungen ist bekannt, dass X normalverteilt ist mit Standardabweichung σ = 0, 01 kg. Aus einer Stichprobe von n = 10 Zuckertüten wurde für das Füllgewicht der Mittelwert x = 1, 996 kg errechnet. Es soll anhand eines statistischen Tests (15.5) mit µ0 = 2 kg eine Aussage darüber abgeleitet werden, ob der Stichprobenbefund als Indiz für eine systematische Unterschreitung des
15.2 Grundbegriffe und Gauß-Test für Erwartungswerte
197
Soll-Füllgewichts angesehen werden darf. Die Wahrscheinlichkeit für das Eintreten eines Fehlers 1. Art soll den Wert α = 0, 05 nicht überschreiten. Die Ablehnung der Nullhypothese H0 : µ ≥ µ0 erfolgt gemäß (15.7) genau dann, wenn die Ausprägung z=
√ x−2 √ · 10 = 100 · (1, 996 − 2) · 10 ≈ −1, 2649 0, 01
der standardnormalverteilten Prüfstatistik Z aus (15.2) den aus Tabelle 19.3 ablesbaren Wert z0,05 = −z0,95 = −1, 6449 unterschreitet. Da dies hier nicht zutrifft, kann H0 nicht verworfen werden. Die Differenz zwischen x = 1, 996 kg und dem Soll-Füllgewicht von 2 kg ist also hier nur auf zufällige Abweichungen zurückzuführen und statistisch nicht signifikant. Es gibt noch eine Alternative für die Durchführung von Hypothesentests, bei der die Testentscheidung nicht auf dem Vergleich von Testvariablenwerten und kritischen Werten beruht, sondern auf dem Vergleich eines vorgegebenen Signifikanzniveaus α mit dem sogenannten p-Wert α0 (engl: probability value), der auch als empirisches Signifikanzniveau bezeichnet wird. Der p-Wert gibt das Niveau α0 an, bei dem die Nullhypothese bei Verwendung des jeweiligen Datensatzes gerade noch verworfen würde. Wäre also der beim Testen verwendete Datensatz auf dem Signifikanzniveau α0 getestet worden, so läge der Wert der Teststatistik am Rande des Verwerfungsbereichs. Gilt für das tatsächlich verwendete Signifikanzniveau α (vorab spezifizierter Designparameter des Tests) die Bedingung α0 ≤ α, ist die Nullhypothese H0 abzulehnen, im Falle α0 > α hingegen nicht. Man wird die Nullhypothese also genau dann verwerfen, wenn der p-Wert α0 kleiner als α ist. Man kann diese Aussage beispielhaft anhand von Abbildung 12.7 illustrieren, wenn man dort auch α0 durch eine farbige Fläche darstellt. Diese Fläche wäre kleiner als die α repräsentierende Fläche, wenn sie weiter rechts beginnen würde, also rechts von den in der Abbildung eingezeichneten Quantilen. In Beispiel 15.3, bei dem die standardnormalverteilte Teststatistik beim linksseitigen Gauß-Test zum Signifikanzniveau α = 0, 05 den Wert z ≈ −1, 2649 besaß, ist der p-Wert dasjenige Niveau α0 , für das zα0 = −1, 2649 gilt, also z1−α0 = 1, 2649. Das letztgenannte Quantil ist charakterisiert durch die Gleichung Φ(1, 2649) = 1 − α0 , aus der man α0 bestimmen kann. Mit Tabelle 19.2 erhält man Φ(1, 2649) ≈ 0, 897 und damit α0 = 1 − 0, 897 = 0, 103. Wegen α0 = 0, 103 > 0, 05 = α kann H0 nicht abgelehnt werden. Der p-Wert wird von gängigen Statistik-Softwarepaketen, etwa SPSS oder STATA, bei Hypothesentests automatisch ausgewiesen. Wenn man in der herkömmlichen Weise testet, indem man das Signifikanzniveau vorgibt und dann den Stichprobenbefund mit von α abhängigen kritischen Werten vergleicht, gleicht dies einer Null-Eins-Entscheidung (Ablehnung oder Nicht-Ablehnung) – es spielt hier ja bei der Testentscheidung keine Rolle, wie weit das Stichprobenergebnis vom kritischen Wert entfernt liegt. Bei einer Testdurchführung, bei der der p-Wert α0 mit dem Signifikanzniveau α verglichen wird, erhält man nuanciertere Informationen.
Aufgabe 15.1-3
Was sagt der p-Wert aus?
Java-Applet „p-Wert (einseitiger Test)“
198
15 Statistische Testverfahren
Exkurs 15.1
Gütefunktion beim rechtsseitigen Gauß-Test
Beim rechtsseitigen Gauß-Test (15.4) erfolgt die Ablehnung der Nullhypothese H0 , wenn für die Realisation z der standardnormalverteilten Prüfgröße Z aus (15.2) die Bedingung z > z1−α erfüllt ist. Für die Gütefunktion (15.12) des Tests beinhaltet dies, dass X − µ0 X − µ0 √ G(µ) = P (Z > z1−α |µ) = P > z1−α |µ = P · n > z1−α |µ . σX σ Wenn man im Zähler des vor dem Ungleichheitszeichen stehenden Bruchs µ addiert und gleichzeitig subtrahiert, kann man nach einfachen Umformungen erreichen, dass der Term vor dem Ungleichheitszeichen von µ abhängt: X − µ0 + µ − µ √ X −µ √ µ − µ0 √ G(µ) = P · n > z1−α |µ = P · n > z1−α − · n|µ . σ σ σ Da der in der Klammer vor dem Ungleichheitszeichen stehende Term standardnormalverteilt ist, folgt bei Beachtung von (12.20) X −µ √ µ − µ0 √ µ − µ0 √ G(µ) = 1 − P · n < z1−α − · n|µ = 1 − Φ z1−α − · n . σ σ σ Dies ist die herzuleitende Darstellung (15.12).
3
15.3 t-Test für Erwartungswerte Die Hypothesen (15.1), (15.4) und (15.5) beziehen sich auf den Erwartungswert eines normalverteilten Merkmals X. Die Verwendung der Prüfgröße (15.2) setzt voraus, dass die Varianz σ 2 bzw. die Standardabweichung σ von X bekannt ist. In der Praxis wird man aber meist nur auf eine Schätzung dieser Streuungsparameter zurückgreifen können. In (15.2) ist dann σ durch eine Schätzung σ b zu ersetzen, wobei man wegen (14.9) anstelle der Stichprobenstandardabweichung S die korrigierte Stichprobenstandardabweichung S∗ = σ b wählt. Nach (13.10) ist die resultierende Prüfstatistik T :=
X − µ0 √ · n S∗
(15.15)
t-verteilt mit ν := n − 1 Freiheitsgraden (lies: nü). Man kann den Annahme- und Ablehnungsbereich des mit (15.15) operierenden zweiseitigen Tests analog zu Abbildung 15.1 visualisieren, wenn man dort lediglich z1−α/2 durch das entsprechende Quantil tν;1−α/2 der t-Verteilung mit ν = n − 1 Freiheitsgraden ersetzt. Da der Test mit einer t-verteilten Prüfstatistik arbeitet, wird er als t-Test angesprochen.
Flash-Animation „Zweiseitiger t-Test“
Die an Abbildung 12.6 anknüpfende Abbildung 15.6 zeigt die Dichtekurve der tverteilten Variablen (15.15) unter H0 im Falle ν = 6 und den Annahme- und Ablehnungsbereich des zweiseitigen t-Tests. Die Dichtekurve der Standardnormalverteilung aus Abbildung 15.1 ist zu Vergleichszwecken ebenfalls eingezeichnet. Der Annahmebereich [−tν;1−α/2 ; tν;1−α/2 ] des t-Tests ist stets breiter als das in Abbildung 15.1 auf der unteren Abszissenachse dargestellte Intervall [−z1−α/2 ; z1−α/2 ], das den Annahmebereich
15.3 t-Test für Erwartungswerte
199
Abb. 15.6: Annahme- und Ablehnungsbereich für H0 (zweiseitiger Test für den Erwartungswert eines normalverteilten Merkmals, Varianz geschätzt)
des zweiseitigen Gauß-Tests repräsentiert. Die Unterschiede nehmen aber mit zunehmendem Wert von ν = n − 1 ab. Für α = 0, 05 ist [−z1−α/2 ; z1−α/2 ] für jeden Stichprobenumfang durch [−1, 96; 1, 96] gegeben, während [−tν;1−α/2 ; tν;1−α/2 ] nach Tabelle 19.5 im Falle ν = 6 durch [−2, 447; 2, 447], für ν = 15 durch [−2, 131; 2, 131] und für ν = 40 durch [−2, 021; 2, 021] definiert ist. Für ν ≥ 30 kann man in guter Näherung die Quantile der Standardnormalverteilung anstelle der t-Quantile verwenden. Falls die Nullhypothese H0 zutrifft, wird sie also bei dem mit der Prüfgröße (15.15) operierenden zweiseitigen Test mit Wahrscheinlichkeit α verworfen. Die Verwerfung von H0 erfolgt, wenn die Prüfgröße außerhalb des in Abbildung 15.6 veranschaulichten Intervalls [−tν;1−α/2 ; tν;1−α/2 ] liegt. Letzteres bedeutet, dass |t| > tν;1−α/2
Java-Applet „Ablehnungsbereich (zweiseitiger t-Test)“
(15.16)
gilt. Die Irrtumswahrscheinlichkeit α ist, analog zu Abbildung 15.1, durch zwei gleich große blaue Flächen dargestellt. Beim rechtsseitigen t-Test erfolgt die Ablehnung der Nullhypothese unter der Bedingung t > tν;1−α
(15.17)
t < tν;α = −tν;1−α .
(15.18)
und im linksseitigen Fall für
Java-Applet „Einseitiger Gauß- und t-Test“
200
15 Statistische Testverfahren
Abb. 15.7: Annahme- und Ablehnungsbereich für H0 (rechtsseitiger Test, Varianz geschätzt)
Abbildung 15.6, die den Annahmebereich für H0 beim zweiseitigen Test mit der Prüfvariablen T aus (15.15) veranschaulicht, ist auch auf den einseitigen Fall nach nur geringfügiger Anpassung übertragbar. Anstelle des α2 -Quantils und des (1 − α2 )-Quantils, die in Abbildung 15.6 die Grenzen des Annahmebereichs markieren, wird der Annahmebereich nun durch ein einziges Quantil vom Ablehnungsbereich getrennt. Beim rechtsseitigen Test ist es das (1 − α)-Quantil, beim linksseitigen Test das α-Quantil. Abbildung 15.7 zeigt, wie Abbildung 15.6 im rechtsseitigen Fall zu modifizieren ist.
15.4 χ2 -Test für Varianzen Die Ausführungen aus Abschnitt 15.3 über das Testen zwei- und einseitiger Hypothesen für Erwartungswerte bei normalverteiltem Merkmal lassen sich leicht auf Hypothesen für Varianzen übertragen. Die Vorgehensweise sei hier nur angerissen. Die zu (15.1) analogen Hypothesen für den zweiseitigen Fall lauten nun H0 : σ 2 = σ02 Hypothesen, Prüfgröße und Ablehnbedingungen
gegen
H1 : σ2 6= σ02 .
(15.19)
Der Test wird durchgeführt mit der Prüfstatistik T :=
n · S2 (n − 1) · S ∗2 = , σ02 σ02
(15.20)
die nach (13.9) einer χ2 -Verteilung mit ν = n − 1 Freiheitsgraden folgt: T ∼ χ2n−1 . Die Nullhypothese aus (15.19) wird bei diesem zweiseitigem χ2 -Test mit Irrtumswahrscheinlichkeit α verworfen, wenn die Realisation t der Prüfgröße entweder kleiner als
15.5 Zweistichproben-Tests für Erwartungswerte
201
χ2ν;α/2 oder größer als χ2ν;1−α/2 ist, wenn also die berechnete Testgröße die Bedingung t∈ / [χ2ν;α/2 ; χ2ν;1−α/2 ]
(15.21)
(lies: t ist nicht Element von ..) erfüllt. Man beachte, dass die Intervallgrenzen – anders als die Grenzen des Ablehnbereichs [t2ν;α/2 ; t2ν;1−α/2 ] aus Abbildung 15.6 – nicht symmetrisch zueinander liegen, weil die χ2 -Verteilung asymmetrisch ist. Für den einseitigen Fall hat man anstelle von (15.4) und (15.5) H0 : σ 2 ≤ σ02
gegen
H1 : σ 2 > σ02
(rechtsseitiger Test)
(15.22)
H0 : σ 2 ≥ σ02
gegen
H1 : σ 2 < σ02
(linksseitiger Test).
(15.23)
resp.
Beim rechtsseitigen Test wird H0 mit einer Irrtumswahrscheinlichkeit von höchstens α verworfen, wenn für die Realisation t der Testgröße T aus (15.20) t > χ2ν;1−α
(15.24)
gilt. Die Ablehnbedingung für die Nullhypothese H0 beim linksseitigen Test lautet entsprechend t < χ2ν;α .
(15.25)
Die Ablehnbereiche lassen sich analog zu Abbildung 15.2 und Abbildung 15.3 veranschaulichen. Man muss nur die Dichte der χ2 -Verteilung mit ν = n − 1 Freiheitsgraden visualisieren (vgl. Abbildung 12.5) und dann in der Grafik beim zweiseitigen Test die Quantile χ2ν;α/2 und χ2ν;1−α/2 , beim rechtsseitigen Test das Quantil χ2ν;1−α und beim linksseitigen Test das Quantil χ2ν;α auf der Abszissenachse markieren. Die Quantile sind jeweils Tabelle 19.4 des Anhangs zu entnehmen.
15.5 Zweistichproben-Tests für Erwartungswerte Die bisher vorgestellten Tests bezogen sich auf Einstichproben-Tests für den Erwartungswert oder die Varianz eines als normalverteilt spezifizierten Merkmals X. Bei den Tests für Erwartungswerte wurde unter der Voraussetzung einer bekannten Varianz der standardisierte Stichprobenmittelwert (15.2) als Prüfvariable herangezogen (Gauß-Test), bei geschätzter Varianz die in (15.15) eingeführte t-verteilte Teststatistik (t-Test). In der Praxis hat man häufig den Fall, dass Daten für ein Merkmal vorliegen, die aus zwei Teilmengen einer Grundgesamtheit stammen. Man möchte dann prüfen, ob es bezüglich des interessierenden Merkmals eventuell Niveauunterschiede für die beiden Teilpopulationen gibt. Man denke etwa an Daten zu Mathematikleistungen für Jungen und Mädchen oder an die Ergebnisse eines psychologischen Experiments, bei dem Daten in einer Versuchs- und in einer Kontrollgruppe anfallen.
202
15 Statistische Testverfahren
Formal kann man in solchen Fällen die Daten als Ausprägungen zweier Zufallsvariablen X1 und X2 interpretieren, für die zwei separate Stichproben des Umfangs n1 bzw. n2 vorliegen, und anhand eines Zweistichproben-Tests untersuchen, ob sich die Erwartungswerte µ1 := E(X1 ) und µ2 := E(X2 ) beider Zufallsvariablen signifikant unterscheiden. Getestet wird also im hier auschließlich betrachteten zweiseitigen Fall anstelle von (15.1) H0 : µ1 = µ2
gegen
H1 : µ1 6= µ2 .
(15.26)
Die Zufallsvariablen X1 und X2 seien hier als unabhängig angenommen, d.h. es wird unterstellt, dass unabhängige Stichproben vorliegen. 2
Prüfvariablenkonstruktion
Wie bei den Einstichproben-Tests für Erwartungswerte wird auch bei ZweistichprobenTests meist Normalverteilung unterstellt, also X1 ∼ N (µ1 ; σ12 ) und X2 ∼ N (µ2 ; σ22 ). Man kann dann wieder zwischen den Fällen bekannter und geschätzter Varianzen σ12 und σ22 differenzieren. In beiden Fällen geht man bei der Konstruktion einer Prüfstatistik von der Differenz D := X 1 − X 2
(15.27)
2 2 der Stichprobenmittelwerte aus. Nach (13.6) gilt X1 ∼ N (µ1 ; σX ) und X2 ∼ N (µ2 ; σX ). 1 2 Für die Differenz D ergibt sich daraus mit (12.17) und der vorausgesetzten Unabhängigkeit der Stichproben 2 D ∼ N (µD ; σD )
µD = µ1 − µ2 ;
mit
2 2 2 σD = σX + σX . 1 2
(15.28)
2 Für die Varianz σD kann man wegen (14.7) auch 2 σD =
σ12 σ22 + n1 n2
(15.29)
2 schreiben. Bei Gültigkeit von H0 ist µD = 0, also D ∼ N (0; σD ), so dass man unter der 2 2 Voraussetzung bekannter Varianzen σ1 und σ2 den Test der Hypothesen (15.26) anhand der standardnormalverteilten Prüfgröße
Z=
D X1 − X2 =q 2 σ1 σ2 σD + n22 n1
(15.30)
durchführen kann. Haben die beiden Varianzen denselben Wert, etwa σ 2 := σ12 = σ22 , vereinfacht sich (15.30) zu r X1 − X2 X1 − X2 n1 · n2 q Z= = · . σ n1 + n2 σ · n11 + n12 2
Bei Zwei-Stichproben-Untersuchungen in der Psychologie ist die Unabhängigkeit von X1 und X2 zum Beispiel verletzt, wenn man für dieselben Personen zu zwei verschiedenen Zeitpunkten Daten erhebt, also eine Messwertwiederholung durchführt, etwa um Effekte intervenierender Maßnahmen zu quantifizieren. Man hat dann abhängige Stichproben, die auch als verbundene Stichproben bezeichnet werden.
15.5 Zweistichproben-Tests für Erwartungswerte
203
Die Nullhypothese wird bei diesem Zweistichproben-Gauß-Test mit Irrtumswahrscheinlichkeit α verworfen, wenn |z| > z1−α/2 gilt. Diese Aussage gilt unabhängig davon, ob die Varianzen übereinstimmen oder nicht. 2 Bei unbekannten Varianzen ist σD zu schätzen. Die Vorgehensweise sei hier nur angerissen. Bezeichnet man die analog zu (14.9) definierten korrigierten Varianzen der beiden Stichproben mit S1∗2 resp. S2∗2 , so liefert 2 σ bD :=
(n1 − 1) · S1∗2 + (n2 − 1) · S2∗2 (n1 − 1) + (n2 − 1)
(15.31)
2 eine erwartungstreue Schätzung für σD , die die beiden Stichprobenvarianzen mit dem Umfang der Stichprobenumfänge gewichtet. Einsetzen in (15.30) führt zur Prüfstatistik
T =q
X1 − X2 (n1 −1)·S1∗2 +(n2 −1)·S2∗2 n1 +n2 −2
(15.32)
des Zweistichproben-t-Tests. Für die Prüfvariable (15.32) kann man zeigen, dass sie bei Gleichheit der beiden Stichprobenvarianzen t-verteilt ist mit ν = n1 + n2 − 2 Freiheitsgraden (vgl. Mosler / Schmid (2011, Abschnitt 6.2.2)). Die Nullhypothese wird dann zum Signifikanzniveau α verworfen, falls für die Prüfgröße die Bedingung |t| > tν;1−α/2 zutrifft.
16 Das lineare Regressionsmodell Sir Francis Galton (1822 - 1911), Sohn einer wohlhabenden Quäkerfamilie und Halbcousin von Charles Darwin (1809 - 1882), war ein wissbegieriger Weltreisender und vor allem ein überaus vielseitiger Naturforscher, der u. a. Wetterdaten auswertete und Klimakarten publizierte, erstmals Verfahren zur Personenidentifikation anhand von Fingerabdrücken entwickelte und sich – mit polarisierender Wirkung – auch zu Fragen der Vererbungslehre äußerte. Er sammelte Daten, um aus diesen Zusammenhangshypothesen abzuleiten und empirisch abzusichern. Seine empirischen Arbeiten sind für mehrere Wissenschaftszweige als Pionierleistungen zu bewerten. Dies gilt insbesondere für die Statistik sowie für die Biometrie, die sich mit der Gewinnung und Auswertung von Daten an Lebewesen befasst und ein wichtiges Anwendungsfeld der Statistik darstellt.
Sir Francis Galton
Im Bereich der Statistik hat Galton nicht nur das heute als Galtonbrett benannte Demonstrationsmodell für das Zustandekommen bestimmter Wahrscheinlichkeitsverteilungen hervorgebracht, sondern auch zur Entwicklung der Regressionsanalyse beigetragen. So widmete er sich z. B. der Untersuchung eines Zusammenhangs zwischen der Körpergröße X von Eltern – er verwendete für X den Mittelwert der Körpergrößen beider Elternteile – und der Größe Y ihrer Kinder im Erwachsenenalter.1 Galton stellte fest, dass die beobachteten Datenpaare (x1 ; y1 ), . . . , (xn ; yn ) um eine Gerade mit positiver Steigung streuten. Auffällig war, dass die Ausprägungen des Merkmals Y , die sich auf den gleichen Wert des Merkmals X bezogen, annähernd normalverteilt waren. Die Varianz der Normalverteilung schien aber für verschiedene Werte von X konstant zu bleiben. Hieraus folgerte Galton, dass man zwischen beiden Merkmalen einen linearen Zusammenhang unterstellen kann, der aber durch nicht-systematische Zufallseinflüsse überdeckt ist. Diese Studie kann als erste Regressionsanalyse der Statistik angesehen werden. Die Körpergröße von Kindern wurde hier zurückgeführt (Regression = Rückbildung; Rückführung) auf die Körpergröße der Eltern. Die Regressionsanalyse zielt darauf ab, die Werte einer Variablen Y anhand der Werte eines Merkmals X oder auch mehrerer Merkmale X1 , . . . , Xk zu erklären, wobei der Zusammenhang über eine Funktion f modelliert wird. Letztere wird Regressionsfunktion genannt. Im Falle nur eines erklärenden Merkmals spricht man vom einfachen Regressionsmodell, bei Verwendung mehrerer erklärender Merkmale vom multiplen Regressionsmodell. 1
Details zu dieser Studie sind einer anspruchsvollen Monografie über Regressionsmodelle von Fahrmeir / Kneip / Lang (2007, Kapitel 1) zu entnehmen. Das sehr umfassende Buch behandelt neben dem linearen Regressionsmodell verallgemeinerte lineare Modelle, etwa Modelle mit diskreten erklärenden Variablen, und auch nicht-parametrische Regressionsansätze sowie moderne Visualisierungstechniken.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_16, © Springer-Verlag Berlin Heidelberg 2011
205
Grundbegriffe der Regressionsanalyse
206
16 Das lineare Regressionsmodell
Wenn die Funktion f als linear spezifiziert ist, liegt ein lineares Regressionsmodell vor, bei nicht-linearem Funktionstyp f ein nicht-lineares Regressionsmodell. In allen Fällen wird angenommen, dass der funktionale Zusammenhang nicht exakt gilt, sondern durch nicht-systematische zufällige Störeinflüsse überlagert ist. Nicht-systematisch meint, dass sich die Störungen „im Mittel“ aufheben. Abbildung 16.1 zeigt im oberen Teil Datenpunkte in der Ebene bzw. im Raum und eine lineare Funktion, mit der ein funktionaler Zusammenhang zwischen einem Merkmal Y und k erklärenden Variablen modelliert wird. Der Fall k = 1 führt zum einfachen linearen Regressionsmodell, der Fall k = 2 zum multiplen linearen Regressionsmodell mit zwei unabhängigen Variablen. Der untere Teil der Abbildung bezieht sich ebenfalls auf die Fälle k = 1 und k = 2, hier aber für einen nicht-linearen Regressionsansatz:
Abb. 16.1: Lineare und nicht-lineare Regressionen mit 1 - 2 erklärenden Variablen
16.1 Das einfache lineare Regressionsmodell In diesem Manuskript wird nur das lineare Regressionsmodell thematisiert. Ausgangspunkt sei zunächst das einfache lineare Regressionsmodell. Die Regressionsfunktion f ist hier durch eine Gerade repräsentiert, die auch Regressionsgerade heißt. Deren Lage lässt sich anhand von Beobachtungen (x1 , y1 ), . . . , (xn , yn ) für die beiden Merkmale X und Y festlegen. Wenn – wie im linken oberen Teil von Abbildung 16.1 beispielhaft illustriert – der lineare Zusammenhang zwischen erklärender und erklärter Variablen durch eine von Beobachtungsperiode zu Beobachtungsperiode variierende Störung überlagert
16.1 Das einfache lineare Regressionsmodell
207
wird, kann man letztere formal in jeder Periode durch eine nicht direkt beobachtbare Zufallsvariable (Störvariable) modellieren, für die sich die Ausprägung ui einstellt. Man hat also auf der empirischen Ebene die Beziehung2 yi = α + βxi + ui
i = 1, . . . , n.
(16.1)
Die die Lage der Geraden determinierenden Parameter α (Schnittpunkt mit der y-Achse) und β (Steigung der Geraden) heißen Regressionskoeffizienten. Für die Variablen X und Y werden in der Literatur verschiedene Begriffe synonym verwendet: Modellvariable X erklärende Variable unabhängige Variable exogene Variable Regressor
Flash-Animation „Das einfache Regressionsmodell“
Modellvariable Y erklärte Variable abhängige Variable endogene Variable Regressand
Tab. 16.1: Bezeichnungen für Variablen des einfachen linearen Regressionsmodells
Falls das Merkmal X unter kontrollierten Bedingungen im Rahmen eines Experiments verändert wird, bezeichnet man es auch als Kontrollvariable oder - etwa in der Psychologie - als Stimulus, während das Merkmal Y als Ziel- oder Responsevariable angesprochen wird. Im Kontext des Einsatzes von Regressionsmodellen zu Prognosezwecken nennt man die erklärende Variable auch gelegentlich Prädiktor oder Prädiktorvariable. In der Psychologie wird der Terminus „Prädiktor“ i. a. in der Bedeutung von „unabhängige Variable“ verwendet und für die abhängige Variable findet man hier auch den Terminus Kriterium. Wenn man die Störeinflüsse ui als Realisationen von Zufallsvariablen Ui modelliert, sind auch die Werte yi der abhängigen Variablen Y als Ausprägungen von Zufallsvariablen Yi zu interpretieren. Die Werte xi der erklärenden Variablen X werden hingegen i. a. als determiniert modelliert, also als nicht-stochastische Größen. Mit diesen Annahmen lässt sich das einfache lineare Regressionsmodell in der Form Yi = α + βxi + Ui
i = 1, . . . , n
(16.2)
schreiben. Die zu (16.2) gehörenden Modellannahmen sind nachstehend aufgelistet: Annahmen bezüglich der Spezifikation der Regressionsfunktion: A1: Außer der Variablen X werden keine weiteren exogenen Variablen zur Erklärung von Y benötigt. A2: Die lineare Funktion, die den Zusammenhang zwischen der erklärenden Variablen X und der erklärten Variablen Y vermittelt, ist fest, d. h. die Parameter α und β sind konstant. 2
Die Notation ist in der Literatur nicht ganz einheitlich. In manchen Statistik-Lehrbüchern werden für die Regressionskoeffizienten die Bezeichnungen a und b anstelle von α und β verwendet und für die Störvariable findet man auch i oder ei statt ui .
Modellannahmen
208
16 Das lineare Regressionsmodell
Annahmen bezüglich der Störvariablen: A3a: Die beobachteten Störeinflüsse ui sind Ausprägungen von Zufallsvariablen Ui mit Erwartungswert 0 und Varianz σu2 , die im Folgenden mit σ 2 abgekürzt sei. Die Störungen sind also nicht-systematischer Natur und die Stärke der Zufallsschwankungen um die Regressionsgerade ändert sich nicht (Annahme sog. Homoskedastizität). A3b: Störvariablen aus unterschiedlichen Beobachtungsperioden (i 6= j), sind unkorreliert (Annahme fehlender Autokorrelation).3 A3c: Die Störvariablen Ui sind normalverteilt. Die Annahmen A3a - A3c lassen sich zusammenfassen zu der Aussage, dass die Störeinflüsse unabhängig identisch N (0; σ 2 )-verteilt sind: A3: Die Störvariablen Ui sind unabhängig identisch N (0; σ 2 )-verteilte Zufallsvariablen. Annahmen bezüglich der unabhängigen Modellvariablen: A4: Die Werte der unabhängigen Variable X sind determiniert, d. h. die unabhängige Variable wird nicht als Zufallsvariable spezifiziert. A5: Die Variable X ist nicht konstant für i = 1, . . . , n (Ausschluss eines trivialen Falls).
16.2 KQ-Schätzung im einfachen Regressionsmodell Ohne den Störterm ui wäre die lineare Regression (16.1) eine exakte Linearbeziehung. Die Beobachtungsdaten (xi , yi ) würden dann alle auf einer Geraden R liegen, die sich durch die Gleichung y = α + βx beschreiben ließe. Diese „wahre“ Gerade ist unbekannt, d. h. die sie determinierenden Regressionskoeffizienten α und β müssen anhand der Daten geschätzt werden. Für die b verwendet und für die zugehörige Geradengleigeschätzte Gerade wird die Notation R chung b yb = α b + βx.
(16.3)
Zur Schätzung der Regressionskoeffizienten wird in der Praxis meist die Methode der kleinsten Quadrate herangezogen, kurz KQ-Schätzung. Bei dieser greift man auf die Abweichungen b i ubi = yi − ybi = yi − α b − βx 3
i = 1, . . . , n
(16.4)
Oft wird anstelle von Unkorreliertheit von Störvariablen aus verschiedenen Beobachtungsperioden die etwas stärkere Forderung stochastischer Unabhängigkeit gefordert, die nach (13.17) Unkorreliertheit impliziert.
16.2 KQ-Schätzung im einfachen Regressionsmodell
209
zwischen dem Beobachtungswert yi und dem Wert ybi der Regressionsgeraden in der Beobachtungsperiode i zurück. Die Differenzen (16.4) werden Residuen genannt. Da diese sowohl positiv als auch negativ sein können, ist die Residuensumme kein geeignetes Kriterium für die Auswahl einer „gut“ angepassten Regressionsgeraden. Man wählt bei der KQ-Methode daher aus der Menge aller denkbaren Anpassungsgeraden diejenige b aus, bei der die Summe der quadrierten Residuen ubi 2 bezüglich der Regressionsgerade R beiden Geradenparameter minimal ist:
n X
2
ubi =
n X
i=1
b i )2 → M in. (yi − α b − βx
(16.5)
i=1
Abbildung 16.2 veranschaulicht das Prinzip. Die Abbildung zeigt einen kleineren bivariaten Datensatz (xi , yi ) und eine – zunächst noch nicht optimierte – Regressionsgerade. Für einen ausgewählten Datenpunkt (xi , yi ) ist das Residuum ubi = yi − ybi visualisiert. Die KQ-Regressionsgerade ist dann dadurch charakterisiert, dass für sie die in (16.5) wiedergegebene Summe ein Minimum erreicht. y
Prinzip der KQ-Schätzung
y = α + β · x
yi yi
Flash-Animation „Bestimmung der Regressionsgeraden“
ui
{
α
KQ-Prinzip: n Minimiere i=1 u 2i xi
x
Abb. 16.2: Veranschaulichung des Begriffs „Residuum“ und der KQ-Methode
Für die KQ-Gerade und deren Koeffizienten könnte man zur Kennzeichnung des bKQ , α Schätzverfahrens einen Index „KQ“ anbringen, also z. B. R bKQ und βbKQ schreiben.4 Da in diesem Manuskript nur die KQ-Methode zur Schätzung von Regressionskoeffizienten verwendet wird, wird der Index unterdrückt. Um eine Formel für die KQ-Schätzungen α und β zu erhalten, muss man die Summe (16.5), deren Wert offenbar von den Geradenparametern abhängt, nach beiden Parametern einzeln differenzieren (sog. partielle Differentiation), anschließend die resultierenden Gleichungen Null setzen und nach α und β auflösen. Man erhält bei Beachtung der Va4
Wenn eine andere Schätzmethode im Spiel ist, z. B. die hier nicht thematisierte MaximumLikelihood-Methode , ließe sich dies entsprechend kenntlich machen, etwa durch einen tiefgestellten Index „ML“.
KQ-Schätzung der Regressionskoeffizienten
210
16 Das lineare Regressionsmodell
rianzzerlegungsformel (5.7) für die Regressionskoeffizienten β und α5 sxy xy − x y βb = 2 = sx x2 − x2 α b = y − βb · x.
Eigenschaften der KQ-Regression
(16.6) (16.7)
Wenn man in die Gleichung (16.3) der Regressionsgeraden für x den Wert x = x einsetzt, resultiert für die abhängige Variable der Wert yb = α b + βb · x, nach (16.7) also yb = y. Dies bedeutet, dass die nach der KQ-Methode ermittelte Regressionsgerade stets durch den Schwerpunkt (x, y) des für die Schätzung herangezogenen Datensatzes (x1 ; y1 ), . . . , (xn ; yn ) geht. Mit (16.7) kann man außerdem ableiten, dass die Summe der KQ-Residuen stets Null ist. Setzt man nämlich in (16.4) für α b gemäß (16.7) den Term b y − β · x ein, erhält man zunächst ubi = yi − (y − βb · x) − βb · xi = yi − y + βb · x − βb · xi i = 1, . . . , n und hieraus durch Aufsummieren der n Terme n n n X X X b b ubi = yi − ny + β · nx − β · xi = n · (y − y + x − x) = 0. i=1
i=1
i=1
Dies bedeutet, dass die KQ-Schätzung fehlerausgleichend wirkt, in dem Sinne, dass sich die Abweichungen u bi zwischen den Ordinatenwerten der Datenpunkte und denen der Regressionsgeraden herausmitteln. KQ-Schätzung der Varianz der Störvariablen
Nicht nur die Koeffizienten β und α, sondern auch die in A3a eingehende Varianz σ := σu2 der Störvariablen lässt sich anhand der Beobachtungsdaten schätzen. Man verwendet hierfür die Summe der quadrierten Residuen u b2i , die man noch durch n − 2 dividiert, weil diese Korrektur zu einer erwartungstreuen Schätzung führt. Man erhält mit (16.4) n n X X 1 1 2 b 2 b i )2 σ = · u bi = · (yi − α b − βx (16.8) n − 2 i=1 n − 2 i=1 2
mit βb und α b aus (16.6) und (16.7). Beispiel 16.1 Berechnung von KQ-Schätzungen Die Berechnung der KQ-Schätzwerte nach diesen Formeln sei aus didaktischen Gründen – leichte Berechenbarkeit nur mit Papier und Bleistift – anhand eines sehr kleinen Datensatzes illustriert. Der Beispieldatensatz ist einem Ökonometrielehrbuch von von Auer (2007, dort Tabelle 3.1) entnommen und bezieht sich auf n = 3 Restaurantbesucher, für die die Merkmale „Rechnungsbetrag X in Euro“ und „gezahltes Trinkgeld Y in Euro“ erfasst wurden. Die Beobachtungspaare sind (10; 2),(30; 3) und (50; 7). Es wird angenommen, dass der Modellansatz (16.1) hier anwendbar ist, die Höhe des Trinkgelds also eine durch Störeinflüsse überlagerte lineare Funktion des Rechnungsbetrags ist. Wenn man sxy und s2x zu Übungszwecken manuell berechnen will, empfiehlt es sich, eine Arbeitstabelle anzulegen: 5
Bezüglich der Herleitung der beiden KQ-Schätzformeln sei auf Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 3.6.2) verwiesen.
16.2 KQ-Schätzung im einfachen Regressionsmodell
i 1 2 3 Summe Kenngrößen
xi − x -20 0 20
xi 10 30 50 90 x=
90 3
= 30
(xi − x)2 400 0 400 800 s2x = 800 3
211
yi − y -2 -1 3
yi 2 3 7 12 y=
12 3
=4
(xi − x)(yi − y) 40 0 60 100 sxy = 100 3
Tab. 16.2: Arbeitstabelle für die manuelle Berechnung von KQ-Schätzungen
Für die KQ-Schätzung βb von β folgt dann wegen sxy = 100 und s2x = 800 gemäß (16.6) 3 3 b zunächst β = 0, 125 und hieraus mit x = 30 und y = 4 der nach (16.7) berechnete KQSchätzwert α b = 0, 25. Man verifiziert leicht durch Einsetzen von x = 30, dass die nach der KQ-Methode geschätzte Regressionsgerade yb = 0, 25 + 0, 125x durch den Schwerpunkt (x; y) = (30; 4) des Datensatzes verläuft. Der Schätzwert βb = 0, 125 für den Regressionskoeffizienten β beinhaltet, dass mit jedem zusätzlichen Euro auf der Rechnung mit einer Erhöhung des Trinkgelds um 0, 125 Euro zu rechnen ist. Das Modell kann somit auch für Vorhersagen eingesetzt werden. Bei einem Rechnungsbetrag in Höhe von z. B. x = 16 wäre der prognostizierte Wert für das Trinkgeld durch yb = 0, 25 + 0, 125x = 2, 25 gegeben. Der Schätzwert α b = 0, 25 ist formal der Wert, den das Modell für x = 0 liefert. Man erkennt, dass das Modell, dessen Parameter auf der Basis von x-Werten zwischen x = 10 und x = 50 geschätzt wurden, nicht mehr zwangsläufig weit außerhalb des Stützbereichs anwendbar sein muss. Für einen Rechnungsbetrag in Höhe von x = 0 würde sich hier ein Trinkgeld in Höhe von 0, 25 Euro errechnen. Die Erfahrung lehrt jedoch, dass bei Nicht-Konsum in einem Restaurant i. d. R. auch kein Trinkgeld anfällt.
Abb. 16.3: Computerausdruck (SPSS und EViews) zur KQ-Schätzung
Ergebnisinterpretation
212
Aufgabe 16.1
16 Das lineare Regressionsmodell
Bei größeren Datensätzen wird man einen Taschenrechner oder eine geeignete StatististikSoftware heranziehen - z. B. SPSS, STATISTICA, SAS, Stata, EViews oder R, und sollte dann natürlich dieselben Ergebnisse erhalten. In Abbildung 16.3 sind ein SPSSund darunter ein EViews-Screenshot für dieses Beispiel wiedergegeben. Die oben berechneten KQ-Schätzwerte βb und α b sind bei beiden Screenshots in der zweiten Spalte zu finden. Auf die Informationen in den Folgespalten sei an dieser Stelle nicht eingegangen. Da in die KQ-Schätzungen Werte der abhängigen Variablen Y eingehen und letztere wegen des in Annahme 3a spezifizierten Zufallsvariablencharakters der Störvariablen ebenfalls als Zufallsvariable zu interpretieren ist, sind auch die aus Daten berechneten Schätzungen (16.6) und (16.7) als Ausprägungen von Zufallsvariablen zu verstehen. Will man zwischen beiden differenzieren, kann man die Zufallsvariablen als Schätzer oder Schätzfunktionen ansprechen und die aus Beobachtungsdaten errechneten Ausprägungen als Schätzwerte. In der Regel ist aber eine explizite Unterscheidung nicht erforderlich, weil meist aus dem Kontext schon klar hervorgeht, welche Ebene gemeint ist.
Deskriptive vs. induktive Regressionsanalyse Eigenschaften der KQ-Schätzer
Grundsätzlich ist die Regressionsanalyse auch im Rahmen der beschreibenden Statistik möglich, d. h. auf der empirischen Ebene ohne Rückgriff auf das Zufallsvariablenkonzept der schließenden Statistik. Nur die Einbettung der Regressionsanalyse in die schließende Statistik ermöglicht allerdings die Ableitung von Eigenschaften der Schätb α zungen für Parameter des Regressionsmodells. Für die KQ-Schätzfunktionen β, b und 2 b σ , aus denen sich nach (16.6) - (16.8) Schätzwerte aus den Daten errechnen, lässt sich mit den hier getroffenen Annahmen ableiten, dass sie erwartungstreu sind, d. h. es gilt b = β; E(β) E(b α) = α; E(σb2 ) = σ 2 . (16.9) Es sei auf die Wiedergabe der z. T. nicht ganz einfachen und den Rahmen einer Statistik-Einführung sprengenden Beweise verzichtet und auf Toutenburg / Heumann (2008, Abschnitt 9.2.1) verwiesen.
Eigenschaften bei Normalverteilung
Setzt man für die Störvariablen nach A3 Normalverteilung voraus und bezeichnet man b und V (b die Varianzen V (β) α) der Schätzer βb resp. α b mit σβ2b und σα2b , so gelten für die beiden Schätzer die Normalverteilungsaussagen βb ∼ N (β; σ2b) (16.10) β
α b ∼ N (α; σα2b ).
(16.11)
Die Formeldarstellungen für die Varianzen seien noch der Vollständigkeit halber und ebenfalls ohne Beweis angeführt (s. hierzu z. B. Fahrmeir / Künstler / Pigeot / Tutz (2010, Abschnitt 12.1)). Es gilt mit der nun mit s2x bezeichneten unkorrigierten empirischen Varianz aus (5.6) 1 σβ2b = · σ2 (16.12) n · s2x σα2b =
x2 · σ2, n · s2x
wobei wieder σ 2 die Varianz der Störvariablen Ui aus (16.2) bezeichnet.
(16.13)
16.3 Das Bestimmtheitsmaß
213
16.3 Das Bestimmtheitsmaß Hat man eine Regressionsgerade anhand eines Datensatzes (x1 ; y1 ), . . . , (xn ; yn ) bestimmt, stellt sich die Frage, wie gut die Regressionsgerade die Variabilität der Daten erklärt. Die Summe der Residuenquadrate ist kein geeignetes Maß für die Anpassungsgüte, weil sie keine feste obere Schranke hat und zudem maßstabsabhängig ist. Man geht daher anders vor und zerlegt die Gesamtvarianz s2y der abhängigen Variablen in zwei Komponenten, nämlich in die durch den Regressionsansatz erklärte Varianz s2yb und eine durch den Ansatz nicht erklärte Restvarianz s2ub . Alle drei empirischen Varianzen sind gemäß (5.6) definiert, also n n n 1 X 1 X 1 X 2 2 · (yi − y) = · (b yi − yb) + · (b ui − u b)2 . n i=1 n i=1 n i=1 | {z } | {z } | {z } s2y
s2yb
s2ub
Da die Summe der n Residuen Null ist, kann man im letzten Summenterm u b = 0 setzen und im mittleren Summenterm yb = y. Setzt man noch anstelle von u bi den äquivalenten Term yi − ybi ein, folgt n n n 1 X 1 X 1 X 2 2 · (yi − y) = · (b yi − y) + · (yi − ybi )2 . n i=1 n i=1 n i=1 | {z } | {z } | {z } s2y
s2yb
(16.14)
s2ub
Als Maß für die Anpassungsgüte eines bivariaten Datensatzes an eine Regressionsgerade wird dann das Bestimmtheitsmaß R2 verwendet. Dieses auch gelegentlich als Determinationskoeffizient bezeichnete Maß vergleicht den durch die lineare Regression erklärten Varianzanteil s2yb mit der Gesamtvariation s2y der endogenen Variablen. Das Bestimmtheitsmaß ist also gegeben durch s2yb s2 R = 2 = 1 − u2b . sy sy 2
(16.15)
Diese Gleichung lässt sich noch in eine weniger technisch aussehende, kürzere Form bringen. Wenn man Gleichung (16.14) mit n erweitert, erhält man eine Zerlegung der Streuung in drei Summen, die mit SQ abgekürzt (S umme von Abweichungsquadraten) und mit einem aussagekräftigen Index versehen werden: 6 n X
(yi − y)2 =
|i=1 {z
SQT otal
}
n X
(b yi − y)2 +
|i=1 {z
SQRegression
}
n X
|i=1
(yi − ybi )2 . {z
SQResidual
(16.16)
}
Anstelle von (16.15) hat man dann die äquivalente Darstellung R2 = 6
SQRegression SQResidual =1− . SQT otal SQT otal
(16.17)
In der Literatur findet man häufig auch die Abkürzungen SQT (engl: sum of squares total), SQE (sum of squares explained) und SQR (sum of squares r esiduals).
Messung der Anpassungsgüte
214
16 Das lineare Regressionsmodell
Aus der Nicht-Negativität aller Komponenten der Zerlegungen (16.14) und (16.16) folgt, dass R2 zwischen Null und Eins liegt. Abbildung 16.4 zeigt zwei Datensätze des Umfangs n = 20, die hieraus berechneten KQ-Regressionsgeraden und jeweils das Anpassungsgütemaß R2 . Die Gerade in der ersten Teilgrafik liefert einen relativ hohen Erklärungsbeitrag zur Gesamtvariation der Daten (80%), die in der zweiten Grafik hingegen nur einen schwachen Beitrag (50%). 100
80
y
100
y
80
R2 ≈ 0, 8
60
60
40
40
20
20
R2 ≈ 0, 5
x 20
40
60
80
100
x 20
40
60
80
100
Abb. 16.4: Datensatz mit KQ-Schätzgeraden und Bestimmtheitsmaß R2
Java-Applet „KQ-Schätzung und Bestimmtheitsmaß“
Wenn R2 = 1 gilt, ist das Modell perfekt (s2ub = 0). Im Falle R2 = 0 liefert das lineare Modell keinen Erklärungsbeitrag (s2yb = 0), was aber keinesfalls ausschließt, dass zwischen den Variablen X und Y ein nicht-linearer Zusammenhang besteht. Für die praktische Berechnung von R2 bietet sich anstelle von (16.15) bzw. (16.17) eine Formel an, die direkt von den Daten ausgeht. Setzt man in (16.14) beim mittleren Summenterm für ybi den Term α b + βb · xi und für y den Term α b + βb · x ein, erhält man 2 für die Varianzkomponente syb die Darstellung s2yb
n i2 1 Xh b i ) − (b = · (b α + βx α + βb · x) = βb2 s2x . n i=1
Hieraus folgt R2 =
b xy βs (sxy )2 = = r2 . s2y s2x s2y
(16.18)
Im einfachen Regressionsmodell stimmt demnach das Bestimmtheitsmaß R2 mit dem Quadrat des in (9.10) eingeführten empirischen Korrelationskoeffizienten r nach BravaisPearson überein.
16.4 Das multiple lineare Regressionsmodell
215
Beispiel 16.2 Berechnung des Bestimmtheitsmaßes Für den Datensatz aus Beispiel 16.1 (Trinkgeldbeträge von drei Restaurantbesuchern) wurden in Tabelle 16.2 für s2x und sxy die Werte s2x = 800 resp. sxy = 100 berechnet. 3 3 2 Anhand der vorletzten Spalte von Tabelle 16.2 verifiziert man leicht, dass sy = 14 ist. 3 Mit (16.18) erhält man hieraus für das Bestimmtheitsmaß den Wert ( 100 )2 25 3 R = 800 14 = ≈ 0, 893. 28 · 3 3 2
Dieser Wert ist auch in Abbildung 16.3 ausgewiesen, dort mit etwas größerer Genauigkeit. Aufgabe 16.2
16.4 Das multiple lineare Regressionsmodell Eine Verallgemeinerung des Modellansatzes (16.1) mit nur einer erklärenden Variablen ist das multiple Regressionsmodell yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + ui
i = 1, . . . , n
(16.19)
mit k erklärenden Variablen. Man erkennt, dass (16.19) für k = 1 in das einfache lineare Regressionsmodell (16.1) übergeht, wenn man dort α =: β0 und β =: β1 setzt. Mit (16.19) ist ein aus n Gleichungen bestehendes Gleichungssystem gegeben – je eine Gleichung für jeden Beobachtungsindex i. Diese n Gleichungen und auch die Modellannahmen lassen sich knapper unter Verwendung der Vektor- und Matrixschreibweise formulieren.7 Dazu fasst man, analog zu (18.1), die n Werte der abhängigen Variablen und auch die n Werte der Störvariablen zu Spaltenvektoren y resp. u zusammen: y1 y2 y = .. = (y1 , y2 , . . . , yn )0 . yn
u1 u2 u = .. = (u1 , u2 , . . . , un )0 . .
(16.20)
(16.21)
un Auch die in (16.19) auftretenden k + 1 Koeffizienten β0 , β1 , β2 , . . . , βk lassen sich zu 7
Grundzüge der Vektor- und Matrixrechnung sind in Kapitel 18 wiedergegeben.
216
16 Das lineare Regressionsmodell
einem Vektor zusammenfassen: β0 β1 β = β2 = (β0 , β1 , β2 , . . . , βk )0 . .. . βk
(16.22)
Die Werte der k Regressoren werden zu einer Matrix zusammengefasst. In die Matrix wird noch eine erste Spalte eingefügt, die nur aus Einsen besteht (Einsvektor). Dies ist ein Kunstgriff, der beinhaltet, dass man in (16.19) nach dem Koeffizienten β0 eine Variable einsetzt, die für alle i den konstanten Wert 1 annimmt (Einfügung einer Scheinoder Dummyvariablen). Die resultierende Matrix X ist eine [n × (k + 1)]-Matrix, d. h. eine Matrix mit n Zeilen und k + 1 Spalten: 1 x11 . . . x1k 1 x21 . . . x2k X = .. (16.23) .. .. .. . . . . . 1 xn1 . . . xnk Mit den Vektoren (16.20) - (16.22) und der Matrix (16.23) kann man die n Gleichungen (16.19) des multiplen linearen Regressionsmodells ausführlich in der Form β0 y1 1 x11 . . . x1k u1 y2 1 x21 . . . x2k β1 u2 (16.24) .. = .. .. .. .. · β2 + .. . . .. . . . . . yn 1 xn1 . . . xnk un βk schreiben oder kürzer als β + u. y = Xβ
Modellannahmen
(16.25)
Fasst man die Störterme ui aus (16.18) wieder als Realisationen von Zufallsvariablen Ui auf, so sind auch hier die Werte yi der abhängigen Variablen Realisationen stochastischer Größen Yi . Spezifiziert man, wie in der Praxis üblich, noch die Werte xi1 , xi2 , ... , xik der unabhängigen Variablen als nicht-stochastisch, lässt sich das multiple lineare Regressionsmodell (16.19) wie folgt schreiben: Yi = β0 + β1 xi1 + β2 xi2 + . . . + βk xik + Ui
i = 1, . . . , n.
(16.26)
Auch diese Gleichung lässt sich durch (16.25) kürzer darstellen, wenn man für Vektoren mit stochastischen Elementen unverändert Kleinbuchstaben verwendet, also bei der Notation auf eine Unterscheidung von Vektoren mit festen und zufälligen Elementen verzichtet. 8 Das Modell ist durch die folgenden Annahmen charakterisiert, die allerdings – 8
Es werden dann z. B. sowohl der Vektor (u1 , u2 , ..., un )0 aus (16.21) wie auch der Vektor (U1 , U2 , ..., Un )0 der in (16.26) eingehenden Zufallsvariablen mit u abgekürzt. Würde man Zufallsvektoren mit Großbuchstaben kennzeichnen, hätte dies den Nachteil, dass sie fälschlich als Matrizen interpretiert werden könnten.
16.4 Das multiple lineare Regressionsmodell
217
wie auch beim einfachen Regressionsmodell – nicht immer erfüllt sein müssen und daher auf ihre Gültigkeit zu überprüfen sind:
Annahmen bezüglich der Spezifikation der Regressionsfunktion: MA1: Alle k erklärenden Variablen liefern einen relevanten Erklärungsbeitrag; es fehlen keine weiteren exogenen Variablen. MA2: Die den Zusammenhang zwischen den k Regressoren X1 , X2 , . . . , Xk und der abhängigen Variablen Y vermittelnde lineare Funktion ist fest, d. h. die k + 1 Parameter β0 , β1 , β2 , . . . , βk , die die lineare Funktion festlegen, sind konstant.
Annahmen bezüglich der Störvariablen des Regressionsmodells: MA3a: Die Störterme ui des Modells sind Realisationen von Zufallsvariablen Ui mit Erwartungswert 0 und fester Varianz σ 2 , d. h. die Störeinflüsse sind nicht-systematisch und von gleich bleibender Stärke (Homoskedastizität). MA3b: Störvariablen Ui und Uj aus unterschiedlichen Beobachtungsperioden (i 6= j), sind unkorreliert, d. h. es gilt Cov(Ui , Uj ) = 0 für i 6= j (Fehlen von Autokorrelation). MA3c: Die Störvariablen Ui sind normalverteilt. Die Annahmen MA3a - MA3c lassen sich zusammenfassen zu der Aussage MA3: Die Störvariablen U1 , . . . , Un , sind unabhängig identisch N (0; σ 2 )-verteilt. Annahmen bezüglich der unabhängigen Modellvariablen: MA4: Die Werte der k unabhängigen Variablen X1 , X2 , . . . , Xk sind determiniert, d.h. die unabhängigen Variablen werden nicht als Zufallsvariablen modelliert. MA5: Zwischen den k Regressoren existieren keine linearen Abhängigkeiten, d. h. keine erklärende Variable lässt sich als Linearkombination anderer erklärender Variablen darstellen (Fehlen sog. Multikollinearität). Wenn die Elemente der Matrix X in (16.25) als nicht-stochastisch spezifiziert sind, gehen nur in u und y Zufallsgrößen ein, d. h. u und y sind Zufallsvektoren. Deren Erwartungswert wird gebildet, indem man den Erwartungswertoperator auf jedes Element des jeweiligen Vektors anwendet. Aus Annahme (MA3a) folgt z. B. dass für den Erwartungswert E(u) von u die Gleichung E(u) = 0
(16.27)
218
16 Das lineare Regressionsmodell
gilt. Dabei bezeichnet 0 den Nullvektor, dessen Elemente nur Nullen sind. Für die im Matrizenanhang durch (18.12) und (18.13) definierte Kovarianzmatrix V (u) des Zufallsvektors u erhält man mit (MA3a) und (M3b) die Darstellung 2 σ 0 ... 0 0 σ2 . . . 0 . .. .. .. . . . = σ 2 · In . V (u) = .. (16.28) . . . .. . . . .. .. 0 0 . . . σ2 Spezialfall k = 1
Für k = 1 und mit den Setzungen β1 =: β sowie x1 =: x geht nicht nur (16.19) in (16.1) über, sondern natürlich auch (16.25). Dies gilt, weil (16.22) im Falle k = 1 nur aus den ersten beiden Elementen β0 und β1 und die Matrix (16.23) nur aus den ersten beiden Spalten besteht: y1 1 x1 u1 α + βx1 u1 α + βx1 + u1 y2 1 x2 u2 α + βx2 u2 α + βx2 + u2 α + .. = .. = .. .. + .. = . .. .. . . . β . . . . yn 1 xn un α + βxn un α + βxn + un (16.29) Dies ist genau das Gleichungssystem (16.1). Für k = 2 ist (16.29) in naheliegender Weise zu modifizieren – der Vektor β hat dann drei Elemente β0 , β1 , β2 und die Matrix X drei Spalten.
16.5 KQ-Schätzung im multiplen Regressionsmodell
Prinzip der KQ-Schätzung
Wie beim einfachen linearen Regressionsmodell, will man auch im multiplen Fall die Regressionskoeffizienten und die Varianz der Störvariablen aus Beobachtungswerten schätzen. Während die Daten beim einfachen Regressionsmodell durch Punkte (x1 , y1 ), . . . , (xn , yn ) in der Ebene repräsentiert sind, sind sie nun durch Punkte (x11 , . . . , x1k ; y1 ), . . . , (xn1 , . . . , xnk ; yn ) im dreidimensionalen Raum (k = 2) oder einem Raum höherer Ordnung gegeben (k > 2). Auch hier kann man die Methode der kleinsten Quadrate, kurz KQ-Schätzung, zur Schätzung von Modellparametern anwenden, wobei es nun nicht mehr um die Bestimmung einer den Daten optimal angepassten Geraden geht, sondern um die Bestimmung einer optimalen Ebene (k = 2) bzw. Hyperebene (k > 2). Die Grundidee der KQ-Schätzung bleibt aber unverändert. Man wählt bei der KQ-Schätzung im multiplen Regressionsmodell aus der Menge aller denkbaren Anpassungshyperebenen (bzw. Ebenen im Falle k = 2) diejenige aus, bei der die Summe der quadrierten Residuen ubi 2 bezüglich der Regressionskoeffizienten β0 , β1 , . . . , βk minimal ist. Die Residuen für eine beliebige Regressionshyperebene sind analog zu (16.4) definiert durch ubi = yi − ybi = yi − βb0 − βb1 xi1 − βb2 xi2 − . . . − βbk xik
i = 1, . . . , n.
(16.30)
Abbildung 16.5 visualisiert – analog zu Abbildung 16.2 – die Residuen für einen Datensatz, nun aber für Datenpunkte im dreidimensionalen Raum (k = 2). Zu minimieren
16.5 KQ-Schätzung im multiplen Regressionsmodell
219
Abb. 16.5: Veranschaulichung der Residuen und KQ-Schätzung im Modell mit zwei erklärenden Variablen
bezüglich der Regressionskoeffzienten ist wieder die Summe der Residuenquadrate: n X
2
ubi =
i=1
n X
(yi − βb0 − βb1 xi1 − βb2 xi2 − . . . − βbk xik )2 → M in.
(16.31)
i=1
Die im Sinne der KQ-Methode optimale Regressionshyperebene ist durch einen Vektor βb0 βb 1 βb = . = (βb0 , βb1 , βb2 , . . . , βbk )0 (16.32) .. βbk definiert. Fasst man die n Residuen aus (16.30) zum Residuenvektor βb0 b ub1 y1 1 x11 . . . x1k β1 ub2 y2 1 x21 . . . x2k b = .. = .. − .. .. u = y − Xβb .. .. · βb2 . . . . . . .. . u cn yn 1 xn1 . . . xnk βbk
(16.33)
zusammen, kann man (16.31) äquivalent als n X i=1
b0u b = (y − Xβb)0 (y − Xβb) → M in ubi 2 = u
(16.34)
220
16 Das lineare Regressionsmodell
schreiben, wobei die Minimierung bezüglich aller denkbaren Vektoren βb von Regressionskoeffizienten erfolgt. Zur Lösung dieses Minimierungsproblems wird nach βb differenziert, Null gesetzt und nach βb aufgelöst. 9 Dies führt zur Darstellung βb = (X0 X)−1 X0 y.
(16.35)
für die gesuchte KQ-Schätzung von β . Der Vektor βb minimiert (16.34). Die Invertierbarkeit der Matrix X0 X ist durch die Annahme (MA5) des multiplen Regressionsmodells gesichert. Spezialfall k = 1
Im Spezialfall k = 1 und mit den Setzungen x1 =: x sowie βb0 =: α und βb1 =: β hat X die in (16.29) schon aufgeführte spezielle Gestalt einer (n × 2)-Matrix und der Vektor βb b 0 . Wenn man diese spezielle geht über in den zweielementigen Spaltenvektor βb = (b α, β) Ausprägungen für X und βb in (16.35) einsetzt, resultieren nach einigen elementaren Umformungen für βb und α b die beiden KQ-Schätzformeln (16.6) und (16.7).
Aufgabe 16.3
Die KQ-Residuen (16.31) werden wie im einfachen Regressionsmodell auch für die Schätzung der Varianz der Störvariablen Ui herangezogen. Man verwendet wieder die Summe der quadrierten Residuen u b2i , die man nun noch durch n − (k + 1) dividiert, um eine unverzerrte Schätzung zu erhalten. Man erhält in Verallgemeinerung von (16.8)
KQ-Schätzung der Varianz der Störvariablen
σb2 =
n n X X 1 1 · u b2i = · (yi − βb0 − βb1 xi1 − βb2 xi2 − . . . − βbk xik )2 . n − k − 1 i=1 n − k − 1 i=1 (16.36)
Dabei sind βb0 , βb1 , . . . , βbk wieder die Elemente des KQ-Schätzvektors aus (16.35).
Messung der Anpassungsgüte
Als Maß für die Güte der Anpassung der nach der KQ-Methode bestimmten Hyperebene an die Daten lässt sich erneut das Bestimmtheitsmaß R2 verwenden. Dieses ist wieder durch (16.15) bzw. (16.17) erklärt, vergleicht also die durch die KQ-Hyperebene erklärte empirische Varianz mit der Gesamtvarianz des Datensatzes. Bei perfekter Anpassung gilt R2 = 1; alle Datenpunkte liegen dann auf der Hyperebene. Im Falle R2 = 0 liefert das lineare Regressionsmodell keinen Erklärungsbeitrag zur Variabilität der Daten – das eventuelle Vorhandensein eines nicht-linearen Zusammenhangs zwischen den erklärenden Variablen und der erklärten Variablen ist damit nicht ausgeschlossen.
9
Eine ausführliche Herleitung findet man z. B. bei Toutenburg / Heumann (2008, Abschnitt 9.3.1)
17 Grundzüge der Varianzanalyse In Abschnitt 15.5 wurde der Zweistichproben-t-Test vorgestellt. Mit diesem lassen sich für zwei normalverteilte Stichproben die in (15.26) formulierten Hypothesen überprüfen, ob es bei den beiden Gruppen Unterschiede bezüglich der Erwartungswerte gibt. Für die Stichproben wurde in Abschnitt 15.5 vorausgesetzt, dass sie unabhängig sind. Oft gilt es in der Praxis, mehr als zwei Gruppenmittelwerte zu vergleichen. Man denke an Studien in der Medizin oder der Psychologie, bei denen verschiedene Personengruppen unterschiedlichen Behandlungen ausgesetzt werden, etwa unterschiedlichen Medikamenten oder unterschiedlichen verhaltensbeeinflussenden Reizen. Der Vergleich von Gruppenmittelwerten ist auch eine in Industrie und Technik häufig vorkommende Aufgabe, die sich hier aber i. a. auf unbelebte Materie bezieht, etwa auf Werkstoffe oder Lebensmittel, und der Optimierung von Produkten und Prozessen dient. Bei der Planung neuer Modelle im Automobilbau experimentiert man etwa mit verschiedenen Werkstoffen, die man in planmäßig angelegten Versuchen Belastungen unterschiedlicher Intensität aussetzt. In der Werbeindustrie wird die Varianzanalyse zur Abschätzung des Effekts unterschiedlicher Werbeträger auf den Konsum eingesetzt, etwa Schaltung von Anzeigen in Printmedien, TV- und Radiospots oder Online-Werbung bei Suchmaschinenbetreibern. Eine Methode, mit der sich Mittelwertvergleiche für mehr als zwei Gruppen durchführen lassen, ist die Varianzanalyse. Sie wurde von Sir Ronald Aylmer Fisher (1890 - 1962) begründet, der zu den führenden Statistikern des 20. Jahrhunderts zählt. Fisher trat u. a. durch Beiträge zur Schätztheorie hervor und gab der Versuchsplanung (engl.: design of experiments) wichtige Impulse. Weniger bekannt ist, dass F-Verteilung und F-Test nach ihm, genauer nach dem Anfangsbuchstaben seines Namens, benannt sind. Fisher war zeitweise an einer landwirtschaftlichen Versuchsstation tätig und wandte hier erstmals Modelle der Varianzanalyse an, um den Effekt von Düngemitteln auf den Ernteertrag zu untersuchen mit dem Ziel der Optimierung des Düngemitteleinsatzes. Die Varianzanalyse hatte also ihren Ausgangspunkt in den Agrarwissenschaften, ist aber heute fester Bestandteil des Methodenarsenals aller Wissenschaften, in denen Experimente zur Datengewinung eingesetzt werden. Die Varianzanalyse geht wie das lineare Regressionsmodell (16.2) oder (16.26) von einem linearen Zusammenhang zwischen einer Einflussgröße X oder mehreren Einflussgrößen X1 , X2 , ..., Xk und einer zu erklärenden Variablen Y aus. Die abhängige Variable Y (Responsevariable) wird auch in der Varianzanalyse als stetig modelliert, nicht aber die Einflussgrößen. Letztere müssen in varianzanalytischen Modellen diskret vorliegen, d. h. es werden entweder nur bestimmte Ausprägungen einer quantitativen Variablen betrachtet oder die Einflussgrößen sind qualitative Merkmale und damit von vorneherein auf wenige Ausprägungen beschränkt. Man nennt die Einflussgrößen bei einer
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_17, © Springer-Verlag Berlin Heidelberg 2011
221
Sir Ronald A. Fisher
Grundbegriffe der Varianzanalyse
222
17 Grundzüge der Varianzanalyse
Varianzanalyse Faktoren und deren Ausprägungen Faktorstufen. Wenn die bei der Durchführung einer Varianzanalyse zu berücksichtigenden Faktorstufen von vorneherein festgelegt sind, spricht man von einem Modell der Varianzanalyse mit festen Effekten, bei einer zufallsgesteuerten Auswahl von einem Modell der Varianzanalyse mit zufälligen Effekten. Im Folgenden wird ausschließlich die praxisrelevantere Varianzanalyse mit festen Effekten behandelt. Es wird zwischen einfaktorieller Varianzanalyse und mehrfaktorieller Varianzanalyse unterschieden, je nachdem, ob nur eine Einflussgröße oder mehrere Einflussgrößen betrachtet werden. Man findet hierfür auch die Bezeichnungen univariate Varianzanalyse resp. multivariate Varianzanalyse. In der einschlägigen Literatur hat sich für die Varianzanalyse die Abkürzung ANOVA (engl: analysis of variance) etabliert. Beispiel 17.1 Faktoren und Faktorstufen in verschiedenen Kontexten Faktoren, die man bei der Analyse von Einkommensdaten heranziehen könnte, wären u. a. das nominalskalierte Merkmal „Geschlecht“ und die rangskalierte Variable „Bildungsstand“. Das letztgenannte Merkmal lässt sich anhand des höchsten erreichten Bildungsabschlusses operationalisieren; die Faktorstufen sind hier durch die Bildungsabschlüsse repräsentiert. In der Psychologie kann die einfaktorielle Varianzanalyse etwa eingesetzt werden, um Informationen zum Einfluss von Stress auf die Konzentrationsfähigkeit zu gewinnen. Stress könnte im Experiment auf unterschiedliche Weise induziert werden, etwa über ein Dauergeräusch, durch Hitze oder durch eine andere Störquelle. Ein Beispiel aus der Psychologie zur zweifaktoriellen Varianzanalyse ist die Untersuchung der beruflichen Zufriedenheit von Lehrern (als stetig modelliert und gemessen anhand des Ergebnisses einer schriftlichen Befragung) in Abhängigkeit vom Schultyp und vom Geschlecht des Unterrichtenden. Die Einflussgrößen sind hier qualitativ. Bei einem der agrarwissenschaftlichen Experimente von Fisher ging es um die Analyse von Düngemitteleffekten auf den Ernteertrag beim Anbau von Kartoffeln. Als Düngemittel wurden Ammonium- und Kaliumsulfat eingesetzt (zweifaktorielle Varianzanalyse), wobei jedes Düngemittel in vier unterschiedlichen Konzentrationen zum Einsatz kam (42 Kombinationen von Faktorstufen). Es wurden also nur vier Stufen für jede der beiden Einflussgrößen betrachtet, obwohl die Düngemittelkonzentration eigentlich eine stetige Variable darstellt. Die auch bei industriellen Anwendungen der Varianzanalyse bei quantitativen Merkmalen übliche Beschränkung auf wenige ausgewählte Faktorstufen ist zweckmäßig, weil Versuche Kosten verursachen und sich wesentliche Erkenntnisse i. a. schon anhand weniger Faktorstufen erreichen lassen.
17.1 Das Modell der einfaktoriellen Varianzanalyse
223
17.1 Das Modell der einfaktoriellen Varianzanalyse Es sei eine größere Grundgesamtheit betrachtet, z. B. alle Personen in Deutschland mit Bluthochdruck. Bei der einfaktoriellen Varianzanalyse geht es darum zu untersuchen, wie sich in der Grundgesamtheit die Variation einer Einflussgröße X auf eine Zielvariable auswirkt – bei dem genannten Beispiel etwa die Wirkung der Verabreichung eines Medikaments (Faktor) in unterschiedlichen Dosierungen (Faktorstufen) auf den Blutdruck. Für die Untersuchung wird i. a. schon aus Kostengründen nicht die komplette Grundgesamtheit herangezogen (Vollerhebung), sondern eine Zufallsstichprobe des Umfangs n. Diese zerlegt man in s Teilmengen des Umfangs ni (i = 1, 2, . . . , s) und setzt die Elemente jeder Teilmenge einer anderen Intensität (Faktorstufe) des Einflussfaktors X aus. Von Interesse ist es dann zu untersuchen, wie sich die unterschiedliche Behandlung auf die Zielvariable Y auswirkt, hier also auf den Blutdruck. Das univariate Modell der Varianzanalyse geht davon aus, dass die Responsevariable Y innerhalb der betrachteten Grundgesamtheit normalverteilt ist mit einer unbekannten, aber in allen Teilgesamtheiten gleichen Varianz σ 2 . Es wird insbesondere angenommen, dass die Werte von Y bei den Merkmalsträgern der Grundgesamtheit unabhängig voneinander sind (Unabhängigkeitsannahme). Die Unabhängigkeitsannahme ist z. B. verletzt, wenn an ein und demselben Merkmalsträger Messungen zu verschiedenen Zeitpunkten durchgeführt werden. 1 Für den Erwartungswert des abhängigen Merkmals Y wird angenommen, dass er nur von der gewählten Stufe des Einflussfaktors X abhängt, also innerhalb der Teilgruppen einen festen Wert µi hat. Tabelle 17.1 verdeutlicht das beschriebene Design und die Basisannahmen: Grundgesamtheit Y ∼ N (µ; σ 2 )
Ziehung von Zufallsstichproben Gesamtumfang aller Stichproben: n
Teilgesamtheit 1
→
Stichprobe 1; Umfang n1 : Y ∼ N (µ1 ; σ 2 ) mit µ1 = µ + α1
Teilgesamtheit 2 .. .
→
Stichprobe 2; Umfang n2 : Y ∼ N (µ2 ; σ 2 ) mit µ2 = µ + α2 .. .
Teilgesamtheit s
→
Stichprobe s; Umfang ns : Y ∼ N (µs ; σ 2 ) mit µs = µ + αs
Tab. 17.1: Design einer einfaktoriellen Varianzanalyse
Die Schwankungen der Responsevariablen innerhalb der Gruppen werden wie beim Regressionsmodell durch eine Störvariable U mit E(U ) = 0 repräsentiert. Das Modell der einfaktoriellen Varianzanalyse lässt sich dann in der Form Yik = µi + Uik 1
i = 1, . . . , s;
k = 1, . . . , ni
(17.1)
In der Psychologie sind bei Varianzanalysen wiederholte Messungen an Personen sehr verbreitet, etwa um Langzeitwirkungen intervenierender Maßnahmen zu untersuchen. Die hierbei verwendeten Modelle, für die die Annahme unabhängiger Merkmalswerte nicht mehr gilt, werden varianzanalytische Modelle mit Messwiederholungen genannt. Modelle der Varianzanalyse mit Messwiederholung behandeln u. a. Rasch / Kubinger (2006, Abschnitt 12.4).
224
17 Grundzüge der Varianzanalyse
schreiben mit E(Uik ) = 0 und n1 + n2 + . . . ns = n. 2 Die Modelldarstellung impliziert, dass die Responsevariable in der i-ten Gruppe eine Ausprägung hat, die sich vom gruppenspezifischen Erwartungswert µi nur durch einen Störterm unterscheidet, der vom jeweiligen Element der Gruppe abhängt, im Mittel aber den Wert 0 aufweist. Wenn man den Erwartungswert µi innerhalb der i-ten Gruppe noch additiv in eine für alle Gruppen identische Basiskomponente µ und eine gruppenspezifische Komponente αi zerlegt, geht (17.1) über in Yik = µ + αi + Uik
i = 1, . . . , s;
k = 1, . . . , ni .
(17.2)
Dabei ist n1 ·α1 +n2 ·α2 +. . . ns ·αs = 0, weil sich die Effekte der Faktorstufen im Mittel ausgleichen. Die Modellvariante (17.2) wird auch als Modell der einfaktoriellen Varianzanalyse in Effektdarstellung angesprochen. Der Term µ ist der – gelegentlich auch als Grand Mean bezeichnete – globale Erwartungswert der Responsevariablen, während αi den Effekt der i-ten Faktorstufe auf Y widerspiegelt. Was leistet die Varianzanalyse?
Die Varianzanalyse stellt nicht nur ein Modell zur Beurteilung der Wirkung einer oder mehrerer Faktoren auf eine metrische Responsevariable bereit. Vielmehr ermöglicht sie anhand eines Tests auch eine Entscheidung darüber, ob die Veränderung von Faktorstufen einen signifikanten Einfluss auf den Erwartungswert der Responsevariablen hat. Die Nullhypothese H0 des Tests beinhaltet, dass die Faktorstufe keinen Effekt auf die Ausprägung der erklärten Variablen Y hat. Da aufgrund der Modellannahmen die Stichproben unabhängig normalverteilt sind mit gleicher Varianz, ist das Fehlen eines Effekts der Veränderung von Faktorstufen damit äquivalent, dass die Erwartungswerte µ1 , µ2 , . . . , µs übereinstimmen. Die Alternativhypothese H1 , die die eigentliche Forschungshypothese repräsentiert, sagt hingegen aus, dass es mindestens eine Faktorstufenkombination (µi , µj ) gibt, für die µi 6= µj gilt. Man testet also im Falle des Modells (17.1) H0 : µ1 = µ2 = . . . = µs gegen H1 : µi 6= µj für mind. ein (i, j)
(17.3)
und analog bei Zugrundelegung des Modells (17.2) H0 : α1 = α2 = . . . = αs = 0 gegen H1 : αi 6= 0 und αj 6= 0 für mind. ein (i, j). (17.4)
17.2 Durchführung einer einfaktoriellen Varianzanalyse Um die Hypothesen (17.3) resp. (17.4) zu testen, benötigt man die Daten der s Zufallsstichproben. Diese kann man übersichtlich in tabellarischer Form zusammenstellen. In Tabelle 17.2 sind die Daten der Stichproben auf gerastertem Hintergrund präsentiert – jede Zeile entspricht einer Stichprobe. Die Länge der Zeilen ist nur dann gleich, wenn die s Stichproben alle denselben Umfang aufweisen. Hinter den Zeilen mit den Daten yij ist in den beiden Folgespalten noch die Summe yi· sowie der Mittelwert y i· der Elemente der i-ten Stichprobe wiedergegeben (i = 1, . . . , s). 2
Sind die Stichprobenumfänge ni alle gleich groß, spricht man von einem varianzanalytischen Modell mit balanciertem Design.
17.2 Durchführung einer einfaktoriellen Varianzanalyse
Stichprobe (Gruppe)
Element-Nr der Stichprobe
...
k
...
ni
225
Summen
Mittelwerte
der Zeilen
der Zeilen
1
2
1
y11
y12
. . . y1k
. . . y1,n1
y1·
y 1·
2 .. .
y21 .. .
y22
. . . y2k .. .
. . . y2,n2 .. .
y2· .. .
y 2· .. .
i .. .
yi1 .. .
yi2
...
yik
... .. .
yi,ni .. .
yi· .. .
y i· .. .
s
ys1
ys2
...
ysk
...
ys,ns
ys·
y s·
Tab. 17.2: Daten bei einer einfaktoriellen Varianzanalyse
Bei der Herleitung einer Prüfgröße für einen Test der genannten Hypothesen wird ausgenutzt, dass sich die Streuung der n Beobachtungen aus allen s Stichproben (Gesamtstreuung) analog zur Zerlegung (16.16) in zwei Komponenten zerlegen lässt, nämlich in eine Komponente SQzwischen , die die Variabilität zwischen den Gruppen widerspiegelt, und eine Restkomponente SQResidual , die die Variation innerhalb der Stichproben repräsentiert. Die erstgenannte Komponente gibt den Streuungsanteil an, der durch das Modell erklärt wird, also durch die Veränderung von Faktorstufen hervorgerufen wird (Behandlungseffekt), während die zweite Komponente eine durch das Modell nicht erklärte Reststreuung darstellt. Für die beiden genannten Komponenten findet man in der Fachliteratur uneinheitliche Abkürzungen. Dieser Umstand und auch die etwas sperrige Notation (Doppelindizes für die Beobachtungsdaten bei der einfaktoriellen, Dreifachindizes bei der zweifaktoriellen Varianzanalyse) erschweren den Zugang zur Thematik. Die Gesamtstreuung der n Werte im grau hinterlegten Inneren von Tabelle 17.2 lässt sich anhand der Summe SQTotal :=
ni s X X
(yik − y ·· )2
(17.5)
i=1 k=1
aller quadrierten Abweichungen der Beobachtungswerte yik vom Gesamtmittelwert y ·· erfassen. 3 Die Quadrierung der Differenzen yik − y ·· verhindert, dass sich positive und negative Abweichungen vom Gesamtmittel kompensieren. Der Wert y ·· lässt sich errechnen, indem man die Summe der s Elemente der vorletzten Spalte von Tabelle 17.2 durch die Gesamtzahl n aller Beobachtungen dividiert. 4 In der letzten Spalte von Tabelle 17.2 wird jede Stichprobe zum Stichprobenmittelwert verdichtet, also auf eine einzige Kenngröße heruntergebrochen. Die Information zur Streuung innerhalb der Stichproben geht dabei verloren. Für die Messung der Variation 3 4
Das Kürzel SQ steht wieder für „S umme der Abweichungsquadrate“ oder „sum of squares“. Alternativ kann man die Werte der letzten Spalte von Tabelle 17.2 mit den jeweiligen Stichprobenumfängen gewichten und dann die Summe der gewichteten Stichprobenmittelwerte durch n teilen (vgl. Exkurs 5.1).
Zerlegung der Gesamtstreuung in zwei Komponenten
226
17 Grundzüge der Varianzanalyse
zwischen den Stichproben – unter Ausblendung der Variation innerhalb der Gruppen – bietet es sich daher an, von den Abweichungen y i· − y ·· vom Gesamtmittelwert auszugehen, diese zu quadrieren, die Quadrate mit den jeweiligen Stichprobenumfängen zu gewichten und aufzusummieren: SQzwischen :=
s X
ni · (y i· − y ·· )2 .
(17.6)
i=1
Die nicht durch die Variation von Faktorstufen erklärte Reststreuung kann für jede Stichprobe yi1 , yi2 , . . . , yi;ni durch die Abweichungen yik − y i· der Stichprobenelemente vom Stichprobenmittelwert y i· beschrieben werden. Für die s Stichproben hat man also SQResidual :=
ni s X X
(yik − y i· )2 .
(17.7)
i=1 k=1
Mit diesen Bezeichnungen gilt dann die zu (16.16) analoge Streuungszerlegungsformel SQTotal = SQzwischen + SQResidual .
(17.8)
Auf eine Herleitung wird verzichtet; man findet diese z. B. bei Toutenburg / Heumann (2009, Abschnitt 10.2.2). Ebenfalls ohne Beweis sei angeführt, dass die Streuungskomponenten SQzwischen und SQResidual unter der hier getroffenen Normalverteilungsannahme χ2 -verteilt sind mit s−1 resp. – im Falle von SQResidual – mit n−s Freiheitsgraden. Die aus den Daten der Tabelle 17.2 errechneten Stichprobenmittelwerte y i· und der Gesamtmittelwert y ·· lassen sich wieder – vgl. (13.3) und (14.6) – als Realisationen von Zufallsvariablen Y i· resp. Y ·· auffassen und zur unverzerrten Schätzung der in Tabelle 17.1 eingehenden Erwartungswerte µi und µ sowie der Effektstärken αi einsetzen. Verwendet man für die Zufallsvariablen erneut Großbuchstaben, sind erwartungstreue Schätzer für µi , µ resp. αi durch µ bi = Y i· ; Erwartungstreue Schätzung der Varianz
µ b = Y ·· ;
α bi = Y i· − Y ··
(17.9)
gegeben. Auch die Varianz σ 2 des in Tabelle 17.1 veranschaulichten Modells lässt sich erwartungstreu schätzen , wobei man entweder von der Streuungskomponente SQzwischen aus (17.6) oder aber von der Komponente SQResidual aus (17.7) ausgehen kann. Im erstgenannten Fall erhält man – vgl. (13.4) und (13.9) - eine unverzerrte Schätzung, indem man die aus s Einzeltermen bestehende Summe SQzwischen nicht durch s, sondern durch s − 1 dividiert: σ b2 =
1 · SQzwischen . s−1
(17.10)
Geht man bei der Herleitung einer erwartungstreuen Schätzung für σ 2 von der Restkomponente SQResidual aus, in die alle n Beobachtungswerte mit Differenzierung nach s Stichproben einfließen, so ist die aus n Einzeltermen bestehende Summe SQResidual durch n − s zu teilen: σ b2 =
1 · SQResidual . n−s
(17.11)
17.2 Durchführung einer einfaktoriellen Varianzanalyse
227
Um nun zu testen, ob die Variation von Faktorstufen einen signifikanten Einfluss auf den Erwartungswert der Responsevariablen hat, vergleicht man nicht das Verhältnis der Streuungskomponenten SQzwischen und SQResidual , sondern bildet den Quotienten aus den korrigierten empirischen Streuungsmaßen (17.10) und (17.11), verwendet also die hier mit F bezeichnete Teststatistik F :=
1 s−1 1 n−s
· SQzwischen · SQResidual
=
n − s SQzwischen · . s − 1 SQResidual
(17.12)
Dieser Quotient hat den Vorteil, dass er unter der Nullhypothese H0 aus (17.3) bzw. (17.4) einer bekannten Verteilung folgt, nämlich einer F-Verteilung mit s − 1 und n − s Freiheitsgraden. Unter H0 gilt also F ∼ Fs−1;n−s (lies: F ist F -verteilt mit s − 1 und n − s Freiheitsgraden). Die Alternativhypothese H1 in (17.3) resp. (17.4) wird dann als statistisch gesichert angesehen mit einer vorab spezifizierten Irrtumswahrscheinlichkeit α, wenn der genannte Quotient „hinreichend“ groß ist. Letzteres wird als gegeben angesehen, wenn der für die Teststatistik errechnete Wert das (1 − α)-Quantil Fs−1;n−s;1−α der F-Verteilung mit s−1 und n−s Freiheitsgraden überschreitet (vgl. hierzu Abbildung (12.7)). Man führt also einen F-Test zum Signifikanzniveau α durch.
Beispiel 17.2 Wirkung der Unterrichtsform auf Mathematikleistungen Eine Population von 29 Schülern einer Altersstufe wird während einer Unterrichtseinheit zur Geometrie, die sich der Satzgruppe des Pythagoras widmet, im Rahmen eines Experiments über einen Zufallsalgorithmus in drei Gruppen aufgeteilt. In der ersten Teilpopulation des Umfangs n1 = 10 erfahren die Schüler einen lehrerzentrierten Unterricht (Gruppe 1). In der zweiten Teilpopulation mit gleichem Umfang n2 = 10 wird überwiegend in Zweiergruppen mit Aufgabenblättern gearbeitet (Gruppe 2). Die dritte Unterrichtsform, die auf n3 = 9 Schüler bezogen wird, unterscheidet sich von der zweiten dadurch, dass hier bei der Bearbeitung der Aufgaben leistungsfähige Computer mit interaktiver Geometriesoftware benutzt werden (Gruppe 3). In allen drei Gruppen ist die Lehrkraft im Einsatz. Am Ende der Unterrichtseinheit werden alle 29 Schüler zur Messung ihrer individuellen Leistung einem Test unterzogen, bei dem maximal 100 Punkte zu erzielen sind. Es wird angenommen, dass sich die Punktzahl Y , die von den Schülern erreicht wird, approximativ durch eine Normalverteilung beschreiben lässt, deren Varianz in allen drei Gruppen gleich ist. Es soll zum Signifikanzniveau α = 0, 05 getestet werden, ob sich die verschiedenen Unterrichtsformen im Mittel auf die Leistungen beim Abschlussprüfung auswirken. Zu testen sind also die Hypothesen aus (17.3), die sich hier auf s = 3 Erwartungswerte beziehen. In der Praxis wird man diesen Test unter Verwendung eines Statistiksoftwarepakets durchführen. Es ist aber durchaus verständnisfördernd, die einzelnen Zwischenschritte bis zum Wert der Prüfstatistik (17.12) einmal selbst ausgeführt zu haben. Bei der Leistungsmessung am Ende der Geometrieunterrichtseinheit gab es für die drei Stufen des Faktors „Unterrichtsform“ folgende Einzelergebnisse:
228
17 Grundzüge der Varianzanalyse
Gruppe
Element-Nr der Stichprobe
1
2
3
1
59
48
2
57
3
78
4
5
Summen
Mittelwerte
6
7
8
9
10
der Zeilen
der Zeilen
65 38
74 43
62
42 62
58
551
55, 1
77
64 49
48 74
50
51 46
58
574
57, 4
81
63 79
67 76
75
52 59
630
70, 0
Tab. 17.3: Punktzahlen beim Geometrieabschlusstest
Aus den Daten errechnet man den Gesamtmittelwert y ·· als Summe der drei Elemente der vorletzten Spalte, wenn man diese noch durch die Anzahl n = 29 der Beobachtungen teilt. Man erhält so y ·· =
551 + 574 + 630 1755 = ≈ 60, 517. 29 29
Für den Anteil SQzwischen der Streuung zwischen den drei Gruppen an der Gesamtstreuung SQTotal folgt nach (17.6) SQzwischen = 10 · (55, 1 − y ·· )2 + 10 · (57, 4 − y ·· )2 + 9 · (70, 0 − y ·· )2 ≈ 1199, 94. Für die Reststreuung SQResidual errechnet man dann, z. B. unter Einsatz eines Tabellenkalkulationsprogramms, mit (17.7) SQResidual =
ni 3 X X
(yik − y i· )2 ≈ 3153, 30.
i=1 k=1
Für die Testgröße (17.12) ergibt sich schließlich mit s = 3 und n − s = 26 F =
26 SQzwischen · ≈ 4, 95. 2 SQResidual
Der aus den Daten errechnete Wert F ≈ 4, 95 ist nun nur noch mit dem 0, 95Quantil der F -Verteilung mit 2 und 26 Freiheitsgraden zu vergleichen. Da dieses Quantil nach Tabelle 19.6 den Wert F2;26;0,95 = 3, 37 hat, ist die Nullhypothese H0 wegen F ≈ 4, 95 > 3, 37 abzulehnen, d. h. es ist von einem statistisch signifikanten Einfluss der Unterrichtsform auf die Leistungen im Geometrieunterricht auszugehen. Hätte man den Test z. B. mit α = 0, 01 durchgeführt, also nur eine deutlich geringere Irrtumswahrscheinlichkeit α in Kauf genommen, wäre wegen F2;26;0,99 = 5, 53 keine Ablehnung von H0 erfolgt. Eine grafische Darstellung der Beobachtungsdaten, etwa anhand eines Boxplots pro Gruppe, kann den F -Test ergänzen und zusätzliche Informationen vermitteln. Abbildung 17.1 zeigt dies für den hier betrachteten Beispieldatensatz. Die Grafik vermittelt nicht nur Informationen über Lageparameter der Teilpopulationen, sondern z. B. auch solche, die die Streuung innerhalb der Gruppen betreffen.
17.3 Ausblick auf die zweifaktorielle Varianzanalyse
229
Abb. 17.1: Boxplots für die Punktzahlen beim Geometrieabschlusstest
Kommt man mit Anwendung des F-Tests zu einer Verwerfung der Nullhypothese, weiß man nur, dass zwischen mindestens zwei Gruppen ein statistisch signifikanter Unterschied bezüglich der Erwartungswerte besteht. Welche Gruppen dies sind, beantwortet die Varianzanalyse noch nicht. Man ist dann auf ergänzende Verfahren angewiesen (z. B. paarweiser Gruppenvergleich), auf die in dieser Einführung ebenso wenig eingegangen werden kann wie auf die Vorgehensweise bei Verletzung der Normalverteilungsannahme. Im letztgenannten Falle bietet sich die Anwendung nicht-parametrischer Tests anstelle des F-Tests an, also von Tests, die nicht die Annahme einer bestimmten Verteilung (hier: Normalverteilung) voraussetzen. Sehr nützlich ist auch die Visualisierung der Beobachtungen für die einzelnen Gruppen, etwa – wie in Abbildung 17.1 beispielhaft illustriert – anhand von Boxplots. Auf diese Weise erhält man schon einen guten Eindruck von der Verteilung der erklärten Variablen innerhalb der Gruppen und kann auffällige Unterschiede bezüglich der empirischen Verteilungen oft schon aus der Grafik erkennen. Instrumente der beschreibenden Statistik können jedenfalls häufig Einsichten vermitteln, die die Ergebnisse von Verfahren der schließenden Statistik, z. B. eines F-Tests, sinnvoll ergänzen.
17.3 Ausblick auf die zweifaktorielle Varianzanalyse Wenn man den Einfluss von zwei Einflussgrößen X1 und X2 mit s resp. r Faktorstufen auf eine Responsevariable Y betrachtet, erhält man anstelle von (17.1) eine Darstellung, die sich auf s · r Faktorstufenkombinationen bezieht: Yijk = µij + Uijk
i = 1, . . . , s; j = 1, . . . , r; k = 1, . . . , nij ,
(17.13)
Grenzen der Varianzanalyse
230
17 Grundzüge der Varianzanalyse
wobei die Störvariablen als unabhängig identisch N (0; σ 2 )-verteilt spezifiziert sind. Zerlegt man die Erwartungswerte µij der Responsevariablen in den s · r Gruppen wieder additiv in einen für alle Gruppen identischen Basisanteil µ und in faktorstufenspezifische Komponenten αi (Effekt der i-ten Stufe des Faktors X1 ) sowie βj (Effekt der j-ten Stufe des Faktors X2 ) und berücksichtigt man noch einen mit (αβ)ij bezeichneten möglichen Wechselwirkungseffekt zwischen der i-ten Stufe von X1 und der j-ten Stufe von X2 , erhält man das Modell der zweifaktoriellen Varianzanalyse in Effektdarstellung: Yijk = µ + αi + βj + (αβ)ij + Uijk
i = 1, . . . , s; j = 1, . . . , r; k = 1, . . . , nij . (17.14)
Wechselwirkung oder Interaktion, beinhaltet, dass der Effekt einer bestimmten Faktorstufe eines Faktors auf die erklärte Variable Y davon abhängt, welche Faktorstufe bei dem anderen Faktor vorliegt. Zerlegung der Streuung zwischen den Gruppen
In Tabelle 17.1 ist also jeder Wert yik im grau markierten Tabelleninneren durch r Werte yij1 , yij2 , . . . , yijr zu ersetzen. Die Streuungszerlegung (17.8) gilt zwar unverändert, die Komponente SQzwischen lässt sich jetzt aber aufteilen in einen Streuungsanteil, der nur auf die Variation des Faktors X1 zurückgeht, einen weiteren, der durch die Veränderung von Faktorstufen bei X2 bedingt ist und einen dritten, der auf Interaktionseffekten zwischen den beiden Faktoren beruht. Abbildung 17.2 veranschaulicht dies. SQFaktor 1 (Variation von Faktor 1)
Streuung SQzwischen (durch Variation von Faktorstufen)
SQFaktor 2 (Variation von Faktor 2)
Reststreuung SQResidual (innerhalb der Gruppen)
SQWechselwirkung (innerhalb der Gruppen)
Gesamtstreuung SQTotal
Abb. 17.2: Streuungszerlegung bei der zweifaktoriellen Varianzanalyse (Zerlegung im einfaktoriellen Fall: ohne grau gerasterte Komponenten)
Effekte auf die Responsevariable Y , die durch die Veränderung von Stufen von Faktor X1 oder von Faktor X2 hervorgerufen werden, heißen Haupteffekte. Wirkungen auf Y , die durch Interaktion der beiden Faktoren induziert werden, nennt man Wechselwirkungseffekte oder auch Interaktionseffekte. Entsprechend hat man bei der zweifaktoriellen Varianzanalyse drei F-Tests durchzuführen – zwei zur Überprüfung von Haupt- und einen zur Feststellung von Wechselwirkungseffekten. Bezüglich einer ausführlicheren Behandlung der ein- und zweifaktoriellen Varianzanalyse sei auf Fahrmeir / Künstler / Pigeot / Tutz (2010, Kapitel 13) und Toutenburg / Heumann (2008, Kapitel 10) verwiesen.
Teil III Anhänge
231
Lernziele zu Teil III
Der letzte Teil dieses Manuskripts enthält Aufgaben mit ausführlichen Lösungen zu den beiden ersten Teilen sowie ergänzende Materialien, die nicht als Lernstoff im engeren Sinne anzusehen sind. Die Aufgaben und Lösungen (Kapitel 20 und 21) dienen der Verständnissicherung und Lernerfolgskontrolle. Nach der Nutzung der Ergänzungen (Kapitel 18, 19 und 22) sollten Sie - wissen, was Vektoren und Matrizen sind und Standardoperationen mit ihnen ausführen können; - in der Lage sein, Quantile und Werte von Verteilungsfunktionen aus den zur Verfügung gestellten Tabellen abzulesen; - einige interessante Internet-Seiten zur Datenvisualisierung aufgesucht und damit neuere Entwicklungen auf diesem Sektor kennengelernt haben; - in einige Diskussionsforen sowie Online-Lehrmaterial-Sammlungen zur Statistik hineingeschaut und – hoffentlich – auf diese Weise die Statistik als lebensnahe Disziplin erfahren haben; - mit einigen mathematischen Symbolen und Schreibweisen vertraut sein, die in der Statistik häufiger verwendet werden.
232
18 Grundzüge der Matrizenrechnung 18.1 Grundbegriffe In der Mathematik und anderen Wissenschaften, u. a. in der Physik, der Ökonometrie, der Statistik oder auch – bei der Anwendung multivariater Verfahren – in der Psychologie, werden häufig Vektoren und Matrizen verwendet, um mathematische Sachverhalte kompakter und übersichtlicher darzustellen. Einen n Elemente umfassenden Satz x1 , x2 , ..., xn reeller Zahlen kann man z. B. zu einem n-Tupel zusammenfassen. Wenn man ein solches n-Tupel von reellen Zahlen vertikal anordnet, erhält man einen Spaltenvektor, den man in Lehrbüchern meist mit einem fett gesetzten lateinischen oder griechischen Kleinbuchstaben kennzeichnet, hier z. B. x. Wenn man das n-Tupel horizontal anordnet, also eine Anordnung (x1 , x2 , ..., xn ) verwendet, spricht man von einem Zeilenvektor.Die Überführung eines Spaltenvektors in einen Zeilenvektor wird auch als Transponieren des Vektors bezeichnet und durch eine hochgestellten Strich gekennzeichnet: x1 x2 x = .. = (x1 , x2 , . . . , xn )0 = x0 . .
Spalten- und Zeilenvektoren
(18.1)
xn Wenn im Folgenden ganz allgemein von einem Vektor die Rede ist, ohne dass explizit spezifiziert wird, ob es um einen Spalten- oder Zeilenvektor geht, ist stets ein Spaltenvektor gemeint. Spezielle Vektoren sind der nur aus Nullen bestehende Nullvektor 0 und der nur aus Einsen bestehende Einsvektor 1: 0 0 0 = .. . 0
Spezialfälle
1 1 1 = .. . . 1
Will man die Anzahl n der in einem Vektor zusammengefassten Elemente betonen, spricht man genauer von einem n-Spaltenvektor oder von einem Spaltenvektor der Dimension n. Durch einen Vektor x = (x1 ; x2 ; x3 )0 der Dimension 3 ist z. B. ein Punkt im dreidimensionalen Raum definiert. Reelle Zahlen, die ja die Elemente eines Vektors konstituieren, heißen auch Skalare. Hat man nicht nur einen, sondern k Datensätze xj = (x1j , ..., xnj )0 (j = 1, 2, ..., k) des Umfangs n und stellt man die Elemente der k Spaltenvektoren nebeneinander, resultiert ein als Matrix bezeichnetes rechteckiges Schema mit Tabellenstruktur. Matrizen werden
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_18, © Springer-Verlag Berlin Heidelberg 2011
233
Bildung von Matrizen
234
18 Grundzüge der Matrizenrechnung
üblicherweise mit fetten lateinischen oder griechischen Großbuchstaben abgekürzt:
x11 x21 . . . X= xi1 . .. xn1 |
x12 . . . x1j x22 . . . x2j .. .. .. . . . xi2 . . . xij .. .. .. . . . xn2 . . . xnj {z nxk
. . . x1k . . . x2k .. .. . . = (xij )i=1,..,n;j=1,...,k . . . . xik .... .. . . . xnk }
(18.2)
Eine Matrix mit n Zeilen und k Spalten wird als (nxk)-Matrix angesprochen and nxk wird Dimension der Matrix genannt. In Gleichung (18.2) ist die Dimension unterhalb der Matrix ausgewiesen. In (18.2) ist ferner das im Schnittpunkt der i-ten Zeile und der j-ten Spalte der Matrix stehende Element xij durch Rasterung betont. Man nennt dieses Element auch das Matrixelement in der Position (i, j). Anstelle von (18.2) schreibt man kürzer X = (xij ), wenn sich der Laufbereich der Indizes i (Anzahl der Zeilen) und j (Anzahl der Spalten) aus dem Kontext erschließt. Im Unterschied zu einer beliebigen Tabelle, etwa einer Zusammenstellung von Adressen, können mit den Elementen einer Matrix einfache Rechenoperationen durchgeführt werden (Addition, Subtraktion, Multiplikation). Spezialfälle
Vektoren sind offenbar Spezialfälle von Matrizen – ein Zeilenvektor lässt sich als Matrix mit nur einer Zeile und ein Spaltenvektor als Matrix mit nur einer Spalte interpretieren. Eine Matrix, deren Elemente alle Nullen sind, heißt Nullmatrix. Ein weiterer Spezialfall ist der Fall, dass bei einer Matrix die Anzahl n der Zeilen und die Anzahl k der Spalten übereinstimmen. In diesem Falle liegt eine quadratische Matrix vor. Ist X eine quadratische Matrix, so ist deren Dimension schon durch Angabe entweder der Zeilen- oder der Spaltenanzahl eindeutig bestimmt. Manchmal wird die Dimension einer quadratischen Matrix über einen tiefgestellten Index ausgewiesen, etwa Xn bei einer quadratischen Matrix X mit n Zeilen. Sind bei einer quadratischen Matrix alle Elemente xij mit i 6= j Null, spricht man von einer Diagonalmatrix. Die Elemente x11 , x22 , ..., xnn konstituieren die Hauptdiagonale einer quadratischen Matrix. Ein Sonderfall einer Diagonalmatrix ist die i. a. mit I oder – bei Ausweis der Dimension – mit In abgekürzte Einheitsmatrix. Für diese ist kennzeichnend, dass die Elemente auf der Hauptdiagonalen alle den Wert 1 haben: 1 0 . . . I= 0 . .. 0 |
0 0 .. . . 0 .. . 0 ... 0 ... 1 {z } 0 ... 1 ... .. .. . . 0 ... .. .. . .
0 ... 0 ... .. .. . . 1 ... .. .. . .
nxn
(18.3)
18.2 Operationen mit Matrizen und Vektoren
235
18.2 Operationen mit Matrizen und Vektoren Wie Vektoren lassen sich auch Matrizen transponieren. Die zur Matrix X aus (18.2) gehörende transponierte Matrix X0 entsteht durch Vertauschen der Zeilen und Spalten von X. Dies ist hier anhand der gerastert dargestellten i-ten Zeile von X illustriert, die nach dem Transponieren von X die – ebenfalls durch Rasterung betonte – i-te Spalte von X0 wird: x11 x12 . . . x1k x21 x22 . . . x2k x x . . . x . . . x 11 21 i1 n1 . .. .. .. . x12 x22 . . . xi2 . . . xn2 . . . Transponieren . 0 X= X = .. . . . . . . . . . . . xi1 xi2 . . . xik . . . . . . . . . . .. .. .. .. x1k x2k . . . xik . . . xnk | {z } xn1 xn2 . . . xnk kxn | {z } nxk
Eine Matrix X mit der Eigenschaft X = X0
(18.4)
heißt symmetrisch. Man erkennt leicht, dass nur quadratische Matrizen symmetrisch sein können. Ein Beispiel einer symmetrischen Matrix ist die Einheitsmatrix I. Eine besonders einfache Operation ist die Multiplikation einer Matrix mit einer reellen Zahl λ (lies: lambda). Diese erfolgt, indem man jedes Element einer Matrix X = (xij ) einzeln mit dem Skalar λ multipliziert: λ · X = λ · (xij ) = (λ · xij ).
(18.5)
Sehr einfach ist auch die Addition von Matrizen A = (aij ) und B = (bij ) gleicher Dimension. Hier werden die an gleicher Position stehenden Elemente addiert, d. h. es ist A + B = C = (cij )
mit
cij = aij + bij .
(18.6)
Für Matrizen ungleicher Dimension ist die Addition nicht erklärt. Da Vektoren als spezielle Matrizen zu interpretieren sind, gelten die vorstehenden Ausführungen insbesondere auch für Vektoren. Beispiel 18.1 Multiplikation mit Skalaren; Addition von Matrizen Nachstehend wird illustriert, wie man gemäß (18.5) eine (2 × 3)-Matrix mit 4, 5 resp. einen aus zwei Elementen bestehenden Vektor mit der reellen Zahl −3 multipliziert: 1 1, 8 4 4, 5 · 1 4, 5 · 1, 8 4, 5 · 4 4, 5 8, 1 18 4, 5 · = = 3 0 2 4, 5 · 3 4, 5 · 0 4, 5 · 2 13, 5 0 9 2x (−3) · 2x −6x (−3) · = = . −y (−3) · (−y) 3y
Addition von Matrizen
236
18 Grundzüge der Matrizenrechnung
Beispielhaft ausgeführt sei auch die Anwendung von (18.6) anhand der Addition der obigen (3 × 2)-Matrix mit einer anderen (3 × 2)-Matrix sowie der Addition zweier quadratischer Matrizen mit zwei Zeilen. Die Elemente der letztgenannten Matrizen sind hier so spezifiziert, dass als Summe die (2 × 2)-Einheitsmatrix resultiert: 1 1, 8 4 2 1, 2 2 1 + 2 1, 8 + 1, 2 4 + 2 3 3 6 + = = 3 0 2 1 5, 4 3 3 + 1 0 + 5, 4 2 + 3 4 5, 4 5 2 4 −1 −4 2−1 4−4 1 0 + = = = I2 . 3 −1 −3 2 3 − 3 −1 + 2 0 1 Auch die Multiplikation von Matrizen ist nicht generell, sondern nur unter bestimmten, die Dimension der Matrizen betreffenden Vorausetzungen möglich. Das Produkt zweier Matrizen A und B ist nur dann erklärt, wenn die Anzahl der Spalten von A mit der Anzahl der Zeilen von B übereinstimmt. Hat etwa die Matrix A die Dimension (n × k) und B die Dimension (k × m), so ist die Matrix C := A · B von der Dimension (n × m): a11 a12 . . . a1k c11 . . . c1l . . . c1m .. .. .. b11 . . . b1l . . . b1m .. .. .. .. .. . . . b . . . . . . . . b . . . b 2l 2m 21 ai1 ai2 . . . aik · .. .. .. .. .. = ci1 . . . cil . . . cim . . . . . . .. .. .. .. .. .. .. .. ... . . . b . . . . k1 . . . bkl . . . bkm | {z } an1 an2 . . . ank cn1 . . . cnl . . . cnm | {z } | {z } kxm nxm
nxk
Produkt zweier Matrizen
Das vorstehend durch Rasterung betonte Element cil der (n × m)-Produktmatrix C, also das im Schnittpunkt der i-ten Zeile und der l-ten Spalte stehende Element von C ergibt sich, indem man die ebenfalls in der obigen Gleichung gerastert dargestellten k Elemente der i-ten Zeile von A (i = 1, ..., n) und die k Elemente der l-ten Spalte von B (l = 1, . . . , m) gliedweise miteinander multipliziert und aufsummiert: A = (aij ), |{z} B = (bjl ) ⇒ A · B = |{z} C = (cil ) mit cil = |{z} n×k
k×m
n×m
k X
aij · bjl .
(18.7)
j=1
Neben dem Produkt A · B aus einer (n × k)-Matrix A und einer (k × m)-Matrix B ist B·A nur dann ebenfalls erklärt, wenn n = m gilt. Aber selbst wenn sowohl A·B als auch B · A beide definiert sind, stimmen die Produkte i. a. – anders als bei der Multiplikation zweier reeller Zahlen – nicht überein. Es gibt noch weitere, teilweise überraschende Unterschiede ziwschen Operationen mit reellen Zahlen einerseits und Matrizen andererseits. Ist z. B. das Produkt zweier reeller Zahlen Null, kann man stets darauf schließen, dass mindestens eine der beiden Zahlen Null ist. Bei zwei Matrizen hingegen kann der Fall auftreten, dass ihr Produkt die Nullmatrix ergibt, ohne dass eine der beiden Ausgangsmatrizen eine Nullmatrix war. Die Multiplikation einer Matrix A mit einem Spaltenvektor x oder einem Zeilenvektor x ergibt sich als Spezialfall der Multiplikation (18.7) von Matrizen. Definiert sind im Falle einer (n × k)-Matrix A nur das Produkt A · x mit einem Spaltenvektor x der Dimension k und das Produkt x0 · A mit einem Zeilenvektor der Dimension n. Im ersten 0
18.2 Operationen mit Matrizen und Vektoren
237
Fall resultiert ein Spaltenvektor mit n Elementen, im zweiten Fall ein Zeilenvektor mit k Elementen. Letzterer ist hier nur aus Platzgründen als transponierter Spaltenvektor dargestellt:
a11 .. . A · x = ai1 . .. an1 |
x1 a12 . . . a1k a11 · x1 + a12 · x2 + . . . + a1k · xk x .. .. .. 2 .. . . . .. . . ai2 . . . aik · = ai1 · x1 + ai2 · x2 + . . . + aik · xk xj .. .. .. .. . . . . . .. an2 . . . ank an1 · x1 + an2 · x2 + . . . + ank · xk {z } xk | {z } | {z } nx1 nxk
kx1
a11 . . . a1j a21 . . . a2j (x1 , x2 , . . . , xn ) · .. .. .. | {z } . . . 1xn an1 . . . anj | {z
nxk
0 x1 · a11 + x2 · a21 + . . . + xn · an1 . . . a1k .. . . . . a2k .. .. = x1 · a1j + x2 · a2j + . . . + xn · anj . . .. . . . . ank } x1 · a1k + x2 · a2k + . . . + xn · ank | {z }
1xk
Beispiel 18.2 Multiplikation von Matrizen Betrachtet seien ein Spaltenvektor x der Dimension 4 sowie eine eine (4 × 3)-Matrix B : 2 7 1 1 3 −2 6 1 x= A= B= 0 −2 1 4 2 0 3 2
(2 × 4)-Matrix A und 1 −1 3 1 . 0 1 1 2
Für A · x erhält man 2 3 −2 6 1 1 3 · 2 − 2 · 1 + 6 · 0 + 1 · 3 7 = A·x= · = . 1 4 2 0 0 1·2+4·1+2·0+0·3 6 3 Das Produkt A · B ist eine (2 × 3)-Matrix: 3 · 7 − 2 · 1 − 6 · 2 + 1 · 2 3 · 1 − 2 · 3 + 6 · 0 + 1 · 1 −3 · 1 − 2 · 1 + 6 · 1 + 1 · 2 A·B= . 1 · 7 + 4 · 1 − 2 · 2 + 0 · 2 1 · 1 + 4 · 3 + 2 · 0 + 0 · 1 −1 · 1 + 4 · 1 + 2 · 1 + 0 · 2 Es ist also 9 −2 3 A·B= . 7 13 5
238
18 Grundzüge der Matrizenrechnung
Für die Matrizen A und B ist das Produkt B · A nicht erklärt, weil die Dimensionen der Matrizen nicht miteinander verträglich sind. Nachstehend sind zwei andere Matrizen A und B wiedergegeben, für die sowohl A · B als auch B · A erklärt sind. Die beiden Produktterme stimmen aber hier nicht überein: −1 2 1 2 A= B= 1 2 3 4 −1 · 1 + 2 · 3 −1 · 2 + 2 · 4 5 6 A·B= = 1·1+2·3 1·2+2·4 7 10 1 · (−1) + 2 · 1 1 · 2 + 2 · 2 1 6 B·A= = 6= A · B 3 · (−1) + 4 · 1 +3 · 2 + 4 · 2 1 14
Inversion von Matrizen
Nicht nur bei der Addition, sondern auch bei der Multiplikation zweier quadratischer Matrizen A und B kann der Fall auftreten, dass das Ergebnis der Operation die Einheitsmatrix I ist. Wenn eine quadratische Matrix B die Eigenschaft hat, dass das Produkt A · B die Einheitsmatrix ist, nennt man sie die Inverse zur Matrix A und schreibt A−1 (lies: Inverse der Matrix A). Mit der Schreibweise wird angedeutet, dass es sich um eine Verallgemeinerung der Kehrwertbildung bei reellen Zahlen handelt. Für die Inverse A−1 einer quadratischen Matrix A ist neben A · A−1 stets auch A−1 · A erklärt und es gilt A · A−1 = A−1 · A = I.
(18.8)
Für die numerische Bestimmung der Inversen einer quadratischen Matrix empfiehlt sich bei größeren Matrizen die Heranziehung geeigneter Software. Bei einer (2 × 2)-Matrix und auch noch bei einer (3 × 3)-Matrix A ist die Bestimmung der Inversen im Prinzip noch per Hand möglich. Bei einer (2 × 2)-Matrix A kann man z. B. die Elemente der Inversen B := A−1 über den Ansatz a11 a12 b11 b12 1 0 · = (18.9) a21 a22 b21 b22 0 1 bestimmen. Der Ansatz führt auf ein lineares Gleichungssystem – hier auf ein System mit 4 Gleichungen zur Bestimmung der 4 Elemente b11 , b12 , b21 und b22 . Ein solches Gleichungssystem ist allerdings nicht immer lösbar und entsprechend ist nicht für jede quadratische Matrix A eine Inverse A−1 erklärt.In der Praxis kann man für die Matrizeninversion Statistiksoftware verwenden oder eine Matrizeninversionsroutine aus dem Internet. Bedingung für Invertierbarkeit
Es sei ohne Beweis angeführt, dass eine quadratische Matrix genau dann invertierbar ist, wenn die Vektoren, die ihre Spalten und ihre Zeilen definieren, linear unabhängig sind. Letzteres bedeutet, dass sich keine Zeile oder Spalte als Linearkombination einer anderen Zeile resp. Spalte darstellen lässt. Eine solche quadratische Matrix wird als reguläre Matrix oder auch als Matrix mit vollem Rang angesprochen. Es sind also nur reguläre Matrizen invertierbar.
18.2 Operationen mit Matrizen und Vektoren
239
Beispiel 18.3 Invertierbarkeit von Matrizen Nachstehend sind zwei (2 × 2)-Matrizen A und B sowie eine (3 × 3)-Matrix C wiedergegeben: 1 2 0 1 2 1 2 A= B= C = 0 1 3 . 0 2 −2 −4 2 4 1 Die Spalten- und Zeilenvektoren der Matrix A sind jeweils linear unabhängig, d. h. die Matrix ist invertierbar. Die Inverse kann man mit gängiger Mathematik- oder auch Statistiksoftware, z. B. Mathematica oder SPSS oder auch manuell nach (18.9) bestimmen. Man erhält für A−1 eine Matrix, die in der ersten Zeile 1 und −1 und in der zweiten Zeile die Elemente 0 und −0, 5 enthält. Dass diese Matrix wirklich die Inverse von A ist, lässt sich leicht überprüfen: 1 2 1 −1 1 0 −1 A·A = · = = I2 . 0 2 0 0, 5 0 1 Die Matrix B is hingegen nicht invertierbar. Offenbar geht die zweite Zeile von B aus der ersten Zeile durch Multiplikation mit −2 hervor, d. h. die Zeilen sind hier nicht linear unabhängig. Für die Matrix C kann man zeigen, dass sie – wie die Matrix A – regulär ist und somit auch eine Inverse besitzt. Die Bestimmung der inversen Matrix C−1 mit Papier und Bleistift ist zwar noch durchführbar, wurde aber hier unter Verwendung einer Computeralgebra-Software (MuPAD) und zusätzlich auch mit SPSS ausgeführt. Alternativ bietet sich auch die Verwendung der freien Statistiksoftware R an.
Abb. 18.1: Computerausdruck zur Bestimmung der Inversen einer (3 × 3)-Matrix) (links: Computeralgebra-Software; rechts: SPSS)
240
18 Grundzüge der Matrizenrechnung
Dass die ermittelte Matrix wirklich die Inverse von C ist, lässt sich unschwer verifizieren: 1 2 0 −11 −2 6 1 0 0 1 −3 = 0 1 0 = I3 C · C−1 = 0 1 3 · 6 2 4 1 −2 0 1 0 0 1
Exkurs 18.1
Rang von Matrizen
Der Begriff „Rang“ wird auch im Zusammenhang mit beliebigen Matrizen verwendet. Als Spaltenrang einer beliebigen Matrix A bezeichnet man die Anzahl der linear unabhängigen Spalten der Matrix, als Zeilenrang die Anzahl der linear unabhängigen Zeilen. Man kann zeigen, dass Spalten- und Zeilenrang einer Matrix stets übereinstimmen. Man spricht daher kürzer vom Rang der Matrix A und verwendet für diesen die Notation rgA. Der Rang einer (n × k)-Matrix A kann höchstens so groß sein wie die kleinere der beiden Zahlen n und k, die mit min(n; k) bezeichnet sei: A ist eine (n × k)-Matrix ⇒ rgA ≤ min(n; k). Wenn speziell rgA = min(n; k) gilt, sagt man, dass A vollen Rang hat. Bei einer quadratischen Matrix bedeutet die Eigenschaft vollen Rang zu besitzen, dass sie regulär und damit auch invertierbar ist. Da in der Psychologie häufig multivariate Modelle und Verfahren eingesetzt werden, u. a. multiple Regression und mehrfaktorielle Varianzanalyse, und in diesem Kontext der Einsatz von Vektoren und Matrizen hier eine übersichtliche und kompakte Notation ermöglicht, sind Grundlagen der Matrizenrechnung in einigen Statistiklehrbüchern für Studierende der Psychologie wiedergegeben, etwa bei Eid / Gollwitzer / Schmitt (2010, Anhang B). Eine detailliertere Behandlung von Matrixoperationen, u. a. auch Verfahren zur Bestimmung von Rängen für Matrizen und zur Inversion quadratischer Matrizen, findet man in einführenden Lehrbüchern der linearen Algebra, z. B. bei Gramlich (2009).
3
18.3 Charakterisierung von Zufallsvektoren Die Elemente eines Vektors sind nicht notwendigerweise reelle Zahlen. Sie können auch den Charakter von Zufallsvariablen besitzen. Die n Störvariablen Ui des Regressionsmodells (16.26) lassen sich z. B. zu einem Zufallsvektor zusammenfassen, der mit u bezeichnet sei: 1 U1 U2 u = .. = (U1 , U2 , . . . , Un )0 . (18.10) . Un
1
Fette Großbuchstaben werden in diesem Manuskript nur für Matrizen verwendet.
18.3 Charakterisierung von Zufallsvektoren
241
Ähnlich wie bei der Multiplikation eines nicht-stochastischen Vektors mit einem Skalar wird der Erwartungswert eines Zufallsvektors gebildet, indem man den Erwartungswert für jedes einzelne Element des Vektors einzeln bestimmt. Für den Störvariablenvektor u verifiziert man z. B. bei Berücksichtigung der für das multiple Regressionsmodell getroffenen Annahme (MA3a), dass dessen Erwartungswert u der Nullvektor ist: E(U1 ) 0 E(U2 ) 0 E(u) = .. = .. = 0. . .
Erwartungswert eines Zufallsvektors
E(Un )
(18.11)
0
Bei einer eindimensionalen Zufallsvariablen U mit Erwartungswert E(U ) ist die Varianz V (U ) gemäß (11.8) durch E [(U − E(U ))(U − E(U ))] definiert. Das Streuungsverhalten eines Vektors u von Zufallsvariablen charakterisiert man ganz analog durch
Kovarianzmatrix eines Zufallsvektors: - kompakte Schreibweise
V (u) := E[(u − E(u)) (u − E(u))0 ], | {z } | {z } n×1
(18.12)
1×n
also als Erwartungswert des Produkts aus dem (n × 1)-Spaltenvektor u − E(u) und dem durch Transposition aus diesem abgeleiteten (1×n)-Zeilenvektor. Das Transponieren des zweiten Vektors ist notwendig, damit die Vektoren miteinander multiplizierbar sind. Das in (18.12) in der eckigen Klammer stehende Produkt hat somit die Dimension (n × n), repräsentiert also eine quadratische Matrix. Auch der Erwartungswert einer Matrix wird gliedweise gebildet. Man erhält für den Erwartungswert der (n × n)-Matrix aus (18.12) eine ausführlichere Darstellung, aus der man ersieht, dass V (u) eine Matrix ist, die die Varianzen V (Ui ) sowie die gemäß (13.11) definierten Kovarianzen Cov(Ui , Uj ) der Elemente des Zufallsvektors u zusammenfasst und als Kovarianzmatrix von u angesprochen wird:
V (U1 ) Cov(U1 , U2 ) Cov(U2 , U1 ) V (U2 ) .. .. . . V (u) = . .. .. . Cov(Un , U1 ) Cov(Un , U2 ) | {z nxn
. . . Cov(U1 , Un ) . . . Cov(U2 , Un ) .. .. . . .. .. . . ... V (Un ) }
(18.13)
Die Darstellungen (18.12) - (18.13) gelten ganz allgemein, also für jeden beliebigen Vektor u von Zufallsvariablen. Für den Vektor der Störvariablen u des Regressionsmodells (16.26) vereinfachen sich beide Darstellungen noch, weil man hier auf die Annahmen (MA3a) und (MA3b) zurückgreifen kann. Mit (MA3a) gilt E(u) = 0 und damit V (u) = E(uu0 ) und die Elemente V (U1 ), ..., V (Un ) auf der Hauptdiagonalen von (18.13) haben alle denselben Wert σ 2 . Die anderen Elemente von der Matrix V (u) sind nach (MA3b) Null. Die Matrix V (u) ist demnach hier eine Diagonalmatrix, die als Vielfaches
- ausführliche Schreibweise
242
18 Grundzüge der Matrizenrechnung
der (n × n)-Einheitsmatrix In darstellbar ist: 2 σ 0 0 σ2 . .. . V (u) = .. . .. .. . 0 0
0 0 .. . = σ 2 · In . .. . . . . σ2 ... ... .. . ...
(18.14)
19 Tabellenanhang 19.1 Verteilungsfunktion der Binomialverteilung Es sei X ∼ B(n, p) eine mit Parametern n und p binomialverteilte Zufallsvariable. Deren Wahrscheinlichkeitsfunktion f (x) = P (X = x) ist durch n x f (x) = p (1 − p)n−x x = 0, 1, . . . , n x und die Verteilungsfunktion F (x) = P (X ≤ x) durch x X n k F (x) = p (1 − p)n−k k k=0
x = 0, 1, . . . , n.
gegeben. Um das Verhalten von X vollständig zu charakterisieren, benötigt man nur eine der beiden obigen Funktionen; die andere lässt sich dann durch die andere ausdrücken. In der nachstehenden Tabelle 19.1 sind Werte F (x) der Verteilungsfunktion einer B(n, p)-verteilten Zufallsvariablen X für n = 1, 2, . . . , 20 und p = 0, 05, 0, 10, . . . , 0, 50 zusammengestellt. Man entnimmt der Tabelle z. B., dass F (x) im Falle n = 10 und p = 0, 50 für x = 3 den Wert F (3) = 0, 1719 annimmt. Dieser Wert entspricht der Summe f (0), f (1), f (2), f (3) aller Werte der Wahrscheinlichkeitsfunktion bis zur Stelle x = 3. Will man also z. B. den Wert der Wahrscheinlichkeitsfunktion f (x) für x = 3 anhand von Tabelle 19.1 errechnen, so ergibt sich dieser offenbar als Differenz F (3) − F (2) der Werte der Verteilungsfunktion, also durch f (3) = 0, 1719 − 0, 0547 = 0, 1172. Abbildung 11.5 zeigt die Wahrscheinlichkeitsfunktion f (x) und Verteilungsfunktion F (x) der speziellen Binomialverteilung mit n = 10 und p = 0, 50 nicht nur an der Stelle x = 3, sondern auch für andere Werte der Trägermenge {0, 1, . . . , n}. Abbildung 11.6 bezieht sich auf denselben Wert n = 10 und auf p = 0, 25. Die Verteilungsfunktion F (x) erreicht an der Stelle x = n stets das Endniveau 1.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_19, © Springer-Verlag Berlin Heidelberg 2011
243
Java-Applet „Die Binomialverteilung“
244
n 1 1 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8
x 0 1 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8
19 Tabellenanhang
p=0,05 0,9500 1,0000 0,9025 0,9975 1,0000 0,8574 0,9928 0,9999 1,0000 0,8145 0,9860 0,9995 1,0000 1,0000 0,7738 0,9774 0,9988 1,0000 1,0000 1,0000 0,7351 0,9672 0,9978 0,9999 1,0000 1,0000 1,0000 0,6983 0,9556 0,9962 0,9998 1,0000 1,0000 1,0000 1,0000 0,6634 0,9428 0,9942 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,10 0,9000 1,0000 0,8100 0,9900 1,0000 0,7290 0,9720 0,9990 1,0000 0,6561 0,9477 0,9963 0,9999 1,0000 0,5905 0,9185 0,9914 0,9995 1,0000 1,0000 0,5314 0,8857 0,9842 0,9987 0,9999 1,0000 1,0000 0,4783 0,8503 0,9743 0,9973 0,9998 1,0000 1,0000 1,0000 0,4305 0,8131 0,9619 0,9950 0,9996 1,0000 1,0000 1,0000 1,0000
p=0,15 0,8500 1,0000 0,7225 0,9775 1,0000 0,6141 0,9393 0,9966 1,0000 0,5220 0,8905 0,9880 0,9995 1,0000 0,4437 0,8352 0,9734 0,9978 0,9999 1,0000 0,3771 0,7765 0,9527 0,9941 0,9996 1,0000 1,0000 0,3206 0,7166 0,9262 0,9879 0,9988 0,9999 1,0000 1,0000 0,2725 0,6572 0,8948 0,9786 0,9971 0,9998 1,0000 1,0000 1,0000
p=0,20 0,8000 1,0000 0,6400 0,9600 1,0000 0,5120 0,8960 0,9920 1,0000 0,4096 0,8192 0,9728 0,9984 1,0000 0,3277 0,7373 0,9421 0,9933 0,9997 1,0000 0,2621 0,6554 0,9011 0,9830 0,9984 0,9999 1,0000 0,2097 0,5767 0,8520 0,9667 0,9953 0,9996 1,0000 1,0000 0,1678 0,5033 0,7969 0,9437 0,9896 0,9988 0,9999 1,0000 1,0000
p=0,25 0,7500 1,0000 0,5625 0,9375 1,0000 0,4219 0,8438 0,9844 1,0000 0,3164 0,7383 0,9492 0,9961 1,0000 0,2373 0,6328 0,8965 0,9844 0,9990 1,0000 0,1780 0,5339 0,8306 0,9624 0,9954 0,9998 1,0000 0,1335 0,4449 0,7564 0,9294 0,9871 0,9987 0,9999 1,0000 0,1001 0,3671 0,6785 0,8862 0,9727 0,9958 0,9996 1,0000 1,0000
p=0,30 0,7000 1,0000 0,4900 0,9100 1,0000 0,3430 0,7840 0,9730 1,0000 0,2401 0,6517 0,9163 0,9919 1,0000 0,1681 0,5282 0,8369 0,9692 0,9976 1,0000 0,1176 0,4202 0,7443 0,9295 0,9891 0,9993 1,0000 0,0824 0,3294 0,6471 0,8740 0,9712 0,9962 0,9998 1,0000 0,0576 0,2553 0,5518 0,8059 0,9420 0,9887 0,9987 0,9999 1,0000
p=0,35 0,6500 1,0000 0,4225 0,8775 1,0000 0,2746 0,7183 0,9571 1,0000 0,1785 0,5630 0,8735 0,9850 1,0000 0,1160 0,4284 0,7648 0,9460 0,9947 1,0000 0,0754 0,3191 0,6471 0,8826 0,9777 0,9982 1,0000 0,0490 0,2338 0,5323 0,8002 0,9444 0,9910 0,9994 1,0000 0,0319 0,1691 0,4278 0,7064 0,8939 0,9747 0,9964 0,9998 1,0000
p=0,40 0,6000 1,0000 0,3600 0,8400 1,0000 0,2160 0,6480 0,9360 1,0000 0,1296 0,4752 0,8208 0,9744 1,0000 0,0778 0,3370 0,6826 0,9130 0,9898 1,0000 0,0467 0,2333 0,5443 0,8208 0,9590 0,9959 1,0000 0,0280 0,1586 0,4199 0,7102 0,9037 0,9812 0,9984 1,0000 0,0168 0,1064 0,3154 0,5941 0,8263 0,9502 0,9915 0,9993 1,0000
p=0,45 0,5500 1,0000 0,3025 0,7975 1,0000 0,1664 0,5748 0,9089 1,0000 0,0915 0,3910 0,7585 0,9590 1,0000 0,0503 0,2562 0,5931 0,8688 0,9815 1,0000 0,0277 0,1636 0,4415 0,7447 0,9308 0,9917 1,0000 0,0152 0,1024 0,3164 0,6083 0,8471 0,9643 0,9963 1,0000 0,0084 0,0632 0,2201 0,4770 0,7396 0,9115 0,9819 0,9983 1,0000
Tab. 19.1: Verteilungsfunktion F (x) der Binomialverteilung (n = 1 bis n = 8)
p=0,50 0,5000 1,0000 0,2500 0,7500 1,0000 0,1250 0,5000 0,8750 1,0000 0,0625 0,3125 0,6875 0,9375 1,0000 0,0313 0,1875 0,5000 0,8125 0,9688 1,0000 0,0156 0,1094 0,3438 0,6563 0,8906 0,9844 1,0000 0,0078 0,0625 0,2266 0,5000 0,7734 0,9375 0,9922 1,0000 0,0039 0,0352 0,1445 0,3633 0,6367 0,8555 0,9648 0,9961 1,0000
19.1 Verteilungsfunktion der Binomialverteilung
n 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 11 11 11 11 11 11 11 11 11 11 11 11 12 12 12 12 12 12 12 12 12 12 12 12 12
x 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 12
p=0,05 0,6302 0,9288 0,9916 0,9994 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,5987 0,9139 0,9885 0,9990 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,5688 0,8981 0,9848 0,9984 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,5404 0,8816 0,9804 0,9978 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,10 0,3874 0,7748 0,9470 0,9917 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 0,3487 0,7361 0,9298 0,9872 0,9984 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 0,3138 0,6974 0,9104 0,9815 0,9972 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,2824 0,6590 0,8891 0,9744 0,9957 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,15 0,2316 0,5995 0,8591 0,9661 0,9944 0,9994 1,0000 1,0000 1,0000 1,0000 0,1969 0,5443 0,8202 0,9500 0,9901 0,9986 0,9999 1,0000 1,0000 1,0000 1,0000 0,1673 0,4922 0,7788 0,9306 0,9841 0,9973 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 0,1422 0,4435 0,7358 0,9078 0,9761 0,9954 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,20 0,1342 0,4362 0,7382 0,9144 0,9804 0,9969 0,9997 1,0000 1,0000 1,0000 0,1074 0,3758 0,6778 0,8791 0,9672 0,9936 0,9991 0,9999 1,0000 1,0000 1,0000 0,0859 0,3221 0,6174 0,8389 0,9496 0,9883 0,9980 0,9998 1,0000 1,0000 1,0000 1,0000 0,0687 0,2749 0,5583 0,7946 0,9274 0,9806 0,9961 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000
p=0,25 0,0751 0,3003 0,6007 0,8343 0,9511 0,9900 0,9987 0,9999 1,0000 1,0000 0,0563 0,2440 0,5256 0,7759 0,9219 0,9803 0,9965 0,9996 1,0000 1,0000 1,0000 0,0422 0,1971 0,4552 0,7133 0,8854 0,9657 0,9924 0,9988 0,9999 1,0000 1,0000 1,0000 0,0317 0,1584 0,3907 0,6488 0,8424 0,9456 0,9857 0,9972 0,9996 1,0000 1,0000 1,0000 1,0000
245
p=0,30 0,0404 0,1960 0,4628 0,7297 0,9012 0,9747 0,9957 0,9996 1,0000 1,0000 0,0282 0,1493 0,3828 0,6496 0,8497 0,9527 0,9894 0,9984 0,9999 1,0000 1,0000 0,0198 0,1130 0,3127 0,5696 0,7897 0,9218 0,9784 0,9957 0,9994 1,0000 1,0000 1,0000 0,0138 0,0850 0,2528 0,4925 0,7237 0,8822 0,9614 0,9905 0,9983 0,9998 1,0000 1,0000 1,0000
p=0,35 0,0207 0,1211 0,3373 0,6089 0,8283 0,9464 0,9888 0,9986 0,9999 1,0000 0,0135 0,0860 0,2616 0,5138 0,7515 0,9051 0,9740 0,9952 0,9995 1,0000 1,0000 0,0088 0,0606 0,2001 0,4256 0,6683 0,8513 0,9499 0,9878 0,9980 0,9998 1,0000 1,0000 0,0057 0,0424 0,1513 0,3467 0,5833 0,7873 0,9154 0,9745 0,9944 0,9992 0,9999 1,0000 1,0000
p=0,40 0,0101 0,0705 0,2318 0,4826 0,7334 0,9006 0,9750 0,9962 0,9997 1,0000 0,0060 0,0464 0,1673 0,3823 0,6331 0,8338 0,9452 0,9877 0,9983 0,9999 1,0000 0,0036 0,0302 0,1189 0,2963 0,5328 0,7535 0,9006 0,9707 0,9941 0,9993 1,0000 1,0000 0,0022 0,0196 0,0834 0,2253 0,4382 0,6652 0,8418 0,9427 0,9847 0,9972 0,9997 1,0000 1,0000
p=0,45 0,0046 0,0385 0,1495 0,3614 0,6214 0,8342 0,9502 0,9909 0,9992 1,0000 0,0025 0,0233 0,0996 0,2660 0,5044 0,7384 0,8980 0,9726 0,9955 0,9997 1,0000 0,0014 0,0139 0,0652 0,1911 0,3971 0,6331 0,8262 0,9390 0,9852 0,9978 0,9998 1,0000 0,0008 0,0083 0,0421 0,1345 0,3044 0,5269 0,7393 0,8883 0,9644 0,9921 0,9989 0,9999 1,0000
Tab. 19.1: Verteilungsfunktion F (x) der Binomialverteilung (n = 9 bis n = 12)
p=0,50 0,0020 0,0195 0,0898 0,2539 0,5000 0,7461 0,9102 0,9805 0,9980 1,0000 0,0010 0,0107 0,0547 0,1719 0,3770 0,6230 0,8281 0,9453 0,9893 0,9990 1,0000 0,0005 0,0059 0,0327 0,1133 0,2744 0,5000 0,7256 0,8867 0,9673 0,9941 0,9995 1,0000 0,0002 0,0032 0,0193 0,0730 0,1938 0,3872 0,6128 0,8062 0,9270 0,9807 0,9968 0,9998 1,0000
246
n 13 13 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
19 Tabellenanhang
p=0,05 0,5133 0,8646 0,9755 0,9969 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,4877 0,8470 0,9699 0,9958 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,4633 0,8290 0,9638 0,9945 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,10 0,2542 0,6213 0,8661 0,9658 0,9935 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,2288 0,5846 0,8416 0,9559 0,9908 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,2059 0,5490 0,8159 0,9444 0,9873 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,15 0,1209 0,3983 0,6920 0,8820 0,9658 0,9925 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,1028 0,3567 0,6479 0,8535 0,9533 0,9885 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0874 0,3186 0,6042 0,8227 0,9383 0,9832 0,9964 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,20 0,0550 0,2336 0,5017 0,7473 0,9009 0,9700 0,9930 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 0,0440 0,1979 0,4481 0,6982 0,8702 0,9561 0,9884 0,9976 0,9996 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0352 0,1671 0,3980 0,6482 0,8358 0,9389 0,9819 0,9958 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,25 0,0238 0,1267 0,3326 0,5843 0,7940 0,9198 0,9757 0,9944 0,9990 0,9999 1,0000 1,0000 1,0000 1,0000 0,0178 0,1010 0,2811 0,5213 0,7415 0,8883 0,9617 0,9897 0,9978 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 0,0134 0,0802 0,2361 0,4613 0,6865 0,8516 0,9434 0,9827 0,9958 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000
p=0,30 0,0097 0,0637 0,2025 0,4206 0,6543 0,8346 0,9376 0,9818 0,9960 0,9993 0,9999 1,0000 1,0000 1,0000 0,0068 0,0475 0,1608 0,3552 0,5842 0,7805 0,9067 0,9685 0,9917 0,9983 0,9998 1,0000 1,0000 1,0000 1,0000 0,0047 0,0353 0,1268 0,2969 0,5155 0,7216 0,8689 0,9500 0,9848 0,9963 0,9993 0,9999 1,0000 1,0000 1,0000
p=0,35 0,0037 0,0296 0,1132 0,2783 0,5005 0,7159 0,8705 0,9538 0,9874 0,9975 0,9997 1,0000 1,0000 1,0000 0,0024 0,0205 0,0839 0,2205 0,4227 0,6405 0,8164 0,9247 0,9757 0,9940 0,9989 0,9999 1,0000 1,0000 1,0000 0,0016 0,0142 0,0617 0,1727 0,3519 0,5643 0,7548 0,8868 0,9578 0,9876 0,9972 0,9995 0,9999 1,0000 1,0000
p=0,40 0,0013 0,0126 0,0579 0,1686 0,3530 0,5744 0,7712 0,9023 0,9679 0,9922 0,9987 0,9999 1,0000 1,0000 0,0008 0,0081 0,0398 0,1243 0,2793 0,4859 0,6925 0,8499 0,9417 0,9825 0,9961 0,9994 0,9999 1,0000 1,0000 0,0005 0,0052 0,0271 0,0905 0,2173 0,4032 0,6098 0,7869 0,9050 0,9662 0,9907 0,9981 0,9997 1,0000 1,0000
p=0,45 0,0004 0,0049 0,0269 0,0929 0,2279 0,4268 0,6437 0,8212 0,9302 0,9797 0,9959 0,9995 1,0000 1,0000 0,0002 0,0029 0,0170 0,0632 0,1672 0,3373 0,5461 0,7414 0,8811 0,9574 0,9886 0,9978 0,9997 1,0000 1,0000 0,0001 0,0017 0,0107 0,0424 0,1204 0,2608 0,4522 0,6535 0,8182 0,9231 0,9745 0,9937 0,9989 0,9999 1,0000
Tab. 19.1: Verteilungsfunktion F (x) der Binomialverteilung (n = 13 bis n = 15)
p=0,50 0,0001 0,0017 0,0112 0,0461 0,1334 0,2905 0,5000 0,7095 0,8666 0,9539 0,9888 0,9983 0,9999 1,0000 0,0001 0,0009 0,0065 0,0287 0,0898 0,2120 0,3953 0,6047 0,7880 0,9102 0,9713 0,9935 0,9991 0,9999 1,0000 0,0000 0,0005 0,0037 0,0176 0,0592 0,1509 0,3036 0,5000 0,6964 0,8491 0,9408 0,9824 0,9963 0,9995 1,0000
19.1 Verteilungsfunktion der Binomialverteilung
n 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
p=0,05 0,4401 0,8108 0,9571 0,9930 0,9991 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,4181 0,7922 0,9497 0,9912 0,9988 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,3972 0,7735 0,9419 0,9891 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,10 0,1853 0,5147 0,7892 0,9316 0,9830 0,9967 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,1668 0,4818 0,7618 0,9174 0,9779 0,9953 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,1501 0,4503 0,7338 0,9018 0,9718 0,9936 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,15 0,0743 0,2839 0,5614 0,7899 0,9209 0,9765 0,9944 0,9989 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0631 0,2525 0,5198 0,7556 0,9013 0,9681 0,9917 0,9983 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0536 0,2241 0,4797 0,7202 0,8794 0,9581 0,9882 0,9973 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,20 0,0281 0,1407 0,3518 0,5981 0,7982 0,9183 0,9733 0,9930 0,9985 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0225 0,1182 0,3096 0,5489 0,7582 0,8943 0,9623 0,9891 0,9974 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0180 0,0991 0,2713 0,5010 0,7164 0,8671 0,9487 0,9837 0,9957 0,9991 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,25 0,0100 0,0635 0,1971 0,4050 0,6302 0,8103 0,9204 0,9729 0,9925 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0075 0,0501 0,1637 0,3530 0,5739 0,7653 0,8929 0,9598 0,9876 0,9969 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0056 0,0395 0,1353 0,3057 0,5187 0,7175 0,8610 0,9431 0,9807 0,9946 0,9988 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
247
p=0,30 0,0033 0,0261 0,0994 0,2459 0,4499 0,6598 0,8247 0,9256 0,9743 0,9929 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 0,0023 0,0193 0,0774 0,2019 0,3887 0,5968 0,7752 0,8954 0,9597 0,9873 0,9968 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 0,0016 0,0142 0,0600 0,1646 0,3327 0,5344 0,7217 0,8593 0,9404 0,9790 0,9939 0,9986 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,35 0,0010 0,0098 0,0451 0,1339 0,2892 0,4900 0,6881 0,8406 0,9329 0,9771 0,9938 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000 0,0007 0,0067 0,0327 0,1028 0,2348 0,4197 0,6188 0,7872 0,9006 0,9617 0,9880 0,9970 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 0,0004 0,0046 0,0236 0,0783 0,1886 0,3550 0,5491 0,7283 0,8609 0,9403 0,9788 0,9938 0,9986 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,40 0,0003 0,0033 0,0183 0,0651 0,1666 0,3288 0,5272 0,7161 0,8577 0,9417 0,9809 0,9951 0,9991 0,9999 1,0000 1,0000 1,0000 0,0002 0,0021 0,0123 0,0464 0,1260 0,2639 0,4478 0,6405 0,8011 0,9081 0,9652 0,9894 0,9975 0,9995 0,9999 1,0000 1,0000 1,0000 0,0001 0,0013 0,0082 0,0328 0,0942 0,2088 0,3743 0,5634 0,7368 0,8653 0,9424 0,9797 0,9942 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000
p=0,45 0,0001 0,0010 0,0066 0,0281 0,0853 0,1976 0,3660 0,5629 0,7441 0,8759 0,9514 0,9851 0,9965 0,9994 0,9999 1,0000 1,0000 0,0000 0,0006 0,0041 0,0184 0,0596 0,1471 0,2902 0,4743 0,6626 0,8166 0,9174 0,9699 0,9914 0,9981 0,9997 1,0000 1,0000 1,0000 0,0000 0,0003 0,0025 0,0120 0,0411 0,1077 0,2258 0,3915 0,5778 0,7473 0,8720 0,9463 0,9817 0,9951 0,9990 0,9999 1,0000 1,0000 1,0000
Tab. 19.1: Verteilungsfunktion F (x) der Binomialverteilung (n = 16 und n = 18)
p=0,50 0,0000 0,0003 0,0021 0,0106 0,0384 0,1051 0,2272 0,4018 0,5982 0,7728 0,8949 0,9616 0,9894 0,9979 0,9997 1,0000 1,0000 0,0000 0,0001 0,0012 0,0064 0,0245 0,0717 0,1662 0,3145 0,5000 0,6855 0,8338 0,9283 0,9755 0,9936 0,9988 0,9999 1,0000 1,0000 0,0000 0,0001 0,0007 0,0038 0,0154 0,0481 0,1189 0,2403 0,4073 0,5927 0,7597 0,8811 0,9519 0,9846 0,9962 0,9993 0,9999 1,0000 1,0000
248
n 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
19 Tabellenanhang
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
p=0,05 0,3774 0,7547 0,9335 0,9868 0,9980 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,3585 0,7358 0,9245 0,9841 0,9974 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,10 0,1351 0,4203 0,7054 0,8850 0,9648 0,9914 0,9983 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,1216 0,3917 0,6769 0,8670 0,9568 0,9887 0,9976 0,9996 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,15 0,0456 0,1985 0,4413 0,6841 0,8556 0,9463 0,9837 0,9959 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0388 0,1756 0,4049 0,6477 0,8298 0,9327 0,9781 0,9941 0,9987 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,20 0,0144 0,0829 0,2369 0,4551 0,6733 0,8369 0,9324 0,9767 0,9933 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0115 0,0692 0,2061 0,4114 0,6296 0,8042 0,9133 0,9679 0,9900 0,9974 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,25 0,0042 0,0310 0,1113 0,2631 0,4654 0,6678 0,8251 0,9225 0,9713 0,9911 0,9977 0,9995 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0032 0,0243 0,0913 0,2252 0,4148 0,6172 0,7858 0,8982 0,9591 0,9861 0,9961 0,9991 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,30 0,0011 0,0104 0,0462 0,1332 0,2822 0,4739 0,6655 0,8180 0,9161 0,9674 0,9895 0,9972 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 0,0008 0,0076 0,0355 0,1071 0,2375 0,4164 0,6080 0,7723 0,8867 0,9520 0,9829 0,9949 0,9987 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,35 0,0003 0,0031 0,0170 0,0591 0,1500 0,2968 0,4812 0,6656 0,8145 0,9125 0,9653 0,9886 0,9969 0,9993 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 0,0002 0,0021 0,0121 0,0444 0,1182 0,2454 0,4166 0,6010 0,7624 0,8782 0,9468 0,9804 0,9940 0,9985 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,40 0,0001 0,0008 0,0055 0,0230 0,0696 0,1629 0,3081 0,4878 0,6675 0,8139 0,9115 0,9648 0,9884 0,9969 0,9994 0,9999 1,0000 1,0000 1,0000 1,0000 0,0000 0,0005 0,0036 0,0160 0,0510 0,1256 0,2500 0,4159 0,5956 0,7553 0,8725 0,9435 0,9790 0,9935 0,9984 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
p=0,45 0,0000 0,0002 0,0015 0,0077 0,0280 0,0777 0,1727 0,3169 0,4940 0,6710 0,8159 0,9129 0,9658 0,9891 0,9972 0,9995 0,9999 1,0000 1,0000 1,0000 0,0000 0,0001 0,0009 0,0049 0,0189 0,0553 0,1299 0,2520 0,4143 0,5914 0,7507 0,8692 0,9420 0,9786 0,9936 0,9985 0,9997 1,0000 1,0000 1,0000 1,0000
Tab. 19.1: Verteilungsfunktion F (x) der Binomialverteilung (n = 18 bis n = 20)
p=0,50 0,0000 0,0000 0,0004 0,0022 0,0096 0,0318 0,0835 0,1796 0,3238 0,5000 0,6762 0,8204 0,9165 0,9682 0,9904 0,9978 0,9996 1,0000 1,0000 1,0000 0,0000 0,0000 0,0002 0,0013 0,0059 0,0207 0,0577 0,1316 0,2517 0,4119 0,5881 0,7483 0,8684 0,9423 0,9793 0,9941 0,9987 0,9998 1,0000 1,0000 1,0000
19.2 Verteilungsfunktion der Standardnormalverteilung
249
19.2 Verteilungsfunktion der Standardnormalverteilung Ist X eine mit Erwartungswert µ und Varianz σ 2 normalverteilte Zufallsvariable , also X ∼ N (µ, σ 2 ), so lässt sie sich anhand ihrer Dichtefunktion 1 (x − µ)2 f (x) = √ exp − 2σ 2 σ 2π oder anhand ihrer Verteilungsfunktion F (x) = P (X ≤ x) charakterisieren, wobei die erste Ableitung F 0 (x) der Verteilungsfunktion und die Dichtefunktion f (x) über die Beziehung F 0 (x) = f (x) verknüpft sind. Letzteres impliziert, dass sich der Funktionswert der Verteilungsfunktion an der Stelle x auch als Inhalt der Fläche unter der Dichtekurve bis zur Stelle x interpretieren lässt. Man könnte für jede Normalverteilung eine – von den Verteilungsparametern µ und σ abhängige – Tabelle mit Werten der Verteilungsfunktion F (x) anlegen. Da sich aber jede normalverteilte Zufallsvariable X über die Transformation Z :=
X −µ σ
in die als Standardnormalverteilung angesprochene Normalverteilung mit Erwartungswert 0 und Varianz 1 überführen lässt, genügt es Werte der Verteilungsfunktion der Standardnormalverteilung zu tabellieren. Für diese Funktion hat sich die Bezeichnung Φ(z) (lies: Groß-Phi von z ) etabliert und für die Dichtefunktion Φ0 (z) der Standardnormalverteilung die Bezeichnung φ(z) (lies: Klein-Phi von z ). Zwischen der Verteilungsfunktion F (x) einer N (µ, σ2 )-verteilten Zufallsvariablen und der Verteilungsfunktion Φ(z) der standardisierten Variablen Z besteht die Beziehung x−µ F (x) = Φ = Φ(z). σ In Tabelle 19.2 sind für den Bereich von z = 0, 00 bis z = 3, 99 Werte der Verteilungsfunktion Φ(z) auf vier Dezimalstellen genau wiedergegeben. Dabei ist die letzte Dezimalstelle der Werte z im Tabellenkopf ausgewiesen. Abbildung 12.3 liefert für z = 1, 65 ein Ablesebeispiel und veranschaulicht zudem, dass sich der Wert Φ(1, 65) = 0, 9505 als Inhalt der Fläche unter der Dichtekurve φ(z) bis zur Stelle z = 1, 65 auffassen lässt. Auch die Fläche unter der Dichtekurve φ(z) zwischen zwei Punkten der z-Achse lässt sich als Differenz von Werten der Funktion Φ(z) ausdrücken. Der Flächeninhalt unterhalb der Dichte im Bereich von z = 0, 59 bis z = 1, 65 ist z. B. durch Φ(1, 65) − Φ(0, 59) gegeben, also durch 0, 9505 − 0, 7224 = 0, 2281. Die Beschränkung von Tabelle 19.2 auf nicht-negative Werte von z ist aufgrund der Symmetriebeziehung Φ(z) = 1 − Φ(−z) gerechtfertigt. Für z = −1, 65 gilt also Φ(−1, 65) = 1 − Φ(1, 65) = 0, 0495.
Java-Applet „Standardnormalverteilung“
250
19 Tabellenanhang
z 0,0 0,1 0,2 0,3 0,4
0 0,5000 0,5398 0,5793 0,6179 0,6554
1 0,5040 0,5438 0,5832 0,6217 0,6591
2 0,5080 0,5478 0,5871 0,6255 0,6628
3 0,5120 0,5517 0,5910 0,6293 0,6664
4 0,5160 0,5557 0,5948 0,6331 0,6700
5 0,5199 0,5596 0,5987 0,6368 0,6736
6 0,5239 0,5636 0,6026 0,6406 0,6772
7 0,5279 0,5675 0,6064 0,6443 0,6808
8 0,5319 0,5714 0,6103 0,6480 0,6844
9 0,5359 0,5753 0,6141 0,6517 0,6879
0,5 0,6 0,7 0,8 0,9
0,6915 0,7257 0,7580 0,7881 0,8159
0,6950 0,7291 0,7611 0,7910 0,8186
0,6985 0,7324 0,7642 0,7939 0,8212
0,7019 0,7357 0,7673 0,7967 0,8238
0,7054 0,7389 0,7704 0,7995 0,8264
0,7088 0,7422 0,7734 0,8023 0,8289
0,7123 0,7454 0,7764 0,8051 0,8315
0,7157 0,7486 0,7794 0,8079 0,8340
0,7190 0,7517 0,7823 0,8106 0,8365
0,7224 0,7549 0,7852 0,8133 0,8389
1,0 1,1 1,2 1,3 1,4
0,8413 0,8643 0,8849 0,9032 0,9192
0,8438 0,8665 0,8869 0,9049 0,9207
0,8461 0,8686 0,8888 0,9066 0,9222
0,8485 0,8708 0,8907 0,9082 0,9236
0,8508 0,8729 0,8925 0,9099 0,9251
0,8531 0,8749 0,8944 0,9115 0,9265
0,8554 0,8770 0,8962 0,9131 0,9279
0,8577 0,8790 0,8980 0,9147 0,9292
0,8599 0,8810 0,8997 0,9162 0,9306
0,8621 0,8830 0,9015 0,9177 0,9319
1,5 1,6 1,7 1,8 1,9
0,9332 0,9452 0,9554 0,9641 0,9713
0,9345 0,9463 0,9564 0,9649 0,9719
0,9357 0,9474 0,9573 0,9656 0,9726
0,9370 0,9484 0,9582 0,9664 0,9732
0,9382 0,9495 0,9591 0,9671 0,9738
0,9394 0,9505 0,9599 0,9678 0,9744
0,9406 0,9515 0,9608 0,9686 0,9750
0,9418 0,9525 0,9616 0,9693 0,9756
0,9429 0,9535 0,9625 0,9699 0,9761
0,9441 0,9545 0,9633 0,9706 0,9767
2,0 2,1 2,2 2,3 2,4
0,9772 0,9821 0,9861 0,9893 0,9918
0,9778 0,9826 0,9864 0,9896 0,9920
0,9783 0,9830 0,9868 0,9898 0,9922
0,9788 0,9834 0,9871 0,9901 0,9925
0,9793 0,9838 0,9875 0,9904 0,9927
0,9798 0,9842 0,9878 0,9906 0,9929
0,9803 0,9846 0,9881 0,9909 0,9931
0,9808 0,9850 0,9884 0,9911 0,9932
0,9812 0,9854 0,9887 0,9913 0,9934
0,9817 0,9857 0,9890 0,9916 0,9936
2,5 2,6 2,7 2,8 2,9
0,9938 0,9953 0,9965 0,9974 0,9981
0,9940 0,9956 0,9966 0,9975 0,9982
0,9941 0,9956 0,9967 0,9976 0,9982
0,9943 0,9957 0,9968 0,9977 0,9983
0,9945 0,9959 0,9969 0,9977 0,9984
0,9946 0,9960 0,9970 0,9978 0,9984
0,9948 0,9961 0,9971 0,9979 0,9985
0,9949 0,9962 0,9972 0,9979 0,9985
0,9951 0,9963 0,9973 0,9980 0,9986
0,9952 0,9964 0,9974 0,9981 0,9986
3,0 3,1 3,2 3,3 3,4
0,9987 0,9990 0,9993 0,9995 0,9997
0,9987 0,9991 0,9993 0,9995 0,9997
0,9987 0,9991 0,9994 0,9995 0,9997
0,9988 0,9991 0,9994 0,9996 0,9997
0,9988 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9994 0,9996 0,9997
0,9989 0,9992 0,9994 0,9996 0,9997
0,9990 0,9993 0,9995 0,9996 0,9997
0,9990 0,9993 0,9995 0,9996 0,9998
3,5 3,6 3,7 3,8 3,9
0,9998 0,9998 0,9999 0,9999 1,0000
0,9998 0,9998 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
0,9998 0,9999 0,9999 0,9999 1,0000
Tab. 19.2: Werte der Verteilungsfunktion Φ(z) der Standardnormalverteilung
19.3 Quantile der Standardnormalverteilung
251
19.3 Quantile der Standardnormalverteilung Aus Tabelle 19.2 lassen sich auch Quantile ablesen. Ein p-Quantil zp der Standardnormalverteilung ist durch Φ(zp ) = p
(0 < p < 1)
definiert und markiert den Punkt auf der z-Achse, bis zu dem die Fläche unter der Dichte gerade p ist. Der in Abbildung 12.1 beispielhaft markierte Punkt z = 1, 65 ist also das 0, 9505-Quantil der Standardnormalverteilung. Wenn man Quantile zp anhand von Tabelle 19.2 ablesen will, findet man aber i. a. nicht exakt die in der Praxis am häufigsten verwendeten Quantile. Sucht man etwa das 0, 95-Quantil z0,95 , so stünden bei Verwendung von Tabelle 19.2 nur die Quantile z0,9495 = 1, 64 und z0,9505 = 1, 65 zur Verfügung, aus denen man z0,95 etwas umständlich per Interpolation bestimmen müsste. Aus diesem Grunde sind in der folgenden Tabelle 19.3 einige gebräuchliche Quantile separat tabelliert. Die Tabellierung beschränkt sich auf p-Quantile mit p ≥ 0, 5. Weitere Quantile ergeben sich aus der Beziehung zp = −z1−p , die sich aus der Symmetrie von Dichte- und Verteilungsfunktion bezüglich z = 0 ergibt. Mit z0,95 = 1, 6449 gilt also z. B. z0,05 = −1, 6449. p zp
0,500 0,0000
0,600 0,2533
0,700 0,5244
0,800 0,8416
0,900 1,2816
0,950 1,6449
0,975 1,9600
0,990 2,3263
Tab. 19.3: Quantile zp der Standardnormalverteilung
0,995 2,5758
0,999 3,0902
252
19 Tabellenanhang
19.4 Quantile der χ2 -Verteilung In der folgenden Tabelle sind Quantile χ2ν;p der χ2 -Verteilung mit ν Freiheitsgraden für ν = 1 bis ν = 40 und ausgewählte Werte p zusammengestellt. Man entnimmt der Tabelle z. B., dass das 0, 95-Quantil der χ2 -Verteilung mit ν = 8 Freiheitsgraden den Wert χ28;0,95 = 15, 507 besitzt. ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
p =0,005 0,010 0,072 0,207 0,412 0,676 0,989 1,344 1,152 2,156 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 8,034 8,643 9,260 9,886 10,520 11,160 11,808 12,461 13,121 13,787 14,458 15,134 15,815 16,501 17,192 17,887 18,586 19,289 19,996 20,707
p =0,01 0,020 0,115 0,297 0,554 0,872 1,239 1,647 1,735 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,878 13,565 14,256 14,953 15,655 16,362 17,073 17,789 18,509 19,233 19,960 20,691 21,426 22,164
p =0,025 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,088 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 17,539 18,291 19,047 19,806 20,569 21,336 22,106 22,878 23,654 24,433
p =0,05 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 2,700 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 19,281 20,072 20,867 21,664 22,465 23,269 24,075 24,884 25,695 26,509
p =0,1 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 3,325 4,865 5,578 6,304 7,041 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 21,434 22,271 23,110 23,952 24,797 25,643 26,492 27,343 28,196 29,051
p =0,9 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 4,168 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 41,422 42,585 43,745 44,903 46,059 47,212 48,363 49,513 50,660 51,805
p =0,95 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400 48,602 49,802 50,998 52,192 53,384 54,572 55,758
p =0,975 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 48,232 49,480 50,725 51,966 53,203 54,437 55,668 56,895 58,120 59,342
Tab. 19.4: Quantile der Chi-Quadrat-Verteilung
p =0,99 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,775 56,061 57,342 58,619 59,893 61,162 62,428 63,691
p =0,995 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,335 53,672 55,002 56,328 57,648 58,964 60,275 61,581 62,883 64,181 65,475 66,766
19.5 Quantile der t-Verteilung
253
19.5 Quantile der t-Verteilung Bezeichnet ν die Anzahl der Freiheitsgrade der t-Verteilung , so ist die Variable (12.27) t-verteilt mit ν = n Freiheitsgraden, während für die Teststatistik (15.15) ν = n − 1 gilt. Nachstehend sind Quantile tν;p der t-Verteilung mit ν Freiheitsgraden für ν = 1 bis ν = 40 und ausgewählte Werte p zusammengestellt. Aus der Tabelle geht z. B. hervor, dass das 0, 975-Quantil der t-Verteilung mit ν = 8 Freiheitsgraden den Wert t8;0,975 = 2, 306 besitzt. Quantile der t-Verteilung lassen sich bei größeren Werten ν gut durch die entsprechenden Quantile zp der Standardnormalverteilung approximieren. ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
0,800 1,376 1,061 0,979 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,853 0,853 0,853 0,852 0,852 0,852 0,851 0,851 0,851 0,851
0,850 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,080 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,054 1,054 1,053 1,053 1,052 1,052 1,051 1,051 1,050 1,050
0,900 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,310 1,309 1,308 1,307 1,306 1,306 1,305 1,304 1,304 1,303
0,950 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,696 1,694 1,692 1,691 1,690 1,688 1,687 1,686 1,685 1,684
0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,040 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,021
0,990 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,4528 2,4587 2,4448 2,4411 2,4477 2,4345 2,4314 2,4386 2,4258 2,4233
Tab. 19.5: Quantile der t-Verteilung
0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,744 2,739 2,733 2,728 2,724 2,720 2,715 2,712 2,708 2,705
254
19 Tabellenanhang
19.6 Quantile der F-Verteilung Die folgende, sich über mehrere Seiten erstreckende Tabelle weist Quantile Fm;n;p einer F -Verteilung mit m und n Freiheitsgraden für zwei ausgewählte Werte von p aus, nämlich für p = 0, 95 und p = 0, 99. Die Freiheitsgrade m und n liegen im Bereich von 1 bis 100. Der Tabelle entnimmt man z. B., dass für das 0, 99-Quantil der F -Verteilung mit m = 5 und n = 10 Freiheitsgraden F5;10;0,99 = 5, 64 gilt.
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
1 161 18,5 10,14 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,08 4,03 4,00 3,98 3,96 3,95 3,94
2 199 19,0 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,23 3,18 3,15 3,13 3,11 3,10 3,09
3 216 19,2 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,79 2,76 2,74 2,72 2,71 2,70
4 225 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,56 2,53 2,50 2,49 2,47 2,46
m 5 230 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,45 2,40 2,37 2,35 2,33 2,32 2,31
6 234 19,3 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,29 2,25 2,23 2,21 2,20 2,19
7 237 19,4 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,25 2,20 2,17 2,14 2,13 2,11 2,10
8 239 19,4 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,13 2,10 2,07 2,06 2,04 2,03
9 241 19,4 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,07 2,04 2,02 2,00 1,99 1,97
10 242 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,08 2,03 1,99 1,97 1,95 1,94 1,93
Tab. 19.6: Quantile der F -Verteilung (p = 0, 95, m = 1 bis m = 10)
19.6 Quantile der F-Verteilung
255
m n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
11 243 19,4 8,76 5,94 4,70 4,03 3,60 3,31 3,10 2,94 2,82 2,72 2,63 2,57 2,51 2,46 2,41 2,37 2,34 2,31 2,28 2,26 2,24 2,22 2,20 2,18 2,17 2,15 2,14 2,13 2,04 1,99 1,95 1,93 1,91 1,90 1,89
12 244 19,4 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,95 1,92 1,89 1,88 1,86 1,85
13 245 19,4 8,73 5,89 4,66 3,98 3,55 3,26 3,05 2,89 2,76 2,66 2,58 2,51 2,45 2,40 2,35 2,31 2,28 2,25 2,22 2,20 2,18 2,15 2,14 2,12 2,10 2,09 2,08 2,06 1,97 1,92 1,89 1,86 1,84 1,83 1,82
14 245 19,4 8,71 5,87 4,64 3,96 3,53 3,24 3,03 2,86 2,74 2,64 2,55 2,48 2,42 2,37 2,33 2,29 2,26 2,22 2,20 2,17 2,15 2,13 2,11 2,09 2,08 2,06 2,05 2,04 1,95 1,89 1,86 1,84 1,82 1,80 1,79
15 246 19,4 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,92 1,87 1,84 1,81 1,79 1,78 1,77
20 248 19,4 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,10 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,84 1,78 1,75 1,72 1,70 1,69 1,68
30 250 19,5 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,90 1,88 1,87 1,85 1,84 1,74 1,69 1,65 1,62 1,60 1,59 1,57
40 251 19,5 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,96 1,94 1,91 1,89 1,87 1,85 1,84 1,82 1,81 1,79 1,69 1,63 1,59 1,57 1,54 1,53 1,52
50 252 19,5 8,58 5,70 4,44 3,75 3,32 3,02 2,80 2,64 2,51 2,40 2,31 2,24 2,18 2,12 2,08 2,04 2,00 1,97 1,94 1,91 1,88 1,86 1,84 1,82 1,81 1,79 1,77 1,76 1,66 1,60 1,56 1,53 1,51 1,49 1,48
100 253 19,5 8,55 5,66 4,41 3,71 3,27 2,97 2,76 2,59 2,46 2,35 2,26 2,19 2,12 2,07 2,02 1,98 1,94 1,91 1,88 1,85 1,82 1,80 1,78 1,76 1,74 1,73 1,71 1,70 1,59 1,52 1,48 1,45 1,43 1,41 1,39
Tab. 19.6: Quantile der F -Verteilung (p = 0, 95, m > 11)
256
19 Tabellenanhang
m n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
1 4052 98,5 34,1 21,2 16,3 13,7 12,2 11,3 10,6 10,0 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8,29 8,18 8,10 8,02 7,95 7,88 7,82 7,77 7,72 7,68 7,64 7,60 7,56 7,31 7,17 7,08 7,01 6,96 6,93 6,90
2 4999 99,0 30,8 18,0 13,3 10,9 9,55 8,65 8,02 7,56 7,21 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 5,06 4,98 4,92 4,88 4,85 4,82
3 5404 99,2 29,5 16,7 12,1 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,19 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,20 4,13 4,07 4,04 4,01 3,98
4 5624 99,3 28,7 16,0 11,4 9,15 7,85 7,01 6,42 5,99 5,67 5,41 5,21 5,04 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,83 3,72 3,65 3,60 3,56 3,53 3,51
5 5764 99,3 28,2 15,5 11,0 8,75 7,46 6,63 6,06 5,64 5,32 5,06 4,86 4,69 4,56 4,44 4,34 4,25 4,17 4,10 4,04 3,99 3,94 3,90 3,85 3,82 3,78 3,75 3,73 3,70 3,51 3,41 3,34 3,29 3,26 3,23 3,21
6 5859 99,3 27,9 15,2 10,7 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,19 3,12 3,07 3,04 3,01 2,99
7 5928 99,4 27,7 15,0 10,5 8,26 6,99 6,18 5,61 5,20 4,89 4,64 4,44 4,28 4,14 4,03 3,93 3,84 3,77 3,70 3,64 3,59 3,54 3,50 3,46 3,42 3,39 3,36 3,33 3,30 3,12 3,02 2,95 2,91 2,87 2,84 2,82
8 5981 99,4 27,5 14,8 10,3 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3,71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 2,99 2,89 2,82 2,78 2,74 2,72 2,69
9 6022 99,4 27,3 14,7 10,2 7,98 6,72 5,91 5,35 4,94 4,63 4,39 4,19 4,03 3,89 3,78 3,68 3,60 3,52 3,46 3,40 3,35 3,30 3,26 3,22 3,18 3,15 3,12 3,09 3,07 2,89 2,78 2,72 2,67 2,64 2,61 2,59
10 6056 99,4 27,2 14,5 10,1 7,87 6,62 5,81 5,26 4,85 4,54 4,30 4,10 3,94 3,80 3,69 3,59 3,51 3,43 3,37 3,31 3,26 3,21 3,17 3,13 3,09 3,06 3,03 3,00 2,98 2,80 2,70 2,63 2,59 2,55 2,52 2,50
Tab. 19.6: Quantile der F -Verteilung (p = 0, 99, m = 1 bis m = 10)
19.6 Quantile der F-Verteilung
257
m n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
11 6083 99,4 27,1 14,5 9,96 7,79 6,54 5,73 5,18 4,77 4,46 4,22 4,02 3,86 3,73 3,62 3,52 3,43 3,36 3,29 3,24 3,18 3,14 3,09 3,06 3,02 2,99 2,96 2,93 2,91 2,73 2,63 2,56 2,51 2,48 2,45 2,43
12 6107 99,4 27,1 14,4 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,46 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,66 2,56 2,50 2,45 2,42 2,39 2,37
13 6126 99,4 27,0 14,3 9,82 7,66 6,41 5,61 5,05 4,65 4,34 4,10 3,91 3,75 3,61 3,50 3,40 3,32 3,24 3,18 3,12 3,07 3,02 2,98 2,94 2,90 2,87 2,84 2,81 2,79 2,61 2,51 2,44 2,40 2,36 2,33 2,31
14 6143 99,4 26,9 14,2 9,77 7,60 6,36 5,56 5,01 4,60 4,29 4,05 3,86 3,70 3,56 3,45 3,35 3,27 3,19 3,13 3,07 3,02 2,97 2,93 2,89 2,86 2,82 2,79 2,77 2,74 2,56 2,46 2,39 2,35 2,31 2,29 2,27
15 6157 99,4 26,9 14,2 9,72 7,56 6,31 5,52 4,96 4,56 4,25 4,01 3,82 3,66 3,52 3,41 3,31 3,23 3,15 3,09 3,03 2,98 2,93 2,89 2,85 2,81 2,78 2,75 2,73 2,70 2,52 2,42 2,35 2,31 2,27 2,24 2,22
20 6209 99,4 26,7 14,0 9,55 7,40 6,16 5,36 4,81 4,41 4,10 3,86 3,66 3,51 3,37 3,26 3,16 3,08 3,00 2,94 2,88 2,83 2,78 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,37 2,27 2,20 2,15 2,12 2,09 2,07
30 6260 99,5 26,5 13,8 9,38 7,23 5,99 5,20 4,65 4,25 3,94 3,70 3,51 3,35 3,21 3,10 3,00 2,92 2,84 2,78 2,72 2,67 2,62 2,58 2,54 2,50 2,47 2,44 2,41 2,39 2,20 2,10 2,03 1,98 1,94 1,92 1,89
40 6286 99,5 26,4 13,7 9,29 7,14 5,91 5,12 4,57 4,17 3,86 3,62 3,43 3,27 3,13 3,02 2,92 2,84 2,76 2,69 2,64 2,58 2,54 2,49 2,45 2,42 2,38 2,35 2,33 2,30 2,11 2,01 1,94 1,89 1,85 1,82 1,80
50 6302 99,5 26,4 13,7 9,24 7,09 5,86 5,07 4,52 4,12 3,81 3,57 3,38 3,22 3,08 2,97 2,87 2,78 2,71 2,64 2,58 2,53 2,48 2,44 2,40 2,36 2,33 2,30 2,27 2,25 2,06 1,95 1,88 1,83 1,79 1,76 1,74
Tab. 19.6: Quantile der F -Verteilung (p = 0, 99, m > 11)
100 6334 99,5 26,2 13,6 9,13 6,99 5,75 4,96 4,41 4,01 3,71 3,47 3,27 3,11 2,98 2,86 2,76 2,68 2,60 2,54 2,48 2,42 2,37 2,33 2,29 2,25 2,22 2,19 2,16 2,13 1,94 1,82 1,75 1,70 1,65 1,62 1,60
20 Übungsaufgaben 20.1 Beschreibende Statistik Aufgabe 2.1 (Grundbegriffe) Kapitel 2
Ein Marktforschungsinstitut untersucht das Fernsehverhalten von Schulkindern in Deutschland. Die Untersuchung soll u. a. Aufschluss darüber geben, wie lange und zu welchen Tageszeiten Kinder durchschnittlich Fernsehen gucken und welche Sender sie bevorzugen. Was sind bei diesem Beispiel Grundgesamtheit, statistische Einheit, Merkmal und Merkmalsausprägung? Wie könnte man bezüglich der Grundgesamtheit noch durch Bildung von Teilgrundgesamtheiten differenzieren? Welche Teilmengen der Grundgesamtheit könnten für die Untersuchung noch von Interesse sein?
Aufgabe 2.2 (Skalenarten) Nachstehend sind vier Merkmale aufgeführt. Geben Sie bei jedem Merkmal an, welcher der Skalentypen „Nominalskala“, „Ordinalskala“ bzw. „Metrische Skala“ zutrifft. Der Begriff „Metrische Skala“ wird als Oberbegriff für die Skalentypen Intervallskala, Verhältnisskala und Absolutskala verwendet. - Höchster erreichter Schulabschluss (Ausprägungen: ohne Abschluss, Hauptschule, mittlere Reife, Fachhochschulreife, Abitur) - Gewählte Partei bei einer Kommunalwahl (Ausprägungen: zwei freie Wählervereinigungen und alle im Landtag vertretenen Parteien) - Bonität von Kunden einer Sparkasse (Kategorien: uneingeschränkte, eingeschränkte und fehlende Kreditwürdigkeit) - Verfallsdatum bei einer Konfitürensorte (Tag der Herstellung + 18 Monate; auf der Ware angegeben).
Aufgabe 3.1 (Erhebungsarten) Kapitel 3
Geben Sie Beispiele für Zeitreihen an, die größere öffentliche Beachtung finden, d. h. regelmäßig in den Medien zu finden sind.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_20, © Springer-Verlag Berlin Heidelberg 2011
259
260
20 Übungsaufgaben
Aufgabe 3.2 (geschichtete Zufallsauswahl) Von 600 Studierenden, die sich in einem erst 3 Semester laufenden Bachelor-Studiengang eingeschrieben haben, sollen 120 zufällig für eine Befragung ausgewählt werden. Als Schichtungskriterium wird die Semesterzahl verwendet. Es sind 270 Studierende im 1. Semester, 180 im 2. Semester und 150 im 3. Semester. Welchen Umfang haben die drei Schichten bei proportionaler Schichtung?
Aufgabe 4.1 (Gruppierung von Daten und Histogrammerstellung) Kapitel 4
Für 80 Arbeitnehmer in Portugal, die in verschiedenen Branchen im Bereich „Industrie und Dienstleistungen“ tätig sind, wurden für das Referenzjahr 2002 folgende Bruttostundenverdienste ermittelt (in Euro und auf eine Dezimalstelle gerundet), hier nach aufsteigender Größe sortiert: 3,8 6,4 7,8 9,4 12,7 14,9 19,9 29,8
4,0 6,8 7,9 9,5 12,9 15,4 20,5 32,0
4,6 6,8 8,1 9,6 13,0 15,8 21,8 33,8
5,0 7,0 8,3 9,6 13,2 16,4 23,0 34,8
5,1 7,1 8,4 9,8 13,4 17,6 23,7 36,7
5,2 7,2 8,7 9,9 13,5 17,9 24,1 39,1
5,2 7,3 8,9 10,8 13,9 17,9 24,6 43,2
5,7 7,4 9,0 11,9 14,0 18,2 26,9 45,4
5,9 7,5 9,3 12,0 14,2 18,3 27,1 50,3
6,2 7,5 9,4 12,5 14,6 19,1 28,9 60,7
a) Was sind hier Merkmalsträger und Merkmal? b) Ordnen Sie die obigen Individualdaten 15 Einkommensklassen zu, in dem Sie die Daten zu Intervallen von 5 Euro gruppieren – analog zu Abbildung 4.5, die sich allerdings auf Bruttojahresverdienste bezog und daher Intervalle von 5000 Euro vorsah. Ermitteln Sie dann für das Merkmal „Bruttostundenverdienste“ die absoluten und die relativen Häufigkeiten für die Besetzung der Einkommensklassen, letztere in Prozent. Fertigen Sie zweckmäßigerweise eine Tabelle an, die in jeder Zeile eine Klasse sowie die zugehörige absolute und relative Häufigkeit für die Besetzung dieser Klasse ausweist. c) Visualisieren Sie auf der Basis obiger Klasseneinteilung die relativen Klassenbesetzungshäufigkeiten anhand eines Histogramms.
20.1 Beschreibende Statistik
261
Aufgabe 4.2 (Ergebnisse der Nationalen Verzehrstudie II für Frauen) Die nachstehende Tabelle zur Nationalen Verzehrstudie II ist analog zu Tabelle 4.2 angelegt und bezieht sich ebenfalls auf gruppierte Daten. Während Tabelle 4.2 absolute und relative Häufigkeiten für drei Ausprägungsintervalle des Body-Mass-Index (BMI) für Männer in den deutschen Bundesländern zeigte, gibt die folgende Tabelle die entsprechenden Häufigkeiten für die an der Studie beteiligten Frauen wieder (ungewichtete Daten; Quelle: Persönliche Mitteilung des Max-Rubner-Instituts). Bei den BMI-Werten wird erneut nur zwischen drei Ausprägungen a1 , a2 und a3 unterschieden (a1 : Unteroder Normalgewicht, a2 : Übergewicht, a3 : Fettleibigkeit). Bundesland (weibliche Teilnehmer)
Absolute und relative Häufigkeiten h(a1 ) f (a1 ) h(a2 ) f (a2 ) h(a3 ) f (a3 )
Baden-Württemberg (924) Bayern (1157) Berlin (270) Brandenburg (203) Bremen (63) Hamburg (133) Hessen (446) Mecklenburg-Vorpommern (131) Niedersachsen (851) Nordrhein-Westfalen (1495) Rheinland-Pfalz (321) Saarland (84) Sachsen (360) Sachsen-Anhalt (180) Schleswig-Holstein (263) Thüringen (209)
487 602 157 95 35 82 229 50 425 741 175 37 155 76 133 88
Summe: 7090
3567
0,527 0,520 0,581 0,468 0,556 0,617 0,513 0,382 0,499 0,496 0,545 0,440 0,431 0,422 0,506 0,421
287 340 65 56 14 32 135 43 261 425 74 24 113 59 87 68 2083
0,311 0,294 0,241 0,276 0,222 0,241 0,303 0,328 0,307 0,284 0,231 0,286 0,314 0,328 0,331 0,325
150 215 48 52 14 19 82 38 165 329 72 23 92 45 43 53
0,162 0,186 0,178 0,256 0,222 0,143 0,184 0,290 0,194 0,220 0,224 0,274 0,256 0,250 0,164 0,254
1440
a) Stellen Sie die relativen Häufigkeiten in Form gestapelter Säulendiagramme dar. Unterdrücken Sie dabei, analog zu Abbildung 4.7, die Wiedergabe der Häufigkeiten f (a1 ). Ordnen Sie die Bundesländer nach zunehmender Größe der Summe f (a2 ) + f (a3 ) = 1 − f (a1 ). b) Vergleichen Sie für jedes Bundesland die in obiger Tabelle wiedergegebenen Ergebnisse für Frauen mit den in Tabelle 4.2 präsentierten Ergebnissen für Männer. Weisen Sie in einer neu anzulegenden Tabelle in einer Spalte (1) den Anteil der Frauen mit einem BMI-Wert von mindestens 25, 0 aus, also die Summe f (a2 ) + f (a3 ) aus vorstehender Tabelle. Geben Sie dann in einer weiteren Spalte (2) den Anteil der Männer mit dieser Eigenschaft wieder, also die Summe f (a2 ) + f (a3 ) aus Tabelle 4.2. In einer Spalte (3) können Sie auch den Quotienten q1 der Werte in (1) und (2) ausweisen. Was beinhaltet ein Wert q1 < 1? c) Vergleichen Sie die Ergebnisse für Frauen und Männer anschließend bezüglich des Verhältnisses von „schwereren“ und „leichteren“ Fällen von Übergewichtigkeit. Be3) rechnen Sie hierzu zunächst anhand obiger Tabelle das Verhältnis ff (a für Frauen (a2 )
262
20 Übungsaufgaben
und geben Sie die resultierenden Werte in einer weiteren Spalte (4) der neuen Tabelle wieder. Für die Männer können Sie die analogen Werte anhand von Tabelle 4.2 in einer zusätzlichen Spalte (5) darstellen. Berechnen Sie in einer letzten Spalte (6) den Quotienten q2 der Werte in (4) und (5). Was beinhaltet q2 > 1?
Aufgabe 5.1 (Häufigkeitsverteilungen; Lage- und Streuungsparameter) Kapitel 5
Nachstehend ist das Ergebnis eines Würfelexperiments wiedergegeben, bei dem 12 Mal nacheinander mit einem Würfel gewürfelt wurde:
a) Geben Sie für die 6 Merkmalsausprägungen die absoluten und die relativen Häufigkeiten an. Legen Sie hierzu am besten eine Tabelle an. Runden Sie die relativen Häufigkeiten auf 3 Stellen nach dem Komma oder verwenden Sie Brüche. b) Berechnen Sie für die durch die obigen 12 Augenzahlen definierte Urliste den Median. c) Berechnen Sie dann auf 2 Nachkommastellen genau auch den Mittelwert. d) Berechnen Sie für den obigen Datensatz mit 12 Elementen die Spannweite sowie die Varianz und die Standardabweichung. Bei der Berechnung von Varianz und Standardabweichung ist auch der Rechengang wiederzugeben. Die Ergebnisse sind jeweils auf 3 Stellen nach dem Dezimalkomma genau anzugeben.
Aufgabe 5.2 (Quantile und Boxplots) a) Bestimmen Sie für den in Aufgabe 5.1 veranschaulichten Datensatz mit 12 Werten (Ausgänge bei einem Würfelexperiment) das untere und das obere Quartil x0,25 resp. x0,75 . b) Die 12 Werte lassen sich anhand eines Boxplots visualisieren. Geben Sie die 5 Größen an, durch die der Boxplot (Basisversion) definiert ist. Wie groß ist der Interquartilsabstand Q, der die Länge der Box festlegt? c) Wenn noch einmal gewürfelt würde und die Augenzahl 3 erscheint, hat man – zusammen mit den 12 in Aufgabe 5.1 wiedergegebenen Augenzahlen – einen Datensatz der Länge n = 13. Wie groß ist nun der Interquartilsabstand Q?
20.1 Beschreibende Statistik
263
Aufgabe 6.1 (Gini-Koeffizient) In einer Region konkurrieren vier Energieversorgungsunternehmen. Es seien x1 = 20, x2 = 50, x3 = 60 und x4 = 70 die Umsätze dieser Firmen im letzten Geschäftsjahr (Umsätze jeweils in Millionen Euro). Die nachstehende Abbildung zeigt die auf der Basis dieser Umsatzdaten errechnete Lorenzkurve (Polygonzug). Die Stützpunkte (ui , vi ) der Lorenzkurve sind auf der Lorenzkurve betont. In der Tabelle neben der Grafik sind die Abszissenwerte ui der Lorenzkurve schon eingetragen.
1, 0
Anteil vi
0, 8
i 0 1 2 3 4
0, 6 A
0, 4 0, 2
0, 2
0, 4
0, 6
0, 8
ui 0 0,25 0,50 0,75 1
vi 0 v1 v2 v3 1
1, 0 Anteil ui
a) Errechnen Sie die in der Tabelle fehlenden Ordinatenwerte. b) Bestimmen Sie dann den Gini-Koeffizienten G aus (6.5) und den normierten GiniKoeffizienten G∗ aus (6.7). c) Welchen Inhalt hat die Fläche A, die in der vorstehenden Abbildung betont ist (markierte Fläche zwischen der Verbindungslinie der Punkte (0; 0) und (1; 1) einerseits und der Lorenzkurve andererseits)?
Aufgabe 6.2 (Herfindahl-Index) a) Berechnen Sie mit den Umsatzdaten aus Aufgabe 6.1 auch den Herfindahl-Index. b) Wie groß ist hier die untere Schranke für den Index?
Kapitel 6
264
20 Übungsaufgaben
Aufgabe 7.1 (Zusammengesetzte Indexzahlen – Medaillenspiegel)
Kapitel 7
Tabelle 7.1 zeigte die ersten zehn Länder beim Medaillenspiegel für die Olympiade 2008. Die beiden wiedergegebenen alternativen Rangfolgen unterschieden sich hinsichtlich der Gewichtung von Gold, Silber und Bronze. Beim ersten Ranking wurde nur Gold berücksichtigt (Gewichte 1 − 0 − 0), beim zweiten alle Medaillen mit gleichem Gewicht (1 − 1 − 1). a) Wie sähe für die zehn Länder der Tabelle 7.1 die Rangfolge aus, wenn man alle Medaillenarten berücksichtigte, aber mit unterschiedlichen Gewichten (5 − 3 − 2), also jede Goldmedaille mit 5 Punkten, jede Silbermedaille mit 3 Punkten und jede Bronzemedaille mit 2 Punkten bewertete? b) Wie sähe die Rangfolge für die zehn Länder aus, wenn man zwar den Ansatz 5 − 3 − 2 verwendete, die Punktzahlen aber auf die Anzahl der Punkte pro 1 Million Einwohner bezöge? Gehen Sie dabei von folgenden Bevölkerungszahlen aus (in Millionen; Daten des US Census Bureau für 2008): China – 1330,0; USA – 303,8; Russland – 140,7; Japan – 127,3; Deutschland – 82,4; Frankreich – 64,1; Italien – 58,1; Südkorea – 48,4; Australien – 21,0; Großbritannien – 60,9. Aufgabe 7.2 (Preisindex) Aktivieren Sie den Inflationsrechner des Statistischen Bundesamts. Wählen Sie über die Schaltfläche „Güterauswahl“ die Gütergruppe „Pauschalreisen“ aus. Welche Auffälligkeiten beobachten Sie bei der Kurve für „Pauschalreisen“?
Aufgabe 8.1 (Randverteilungen) Kapitel 8
Bei einer medizinischen Studie wurde für n = 360 Personen erfasst, ob die Beteiligten regelmäßig einen deutlich erhöhten Alkoholkonsum hatten (Überschreitung eines gewissen Schwellenwerts, bezogen auf reinen Alkohol) und ob sie Leberfunktionsstörungen aufwiesen (adaptiert aus Toutenburg / Schomaker / Wissmann (2009, Abschnitt 4.2.5)). Es sei X das Merkmal „Alkoholkonsum“ mit den Ausprägungen a1 (oberhalb des Schwellenwerts) und a2 (nicht oberhalb des Schwellenwerts) und Y das Merkmal „Leberstatus“ mit den Ausprägungen b1 (Funktionsstörungen vorhanden) und b2 (keine Funktionsstörungen nachweisbar).
a1 a2
b1 62 14
b2 96 188
Ergänzen Sie diese Vierfeldertafel um die Randverteilungen für beide Merkmale.
20.1 Beschreibende Statistik
265
Aufgabe 8.2 (Bedingte Häufigkeitsverteilungen) Interpretieren Sie die Werte für die in Beispiel 8.3 errechneten bedingten Häufigkeiten fX (a5 |b1 ) ≈ 0, 108 und fY (b1 |a2 ) ≈ 0, 461.
Aufgabe 9.1 (Zusammenhangsmessung bei nominalskalierten Merkmalen) Kapitel 9
a) Berechnen Sie den χ2 -Koeffizienten auf der Basis der Daten in der Vierfeldertafel der Aufgabe 8.1. Runden Sie das Ergebnis auf drei Stellen nach dem Dezimalkomma. b) Bestimmen Sie dann auch den Koeffizienten Φ und den Kontingenzkoeffizienten V nach Cramér.
Aufgabe 9.2 (Zusammenhangsmessung bei metrisch skalierten Merkmalen) Das folgende Beispiel stammt aus Bamberg / Baur /Krapp (2009): Für 10 Staaten i, deren Namen codiert sind (z. B. „AT“ für „Austria“), sind für ein bestimmtes Referenzjahr Wertepaare (xi , yi ) bekannt, wobei xi Ausprägungen des Merkmals X (= Preisanstieg in %) und yi Ausprägungen des Merkmals Y (= Erwerbslosenquote in %) bezeichnen: Land BE DE UK IE IT JP CA AT SE US Mittelwerte:
xi 4,1 2,4 8,4 8,2 11,9 4,6 9,4 3,6 10,6 7,9 x = 7, 11
yi 10,1 4,0 5,7 10,2 7,5 2,1 8,0 1,3 2,2 6,3 y = 5, 74
Berechnen Sie den Korrelationskoeffizienten r nach Bravais-Pearson. Sofern Sie die Rechnung ohne Taschenrechner oder eine Statistiksoftware durchführen, können Sie die nachstehende Arbeitstabelle verwenden. Geben Sie in diesem Falle die in der Tabelle die fehlenden Werte auf zwei Stellen nach dem Komma an (ggf. Auf- oder Abrunden).
266
20 Übungsaufgaben
i xi − x 1 2 3 4 5 6 7 8 9 10 Summe
(xi − x)2
yi − y
(yi − y)2
(yi − y)(xi − x)
Summen:
Aufgabe 9.3 (Zusammenhangsmessung bei ordinalskalierten Merkmalen) Das folgende Beispiel findet man bei Toutenburg / Heumann (2009, Abschnitt 4.3.3): Fünf hier mit A, B, ... , E bezeichnete Mannschaften bestreiten im Winter ein Handballturnier in der Halle und im Sommer ein Freiluftturnier. Nachstehend sind die Platzierungen bei den beiden Turnieren wiedergegeben. Untersuchen Sie anhand des Rangkorrelationskoeffizienten von Spearman, ob zwischen dem Abschneiden der Mannschaften in der Halle und im Freien ein Zusammenhang besteht. Mannschaft A B C D E
Platzierung beim Hallenturnier 1 2 3 4 5
Platzierung beim Freiluftturnier 2 3 1 5 4
Es ist nicht nur der Wert des Rangkorrelationskoeffizenten rSP nach Spearman gefragt, sondern auch der Rechengang.
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik
267
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik Aufgabe 10.1 (Venn-Diagramme) Kapitel 10
Zur Veranschaulichung von Ereignissen oder von Mengen lassen sich Venn-Diagramme heranziehen. Diese bestehen aus einem Rechteck, in dem die Ereignisse als Kreise oder Ellipsen dargestellt sind. Das Rechteck repräsentiert eine Grundgesamtheit, von der die eingezeichneten Mengen Teilmengen sind. Es bezeichnen A und B die Komplementärmengen von A und B, A ∩ B deren Schnittmenge und A ∪ B die Vereinigungsmenge. Nachstehend sind zwei Venn-Diagramme abgebildet, die sich auf die Verknüpfung zweier Ereignisse oder Mengen A und B beziehen. Welche der folgenden Aussagen sind richtig? Es sind x der 5 Aussagen richtig, mit x ≥ 1, d. h. es können auch mehrere Aussagen zutreffen.
A) Im ersten dargestellten Venn-Diagramm ist anhand der dunkler gefärbten Fläche die Schnittmenge von A und B dargestellt, also A ∩ B. B) Im zweiten Venn-Diagramm ist anhand der dunkler gefärbten Fläche die Schnittmenge aus A und der Komplementärmenge von B dargestellt, also A ∩ B. C) Die Schnittmengen A ∩ B und A ∩ B sind disjunkt, d.h. ihre Darstellungen in Venn-Diagrammen überschneiden sich nicht. D) Die Vereinigung der beiden Schnittmengen A ∩ B und A ∩ B liefert A. E) Die Wahrscheinlichkeiten für ein Ereignis A, das sich aus zwei disjunkten Ereignissen zusammensetzt, ergibt sich als Summe der Wahrscheinlichkeiten der beiden disjunkten Ereignisse.
Aufgabe 10.2 (Ereignisse und Ereignisraum) Eine Münze wird dreimal nacheinander geworfen. Bei jedem einzelnen Wurf sind die möglichen Ausgänge durch „Z“ (Zahl) und „K“ (Kopf) beschrieben. Die möglichen Ausgänge eines dreifachen Münzwurfs (Elementarereignisse) sind entsprechend durch Tripel definiert, die aus den beiden Symbolen „Z“ und „K“ gebildet werden. a) Wie lautet die Ergebnismenge Ω für den dreifachen Münzwurf?
268
20 Übungsaufgaben
b) Wieviele Elementarereignisse umfasst das Ereignis A = {Bei mindestens zwei Würfen tritt „K“ auf}? Aufgabe 10.3 (Wahrscheinlichkeiten bei Laplace-Experimenten) Berechnen Sie für das in der vorigen Aufgabe beschriebene statistische Experiment „Dreifacher Münzwurf“ die Wahrscheinlichkeiten für das Ereignis A = {Bei mindestens zwei Würfen tritt „K“ auf} und für das Komplementärereignis A = {Bei höchstens einem Wurf tritt „K“ auf}. Setzen Sie eine faire Münze voraus, also gleiche Eintrittswahrscheinlichkeiten für die Ausgänge „Z“ (Zahl) und „K“ (Kopf).
Aufgabe 10.4 (Kombinatorik) Die FernUniversität ordnet allen Studierenden je eine mehrstellige Nummer zu (MatrikelNummer), die als Identifikationskriterium verwendet wird. Alternativ könnte man auch Buchstabenkombinationen heranziehen. Wieviele Studierende könnte man maximal anhand von Buchstabenkombinationen unterscheiden, wenn für jeden Studierenden genau 5 Großbuchstaben aus der Buchstabenfolge von A bis J verwendet würden, also z. B. BCBJD oder AFGGC?
Aufgabe 10.5 (Bedingte Wahrscheinlichkeiten; Satz von Bayes und Vierfeldertafel) An einer Bildungseinrichtung sind 160 Beschäftigte mit Hochschulabschluss in der Lehre tätig. Von diesem Personenkreis sind 64 vollzeitbeschäftigt (Ereignis A), 60 Personen sind promoviert (Ereignis B). Dabei kann für eine Person auch beides zutreffen. In der Tat sind von den 160 in der Lehre tätigen Beschäftigten mit Hochschulabschluss 40 Personen, für die beide Voraussetzungen zutreffen (Vollzeitbeschäftigung und Promotion). Es werde per Zufallsauswahl aus der Gruppe der 160 Lehrenden mit Hochschulabschluss eine Person ausgewählt. a) Wie groß ist dann die Wahrscheinlichkeit, dass diese keine Vollzeitbeschäftigung hat? b) Wie groß ist die Wahrscheinlichkeit, dass sie sowohl eine Vollzeitbeschäftigung als auch eine abgeschlossene Promotion hat? c) Berechnen Sie die Wahrscheinlichkeit dafür, dass eine aus dem vollzeitbeschäftigten Lehrpersonal zufällig ausgewählte Person promoviert ist.
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik
269
d) Stellen Sie auch fest, ob die Ereignisse A und B unabhängig voneinander sind. e) Leiten Sie aus den obigen Vorgaben eine Vierfeldertafel für absolute Häufigkeiten ab. Die Tafel soll auch die Randverteilungen der binären Merkmale „Beschäftigtenstatus“ (Ausprägungen „Vollzeit“ A und „Teilzeit“ A) sowie „Erreichter akademischer Grad“ (Ausprägungen „Hochschulabschluss mit Promotion“ B und „Hochschulabschluss ohne Promotion“ B) ausweisen. Berechnen Sie die Wahrscheinlichkeiten aus den Aufgabenteilen a - c dann auch anhand dieser Tafel.
Aufgabe 10.6 (Bedingte Wahrscheinlichkeiten; Satz von Bayes) Lesen Sie noch einmal das am Schluss von Kapitel 1 aufgeführte Beispiel 1.1. Sie haben nun das Rüstzeug dafür zu überprüfen, ob Sie die Größenordnung für die Wahrscheinlichkeit eines falsch-positiven Befundes intuitiv richtig eingeschätzt haben. Bezeichnen Sie das Ereignis „Eine zur Grundgesamtheit gehörende Frau hat Krebs“ mit A und den Fall „Screeningbefund ist positiv“ mit B. Die Komplementärereignisse sind mit A resp. B anzusprechen. a) Zerlegen Sie zunächst gedanklich die N Frauen umfassende Grundgesamtheit G in zwei Teilpopulationen G1 und G2 , wobei G1 alle N1 Frauen mit A und G2 die N2 = N − N1 Frauen mit A umfasse. Zeichnen Sie ein Balkendiagramm, das die Anzahl der positiven Befunde in beiden Gruppen ausweist, wobei der Gesamtumfang N beider Gruppen als Bezugsgröße zu verwenden ist (relative Anzahl, z. B. ausgedrückt in % von N ). b) Berechnen Sie die Wahrscheinlichkeit P (B) dafür, dass eine zufällig aus der Gesamtpopulation ausgewählte Frau mit einem positiven Befund konfrontiert wird. c) Bestimmen Sie dann die Wahrscheinlichkeit P (A|B) dafür, dass eine Frau mit positivem Screeningbefund gesund ist, also ein Fehlalarm erfolgte. d) Wie groß wären die Wahrscheinlichkeiten P (B) und P (A|B), wenn man bei der betrachteten Grundgesamtheit G für die Erkrankungswahrscheinlichkeit P (A) nicht den in Beispiel 1.1 angenommenen Wert 0, 008, sondern 0, 006 voraussetzte?
Aufgabe 10.7 (Bedingte Wahrscheinlichkeiten; Baumdiagramm und Vierfeldertafel) a) Wie häufig man bei dem in der vorstehenden Aufgabe 10.6 genannten Beispiel mit Fehlentscheidungen zu rechnen hat, also mit falsch-positiven Befunden (Fehlalarme) oder falsch-negativen Befunden (unterbliebene Alarme), lässt sich besonders anschaulich – auch ohne Bayes-Formel und leichter nachvollziehbar – unter Verwendung eines Baumdiagramms für absolute Häufigkeiten visualisieren. Zeichnen Sie ein zu Abbildung 8.2 analoges Baumdiagramm, also ein Diagramm, das sich auf absolute Häufigkeiten bezieht und die relativen Häufigkeiten nur als
270
20 Übungsaufgaben
Zusatzinformation wiedergibt. Unterteilen Sie die Grundgesamtheit zunächst nach der Binärvariablen „Gesundheitsstatus“ (Ausprägungen „erkrankt“ und „gesund“) und danach beide Teilmengen jeweils noch nach der Binärvariablen „Screeningbefund“ (Ausprägungen „positiv“ und „negativ“). Gehen Sie dabei von einem Massenscreening mit N = 100.000 Teilnehmerinnen aus. Bestimmen Sie dann anhand des Diagramms und des Laplace-Ansatzes (10.5) nochmals – nun auf andere Weise – die Wahrscheinlichkeiten, die in Teil a - c von Aufgabe 10.6 zu bestimmen waren. b) Geben Sie die vier absoluten Häufigkeiten am Ende des Baumdiagramms (dritte Ebene) dann auch in einer Vierfeldertafel für absolute Häufigkeiten wieder. Die Tafel soll auch die Randverteilungen für die beiden Binärvariablen „Gesundheitsstatus“ und „Screeningbefund“ ausweisen. Berechnen Sie erneut – jetzt anhand der Vierfeldertafel – die Wahrscheinlichkeiten aus Teil b - c von Aufgabe 10.6.
Aufgabe 11.1 (Äquivalenz zweier Varianzdarstellungen) Kapitel 11
Leiten Sie die Äquivalenz der Varianzdarstellungen (11.8) und (11.9) her.
Aufgabe 11.2 (Binomialverteilung) In der Fußgängerzone einer Stadt ist vor der Redaktion einer Tageszeitung ein Glücksrad installiert. Dieses ist in vier gleich große Teile unterteilt, die farblich unterschieden sind. Interessierte Passanten dürfen das Rad einmal drehen und erhalten in Abhängigkeit von der Farbe des am Ende oben stehenden Sektors einen Preis. Wenn der Sektor „Rot“ oben steht, gibt es einen Luftballon, bei „Gelb“ einen Kugelschreiber mit Werbeaufschrift, bei „Blau“ ein Freiexemplar der aktuellen Ausgabe der Tageszeitung und bei „Grün“ eine kostenlose Zustellung der Zeitung für eine ganze Woche. Eine 4-köpfige Familie bleibt vor dem Glücksrad stehen und jedes Familienmitglied betätigt es einmal. Wie groß ist die Wahrscheinlichkeit, dass bei den 4 Versuchen a) mindestens zwei Kugelschreiber gewonnen werden? b) genau einmal „Grün“ auftritt, also ein einwöchiges Freiabonnement gewährt wird?
Aufgabe 11.3 (Hypergeometrische Verteilung) In Österreich und in der Schweiz wird das Lottospiel „6 aus 45“ gespielt, nicht „6 aus 49“ wie in Deutschland. a) Berechnen Sie den Erwartungswert für die Anzahl X der Richtigen. b) Wie groß ist hier die Wahrscheinlichkeit des Ereignisses „6 Richtige“?
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik
271
Aufgabe 12.1 (Stetige Rechteckverteilung) Ein Berufstätiger geht jeden Werktag zu einer Bushaltestelle, von der die Buslinie 112 direkt zu seiner Firma fährt. Die Linie verkehrt alle 20 Minuten. Der Fahrgast schlendert in der Regel nach dem Frühstück ohne auf die Uhr zu schauen zur Bushaltestelle und nimmt den nächsten Bus der Linie 112. Die Wartezeit X lässt sich anhand der stetigen Gleichverteilung modellieren. Geben Sie die Dichtefunktion der Verteilung an. Berechnen Sie auch den Erwartungswert E(X) und interpretieren Sie das Ergebnis.
Aufgabe 12.2 (Normalverteilung und Standardnormalverteilung) a) Eine Zufallsvariable X sei normalverteilt mit Erwartungswert µ = 3 und Standardabweichung σ = 4. Berechnen Sie die Wahrscheinlichkeit P (3 ≤ X ≤ 7) dafür, dass X im Intervall [3; 7] liegt. b) Bestimmen Sie für eine standardnormalverteilte Zufallsvariable Z nacheinander die Wahrscheinlichkeiten P (Z ≤ 2, 9), P (0 ≤ Z ≤ 2, 3), P (−1, 3 ≤ Z ≤ 0), P (−0, 8 ≤ Z ≤ 0, 8), und P (−1, 3 ≤ Z ≤ 1, 2). Aufgabe 12.3 (Normalverteilung und Standardnormalverteilung) In den Krankenhäusern einer Region wurde eine Erhebung zum Geburtsgewicht von Neugeborenen durchgeführt. Bei der Erhebung blieben Frühgeborene unberücksichtigt. Die Untersuchung ergab, dass sich das in Gramm angegebene Geburtsgewicht X in guter Näherung durch eine Normalverteilung mit Erwartungswert µ = 2950 und Standardabweichung σ = 120 modellieren lässt. a) Wie groß ist die Wahrscheinlichkeit, dass ein bei der Erhebung berücksichtigtes Neugeborenes nicht mehr als 2800 Gramm wog? b) Wie groß ist die Wahrscheinlichkeit für ein Gewicht zwischen 2800 und 3250 Gramm? c) Was beinhaltet das 0, 1-Quantil der Normalverteilung mit µ = 2950 und Varianz σ 2 = 1202 und welchen Wert hat es hier? Anmerkung zu Teil a: Die gesuchte Wahrscheinlichkeit P (X ≤ 2800) stimmt mit P (X < 2800) überein, wie man aus (12.8) mit x0 = 2800 ersieht. Es ist also für das Ergebnis unerheblich, ob man bei der Aufgabenformulierung „nicht mehr als 2800 Gramm“ oder „weniger als 2800 Gramm“ verwendet.
Kapitel 12
272
20 Übungsaufgaben
Aufgabe 12.4 (Quantile von t- und Standardnormalverteilung) Bei einem Test werde eine Teststatistik T eingesetzt, die unter bestimmten Voraussetzungen (bei Gültigkeit der Nullhypothese des Tests) einer t-Verteilung mit n = 10 Freiheitsgraden folgt. a) Geben Sie einen Wert an, den eine Ausprägung der Testgröße T mit Wahrscheinlichkeit α = 0, 05 nicht überschreitet. b) Geben Sie ein bezüglich des Nullpunkts symmetrisches Intervall an, in dem eine Ausprägung von T mit Wahrscheinlichkeit 1 − α = 0, 95 liegt. Wie groß ist die Wahrscheinlichkeit, mit der eine Realisation einer standardnormalverteilten Zufallsvariablen in dieses Intervall fällt?
Aufgabe 13.1 (Kovarianz zweier Zufallsvariablen) Kapitel 13
Es werden zwei „faire“ Münzen geworfen, wobei das Ergebnis des ersten Wurfs durch eine Zufallsvariable X und das des zweiten Wurfs durch Y beschrieben sei. Die beiden möglichen Ausprägungen „Kopf“ und „Zahl“ von X und Y seien mit „1“ (Kopf) resp. mit “0“ (Zahl) codiert. a) Wie groß sind die Wahrscheinlichkeiten p11 = P (X = 1; Y = 1), p12 = P (X = 1; Y = 0), p21 = P (X = 0; Y = 1), p22 = P (X = 0; Y = 0), durch die die gemeinsame Wahrscheinlichkeitsverteilung beider Zufallsvariablen bestimmt ist? b) Berechnen Sie die Kovarianz von X und Y . Hinweis zu Aufgabenteil b: Wenn man (13.12) zur Kovarianzberechnung heranzieht, kann man den Term E(XY ) analog zu (11.6) ermitteln als Summe der vier möglichen Ausprägungen von XY , wobei jeder Summand jeweils mit seiner Eintrittswahrscheinlichkeit gewichtet wird, also mit einer der Wahrscheinlichkeiten p11 , p12 , p21 resp. p22 .
Aufgabe 14.1 (Schätzung von Erwartungswert und Varianz) Kapitel 14
Im Zuge einer medizinischen Studie, an der 24 Patienten beteiligt waren, wurden auch deren Gewicht X ermittelt. Es ergaben sich folgende Werte, jeweils auf volle kg gerundet (angelehnt an Toutenburg / Schomaker / Wissmann (2009, Abschnitt 10.4)): 45, 73, 70, 60, 62, 66, 85, 52, 49, 67, 70, 82, 91, 77, 76, 62, 55, 52, 59, 49, 62, 66, 94, 79. a) Berechnen Sie unter der Annahme, dass das Körpergewicht normalverteilt ist, auf der Basis des obigen Datensatzes eine unverzerrte Schätzung µ b für den Erwartungswert µ der Normalverteilung.
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik
273
b) Ermitteln Sie auch für die Varianz σ2 und die Standardabweichung σ der Normalverteilung eine unverzerrte Schätzung. Hier genügt die Angabe der Bestimmungsformel, also des Lösungsansatzes. Anmerkung: Geben Sie Ihre Ergebnisse auf drei Dezimalstellen genau an. Sie können bei der Lösung dieser Aufgabe anstelle eines Taschenrechners auch eine StatistikSoftware oder EXCEL heranziehen.
Aufgabe 14.2 (Konfidenzintervall für den Erwartungswert bei geschätzter Varianz)
a) Bestimmen Sie mit den Daten aus Aufgabe 14.1 und der Normalverteilungsannahme für das Gewicht X auch ein Konfidenzintervall zum Niveau 1 − α für den unbekannten Parameter µ. Wählen Sie α = 0, 05. Geben Sie die Grenzen des Intervalls auf eine Stelle nach dem Dezimalkomma genau an. b) Interpretieren Sie Ihr Ergebnis.
Aufgabe 15.1 (einseitiger Gauß-Test) Die nachstehende und auch die folgende Aufgabe zur KQ-Schätzung sind adaptiert aus Caputo / Fahrmeir / Künstler / Lang / Pigeot / Tutz (2009, Kapitel 10 resp. Kapitel 12): Bei einer Studie zum Thema „Frauen und Schwangerschaft“ mit 49 beteiligten Müttern wurde das Alter X der Frauen bei der Geburt des ersten Kindes festgestellt. Die Forschungshypothese beinhaltete, dass das Durchschnittsalter von Frauen bei der Erstgeburt oberhalb von 25 Jahren liegt. Bei den 49 befragten Frauen ergab sich der Mittelwert x = 26 (Altersangaben in vollen Jahren). a) Testen Sie zum Signifikanzniveau α = 0, 05 die Nullhypothese H0 : µ ≤ 25 gegen die Alternativhypothese H1 : µ > 25. Gehen Sie davon aus, dass X einer Normalverteilung mit Varianz σ 2 = 9 folgt. b) Was beinhalten bei diesem konkreten Test der Fehler 1. sowie der Fehler 2. Art?
Kapitel 15
274
20 Übungsaufgaben
Aufgabe 15.2 (einseitiger Gauß-Test) Wenn man in Beispiel 15.3 eine weitere Stichprobe zieht, wird man möglicherweise zu einer anderen Testentscheidung kommen. Man kann aber die Wahrscheinlichkeit für die Ablehnung der Nullhypothese anhand von (15.13) berechnen, ohne hierfür Stichprobendaten zu benötigen. a) Berechnen Sie für den linksseitigen Test (15.5) mit µ0 = 2 kg und α = 0, 05 aus Beispiel 15.3 die Wahrscheinlichkeit einer Verwerfung der Nullhypothese für den Fall, dass µ den Wert µ = 2, 002 kg hat. b) Wie groß ist diese Wahrscheinlichkeit für µ = 1, 997? c) Skizzieren Sie den vollständigen Verlauf der Gütefunktion G(µ) des linksseitigen Tests aus Aufgabenteil a. Aufgabe 15.3 (zweiseitiger Gauß-Test) Betrachten Sie wie in Beispiel 15.3 die industrielle Abfüllung von Zucker, der in 2-kgTüten in den Verkauf kommt (Sollwert µ0 = 2 kg). Das tatsächliche Füllgewicht X sei normalverteilt mit Standardabweichung σ = 0, 01 kg. Verbraucher sind an einer Kontrolle von Sollwertunterschreitungen, der Hersteller aber aus Kostengründen auch an einer Überwachung und Abstellung von Sollwertüberschreitungen interessiert. a) Anhand einer Stichprobe von 10 Tüten wurde für das Füllgewicht der Mittelwert x = 2, 007 kg ermittelt. Um den Interessen von Verbraucher und Hersteller gleichermaßen zu entsprechen, soll über einen zweiseitigen Test (15.1) mit µ0 = 2 kg eine Aussage darüber abgeleitet werden, ob der Stichprobenbefund für oder gegen die Beibehaltung der Nullhypothese spricht. Führen Sie den Test mit α = 0, 05 durch und interpretieren Sie das Ergebnis. b) Führen Sie den Test mit den Vorgaben aus Aufgabenteil a auch mit α = 0, 01 durch.
Aufgabe 16.1 (Kleinst-Quadrat-Schätzung im linearen Regressionsmodell) Kapitel 16
Im Vorfeld von Herzkatheteruntersuchungen im Herzlabor eines Krankenhauses wird bei jedem Patienten eine Anamnese durchgeführt, bei der u. a. das Körpergewicht, die Körpergröße und der systolische Blutdruck festgestellt werden. Die beiden Variablen „Körpergewicht“ und „Körpergröße“ können anhand des – schon in Beispiel 4.3 verwendeten Body-Mass-Indexes (s. Fußnote 6 in Kapitel 4) – zusammengeführt werden, dessen Wert eine schnelle erste Orientierung über das Vorliegen von Über- oder Untergewichtigkeit ermöglicht. Für 6 Männer wurden für den Body-Mass-Index X und den systolischen Blutdruck Y folgende Werte (xi ; yi ) gemessen:
20.2 Wahrscheinlichkeitsrechnung und schließende Statistik
i 1 2 3 4 5 6
xi 26 23 27 28 24 25
275
yi 170 150 160 175 155 150
Gehen Sie davon aus, dass die Werte xi und yi über eine lineare Regression (16.1) verknüpft sind und schätzen Sie anhand des tabellierten Datensatzes des Umfangs n = 6 die Regressionskoeffizienten β und α unter Verwendung der KQ-Methode. Weisen Sie Ihre Schätzergebnisse βb und α b auf zwei Stellen nach dem Dezimalkomma genau aus. Aufgabe 16.2 (Kleinst-Quadrat-Schätzung und Bestimmtheitsmaß) Das folgende Beispiel ist adaptiert aus Caputo / Fahrmeir / Künstler / Lang / Pigeot / Tutz (2009, Kapitel 3): In einer Region wurde anhand einer Studie untersucht, inwieweit das Geburtsgewicht Y Neugeborener (in Kilogramm) von verschiedenen sozioökonomischen Variablen abhängt, u. a. vom monatlichen Nettoeinkommen X der Eltern (in Tausend Euro). In der nachstehenden Tabelle sind für acht an der Studie beteiligte Kinder die Beobachtungsdaten (xi ; yi ) wiedergegeben (i = 1, 2, ..., 8), d. h. es sind hier außer dem Nettoeinkommen keine Daten für andere denkbare Einflussvariablen aufgeführt: i 1 2 3 4 5 6 7 8
xi 1,9 2,7 3,1 4,0 3,9 3,4 2,9 2,1
yi 3,0 2,5 4,5 3,5 4,0 3,0 4,0 3,5
a) Berechnen Sie unter Annahme des einfachen linearen Regressionsmodells (16.1) die KQ-Schätzungen für die beiden Regressionskoeffizienten β und α. b) Quantifizieren Sie dann anhand des Bestimmtheitsmaßes R2 aus (16.17) die Güte der Anpassung der Daten an das Modell. Interpretieren Sie das Ergebnis.
276
20 Übungsaufgaben
Aufgabe 16.3 (Kleinst-Quadrat-Schätzung im multiplen Regressionsmodell) In Beispiel 16.1, das sich auf das einfache Regressionsmodell bezog (k = 1) wurden die KQ-Schätzformeln (16.6) und (16.7) auf einen sehr kleinen Datensatz angewendet. Leiten Sie die dabei errechneten Schätzwerte βb = 0, 125 und α b = 0, 25 erneut her, nun aber unter Verwendung der KQ-Schätzformel (16.35) für das multiple Regressionsmodell. Notieren Sie die Formel (16.35) zunächst für den Spezialfall k = 1.
21 Lösungen zu den Übungsaufgaben 21.1 Beschreibende Statistik
Lösung zu Aufgabe 2.1 (Grundbegriffe) Kapitel 2
Die Grundgesamtheit ist durch alle in Deutschland lebenden Schulkinder definiert, die Schulkinder sind die statistischen Einheiten (Merkmalsträger). Interessierende Merkmale sind hier vor allem die Dauer des täglichen Fernsehkonsums (z. B. mit den Ausprägungen „Minuten“ oder „Viertelstunden“) und der Fernsehsender (evtl. nur mit Differenzierung zwischen den Ausprägungen „privater Sender“ und „öffentlich-rechtlicher Sender“). Als Teilgesamtheiten bieten sich solche Teilmengen an, zwischen denen man Unterschiede bezüglich des Fernsehverhaltens vermutet und entsprechende Hypothesen empirisch absichern will. Man könnte etwa zwischen Schulkindern in verschiedenen Schultypen oder Altersgruppen unterscheiden. Denkbar wäre auch eine Unterscheidung hinsichtlich der Zugehörigkeit der Kinder zu Sportvereinen oder des Bildungsstands der Eltern.
Lösung zu Aufgabe 2.2 (Skalenarten) Höchster erreichter Schulabschluss (Ausprägungen: ohne Abschluss, Hauptschule, mittlere Reife, Fachhochschulreife, Abitur): ordinalskaliert. Gewählte Partei bei einer Kommunalwahl (Ausprägungen: zwei freie Wählervereinigungen und alle im Landtag vertretenen Parteien): nominalskaliert. Bonität von Kunden einer Sparkasse (Kategorien: uneingeschränkte, eingeschränkte und fehlende Kreditwürdigkeit): ordinalskaliert. Verfallsdatum bei einer Konfitürensorte (Tag der Herstellung + 18 Monate; auf der Ware angegeben): metrisch skaliert.
Lösung zu Aufgabe 3.1 (Erhebungsarten) Kapitel 3
Beispiele für vielbeachtete Zeitreihen: Zeitreihen aus dem Finanzmarktsektor (DAX und andere Aktienkursindizes, Entwicklung der Hypothekenzinssätze), Zeitreihen für den Arbeitsmarkt (z. B. monatliche Erwerbslosenquoten), Konjunkturindikatoren (Verbraucherpreisindex, Inflationsrate, Veränderungen beim Bruttoinlandsprodukt).
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_21, © Springer-Verlag Berlin Heidelberg 2011
277
278
21 Lösungen zu den Übungsaufgaben
Lösung zu Aufgabe 3.2 (geschichtete Zufallsauswahl) Bei proportionaler Schichtung entfallen 270 · 120 = 54 Studierende auf Schicht 1, 600 180 150 · 120 = 36 auf Schicht 2 und 600 · 120 = 30 auf Schicht 3. 600 Lösung zu Aufgabe 4.1 (Gruppierung von Daten und Histogrammerstellung) Kapitel 4
a) Merkmalsträger: Arbeitnehmer;
Merkmal: Bruttoverdienst / Stunde (in EUR).
b)
c)
Nr. der Klasse
Klassengrenzen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 bis unter 5,0 5,0 bis unter 10 10,0 bis unter 15,0 15,0 bis unter 20,0 20,0 bis unter 25,0 25,0 bis unter 30,0 30,0 bis unter 35,0 35,0 bis unter 40,0 40,0 bis unter 45,0 45,0 bis unter 50,0 50,0 bis unter 55,0 55,0 bis unter 60,0 60,0 bis unter 65,0 65,0 bis unter 70,0 70,0 und mehr
Klassenbesetzungshäufigkeit absolut relativ (in %) 3 3,75 33 41,25 15 18,75 10 12,5 6 7,5 4 5,0 3 3,75 2 2,5 1 1,25 1 1,25 1 1,25 0 0 1 1,25 0 0 0 0
21.1 Beschreibende Statistik
279
Lösung zu Aufgabe 4.2 (Ergebnisse der Nationalen Verzehrstudie II für Frauen)
a) Die folgende Abbildung zeigt die in Prozentwerten wiedergegebenen relativen Häufigkeiten für Frauen. Die numerischen Werte der beiden dargestellten Teilhäufigkeiten sind jeweils eingeblendet. Die Bundesländer sind nach zunehmender Gesamtlänge geordnet.
b) Bei den Frauen liegt der Anteil der Personen mit einem BMI-Wert von 25 und mehr, also derjenigen, die entweder als übergewichtig (BMI von 25, 0 bis unter 30, 0) oder gar als fettleibig (BMI von 30, 0 und mehr) eingestuft sind, in allen Bundesländern niedriger als bei den Männern. Man verifiziert dies durch Vergleich der Balken (jeweils Gesamtlänge beider Balkenabschnitte) aus Abbildung 4.7 oder anhand eines Vergleichs der Werte in den Spalten (1) und (2) der nachstehenden Tabelle. Dort ist aus den Werten der Spalte (3) , die den Quotienten q1 aus (1) und (2) wiedergibt, das bessere Abschneiden der Frauen quantifiziert. Ein Wert q1 < 1 beinhaltet, dass bei den Frauen der Anteil der leicht oder deutlich Übergewichtigen (BMI-Wert von mindestens 25, 0) niedriger als bei den Männern liegt. Man erkennt z. B., dass q1 in Berlin und Hamburg besonders deutlich unterhalb von 1 liegt. In Spalte (4) und (5) der Tabelle wird für Frauen und Männer jeweils ausgewiesen, wie innerhalb der Personengruppe mit einem BMI-Wert von mindestens
280
21 Lösungen zu den Übungsaufgaben
25, 0 der Quotient der relativen Häufigkeiten f (a3 ) und f (a2 ) ausfällt, also für jedes Geschlecht einzeln das Verhältnis zwischen dem Anteil der Fettleibigen und dem der nur schwächer Übergewichtigen. Man sieht, dass dieses Verhältnis bei den Frauen ungünstiger ausfällt, wenn man von Schleswig-Holstein absieht. Ein Wert q2 > 1 besagt, dass das Verhältnis von stärker zu leichter Übergewichtigen bei den Männern günstiger ausfällt. In Bremen und im Saarland liegt q2 auffällig deutlich oberhalb von 1.
Bundesland
Baden-Württemberg Bayern Berlin Brandenburg Bremen Hamburg Hessen Mecklenburg-Vorpommern Niedersachsen Nordrhein-Westfalen Rheinland-Pfalz Saarland Sachsen Sachsen-Anhalt Schleswig-Holstein Thüringen
f (a2 ) + f (a3 ) Frauen Männer (1) (2) 0,473 0,688 0,480 0,661 0,419 0,661 0,532 0,689 0,444 0,613 0,384 0,616 0,487 0,694 0,618 0,678 0,501 0,678 0,504 0,672 0,455 0,679 0,560 0,662 0,569 0,682 0,578 0,691 0,495 0,684 0,579 0,692
f (a3 ) f (a2 )
q1 (3) 0,688 0,726 0,634 0,772 0,724 0,623 0,702 0,912 0,739 0,750 0,670 0,846 0,836 0,836 0,724 0,837
Frauen (4) 0,521 0,633 0,739 0,928 1,000 0,593 0,607 0,884 0,632 0,775 0,970 0,958 0,815 0,762 0,495 0,782
Männer (5) 0,427 0,479 0,386 0,591 0,310 0,333 0,437 0,551 0,503 0,427 0,380 0,271 0,516 0,446 0,551 0,514
q2 (6) 1,219 1,321 1,915 1,569 3,228 1,780 1,390 1,603 1,255 1,815 2,551 3,540 1,581 1,710 0,899 1,520
Lösung zu Aufgabe 5.1 Kapitel 5
a) Absolute und relative Häufigkeitsverteilung für das Merkmal „Augenzahl“: Beobachtete Augenzahl Absolute Häufigkeit Relative Häufigkeit
1 1 12
≈ 0, 083
2 1 6
3
≈ 0, 167
1 4
≈ 0, 25
2 1 6
≈ 0, 167
1 1 12
≈ 0, 083
3 3 12
≈ 0, 25
b) Wenn man die Augenzahlen nach Größe sortiert, erhält man folgende Liste: 1, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 6.
21.1 Beschreibende Statistik
281
Der Median ist nach (5.1) wegen n = 12 der Mittelwert aus dem 6. und 7. Element x(6) resp. x(7) der geordneten Liste, d. h. es ist x e=
1 · (3 + 4) = 3, 5. 2
1 c) Nach (5.2) erhält man x = 12 · 45 = 3, 75. Wenn man alternativ von (5.4) ausgeht, ergibt sich dieser Wert wie folgt:
x = (1 ·
1 1 1 1 1 1 45 +2· +3· +4· +5· +6· )= = 3, 75. 12 6 4 6 12 4 12
d) Für die Spannweite folgt nach (5.5) der Wert R = 6 − 1 = 5. Für die Berechnung der Varianz kann man jede der Formeln (5.6), (5.7) oder (5.10) heranziehen. Bei Verwendung von (5.6) ergibt sich 12
1 X s = (xi − 3, 75)2 12 i=1 2
1 [1 · (−2, 75)2 + 2 · (−1, 75)2 + 3 · (−0, 75)2 + 2 · (0, 25)2 + 1 · (1, 25)2 + 3 · (2, 25)2 ] 12 1 32, 252 ≈ (7, 563 + 6, 125 + 1, 688 + 0, 125 + 1, 563 + 15, 188) = 12 12 ≈ 2, 688. =
Für die Standardabweichung (5.8) ergibt sich dann s ≈ 1, 640.
Lösung zu Aufgabe 5.2 (Quantile und Boxplots)
a) Die beiden Quartile bestimmen sich nach (5.11). Da der nach aufsteigender Größe geordnete Datensatz durch 1, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 6 gegeben ist (n = 12), erhält man mit p = 0, 25 aufgrund der Ganzzahligkeit von n · p x0,25 =
1 1 1 · (x(12·0,25) + x(12·0,25+1 ) = · (x(3) + x(4) ) = · (2 + 3) = 2, 5. 2 2 2
Analog folgt für denselben Datensatz mit p = 0, 75, wieder bei Beachtung der Ganzzahligkeit von n · p x0,75 =
1 1 1 · (x(12·0,75) + x(12·0,75+1 ) = · (x(9) + x(10) ) = · (5 + 6) = 5, 5. 2 2 2
b) Die 5 Charakteristika eines Boxplots sind in Abbildung 5.3 wiedergegeben. Es sind dies hier die beiden Extremwerte x(1) = 1 und x(12) = 6, die beiden Quartile x0,25 = 2, 5 und x0,75 = 5, 5 sowie der schon in Lösungsteil b zu Aufgabe 5.1 bestimmte Median x e = x0,5 = 3, 5. Der Interquartilsabstand (5.12) beträgt somit Q = x0,75 − x0,25 = 5, 5 − 2, 5 = 3.
282
21 Lösungen zu den Übungsaufgaben
c) Wenn man den um x(13) = 3 erweiterten Datensatz nach aufsteigender Größe ordnet, hat man 1, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 6, 6. Die Quartile x0,25 und x0,75 bestimmen sich nach (5.11). Mit n = 13 und p = 0, 25 oder p = 0, 75 ist aber n · p nun nicht mehr ganzzahlig. Es ist daher die obere Hälfte von ((5.11) anzuwenden. Man erhält x0,25 = x([13·0,25]+1) = x([3,25]+1) = x(4) = 3 x0,75 = x([13·0,75]+1) = x([9,75]+1) = x(10) = 5. Für den Interquartilsabstand Q = x0,75 − x0,25 errechnet man jetzt Q = 5 − 3 = 2.
Lösung zu Aufgabe 6.1 (Gini-Koeffizient) Kapitel 6
a) Mit (6.2) und (6.3) erhält man für die Ordinatenwerte v1 , v2 und v3 v1 =
p1 20 = = 0, 1; p4 200
v2 =
p2 70 = = 0, 35; p4 200
v3 =
p3 130 = = 0, 65. p4 200
b) Da die Umsätze nach Größe geordnet vorliegen (xi = x(i) ), erhält man nach (6.4) q4 = 1 · 20 + 2 · 50 + 3 · 60 + 4 · 70 = 580. Für die Merkmalssumme p4 gilt p4 = 200 und damit nach (6.5) 1 2 · 580 G= · − 1 − 1 = 0, 2. 4 200 Für den normierten Gini-Koeffizienten folgt nach (6.8) G∗ =
4 4 ·G= ≈ 0, 267. 3 15
c) Der Inhalt A der markierten Fläche ist gegegeben durch A = Abbildung 11.8).
G 2
= 0, 1 (vgl. auch
Lösung zu Aufgabe 6.2 (Herfindahl-Index) a) Für den Herfindahl-Index H erhält man mit p4 = 200 4 1 1 1 X 2 H= 2· xi = · (202 + 502 + 602 + 702 ) = · 11400 = 0, 285. 2 p4 i=1 200 40000
b) Der Index H kann im hier vorliegenden Fall n = 4 nach (6.10) nicht kleiner als 0, 25 sein.
21.1 Beschreibende Statistik
283
Lösung zu Aufgabe 7.1 (zusammengesetzte Indexzahlen – Medaillenspiegel) a) Wenn man die in Tabelle 7.1 aufgeführten Anzahlen für Gold, Silber und Bronze nach dem Schema 5 − 3 − 2 gewichtet, resultiert nachstehende Rangfolge: Rang 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Nation China USA Russland Großbritannien Australien Deutschland Frankreich Südkorea Italien Japan
Gold 51 36 23 19 14 16 7 13 8 9
Silber 21 38 21 13 15 10 16 10 10 6
Bronze 28 36 28 15 17 15 17 8 10 10
Punkte 374 366 234 164 149 140 117 111 90 83
b) Dividiert man die Punktzahlen der obigen Tabelle noch durch die Einwohnerzahl (in Millionen) des jeweiligen Landes, resultiert eine ganz andere Rangfolge, bei der Länder mit hoher Einwohnerzahl erwartungsgemäß an Boden verlieren: Rang 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
Nation Australien (21,0) Großbritannien (60,9) Südkorea (48,4) Frankreich (64,1) Deutschland (82,4) Russland (140,7) Italien (58,1) USA (303,8) Japan (127,3) China (1330,0)
Gold 14 19 13 7 16 23 8 36 9 51
Silber 15 13 10 16 10 21 10 38 6 21
Bronze 17 15 8 17 15 28 10 36 10 28
Punkte 7,10 2,69 2,29 1,83 1,69 1,66 1,55 1,20 0,65 0,28
Lösung zu Aufgabe 7.2 (Preisindex) Man erkennt sehr deutlich, dass sich die Preise für Pauschalreisen alljährlich im Juli /August und noch stärker im Dezember stark nach oben verändern, offenbar aufgrund der höheren Nachfrage nach Reisen in den Sommerferien und um die Weihnachtszeit. Da die Sommerferien von Bundesland unterschiedlich terminiert sind, verteilt sich die höhere Nachfrage hier auf einen längeren Zeitraum. In Zeiten schwächerer Nachfrage, vor allem im Januar und November (vor und nach den Weihnachtsferien) und auch im April
Kapitel 7
284
21 Lösungen zu den Übungsaufgaben
/ Mai (nach den Osterferien), senken die Reiseveranstalter die Preise, um die Nachfrage anzukurbeln und bessere Auslastungen zu erzielen.
Lösung zu Aufgabe 8.1 (Randverteilungen) Kapitel 8
Die Randverteilungen ergeben sich durch Aufsummieren der Zeilen resp. der Spalten:
a1 a2 Spaltensummen
b1 b2 62 96 14 188 76 284
Zeilensummen 158 202 360
Lösung zu Aufgabe 8.2 (Bedingte Häufigkeitsverteilungen) 54 Der Wert fX (a5 |b1 ) = 501 ≈ 0, 108 sagt aus, dass von den Personen in der Stichprobe, die männlichen Geschlechts (Y = b1 ) waren, 10, 8 % die Grünen favorisierten (X = a5 ).
Das Ergebnis fY (b1 |a2 ) = 100 ≈ 0, 461 beinhaltet, dass von den Personen, die sich für 217 die SPD (X = a2 ) entschieden hatten, 46, 1 % Männer waren (Y = b1 ).
Lösung zu Aufgabe 9.1 (Zusammenhangsmessung, nominalskalierte Merkmale) Kapitel 9
a) Man erhält mit den Werten der in Aufgabe 8.1 wiedergegebenen Vierfeldertafel bei Anwendung von (9.7) und Beachtung von n = 360
χ2 =
360 · (62 · 188 − 96 · 14)2 360 · 103122 = ≈ 55, 571. 158 · 202 · 76 · 284 158 · 202 · 76 · 284
b) Für den Φ-Koeffizienten folgt nach (9.3) r 55, 571 Φ= ≈ 0, 393. 360 Das Cramérsche Zusammenhangsmaß V aus (9.5) ist bei einer Vierfeldertafel wegen M − 1 = 1 mit dem Φ-Koeffizienten identisch, d. h. es gilt V = Φ ≈ 0, 393.
21.1 Beschreibende Statistik
285
Lösung zu Aufgabe 9.2 (Zusammenhangsmessung bei metrisch skalierten Merkmalen) Wenn man eine Arbeitstabelle anlegt, erhält man folgende Werte: i (xi − x) 1 - 3,01 2 -4,71 3 1,29 4 1,09 5 4,79 6 -2,51 7 2,29 8 -3,51 9 3,49 10 0,79 Summe
(xi − x)2 9,06 22,18 1,66 1,19 22,94 6,30 5,24 12,32 12,18 0,62 93,69
(yi − y) (yi − y)2 4,36 19,01 -1,74 3,03 -0,04 0,00 4,46 19,89 1,76 3,10 -3,64 13,25 2,26 5,11 -4,44 19,71 -3,54 12,53 0,56 0,31 Summen: 95,94
(yi − y)(xi − x) -13,12 8,20 -0,05 4,86 8,43 9,14 5,18 15,58 -12,35 0,44 26,31
Setzt man die drei am Tabellenende wiedergegebenen Summen in (9.11) ein, folgt P10 26, 31 i=1 (xi − x)(yi − y) qP √ r = pP =√ ≈ 0, 277. n 10 93, 69 · 95, 94 2· 2 (x − x) (y − y) i i i=1 i=1 Dieser Wert beinhaltet schwache Korrelation.
Lösung zu Aufgabe 9.3 (Zusammenhangsmessung bei ordinalskalierten Merkmalen) Der Rangkorrelationskoeffizient kann hier nach (9.16) bestimmt werden, weil kein Rangplatz doppelt besetzt ist. Für die Anwendung von (9.16) sind die Rangplatzdifferenzen di zu ermitteln und daraus deren Quadrate: Mannschaft i A B C D E
Rang der Mannschaft beim Hallenturnier 1 2 3 4 5
Rang der Mannschaft beim Freiluftturnier
Rangdifferenz
2 3 1 5 4
Hieraus folgt dann für das Zusammenhangsmaß rSP : P 6 · 5i=1 d2i 6·8 rSP = 1 − =1− = 0, 6. 2 5 · (5 − 1) 120
di -1 -1 2 -1 1
Quadrierte Rangdifferenz d2i 1 1 4 1 1
286
21 Lösungen zu den Übungsaufgaben
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
Lösung zu Aufgabe 10.1 (Venn-Diagramme) Kapitel 10
Alle Aussagen mit Ausnahme von B sind zutreffend. Dass C und D zutreffend sind, aber B nicht richtig ist, erkennt man leichter, wenn man zunächst A und B einzeln visualisiert. Die entsprechenden Venn-Diagramme sind nachstehend an erster und zweiter Stelle wiedergegeben. Das dritte Venn-Diagramm zeigt die Vereinigungsmenge von A und B. Die dort dunkel markierte Fläche stimmt offenbar nicht mit der Fläche überein, die im zweiten VennDiagramm der Aufgabe dunkel markiert war.
Lösung zu Aufgabe 10.2 (Ereignisse und Ereignisraum) a) Beim dreifachen Münzwurf ist die Ergebnismenge Ω durch die acht Tripel Ω = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z), (Z, K, K), (K, Z, K), (K, K, Z)(K, K, K)} definiert (acht Elementarereignisse). b) Das Ereignis A = {Bei mindestens zwei Würfen tritt „K“ auf} setzt sich zusammen aus den letzten vier der acht Tripel, die Ω konstituieren: A = {(Z, K, K), (K, Z, K), (K, K, Z)(K, K, K)}
Lösung zu Aufgabe 10.3 (Wahrscheinlichkeiten bei Laplace-Experimenten) Das Ereignis A umfasst 4 der 8 Elementarereignisse des dreifachen Münzwurfs (s. Lösung zu Aufgabe 10.1). Jedes Tripel ist aufgrund der Annahme einer fairen Münze gleichwahrscheinlich. Es gilt also nach der Formel (10.5) für Laplace-Experimente P (A) = 48 = 0, 5 und damit nach (10.2) auch P (A) = 0, 5. Hinweis: Das Ergebnis 0, 5 lässt sich auch anhand der Binomialverteilung ableiten. Die Anzahl X der Ausgänge mit „Kopf“ beim dreifachen Wurf einer fairen Münze ist
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
287
nämlich binomialverteilt mit n = 3 und p = 0, 5. Gesucht ist die Wahrscheinlichkeit P (X ≥ 2) = 1 − P (X ≤ 1). Die Wahrscheinlichkeit P (X ≤ 1) erhält man aus Tabelle 19.1 als Wert der Verteilungsfunktion F (1) = 0, 5 der B(3;0,5)-Verteilung, d. h. es ist P (X ≥ 2) = 1 − 0, 5 = 0, 5. Die Vorteile der Verwendung der Binomialverteilung werden allerdings erst bei größeren Werten von n oder im Falle p 6= 0, 5 besser sichtbar. Lösung zu Aufgabe 10.4 (Kombinatorik) Da Buchstaben mehrfach auftreten können und es hier auf die Reihenfolge der Buchstaben ankommt, liegt der Fall „Ziehen mit Zurücklegen und mit Berücksichtigung der Reihenfolge“ der Tabelle (10.1) vor. Da die Folge von A bis J insgesamt 10 Buchstaben umfasst, werden n = 5 Elemente aus einer Grundgesamtheit von N = 10 Elementen gezogen. Die Anzahl der Möglichkeiten beträgt insgesamt 105 = 100000.
Lösung zu Aufgabe 10.5 (Bedingte Wahrscheinlichkeiten; Bayes und Vierfeldertafel) a) Die Wahrscheinlichkeit P (A) dafür, dass die zufällig ausgewählte Person keine Vollzeitbeschäftigung hat, ist nach (10.5) gegeben durch P (A) =
160 − 64 96 = = 0, 6. 160 160
b) Die Wahrscheinlichkeit P (A ∩ B) dafür, dass sie sowohl eine Vollzeitbeschäftigung als auch eine abgeschlossene Promotion hat, errechnet sich analog zu P (A ∩ B) =
40 = 0, 25. 160
c) Für die Wahrscheinlichkeit P (B|A), dass eine aus dem vollzeitbeschäftigten Lehrpersonal zufällig ausgewählte Person promoviert ist, ergibt sich nach (10.13) P (B|A) =
P (A ∩ B) 0, 25 0, 25 = = = 0, 625. P (A) 1 − 0, 6 0, 4
Dasselbe Ergebnis ließ sich auch mit (10.11) ableiten. Man erhält hier P (B|A) =
40 = 0, 625. 64
d) Wenn P (A ∩ B) = P (A) · P (B) gilt, sind die Ereignisse A und B gemäß (10.16) 60 unabhängig. Hier ist P (A) = 0, 4, P (B) = 160 = 0, 375 und folglich P (A) · P (B) = 0, 4 · 0, 375 = 0, 15. Dieser Wert stimmt nicht mit P (A ∩ B) = 0, 25 überein, d. h. die Ereignisse A und B sind nicht unabhängig.
288
21 Lösungen zu den Übungsaufgaben
e) Man erhält folgende Vierfeldertafel, bei der die Vorgaben dieser Aufgabe kursiv gesetzt sind:
Vollzeit (A) Teilzeit (A) Spaltensummen
mit Promotion (B) 40 20 60
ohne Promotion (B) 24 76 100
Zeilensummen 64 96 160
96 Die Wahrscheinlichkeit P (A) ergibt sich hieraus als 160 = 0, 6. Für die Wahrschein40 lichkeit P (A ∩ B) erhält man sofort den Quotienten 160 = 0, 25 und für P (B|A) den Wert 40 = 0, 625. 64
Lösung zu Aufgabe 10.6 (Bedingte Wahrscheinlichkeiten; Satz von Bayes) In Beispiel 1.1 wurde angenommen, dass bei einer Grundgesamteit von N Frauen einer bestimmten Altersklasse 0, 8 % Brustkrebs haben, wobei im Zuge eines Screenings 90 % dieser Fälle entdeckt werden (Gruppe G1 mit N1 Frauen). Es wurde ferner unterstellt, dass bei der Gruppe G2 mit N2 = N − N1 Frauen ohne Erkrankung in 7 % aller Fälle ein Fehlalarm erfolgt. a) In der Gruppe G1 , die N1 = 0, 008 · N erkrankte Frauen umfasst, ist in 0, 9 · N1 = 0, 9 · 0, 008 · N = 0, 0072 · N Fällen ein positiver Befund zu erwarten (korrekter Befund). In der weitaus größeren Gruppe G2 , die N2 = 0, 992 · N gesunde Frauen umfasst, ist in 0, 07 · N2 = 0, 07 · 0, 992 · N = 0, 06944 · N Fällen ein positiver Befund zu erwarten (falscher Befund). Nachstehend ist die relative Anzahl der positiven Befunde für beide Gruppen anhand eines Balkendiagramms visualisiert:
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
289
Anzahl positiver Befunde (in % von N )
6
4
2
G1
G2
b) Für die Wahrscheinlichkeit P (B) eines positiven Befunds bei einer zufällig aus der Grundgesamtheit G ausgewählten Frau folgt dann mit (10.5) P (B) =
0, 0072 · N + 0, 06944 · N = 0, 0072 + 0, 06944 = 0, 07664. N
c) Für die gesuchte Wahrscheinlichkeit P (A|B) eines falsch-positiven Befunds ergibt sich nach dem Satz von Bayes aus (10.15) mit den Vorgaben aus Beispiel 1.1 P (A|B) =
P (B|A) · P (A) 0, 07 · 0, 992 = ≈ 0, 906. P (B) 0, 07664
Bei ca. 90, 6 % (!) aller positiven Befunde ist der Befund falsch-positiv. Vermutlich haben Sie einen weitaus niedrigeren Wert erwartet. Das Balkendiagramm macht das Ergebnis verständlicher – der zweite Balken ist etwa 9, 6-mal so lang wie der erste. Wenn man die Gesamtlänge beider Balken mit 100 % ansetzt, entfallen auf den zweiten Balken 90, 6 % und auf den ersten etwa 9, 4 %. d) Verwendet man anstelle von P (A) = 0, 008 in den vorstehenden Rechnungen bei ansonsten unveränderten Vorgaben den Wert P (A) = 0, 006, erhält man P (B) =
0, 0054 · N + 0, 06958 · N = 0, 0054 + 0, 06958 = 0, 07498 N
und damit P (A|B) =
P (B|A) · P (A) 0, 07 · 0, 994 = ≈ 0, 928. P (B) 0, 07498
Der Anteil der Fehlalarme erhöht sich nun also auf ca. 92, 8 %. Zeichnete man auch hier, analog zu Aufgabenteil a, ein Balkendiagramm, wäre der zweite Balken jetzt fast 13, 9-mal so lang wie der erste.
290
21 Lösungen zu den Übungsaufgaben
Lösung zu Aufgabe 10.7 (Baumdiagramm und Vierfeldertafel) a) Unter den in Aufgabe 10.6 genannten Voraussetzungen erhält man bei Wahl von N = 100.000 (Massenscreening mit Hunderttausend beteiligten Frauen) das nachstehende Baumdiagramm: Positiver Befund: 720 Fälle (90 % von N1 ) G1 : N1 = 800 (0,8 % von N ) Negativer Befund: 80 Fälle (10 % von N1 )
N = 100.000
Positiver Befund: 6.944 Fälle (7 % von N2 ) G2 : N2 = 99.200 (99,2 % von N ) Negativer Befund: 92.256 Fälle (93 % von N2 )
In der Grafik sind die Anzahlen fett betont, die als Fehlentscheidungen zu interpretieren sind (80 Fälle von Nicht-Entdeckung pro 100.000; 6.944 Fälle von Fehlalarmen pro 100.000). Diese Werte sind mit den in Teil a der Lösung zu Aufgabe 10.6 errechneten Werten kompatibel – dort war N lediglich noch nicht näher spezifiziert.
Java-Applet „Screeningrisiken“
Auch die in Teil b - c der Lösung von Aufgabe 10.6 ermittelten Ergebnisse können aus der Grafik erschlossen werden. Auf 100.000 Teilnehmerinnen entfallen 720 korrekt-positive und 6.944 falsch-positive Befunde, insgesamt also 7.664 positive Befunde. Die Wahrscheinlichkeit eines positiven Befundes, gleich ob korrekt oder falsch, hat also nach dem Laplace-Ansatz (10.5) den auch in Lösungsteil b errechneten Wert 0, 07664, also etwa 7, 7 %. Das Ergebnis zu Lösungsteil c ergibt sich analog aus dem Laplace-Ansatz, hier als Quotient der Zahlen 6.944 (Anzahl der gesunden Frauen mit positivem Befund) und 7.664 (Anzahl aller Frauen der Grundgesamtheit mit positivem Befund), d. h. als 0, 906, also ca. 90, 6 %. b) Die Vierfeldertafel für absolute Häufigkeiten sieht im Falle N = 100.000 wie folgt aus, wenn man auch die Randverteilungen für die Binärvariablen „Gesundheitsstatus“ und „Screeningbefund“ wiedergibt:
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
erkrankt (A) gesund (A) Spaltensummen
positiver Befund (B) 720 6.944 7.664
negativer Befund (B) 80 92.256 92.336
291
Zeilensummen 800 99.200 100.000
Die Häufigkeiten, die sich auf Fehlentscheidungen beziehen, sind hier kursiv gesetzt (80 falsch-negative und 6.944 falsch-positive Befunde). Aus der Tabelle erkennt man unmittelbar, dass die Wahrscheinlichkeit P (B) eines positiven Befunds bei 7.664 einer zufällig aus der Grundgesamtheit ausgewählten Frau durch 100.000 = 0, 7664 gegeben ist. Für die Wahrscheinlichkeit P (A|B) eines falsch-positiven Befundes erhält man sofort den Wert 6.944 ≈ 0, 906. 7.664
Lösung zu Aufgabe 11.1 (Äquivalenz zweier Varianzdarstellungen) Kapitel 11
Aus (11.8) erhält man zunächst (binomische Formel) σ 2 = E (X − µ)2 = E(X 2 − 2µ · X + µ2 ). Bei Beachtung von (11.11) und (11.13) folgt mit µ = E(X): σ 2 = E(X 2 ) − 2µ · E(X) + µ2 = E(X 2 ) − µ2 .
Lösung zu Aufgabe 11.2 (Binomialverteilung) Das Drehen des Glücksrades entspricht einem Bernoulli-Experiment (mögliche Ausgänge: eine bestimmte Farbe tritt auf / tritt nicht auf). Die Anzahl X des Auftretens einer bestimmten Farbe ist binomialverteilt mit p = 0, 25 und n = 4, weil es vier Farben gibt (jede mit Eintrittswahrscheinlichkeit p = 0, 25) und die Bernoulli-Kette vier Experimente umfasst. Daraus folgt: a) Die Wahrscheinlichkeit P (X ≤ 1) höchstens einmal die Farbe „Gelb“ zu erhalten, errechnet sich als Wert F (1) der Verteilungsfunktion einer B(4; 0,25)-verteilten Zufallsvariablen. Mit Tabelle 19.1 resultiert F (1) = 0, 7383. Die hier gesuchte Wahrscheinlichkeit P (X ≥ 2) dafür, dass mindestens zweimal die Farbe „Gelb“ erscheint, ist die Komplementärwahrscheinlichkeit von P (X ≤ 1), d. h. es gilt P (X ≥ 2) = 1 − P (X ≤ 1) = 0, 2617. b) Die Wahrscheinlichkeit P (X = 1) genau einmal die Farbe „Grün“ zu erreichen errechnet sich als Differenz der wieder über Tabelle 19.1 zugänglichen Werte F (1) = P (X ≤ 1) = 0, 7383 und F (0) = P (X ≤ 0) = P (X = 0) = 0, 3164 der Verteilungsfunktion der genannten Binomialverteilung, also als 0, 7383 − 0, 3164 = 0, 4219.
292
21 Lösungen zu den Übungsaufgaben
Lösung zu Aufgabe 11.3 (Hypergeometrische Verteilung) Die Anzahl X der Richtigen beim Spiel „6 aus 45“ ist H(n; M; N)-verteilt mit n = 6, M = 6 und N = 45. a) Für den Erwartungswert µ = E(X) folgt nach (11.24), dass µ = 6 ·
6 45
= 0, 8.
b) Die Anzahl der möglichen Ausgänge beim Spiel „6 aus 45“ ist nach Tabelle 10.1 – siehe dort den Fall „Ziehen ohne Zurücklegen und ohne Berücksichtigung der Anordnung“ – gegeben durch 45 45! 45 · 44 · 43 · 42 · 41 · 40 = = = 8145060. 6 39! · 6! 6·5·4·3·2·1 Da von den 8145060 möglichen Ausgängen, die alle gleichwahrscheinlich sind, nur ein einziger „6 Richtige“ beinhaltet, gilt nach (10.5) für die Wahrscheinlichkeit f (6) = P (X = 6) f (6) =
1 ≈ 0, 12277 · 10−6 . 8145060
Die gesuchte Wahrscheinlichkeit beträgt also ca. 12, 28 · 10−6 %. Zum Vergleich: Beim deutschen Lottospiel „6 aus 49“ beträgt die Wahrscheinlichkeit für „6 Richtige“ nur 0, 0715 · 10−6 , also 7, 15 · 10−6 % (s. Beispiel 11.3).
Lösung zu Aufgabe 12.1 (Rechteckverteilung) Kapitel 12
Der Fahrgast trifft mit Sicherheit innerhalb eines 20-Minuten-Intervalls ein, das durch die Abfahrtszeiten zweier aufeinanderfolgender Busse der Linie 112 begrenzt ist. Die Wartezeit X bis zum Eintreffen des nächsten Busses lässt sich anhand einer stetigen Gleichverteilung über [0; 20] modellieren. Deren Dichtefunktion ist durch (12.6) mit b = 20 und a = 0 gegeben, also durch ( 1 für 0 ≤ x ≤ 20 f (x) = 20 0 für alle sonstigen x. Für den Erwartungswert errechnet man dann mit (12.12) den Wert E(X) = 10, der sich als mittlere Wartezeit bei zufälligem Eintreffen an der Bushaltestelle interpretieren lässt.
Lösung zu Aufgabe 12.2 (Normalverteilung und Standardnormalverteilung) a) Mit (12.23) verifiziert man, dass für die N (3; 42 )-verteilte Zufallsvariable X gilt 7−3 3−3 P (3 ≤ X ≤ 7) = Φ −Φ 4 4 = Φ(1) − Φ(0) = 0, 8413 − 0, 5 = 0, 3413.
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
293
b) Mit (12.20) – (12.23) und Tabelle 19.2 folgt: P (Z ≤ 2, 9) = Φ(2, 9) = 0, 9981 P (0 ≤ Z ≤ 2, 3) = Φ(2, 3) − Φ(0) = 0, 9893 − 0, 5 = 0, 4893 P (−1, 3 ≤ Z ≤ 0) = Φ(0) − [1 − Φ(1, 3)] = 0, 5 − 0, 0968 = 0, 4032 P (−0, 8 ≤ Z ≤ 0, 8) = Φ(0, 8) − [1 − Φ(0, 8)] = 0, 7881 − 0, 2119 = 0, 5762 P (−1, 3 ≤ Z ≤ 1, 2) = Φ(1, 2) − [1 − Φ(1, 3)] = 0, 8849 − 0, 0968 = 0, 7881.
Lösung zu Aufgabe 12.3 (Normalverteilung und Standardnormalverteilung) a) Nach (12.21) gilt für die Verteilungsfunktion F (x) der N (2950; 1202 )-verteilten Zufallsvariablen X 2800 − 2950 −150 F (x) = P (X ≤ 2800) = Φ =Φ = Φ(−1, 25). 120 120 Mit (12.20) und Tabelle 19.2 folgt: Φ(−1, 25) = 1 − Φ(1, 25) = 1 − 0, 8944 = 0, 1056. Die Wahrscheinlichkeit dafür, dass ein Neugeborenes ein Geburtsgewicht von nicht mehr als 2800 Gramm aufwies, betrug also 10, 56 % . b) Mit (12.23) verifiziert man, dass 3250 − 2950 2800 − 2950 P (2800 ≤ X ≤ 3250) = Φ −Φ = Φ(2, 5) − Φ(−1, 25). 120 120 Erneuter Rückgriff auf (12.20) und Tabelle 19.2 ergibt Φ(2, 5) − Φ(−1, 25) = Φ(2, 5) − 1 + Φ(1, 25) = 0, 9938 − 1 + 0, 8944 = 0, 8882. Dies beinhaltet, dass die Wahrscheinlichkeit dafür, dass ein Neugeborenes ein Geburtsgewicht zwischen 2800 Gramm und 3250 aufwies, 88, 82 % betrug. c) Das 0, 1-Quantil x0,1 der Normalverteilung ist mit dem 0, 1-Quantil z0,1 der Standardnormalverteilung über (12.26) verknüpft. Mit z0,1 = −z0,9 = −1, 2816 aus Tabelle 19.3 errechnet man den Wert x0,1 = 2950 + z0,1 · 120 = 2950 − 1, 2816 · 120 = 2950 − 153, 792 ≈ 2796, 2. Das 0, 1-Quantil der Normalverteilung ist der Wert x = x0,1 , an dem die Verteilungsfunktion F (x) = P (X ≤ x) der Verteilung den Wert 0, 1 annimmt. Dies beinhaltet hier: Wählt man ein an der Untersuchung beteiligtes Neugeborenes zufällig aus, so hatte dieses mit einer Wahrscheinlichkeit von 10 % ein Geburtsgewicht von nicht mehr als 2796, 2 Gramm.
294
21 Lösungen zu den Übungsaufgaben
Lösung zu Aufgabe 12.4 (Quantile von t- und Standardnormalverteilung) a) Der Wert, den eine Ausprägung der Testgröße t10 -verteilten Zufallvariablen T mit Wahrscheinlichkeit α = 0, 05 nicht überschreitet, ist das 0, 05-Quantil dieser Verteilung. Mit (12.29) und Tabelle 19.5 erhält man t10;0,05 = −t10;0,95 = −1, 812. b) Das zum Nullpunkt symmetrische Intervall, in dem eine Ausprägung von T mit Wahrscheinlichkeit 1 − α = 0, 95 liegt, ist durch [t10;0,025 ; t10;0,975 ], also durch [−2, 228; 2, 228] gegeben (s. erneut 19.5). Eine standardnormalverteilte Zufallvariable Z würde gemäß (12.23) und Tabelle 19.2 mit der Wahrscheinlichkeit Φ(2, 228) − Φ(−2, 228) = Φ(2, 228) − [1 − Φ(2, 228)] = 2 · Φ(2, 228) − 1 ≈ 0, 974 in das durch die beiden Quantile der t-Verteilung definierte Intervall [−2, 228; 2, 228] fallen. Anmerkung zu Teil b: Während also die Realisation einer mit 10 Freiheitsgraden tverteilten Zufallsvariablen mit einer Wahrscheinlichkeit von 5 % kleiner als −2, 228 oder größer als 2, 228 ist, beträgt die entsprechende Wahrscheinlichkeit bei einer standardnormalverteilten Zufallsvariablen nur etwa 1 − 0, 974 = 0, 026, d. h. 2, 6 %. Dies zeigt erneut, analog zu Abbildung 12.6, dass die Dichte der Standardnormalverteilung die der t-Verteilung mit nur 10 Freiheitsgraden noch nicht sehr gut approximiert.
Lösung zu Aufgabe 13.1 (Kovarianz zweier Zufallsvariablen) Kapitel 13
a) Es gibt vier mögliche Ausgänge (x; y), nämlich (1; 1), (1; 0), (0; 1) und (0; 0), die alle gleichwahrscheinlich sind. Die Wahrscheinlichkeiten p11 , p12 , p21 und p22 haben also alle den Wert 0, 25. b) Die Kovarianz von X und Y kann nach (13.12) bestimmt werden. Der Erwartungswert von X und Y ist jeweils 0, 5 („faire“ Münzen). Der Erwartungswert E(XY ) errechnet sich analog zu (11.6) gemäß E(XY ) = p11 · 1 · 1 + p12 · 1 · 0 + p21 · 0 · 1 + p22 · 0 · 0 = 0, 25. Die Kovarianz hat somit nach (13.12) den Wert Cov(X, Y ) = 0, 25 − 0, 5 · 0, 5 = 0. Dieses Ergebnis hätte man aufgrund der Unabhängigkeit der Variablen X und Y auch schon direkt aus (13.13) erschließen können.
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
295
Lösung zu Aufgabe 14.1 (Schätzung von Erwartungswert und Varianz) a) Ein unverzerrter Punktschätzer µ b ist nach (14.6) durch die Ausprägung x des in (13.3) eingeführten Stichprobenmittelwerts gegeben. Man errechnet x ≈ 66, 792.
Kapitel 14
b) Aus (14.9) ersieht man, dass für die Varianz σ 2 der Normalverteilung die Realisation s∗2 der korrigierten Stichprobenvarianz (13.5) eine unverzerrte Schätzung liefert. Die Summe (13.5) umfasst hier 24 Quadratterme, sollte also zweckmäßigerweise unter Verwendung einer Statistik-Software wie SPSS oder mit EXCEL ermittelt werden. Man erhält s∗2 :=
24 1 X · (xi − 66, 792)2 ≈ 180, 346. 23 i=1
Für die Ausprägung der korrigierten Standardabweichung, die eine unverzerrte Schätzung für σ liefert, folgt dann nach Wurzelziehen s∗ ≈ 13, 429.
Lösung zu Aufgabe 14.2 (Konfidenzintervall für den Erwartungswert) a) Das gesuchte Konfidenzintervall ergibt sich aus (14.16) mit α = 0, 05 und ν = 24 − 1 = 23: S∗ S∗ KI = X − t23;0,975 · √ ; X + t23;0,975 · √ . 24 24 Setzt man noch für X und S ∗ die aus den Daten errechneten Realisationen 66, 792 resp. 13, 429 und das Quantil tν;1−α/2 = t23;0,975 = 2, 069 der t-Verteilung mit 23 Freiheitsgraden ein (s. Tabelle 19.5), so folgt bei Rundung auf eine Dezimalstelle nach dem Komma: 13, 429 13, 429 KI = 66, 792 − 2, 069 · √ ; 66, 792 + 2, 069 · √ ≈ [61, 1; 72, 5] . 24 24 b) Das Ergebnis beinhaltet, dass der unbekannte Erwartungswert µ mit einer Wahrscheinlichkeit von 1 − α = 0, 95 im Intervall [61, 1; 72, 5] liegt.
Lösung zu Aufgabe 15.1 (einseitiger Gauß-Test) Kapitel 15
a) Die Testvariable ist durch (15.2) gegeben, wobei dort µ0 = 25, σ = 3, n = 49 sowie für X die Ausprägung x = 26 einzusetzen ist. Man erhält z=
x − µ0 √ 26 − 25 · n= · 7 ≈ 2, 333. σ 3
296
21 Lösungen zu den Übungsaufgaben
Die Ablehnung der Nullhypothese erfolgt gemäß (15.10), wenn z > z0,95 gilt. Da das 0, 95-Quantil z0,95 der Standardnormalverteilung nach Tabelle 19.3 durch z0,95 = 1, 6499 gegeben ist, ist H0 zu verwerfen. Dies impliziert, dass die Alternativhypothese H1 als „statistisch gesichert“ gilt, d. h. als gesichert mit einer Irrtumswahrscheinlichkeit, deren Obergrenze bei dem hier durchgeführten einseitigen Test den Wert α = 0, 05 hat. b) Der Fehler 1. Art beinhaltet, dass man die Nullhypothese H0 bei dem Test fälschlicherweise verwirft. Dies bedeutet hier konkret, dass man aufgrund des Testergebnisses davon ausgeht, dass der Erwartungswert µ = E(X) für das Alter X von Frauen bei der Geburt des ersten Kindes über 25 Jahren liegt und dies in Wirklichkeit unzutreffend ist. Ein Fehler 1. Art kann bei dem Test offenbar nur im Falle µ ≤ 25 auftreten. Ein Fehler 2. Art liegt vor, wenn man die Nullhypothese H0 bei dem Test fälschlicherweise nicht verwirft. Dies bedeutet bei dem in Rede stehenden einseitigen Test, dass man aufgrund der Realisation der Testgröße daran festhält, dass der Erwartungswert µ nicht über 25 Jahren liegt (Festhalten an H0 ), obwohl er in Wirklichkeit oberhalb dieser Schranke liegt. Ein Fehler 2. Art kann hier nur im Falle µ > 25 auftreten. Anmerkung zu Teil b: Die Wahrscheinlichkeit für das Eintreten eines Fehlers 2. Art hängt natürlich vom jeweiligen Wert µ ab; für µ = 28 lässt sie sich z. B. gemäß (15.5) aus dem Ansatz β = P (Nicht-Verwerfung von H0 |µ = 28) errechnen.
Lösung zu Aufgabe 15.2 (einseitiger Gauß-Test)
a) Im linksseitigen Gauß-Test aus Beispiel 15.3 war α = 0, 05, n = 10 und σ = 0, 01. Setzt man neben den genannten Werten für α, n und σ noch µ = 2, 002 und µ0 = 2, 000 in die Gütefunktion µ − µ0 √ G(µ) = Φ −z1−α − · n σ des Tests ein, so folgt für die Wahrscheinlichkeit G(2, 002) der Verwerfung der Nullhypothese für den zugrunde gelegten Fall µ = 2, 002 √ 0, 002 √ G(2, 002) = Φ −z0,95 − · 10 = Φ −1, 6449 − 0, 2 · 10 ≈ Φ (−2, 277) . 0, 01 Wegen Φ(−2, 277) = 1 − Φ(2, 277) folgt mit Tabelle 19.2 dann G(2, 002) ≈ 0, 0113. Eine Ablehnung der Nullhypothese wäre im Falle µ = 2, 002 wegen H0 : µ ≥ 2 eine Fehlentscheidung (Fehler 1. Art). Die Wahrscheinlichkeit hierfür beträgt also ca. 1, 1 %.
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
297
b) Für µ = 1, 997 wäre eine Ablehnung der Nullhypothese hingegen eine korrekte Entscheidung. Sie tritt ein mit einer Wahrscheinlichkeit von ca. 24, 2 %: √ −0, 003 √ G(1, 997) = Φ −z0,95 − · 10 = Φ −1, 6449 + 0, 3 · 10 ≈ Φ (−0, 696) . 0, 01 Mit Φ(−0, 696) = 1−Φ(0, 696) und Tabelle 19.2 erhält man hier G(1, 997) ≈ 0, 242. c) Der komplette Gütefunktionsverlauf für den rechtsseitigen Gauß-Test war im oberen Teil von Abbildung 15.4 für n = 5 und n = 10 und α = 0, 05 wiedergegeben. Für den linksseitigen Fall und mit den genannten Werten für n und α ergibt sie sich hieraus durch Spiegelung der Gütefunktion des rechtsseitigen Tests an der vertikalen Geraden µ = µ0 . Die resultierende Grafik ist nachstehend wiedergegeben. Der hier relevante Fall n = 10 ist durch die gestrichelte Kurve repräsentiert.
Setzt man in obiger Abbildung bei der unteren Abszissenachse speziell µ0 = 2 und σ = 0, 01 ein, so kann man die zuvor errechneten Wahrscheinlichkeiten G(2, 002) ≈ 0, 0113 und G(1, 997) ≈ 0, 242 auch als Werte der gestrichelten Kurve an den Stellen µ = 2, 002 resp µ = 1, 997 – bei der oberen Abszissenachse entspricht dies den Punkten −0, 3 und 0, 2 – zumindest grob ablesen.
Lösung zu Aufgabe 15.3 (zweiseitiger Gauß-Test) a) Die zu testenden Hypothesen sind durch (15.1) mit µ0 = 2 gegeben. Die Ablehnung der Nullhypothese H0 : µ = µ0 erfolgt nach (15.3) genau dann, wenn der Betrag |z| = |
x−2 √ · 10| 0, 01
298
21 Lösungen zu den Übungsaufgaben
der Prüfstatistik aus (15.2) den aus Tabelle 19.3 ablesbaren Wert z0,975 = 1, 96 überschreitet. Mit x = 2, 007 ergibt sich |z| = |
√ 2, 007 − 2 √ · 10| = 0, 7 · 10 ≈ 2, 2136, 0, 01
d.h., H0 ist hier zu verwerfen. Die Alternativhypothese H1 gilt dann als statistisch „bewiesen“ in dem Sinne, dass eine Irrtumswahrscheinlichkeit von α = 0, 05 vorbehalten bleibt. b) Bei Verwendung von α = 0, 01 ist |z| mit dem (1 − α2 )-Quantil der Standardnormalverteilung zu vergleichen, nach Tabelle 19.3 also mit z0,995 = 2, 5758. Der Wert dieses Quantils wird von |z| = 2, 2136 nun nicht mehr überschritten, d. h. man wird hier an der Nullhypothese H0 festhalten, also davon ausgehen, dass keine systematische Unter- oder Überschreitung des Soll-Füllgewichts vorliegt.
Lösung zu Aufgabe 16.1 (KQ-Schätzung im einfachen Regressionsmodell) Kapitel 16
Man kann analog zu Tabelle 16.2 eine Arbeitstabelle anlegen, wenn man die KQSchätzungen manuell und nicht – wie in Abbildung 16.3 illustriert – mit geeigneter Software berechnen will: i 1 2 3 4 5 6 Summe Kenngrößen
xi 26 23 27 28 24 25 153 x = 25, 5
xi − x 0,5 -2,5 1,5 2,5 -1,5 -0,5
(xi − x)2 0,25 6,25 2,25 6,25 2,25 0,25 17, 5 s2x = 17,5 = 35 6 12
yi 170 150 160 175 155 150 960 y = 160
yi − y 10 -10 0 15 -5 -10
(xi − x)(yi − y) 5,0 25,0 0 37,5 7,5 5,0 80 sxy = 80 = 40 6 3
Für die KQ-Schätzung βb von β (Steigung der Regressionsgeraden) folgt dann wegen sxy = 80 und s2x = 35 gemäß (16.6) zunächst 6 12 sxy 40 12 32 βb = 2 = · = ≈ 4, 57. sx 3 35 7 b (Schnittpunkt der Hieraus erhält man mit x = 25, 5 und y = 160 nach (16.7) für α Regressionsgeraden mit der y-Achse) α b = 160 − βb · 25, 5 ≈ 160 − 116, 54 = 43, 46.
21.2 Wahrscheinlichkeitsrechnung und schließende Statistik
299
Lösung zu Aufgabe 16.2 (KQ-Schätzung und Bestimmtheitsmaß)
a) Für die Berechnung der KQ-Schätzungen sei wieder eine Arbeitstabelle angelegt: i 1 2 3 4 5 6 7 8 Summe Kenngrößen
xi 1,9 2,7 3,1 4,0 3,9 3,4 2,9 2,1 24 x=3
xi − x -1,1 -0,3 0,1 1,0 0,9 0,4 -0,1 -0,9
(xi − x)2 1,21 0,09 0,01 1,00 0,81 0,16 0,01 0,81 4, 1 2 sx = 0, 5125
yi 3,0 2,5 4,5 3,5 4,0 3,0 4,0 3,5 28 y = 3, 5
yi − y -0,5 -1,0 1,0 0 0,5 -0 ,5 0,5 0
(xi − x)(yi − y) 0,55 0,30 0,10 0 0,45 -0,20 -0,05 0 1,15 sxy = 0, 14375
Für die KQ-Schätzung der Regressionskoeffizienten β folgt dann nach (16.6) sxy 0, 14375 βb = 2 = ≈ 0, 28 sx 0, 5125 und für die KQ-Schätzung von α mit (16.7) α b = 3, 5 − βb · 3 ≈ 3, 5 − 0, 84 = 2, 66. b) Um das Bestimmtheitsmaß zu ermitteln, könnte man die Arbeitstabelle noch um eine Spalte (yi − y)2 erweitern. Die Spaltensumme wäre 3, d. h. es ist s2y = 0, 375. Nach (16.17) folgt R2 =
(sxy )2 0, 143752 = ≈ 0, 108. s2x · s2y 0, 5125 · 0, 375
Der Wert bedeutet, dass der verwendete einfache lineare Regressionsansatz nur etwa 10, 8% der Gesamtvariation der Daten erklärt (schwacher Erklärungsbeitrag). Es ist daher anzunehmen, dass noch andere Einflussgrößen bei der Modellspezifikation zu berücksichtigen sind.
Lösung zu Aufgabe 16.3 (KQ-Schätzung im multiplen Regressionsmodell) Die Matrizen X und X0 X sowie der Vektor y haben hier die Gestalt 1 10 2 3 90 X = 1 30 X0 X = y = 3 90 3500 1 50 7
300
21 Lösungen zu den Übungsaufgaben
– vgl. auch (16.29) mit n = 3 und den Werten aus Tabelle 16.2. Mit α := β0 und β := β1 folgt für die KQ-Schätzung des Vektors β der Regressionskoeffizienten −1 α b 3 90 12 b β= b = · . 90 3500 460 β Die Inversion der obigen (2 × 2)-Matrix kann man anhand von (18.9) durchführen oder unter Heranziehung einer Matrizeninversionsroutine, die man auch im Internet findet. Für die Regressionskoeffizienten α und β resultieren erneut die in Beispiel 16.1 schon ohne Verwendung von Matrizen errechneten Schätzwerte α b = 0, 25 und βb = 0, 125: 35 35 69 3 − 80 − 4 24 2 α b 12 0, 25 · = βb = b = = . 460 0, 125 β 3 1 9 23 − 80 800 − 20 + 40
22 Verzeichnisse und Internet-Ressourcen 22.1 Literaturverzeichnis
Asendorpf, J. (2007): Psychologie der Persönlichkeit, Springer Verlag, 4. Auflage, Berlin - Heidelberg. Bamberg, G. / F. Baur / M. Krapp (2009): Statistik, 15. Auflage, Oldenbourg Verlag, München. Burkschat, M. / E. Cramer / U. Kamps (2004): Beschreibende Statistik – Grundlegende Methoden, Springer Verlag, Berlin - Heidelberg. Caputo, A. / L. Fahrmeir / R. Künstler / S. Lang / I. Pigeot / G. Tutz (2009): Arbeitsbuch Statistik, 5. Auflage, Springer Verlag, Berlin - Heidelberg. Cramer, E. / U. Kamps (2008): Grundlagen der Wahrscheinlichkeitsrechnung und Statistik, 2. Auflage, Springer Verlag, Berlin - Heidelberg. Diekmann, A. (2007): Empirische Sozialforschung, 18. Auflage, Rowohlt Verlag, Reinbek. Duller, C. (2007): Einführung in die Statistik mit Excel und SPSS, 2. Auflage, Physica Verlag, Heidelberg. Eid, M. / M. Gollwitzer / M. Schmitt (2010): Statistik und Forschungsmethoden, Beltz Verlag, Weinheim - Basel. Fahrmeir, L. / T. Kneib / S. Lang (2007): Regression – Modelle, Methoden und Anwendungen, Springer Verlag, Berlin - Heidelberg - New York. Fahrmeir, L. / R. Künstler / I. Pigeot / G. Tutz (2010): Statistik, 7. Auflage, Springer Verlag, Berlin - Heidelberg. Field, A. (2009): Discovering Statistics using SPSS, 3. Auflage, Sage Publications Ltd., London. Gehring, U. W./ C. Weins (2004): Grundkurs Statistik für Politologen, 4. Auflage, Verlag für Sozialwissenschaften, Wiesbaden. Gigerenzer, G. (2004): Das Einmaleins der Skepsis, Berliner Taschenbuch Verlag, Berlin. Gramlich, G. M. (2009): Lineare Algebra – Eine Einführung, Hanser Verlag, München.
H.-J. Mittag, Statistik, Springer-Lehrbuch, DOI 10.1007/978-3-642-17846-7_22, © Springer-Verlag Berlin Heidelberg 2011
301
Gesamtverzeichnis (Bücher und Zeitschriften)
302
22 Verzeichnisse und Internet-Ressourcen
Gross, J. (2010): Grundlegende Statistik mit R, Vieweg + Teubner, Wiesbaden. Kauermann, G. / H. Küchenhoff (2011): Stichproben – Methoden und praktische Umsetzung mit R, Springer Verlag, Berlin - Heidelberg. Marcus, B. / M. Bühner (2009): Grundlagen der Testkonstruktion, FernUniversität, Hagen. Mittag, H.-J. (2006): Earnings disparities across European countries and regions, Statistics in Focus, Ausgabe 7/2006, Eurostat, Luxemburg. Mosler, K. / F. Schmid (2009): Beschreibende Statistik und Wirtschaftsstatistik, 4. Auflage, Springer Verlag, Berlin - Heidelberg. Mosler, K. / F. Schmid (2011): Wahrscheinlichkeitsrechnung und schließende Statistik, 4. Auflage, Springer Verlag, Berlin - Heidelberg. Oestreich, M. / O. Romberg (2008): Keine Panik vor Statistik, 2. Auflage, Vieweg + Teubner Verlag, Wiesbaden. Randow, G. von (2006): Das Ziegenproblem. Denken in Wahrscheinlichkeiten, Rowohlt Verlag, Reinbek. Rasch, D. / K. D. Kubinger (2006): Statistik für das Psychologiestudium, Spektrum Verlag, München. Sachs, L. / J. Hedderich (2009): Angewandte Statistik - Methodensammlung mit R, 13. Auflage, Springer Verlag, Berlin - Heidelberg. Schnell, R. / P. B. Hill / E. Esser (2008): Methoden der empirischen Sozialforschung. München, 8. (unveränderte) Auflage, Oldenbourg Verlag, München. Sedlmeier, P. / F. Renkewitz (2007): Forschungsmethoden und Statistik in der Psychologie, Pearson Verlag, München. Steland, A. (2010): Basiswissen Statistik - Kompaktkurs für Anwender aus Wirtschaft, Informatik und Technik, 2. Auflage, Springer Verlag, Berlin - Heidelberg. Toutenburg, H. / C. Heumann (2008): Induktive Statistik - Eine Einführung mit SPSS für Windows, 4. Auflage, Springer Verlag, Berlin - Heidelberg. Toutenburg, H. / C. Heumann (2009): Deskriptive Statistik - Eine Einführung in Methoden und Anwendungen mit R und SPSS, 7. Auflage, Springer Verlag, Berlin. Toutenburg, H. / M. Schomaker / M. Wissmann (2009): Arbeitsbuch zur deskriptiven und induktiven Statistik, 2. Auflage, Springer Verlag, Berlin. Zucchini, W. / A. Schlegel / O. Nenadic / S. Sperlich (2009): Statistik für Bachelor- und Masterstudenten, Springer Verlag, Berlin - Heidelberg.
22.2 Ausgewählte Statistiklehrbücher mit Kommentaren
303
22.2 Ausgewählte Statistiklehrbücher mit Kommentaren Die nachstehende kommentierte Lehrbuchliste soll helfen, bei Bedarf tiefer in einzelne Themenbereiche einzudringen, etwa bei Auftreten von Verständnisschwierigkeiten bei der Bearbeitung des vorliegenden Manuskripts oder bei weitergehendem persönlichen Interesse. Lehrbücher
• Bamberg, G. / F. Baur / M. Krapp (2009): Statistik, 15. Auflage, Oldenbourg Verlag, München. Bewährte Einführung in die Statistik für Studierende der Wirtschafts- und der Sozialwissenschaften. Im letzten Teil des Buches wird ein Überblick über einige Teilgebiete der Statistik vermittelt, die über eine Einführung hinausgehen (z. B. multivariate Verfahren). • Duller, C. (2007): Einführung in die Statistik mit Excel und SPSS, 2. Auflage, Physica Verlag, Heidelberg. Anwendungsorientierte Einführung in die Statistik mit niedrigem Mathematisierungsgrad. Das Buch integriert einige Excel- und SPSS-Screenshots, um bei der Datenanalyse eine Verwendung dieser gängigen Software zu unterstützen. • Fahrmeir, L. / T. Kneib / S. Lang (2007): Regression - Modelle, Methoden und Anwendungen, Springer Verlag, Berlin - Heidelberg - New York. Interdisziplinär angelegtes Lehrbuch zu einem wichtigen Teilgebiet der Statistik mit ansprechender Visualisierung verschiedener Modelle anhand innovativer Grafiken. Das Buch wendet sich an Leser mit fortgeschrittenen Statistikkenntnissen. • Fahrmeir, L. / R. Künstler / I. Pigeot / G. Tutz (2010): Statistik, 7. Auflage, Springer Verlag, Berlin - Heidelberg. Didaktisch gelungene und sehr umfassende Einführung in die Statistik, die sich an Studierende der Wirtschafts- und der Sozialwissenschaften wendet. Das Buch stellt eine gute Ergänzung zum vorliegenden Manuskript dar. Field, A. (2009): Discovering Statistics using SPSS, 3. Auflage, Sage Publications Ltd., London. Sehr umfassende Einführung mit mäßigem Mathematisierungsgrad, die sich vor allem der Regressions- und Varianzanalyse widmet. Die praktische Anwendung der behandelten Verfahren wird anhand zahlreicher SPSS-Screenshots erläutert. Das Buch ist in didaktischer Hinsicht vorbildlich und recht unorthodox. • Hatzinger, M. / H. Nagel (2009): PASW Statistics, Pearson Studium, München. Anwendungsorientiertes Werk, das sehr stark SPSS setzt und auf die in Lehrbüchern sonst übliche Trennung von beschreibender und schließender Statistik verzichtet. Statistische Konzepte werden anhand von Fallstudien unter Einbeziehung von SPSS-Screenshots entwickelt.
304
22 Verzeichnisse und Internet-Ressourcen
• Mosler, K. / F. Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik, 3. Auflage, Springer Verlag, Berlin - Heidelberg. Solide Einführung in die beschreibende Statistik, primär für Studierende der Wirtschaftswissenschaft. Das Buch enthält etliche Hinweise zur Verwendung von Excel bei der Auswertung von Datensätzen. • Mosler, K. / F. Schmid (2011): Wahrscheinlichkeitsrechnung und schließende Statistik, 4. Auflage, Springer Verlag, Heidelberg. Fundierte Einführung in die Inferenzstatistik, ebenfalls primär für Studierende der Wirtschaftswissenschaft. Das Buch enthält Hinweise zur Verwendung von Excel und SPSS bei der statistischen Analyse. • Sachs, L. / J. Hedderich (2006): Angewandte Statistik - Methodensammlung mit R, 12. Auflage, Springer Verlag, Berlin - Heidelberg Sehr umfassendes Statistiklehrbuch, das sich vor allem an Studierende der Psychologie und der Sozialwissenschaften wendet. Das Buch hat einen nur mäßigen Mathematisierungsgrad und ist stärker praxisorientiert. • Sedlmeier, P. / F. Renkewitz (2007): Forschungsmethoden und Statistik in der Psychologie, Pearson Verlag, München. Sehr umfassendes Lehrbuch mit Kompendiumscharakter. Das Buch hat einen nur mäßigen Mathematisierungsgrad und ist von der inhaltlichen Auswahl und der Terminologie her ganz auf die Psychologie zugeschnitten. • Toutenburg, H. / C. Heumann (2008): Induktive Statistik – Eine Einführung mit SPSS für Windows, 4. Auflage, Springer Verlag, Berlin - Heidelberg. Fundierte Einführung in die Inferenzstatistik für Studierende der Wirtschafts- und Sozialwissenschaften. Das Buch verweist an vielen Stellen bei der statistischen Analyse auf SPSS-Prozeduren. • Toutenburg, H. / C. Heumann (2009): Deskriptive Statistik – Eine Einführung in Methoden und Anwendungen mit SPSS, 7. Auflage, Springer Verlag, Berlin Heidelberg. Solide Einführung in die beschreibende Statistik, primär für Studierende der Wirtschaftsund Sozialwissenschaften. Das Buch verwendet teilweise SPSS bei der Lösung von Übungsaufgaben.
22.3 Multimedia-Software und Internet-Ressourcen
305
22.3 Multimedia-Software und Internet-Ressourcen Multimedia-Ressourcen in diesem Lehrtext Im Vorwort wurde darauf hingewiesen, dass dieses Manuskript nicht nur in Printform vorliegt, sondern auch als interaktive pdf-Version zugänglich ist. Die Online-Variante weist gegenüber der Printfassung einen deutlich sichtbaren Mehrwert auf, der darauf beruht, dass hier direkte Verknüpfungen zu interessanten Web-Adressen sowie zu interaktiven statistischen Experimenten und tongestützten Animationen realisiert wurden. Die Java-basierten statistischen Experimente und auch die Animationen (Flash) stammen teilweise aus dem bis 2004 vom Bundesministerium für Bildung und Forschung (BMBF) finanzierten Multimedia-Projekt „Neue Statistik“, an dem die FernUniversität beteiligt war, teilweise aus einem vom ehemaligen Universitätsverbund Multimedia NRW geförderten Projekt, das auf die Entwicklung einer Multimedia-Software „Statistik – Beschreibende Statistik und explorative Datenanalyse“ abzielte. 1
Abb. 22.1: Eingangsportal zu vier virtuellen Teilbibliotheken, http://www.fernuni-hagen.de/neuestatistik/applets/appletIndex.htm
Die Förderung des Projekts „Neue Statistik“ war Teil einer breit angelegten Bildungsinitiative „Neue Medien in der Bildung“ des BMBF. Ziel des Projekts war die Verbesserung der Statistik-Grundausbildung durch Bereitstellung innovativer E-LearningModule. Diese sollten dann on- oder offline in unterschiedlichen Lehr- und Lernszenarien einsetzbar sein, z. B. in Vorlesungen und Übungen, als Ergänzung zu Lehrbüchern oder 1
Nähere Informationen zum Projekt „Neue Statistik“ findet man unter http://www.fernunihagen.de/neuestatistik und unter http://www.neuestatistik.de, Hinweise zum Entwicklungsstand der Multimedia-CD zur beschreibenden Statistik unter http://www.fernuni-hagen.de/e-statistik.
Hintergrundinformationen zum Projekt „Neue Statistik“
306
22 Verzeichnisse und Internet-Ressourcen
zur Unterstützung von Weiterbildung und Selbststudium. Das Team an der FernUniversität war beim Projekt „Neue Statistik“ für das Design und die Implementierung interaktiver statistischer Experimente und Simulationen zur Visualisierung von statistischen Basiskonzepten zuständig (Java-Applets). Nach Auslaufen der Projektförderung wurden noch in Kooperation mit Eurostat, dem Europäischen Amt für Statistik in Luxemburg, und anderen Generaldirektionen der Europäischen Kommission weitere Java-Applets entwickelt, bei denen es nicht um die Visualisierung von statistischen Methoden, sondern um die grafikgestützte Kommunikation von Daten der amtlichen Statistik ging. Insgesamt wurden ca. 70 interaktive Elemente zur Visualisierung statistischer Konzepte oder statistischer Daten entwickelt. Diese sind in vier virtuelle Teilbibliotheken gegliedert, deren Eingangsportal in Abbildung 22.1 wiedergegeben ist. Die Java-Applets sind unter der in Abbildung 22.1 genannten Adresse einzeln aufrufbar. Umgebungen für die Datenvisualisierung und Diskussionsforen zur Statistik Neben den genannten Multimedia-Projekten, an der die FernUniversität beteiligt war, gab und gibt es natürlich noch weitere Multimedia-Aktivitäten, die auf die Verbesserung der Statistikausbildung abzielen. Im Folgenden seien einige ausgewählte interessante Web-Adressen genannt. Wenn sich die Internet-Adressen ändern, wird die pdf-Fassung dieses Manuskripts die Änderungen nachvollziehen. Einige Java-Applets zur Visualisierung gängiger diskreter und stetiger Verteilungen findet man unter http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-index.html Eine Vielzahl sonstiger statistischer Experimente sind eingestellt unter http://www.math.uah.edu/stat/index.xhtml http://www.rossmanchance.com/applets/. Ein attraktives interaktives Video, das für die Staaten dieser Welt für die letzten zwei Jahrhunderte für jedes Jahr ein Streudiagramm zeigt, bei der die mittlere Lebenserwartung Neugeborener in Abhängigkeit vom Wohlstand der Bevölkerung aufgetragen ist, findet man unter http://tools.google.com/gapminder/. In den Streudiagrammen werden Kreise anstelle von Punkte verwendet, wobei der Flächeninhalt der Kreise die Bevölkerungsgröße widerspiegelt. Eine ebenfalls sehr ansprechende Visualierungsumgebung für ausgewählte Daten der amtlichen Statistik seit 2010 von Google unter der Bezeichnung „Public Data Explorer“ unter http://www.google.com/publicdata/home
22.3 Multimedia-Software und Internet-Ressourcen
307
bereitgestellt. Man findet hier u. a. Datensätze des US Census Bureau, der Weltbank, von Eurostat sowie der OECD. Interessant ist z. B. die animierte Darstellung der Veränderung der Lebenserwartung Neugeborener in den einzelnen Staaten unserer Erde in Abhängigkeit von der Fertilitätsrate (Anzahl der Lebendgeburten pro Frau). Diese und weitere Daten sowie bis 2050 reichende Projektionen findet man in Tabellenform auch im internationalen Datenarchiv des US Census Bureaus unter http://www.census.gov/ipc/www/idb/country.php. Wenn man die Adresse aufruft, kann man ein Land und ein Jahr wählen und erhält für diese Vorgaben die wichtigsten Basisdaten zur Bevölkerungsentwicklung einschließlich einer Darstellung in Form von Bevölkerungspyramiden, die – anders als die in Abbildung 4.6 für Deutschland – nicht nach Jahrgängen gruppieren, sondern mit 5-Jahres-Klassen arbeiten, also ein etwas gröberes Gesamtbild der Altersstruktur des gewählten Landes liefern. Wie sich die Lebenserwartung Neugeborener in den letzten 50 Jahren in der Welt verändert hat, kann man auch unter http://www.worldlifeexpectancy.com/country-history studieren. Vor allem in afrikanischen Ländern wird die Lebenserwartung durch Aids stark reduziert. Interaktiv aufbereitete kartengestützte statistische Informationen hierzu findet man unter http://www.aidsinafrica.net/map.php. Die freie Enzyklopädie „Wikipedia“ umfasst ein sehr übersichtlich strukturiertes und informatives Statistikportal unter http://de.wikipedia.org/wiki/Portal:Statistik, und seit Anfang 2010 gibt es unter http://www.tableausoftware.com/public/ das frei nutzbare Portal Tableau Public für die interaktive Online-Visualisierung von Daten. Hier findet man viele innovative Präsentationen, z. B. die unter http://www.tableausoftware.com/public/gallery/facebook-worldwide wiedergegebene Veranschaulichung der aktuellen Verbreitung des Netzwerks Facebook. Eine weitere, von IBM betriebene Plattform zur Datenvisualisierung ist Many Eyes, zugänglich über http://services.alphaworks.ibm.com/manyeyes.
308
22 Verzeichnisse und Internet-Ressourcen
Wie Tableau Public setzt sie auf die gemeinsame Nutzung von Grafiken einschließlich einer Diskussion über die Daten, ist also als „social software“ zu etikettieren. Schauen Sie sich bei „Many Eyes“ z. B. den folgenden Link zur Weltbevölkerung an: http://manyeyes.alphaworks.ibm.com/manyeyes/visualizations/world-population-2007. Während die Bevölkerungsstärken von Ländern hier durch Kreise dargestellt sind, deren Flächeninhalt zur Bevölkerungszahl proportional ist, ist die Bevölkerung der einzelnen Staaten bei dem folgenden Link durch Rechtecke repräsentiert: http://www.hivegroup.com/gallery/worldpop/. Eine Schwäche der Plattform „Many Eyes“ besteht darin, dass die Datenquellen meist nicht angegeben sind und Meta-Informationen zu den Datenerhebungen i. a. fehlen. Dieser Schwachpunkt trifft für das noch relativ neue Wissensportal „Statistics Explained“ von Eurostat nicht zu. Man findet es unter http://epp.eurostat.ec.europa.eu/statistics_explained/index.php/Main_Page. Aber auch „Statistics Explained“ verwendet nur wenige und einfache grafische Instrumente, etwa Zeitreihengraphen und Balkendiagramme, aber z. B. keine Boxplots. Eine gelungene interaktive Darstellung von Altersstrukturen in verschiedenen Regionen eines Landes (hier: Großbritannien) findet man unter http://www.statistics.gov.uk/ageingintheuk/agemap.html. Ein sehenswertes Video zum Thema „Alterung der Bevölkerung“ ist zugänglich über http://wisdom.unu.edu/en/ageing-societies/ und eine als „Weltuhr“ bezeichnete dynamische, permanent aktualisierte Darstellung von Schlüsseldaten unserer heutigen Welt unter http://www.poodwaddle.com/worldclock.swf. Interessante Darstellungen amtlicher Daten wurden bereits in Abbildung 4.2 und Abbildung 4.6 gezeigt. Erwähnt sei nochmals das in Abbildung 7.2 wiedergegebene Preiskaleidoskop des Statistischen Bundesamts, das eine interaktive Visualisierung der Ausgabenanteile des Warenkorbs des „Durchschnittsverbrauchers“ bietet mit farblicher Codierung der Preisveränderungen gegenüber dem Vormonat. Das Statistische Bundesamt bietet daneben noch zahlreiche andere interaktive Anwendungen und neuerdings auch in deutscher und englischer Sprache internationale Datensammlungen, gegliedert nach Ländern (Europa und Übersee), Themenbereichen und der datenproduzierenden Institution.
22.4 Symbolverzeichnis
309
Frei zugängliche Lernmaterialien zur Statistik im Internet Da die Entwicklung qualitativ hochwertiger Online-Lernmaterialien für die Statistikausbildung teuer ist, insbesondere im Falle multimedialer Materialien, verwundert es nicht, dass sich ein Trend abzeichnet, Materialien von unterschiedlichen Entwicklern in Online-Sammlungen zusammenzufassen und die Elemente solcher virtueller Bibliotheken kostenfrei frei zugänglich zu machen. Ein Beispiel einer solchen Sammlung ist die Bibliothek Statistics Online Computational Resources (SOCR). Sie enthält u. a. viele statistische Experimente oder Videos. Eine weitere Sammlung bietet das Consortium for the Advancement of Undergraduate Statistics Education (CAUSE). Hier findet man eine umfangreiche virtuelle Bibliothek für die Statistikausbildung - mit teilweise dynamischen oder interaktiven und durch Meta-Informationen ergänzten Elementen. Ein beispielhaft ausgewähltes statistisches Experiment ist unter http://www.causeweb.org/cwis/SPT–FullRecord.php?ResourceId=1614. eingestellt. Erwähnt sei noch die Bibliothek Statistics and Statistical Graphics Resources. Diese ist eine umfassende Sammlung von Lernmaterialien zur Statistik und Psychologie mit Links und Hinweisen zu unterschiedlichen Statistiksoftwarepaketen, zu Fachzeitschriften sowie zur Datenvisualisierung.
22.4 Symbolverzeichnis Griechische Buchstaben In der Statistik werden Merkmale oder Zufallsvariablen, deren Ausprägungen und auch Kenngrößen häufig mit griechischen Buchstaben belegt, z. B. wird Φ für die Verteilungsfunktion der Standardnormalverteilung und µ sowie σ für den Erwartungswert resp. die Standardabweichung einer Zufallsvariablen verwendet. Da das griechische Alphabet eventuell nicht allen Lesern dieses Lehrbuchs vollständig geläufig ist, ist es in Tabelle 22.1 mit Aussprachehinweisen wiedergegeben. Kleinbuchstabe α β γ δ ζ η θ ι κ λ µ
Großbuchstabe A B Γ ∆ E Z H Θ I K Λ M
Name Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Iota Kappa Lambda Mü
Kleinbuchstabe ν ξ o π ρ σ τ y φ χ ψ ω
Tab. 22.1: Griechisches Alphabet
Großbuchstabe N Ξ O Π P Σ T Y Φ X Ψ Ω
Name Nü Xi Omikron Pi Rho Sigma Tau Ypsilon Phi Chi Psi Omega
Trend zu frei zugänglichen Sammlungen von Lehrmaterialien
310
22 Verzeichnisse und Internet-Ressourcen
Mathematische Symbole und Schreibweisen Auch die in der Mathematik gängigen Abkürzungen und Schreibweisen sind möglicherweise nicht jedem Leser sehr vertraut. Daher sind in den beiden folgenden Tabellen einige der in diesem Manuskript häufiger auftretenden Notationen zusammengestellt. Tabelle 22.2 fasst Schreibweisen für Mengen und für Operationen mit Mengen zusammen. Symbol {. . .} a ∈ A; a∈ /A A⊂B A∩B A∪B A\B N; Z R
Beschreibung Menge von Objekten a ist Element der Menge A a ist kein Element der Menge A A ist Teilmenge von B Schnittmenge der Mengen A und B Vereinigungsmenge der Mengen A und B Differenzmenge von A und B Menge der natürlichen bzw. der ganzen Zahlen Menge der reellen Zahlen (Zahlengerade)
Tab. 22.2: Schreibweisen für Mengen und Mengenoperationen
In Tabelle 22.3 sind weitere gängige mathematische Schreibweisen wiedergegeben, z. B. Notationen aus der mathematischen Logik, Schreibweisen, die den Größenvergleich von Termen betreffen, oder Notationen für Vektoren und Matrizen. Symbol (a, b) f :A→B ⇒; ⇔ a = b; a 6= b a := b ai ≡ bi a≈b a < b; a > b a ≤ b; a ≥ b ∞ Σ Pn ai Pi=1 ∞ i=1 ai n! n
√k a; |a| exp x, ex a, A, I rgA
Beschreibung geordnetes Paar Funktion f , bildet A nach B ab Implikation (daraus folgt); Äquivalenz (genau dann, wenn) a und b sind gleich; a und b sind ungleich a ist durch b definiert ai und bi sind identisch (für alle i) a und b sind näherungsweise gleich a ist kleiner bzw. größer als b a ist kleiner oder gleich b; a ist größer oder gleich b unendlich Summenzeichen, Summensymbol Summe der Terme a1 , a2 , . . . , an Summe der Terme a1 , a2 , . . . Produkt n · (n − 1) · ... · 1 der n ersten natürlichen Zahlen Binomialkoeffizient; Quotient aus n! und (n − k)! · k! Wurzel aus a; Betrag von a Exponentialfunktion Vektor, Matrix, Einheitsmatrix Rang der Matrix A
Tab. 22.3: Häufig verwendete Notationen der Mathematik
22.5 Autorenregister
A Asendorpf, J. . . . . . . . . . . . . . . . . . . . . . . . . . . 187
L Lang, S.. . . . . . . . . . . . . . . . .125, 205, 273, 275
B Bamberg, G. . . . . . . . . . . . . . . . . . . 68, 164, 265 Baur, F. . . . . . . . . . . . . . . . . . . . . . . 68, 164, 265 Burkschat, M. . . . . . . . . . . . . . . . . . . . . . . 54, 60 Bühner, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
M Marcus, B. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 Mittag, H.-J. . . . . . . . . . . . . . . . . . . . . . . . . 40, 63 Mosler, K. 56, 122, 124, 144, 170, 178, 186, 203
C Caputo, A.. . . . . . . . . . . . . . . . . . .125, 273, 275 Cramer, E. . . . . . . . . . . . . . . . . . . . . . . . . . . 54, 60
N Nenadic, O. . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
D Diekmann,A. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 E Eid, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Esser, E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24, 29 F Fahrmeir, L. . 34, 54, 66, 116, 125, 156, 169, 186, 205, 210, 212, 230, 273, 275 G Gehring, U. W. . . . . . . . . . . . . . . . . . . . . . . . . . 17 Gigerenzer, G. . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Gollwitzer, M. . . . . . . . . . . . . . . . . . . . . . . . . . 240 Gramlich, G. M. . . . . . . . . . . . . . . . . . . . . . . . 240 Gross, J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 H Heumann, C. . 40, 60, 66, 98, 119, 151, 169, 212, 220, 226, 230, 266 Hill, P. B. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24, 29 K Kamps, U. . . . . . . . . . . . . . . . . . . . . . . . . . . 54, 60 Kauermann, G. . . . . . . . . . . . . . . . . . . . . . . . . . 29 Kneib, T. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Krapp, M. . . . . . . . . . . . . . . . . . . . . 68, 164, 265 Kubinger, K. D. . . . . . . . . . . . . . . . . . . . . . . . 223 Küchenhoff, H. . . . . . . . . . . . . . . . . . . . . . . . . . 29 Künstler, R. . 34, 54, 66, 116, 125, 156, 169, 186, 210, 212, 230, 273, 275
P Pigeot, I.34, 54, 66, 116, 125, 156, 169, 186, 210, 212, 230, 273, 275 R Randow, G. von . . . . . . . . . . . . . . . . . . . . . . . 127 Rasch, D.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223 Renkewitz, F. . . . . . . . . . . . . . 17, 24, 108, 187 S Schlegel. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Schmid, F. 56, 122, 124, 144, 170, 178, 186, 203 Schmitt, M. . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 Schnell, R. . . . . . . . . . . . . . . . . . . . . . . . . . . 24, 29 Schomaker, M. . . . . . . . . . . . . . . . . . . . . 264, 272 Sedlmeier, P. . . . . . . . . . . . . . . 17, 24, 108, 187 Sperlich, S. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Steland, A.. . . . . . . . . . . . . . . . . . . . . . . . . .34, 60 T Toutenburg, H.40, 60, 66, 98, 119, 150, 169, 212, 220, 226, 230, 264, 266, 272 Tutz, G. 34, 54, 66, 116, 125, 156, 169, 186, 210, 212, 230, 273, 275 W Weins, C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Wissmann, M. . . . . . . . . . . . . . . . . . . . . 264, 272 Z Zucchini, W. . . . . . . . . . . . . . . . . . . . . . . . . . . 164
311
22.6 Sachregister
Ablehnungsbereich, 189 Absolutskala, 15 ALLBUS, 26 Alternativhypothese, 187 Alternativtest, 186 Annahmebereich, 189 ANOVA, 222 Anpassungstest, 176, 185 arithmetisches Mittel, 50 getrimmtes, 54 gewichtetes, 54 Auswahl geordnete, 120 ungeordnete, 120 Auswahlbias, 27 Auswahlpopulation, 27 Autokorrelation, 217 Axiome von Kolmogoroff, 116 Balkendiagramm, 34 Baumdiagramm, 85 bedingte Wahrscheinlichkeit, 124 Befragung, 20 Beobachtung, 22 Bernoulli-Experiment, 134, 138, 143, 179 Bernoulli-Kette, 134, 143, 179 Bernoulli-Verteilung, 133, 146, 178 Bestimmtheitsmaß, 213, 220 Beziehungszahl, 73 Bias, 176 Binomialkoeffizient, 121 Binomialverteilung, 138, 146, 243 Approximation, 171 Biometrie, 205 Body-Mass-Index, 42 Boxplot, 61, 229 CAPI, 20 CATI, 21 Chi-Quadrat -Koeffizient, 97 -Test, 185, 200 -Verteilung, 161, 252
312
Cramér’s V, 98 Daten gruppierte, 33 klassierte, 33 Datenanalyse bivariate, 81 explorative, 6 multivariate, 33 univariate, 33 Datenerhebung Primärerhebung, 19 Sekundärerhebung, 19 Tertiärerhebung, 19 Datengewinnung anhand von Stichproben, 25 durch Befragung, 20 durch Beobachtung, 22 durch Teilerhebung, 25 durch Vollerhebung, 25 mit nicht-reaktiven Verfahren, 22 per Experiment, 23 Determinationskoeffizient, 213 Dichtefunktion, 149 bedingte, 168 der Chi-Quadrat-Verteilung, 161 der F-Verteilung, 164 der Normalverteilung, 154, 249 der Rechteckverteilung, 150 der Standardnormalverteilung, 156, 163, 249 der t-Verteilung, 162 gemeinsame, 168 diskrete Gleichverteilung, 129 E-Business-Readiness-Index, 79 einfache Zufallsstichprobe, 27 Einflussfaktoren, 23 Einkommensverteilung, 63, 68, 70, 72, 176 Einstichproben-Test, 185, 201 empirische Verteilungsfunktion, 46 Ereignis, 113 disjunktes, 114 Elementar-, 113
313
22.6 Sachregister
Komplementär-, 113 sicheres, 113 unabhängiges, 124, 167 unmögliches, 113 Ergebnismenge, 113 Erwartungstreue, 176 asymptotische, 176 Erwartungswert der Bernoulli-Verteilung, 178 der Binomialverteilung, 138 der Chi-Quadrat-Verteilung, 161 der hypergeometrischen Verteilung, 144 der Normalverteilung, 154 der Null-Eins-Verteilung, 136 der Rechteckverteilung, 153 der t-Verteilung, 162 des Stichprobenmittelwerts, 170, 178 einer diskreten Zufallsvariablen, 135 einer stetigen Zufallsvariablen, 152 eines Zufallsvektors, 241 globaler, 224 unabhängiger Zufallsvariablen, 136 European Innovation Scoreboard, 79 Eurostat, 17, 30, 35, 40, 62, 74, 308 Experiment, 23 Bernoulli-, 134, 179 nach Laplace, 117 Zufalls-, 115 explorative Datenanalyse, 6 F-Test, 185, 227 F-Verteilung, 164, 227, 254 Faktor, 222 Faktorstufe, 222 Fehler α-, 189, 192 β-, 192 1. Art, 189, 192 2. Art, 192 mittlerer quadratischer, 177 Gauß-Test, 185, 189, 201 geometrisches Mittel, 54 geschichtete Stichprobe, 27 GESIS, 26, 74 Gini-Koeffizient, 67 normierter, 69 Gleichverteilung diskrete, 129 stetige, 150
Gliederungszahl, 73 Grundgesamtheit, 12 Gütefunktion, 194 Haupteffekte, 230 Herfindahl-Index, 71 Histogramm, 39 Homoskedastizität, 217 Human Development Index, 78, 80 Human Poverty Index, 79 hypergeometrische Verteilung, 144 Hypothese Alternativ-, 187 Null-, 187 Häufigkeit absolute, 34, 81 bedingte, 87, 88 relative, 34, 81, 135 Häufigkeitsverteilung, 34 absolute, 45, 81 bedingte, 88 relative, 45, 81, 130 ILO, 18 Indexzahl einfache, 74 zusammengesetzte, 76 Indikator, 74 zusammengesetzter, 76 Inferenz, 27 Inflationsrate, 77 Inflationsrechner, 77 Interquartilsabstand, 60 Intervallschätzung, 175, 181 Intervallskala, 15 Kardinalskala, 15 Kerndichteschätzer, 40 Klumpenstichprobe, 29 Kombinatorik, 120, 148 Konfidenzintervall, 175 für den Erwartungswert, 181 Konfidenzniveau, 181 Kontingenztabelle, 81 Kontingenztafel, 81, 168 Kontrollgruppe, 24 Korrelation, 103 partielle, 108 Korrelationskoeffizient, 103, 172, 214 partieller, 108 Kovarianz
314
22.6 Sachregister
empirische, 101, 172 theoretische, 172 Kovarianzmatrix der Störvariablen, 241 KQ-Schätzung, 208, 218 der Regressionskoeffizienten, 209, 212 der Varianz der Störvariablen, 210 Eigenschaften, 212 Kreisdiagramm, 34 Kreuztabelle, 81
Modalwert, 49 Modus, 49 MSE, 177 Multikollinearität, 217
Laplace-Experiment, 117 Lorenzkurve, 65 Längsschnittstudie, 25
Objektivität, 16 OECD, 31, 74, 78 Operationalisierung, 16 Ordinalskala, 15 Overcoverage, 27
Matrix, 233 der Regressoren, 216 Diagonal-, 234 Einheits-, 234, 242 Inverse, 238 Null-, 234 quadratische, 234 Rang, 240 reguläre, 238 symmetrische, 235 transponierte, 235 Maximum-Likelihood-Methode, 209 Maßzahl, 73 Median, 50, 135, 137, 154 mittlere absolute Abweichung, 59 Stichproben-, 179 Merkmal, 12 Ausprägung, 12 binäres, 85 dichotomes, 85 diskretes, 14 qualitatives, 16 quantitatives, 16 stetiges, 14 Merkmalsträger, 12 Methode der kleinsten Quadrate, 208, 218 metrische Skala, 15 Mikrozensus, 25 Mittelwert, 50, 135 bei gruppierten Daten, 52 getrimmter, 54 gewichteter, 54 Stichproben-, 169, 178 mittlerer quadratischer Fehler, 177 ML-Schätzung, 209
nicht-reaktives Erhebungsverfahren, 22 Nominalskala, 14 Normalverteilung, 154, 249 Null-Eins-Verteilung, 134, 138 Nullhypothese, 187
p-Quantile, 154, 251–254 p-Wert, 197 Panel, 25 partielle Korrelation, 108 Permutation, 121 Phi-Koeffizient, 98 Population, 12 Preiskaleidoskop, 78 Primärdaten, 12 Primärerhebung, 19 Prädiktor, 207 Prüfstatistik, 169, 188 Prüfvariable, 188 Punktschätzung, 175, 181 Quantile der Chi-Quadrat-Verteilung, 161, 201, 252 der F-Verteilung, 164, 254 der Normalverteilung, 158 der Standardnormalverteilung, 158, 163, 251 der t-Verteilung, 162, 163, 253 einer empirischen Verteilung, 59 einer theoretischen Verteilung, 137 p-, 59, 137, 154 Quartil oberes, 60, 137 unteres, 60, 137 Quartilsabstand, 60 Quasi-Experiment, 24 Querschnittsstudie, 25 Quotenauswahl, 29
22.6 Sachregister
Randhäufigkeiten absolute, 82 relative, 82 Randverteilung, 82, 168 Rang einer Matrix, 240 Rangkorrelationskoeffizient, 109 Rangskala, 15 Ratioskala, 15 Rechteckverteilung, 150 Regressionsanalyse, 205 Regressionsfunktion, 205 Regressionsgerade, 206 Regressionshyperebene, 219 Regressionskoeffizient, 207 Regressionsmodell einfaches, 205 lineares, 206, 208 multiples, 205, 215 nicht-lineares, 206 Reliabilität, 16 Residuen, 209, 213, 218, 219 Rohdaten, 12 Satz von Bayes, 124 Scheinkorrelation, 107 Schichtung, 27 Schätzfunktion, 169, 175, 212 Schätzung Erwartungswert-, 178 für Anteilswerte, 179 Intervall-, 175, 181 KQ-, 208, 218 ML-, 209 Punkt-, 175, 181 Varianz-, 178, 226 von Effekten, 226 Sekundärerhebung, 19 Signifikanzniveau, 189, 192 empirisches, 197 Signifikanztest, 186 Skala Absolut-, 15 Intervall-, 15 Kardinal-, 15 metrische, 15 Nominal-, 14 Ordinal-, 15 Rang-, 15 Ratio-, 15 Verhältnis-, 15
315
Skalare, 233 SOEP, 26 Spaltenvektor, 233 Spannweite, 55, 135 Stabdiagramm, 34 Standardabweichung, 56, 135, 136, 153 eines Schätzers, 177 empirische, 56 korrigierte, 56, 198 Stichproben-, 198 Standardfehler, 177 Standardisierung, 153 Standardnormalverteilung, 156, 249, 251 Statistik Anwendungsfelder, 3 beschreibende, 5 deskriptive, 5 induktive, 6 schließende, 6, 27 statistische Einheit, 12 Statistisches Bundesamt, 3, 18, 29, 40, 74, 77, 78, 308 stetige Gleichverteilung, 150 Stichprobe, 12 einfache Zufalls-, 27, 120 geschichtete, 27 Klumpen-, 29 mit Berücksichtigung der Anordnung, 120 mit Zurücklegen, 120 ohne Berücksichtigung der Anordnung, 120 ohne Zurücklegen, 120 Quotenbildung, 29 Quotientenbildung, 73 systematische, 29 Zufalls-, 27, 120 Stichprobenerhebung, 25 Stichprobenfunktion, 169, 175 Stichprobenmedian, 179 Stichprobenmittelwert, 169, 178 Stichprobenstandardabweichung, 198 korrigierte, 170 Stichprobenvarianz, 55, 169, 178 korrigierte, 56, 169, 178 Streudiagramm, 95 Student-Verteilung, 161 Störvariable, 23 Säulendiagramm, 34 3D-Darstellung, 44, 93
316
22.6 Sachregister
mit Doppelsäulen, 93 t-Test, 185, 198, 201 t-Verteilung, 161, 253 Teilerhebung, 25 Tertiärerhebung, 19 Test Alternativ-, 186 Anpassungs-, 176, 185 Chi-Quadrat-, 185, 200 einseitiger, 186 Einstichproben-, 185, 201 F-, 185, 227 für Anteilswerte, 185 für Erwartungswerte, 185 für Varianzen, 185, 200 Gauß-, 185, 189, 201 nicht-parametrischer, 185, 229 parametrischer, 185 Signifikanz-, 186 t-, 185, 198, 201, 221 Trennschärfe, 194 Unabhängigkeits-, 185 zweiseitiger, 186 Zweistichproben-, 185, 203, 221 Teststatistik, 169, 188 theoretische Verteilungsfunktion, 130 Trägermenge der hypergeometrischen Verteilung, 144, 148 einer diskreten Zufallsvariablen, 129 einer stetigen Zufallsvariablen, 149 UN, 31, 72, 79, 80 Millennium Development Goals, 5 Unabhängigkeit empirische, 92, 97 von Ereignissen, 124, 167 von Zufallsvariablen, 167 Unabhängigkeitstest, 185 Undercoverage, 27 Unverzerrtheit, 176 asymptotische, 176 Urliste, 12 bivariate, 81, 94 univariate, 33 Urnenmodell, 27, 120, 143 mit Zurücklegen, 120, 143 ohne Zurücklegen, 120, 144 Urwerte, 12
Validität, 16 Variable, 12 abhängige, 23 latente, 16 manifeste, 17 Prüf-, 188 Stör-, 23, 207 unabhängige, 23 Varianz, 135 bei gruppierten Daten, 58 der Binomialverteilung, 138 der Chi-Quadrat-Verteilung, 161 der hypergeometrischen Verteilung, 144 der Normalverteilung, 154 der Null-Eins-Verteilung, 136 der Rechteckverteilung, 153 der t-Verteilung, 162 des Stichprobenmittelwertes, 178 des Stichprobenmittelwerts, 170 einer diskreten Zufallsvariablen, 135 einer stetigen Zufallsvariablen, 152 eines Schätzers, 177 empirische, 55, 136 korrigierte, 56, 178 Stichproben-, 55, 169, 178 theoretische, 136 unabhängiger Zufallsvariablen, 136 Varianzanalyse, 221 einfaktorielle, 222, 223 Haupteffekte, 230 Interaktionseffekte, 230 mehrfaktorielle, 222 mit balanciertem Design, 224 mit festen Effekten, 222 mit Messwiederholungen, 223 mit zufälligen Effekten, 222 Modell in Effektdarstellung, 224, 230 multivariate, 222 univariate, 222 Wechselwirkungeffekte, 230 Variationskoeffizient, 59 Vektor der Regressionskoeffizienten, 216 der Störvariablen, 215 Eins-, 233 Null-, 233 Residuen-, 219 Spalten-, 215, 233 Zeilen-, 233
22.6 Sachregister
Zufalls-, 240 Venn-Diagramm, 114 Verhältnisskala, 15 Verhältniszahl, 73 Versuchsgruppe, 24 Versuchsplan, 23 Verteilung F -, 227 asymmetrische, 61, 161 Bernoulli-, 133, 146, 178 Binomial-, 138, 146, 243 Chi-Quadrat-, 161, 252 empirische, 34, 82, 129 F-, 164, 254 hypergeometrische, 144 linkssteile, 61, 161 Normal-, 154, 249 Null-Eins-, 134, 138 Rechteck-, 150 rechtssteile, 61, 161 Standardnormal-, 156, 249, 251 Student-, 161 t-, 161, 253 theoretische, 129 Zweipunkt-, 133 Verteilungsfunktion der Binomialverteilung, 139, 243 der hypergeometrischen Verteilung, 145 der Normalverteilung, 155, 249 der Rechteckverteilung, 150 der Standardnormalverteilung, 156, 249 diskreter Zufallsvariablen, 130 empirische, 46, 130 gemeinsame, 167, 168 stetiger Zufallsvariablen, 149 theoretische, 130 Verzerrung, 27, 176 Vierfeldertafel, 84, 100 Vollerhebung, 25 Wahrscheinlichkeit, 116 bedingte, 124, 168 Wahrscheinlichkeitsfunktion, 129, 149 der Binomialverteilung, 139, 243 der hypergeometrischen Verteilung, 145, 148 gemeinsame, 168 World Values Survey, 80 z-Transformation, 59, 153
317
ZDF-Politbarometer, 37, 83, 89, 92, 99 Zeilenvektor, 233 Zeitreihe, 25 Zentraler Grenzwertsatz, 171 Zufallsexperiment, 115 Zufallsstichprobe, 27, 120 Zufallsvariable binäre, 133 diskrete, 129, 149 stetige, 129, 149 Zusammenhangsmaß bei metrisch skalierten Merkmalen, 103 bei nominalskalierten Merkmalen, 97 Chi-Quadrat-Koeffizient, 97 Cramér’s V, 98 für Zufallsvariablen, 172 Kontingenzkoeffizient K, 100 Zweipunkt-Verteilung, 133 Zweistichproben-Test, 185 Gauß-, 203 t-, 203