Springer-Lehrbuch
Karl Mosler
•
Friedrich Schmid
Beschreibende Statistik and Wirtschaftsstatistik Dritte Auflage
M...
54 downloads
1401 Views
29MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Springer-Lehrbuch
Karl Mosler
•
Friedrich Schmid
Beschreibende Statistik and Wirtschaftsstatistik Dritte Auflage
Mit 40 Abbildungen and 2 Tabellen
I~L Springer
Prof. Dr . Karl Mosler Prof. Dr . Friedrich Schmid Universitat zu Koln Seminar fur Wirtschafts- and Sozialstatistik Albertus-Magnus-Platz 50923 Koln E -Mail: mosler@statistik .uni-koeln .d e E -Mail: schmid@wiso .uni-koeln.de
Auf dem Umschlag sind abgebildet (von links) : Louis Etienne Laspeyres (1834-1913) Irving Fisher (1867-1947) Corrado Gini(1884-1965) John W Tukey(1915-2000)
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet these Publikation in der Deutschen Nationalbibliografie ; detaillierte bibliografische Daten sind im Internet fiber h ttp://dnb.ddb.de abrufbar . ISSN 0937-7433
ISBN-10 3-540-37458-2 3 . Auflage Springer Berlin Heidelberg New York ISBN-13 978-3-540-37459-6 3 . Auflage Springer Berlin Heidelberg New York ISBN 3-540-22815-2 2 . Auflage Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschiitzt. Die dadurch begriindeten Rechte, insbesondere die der Ubersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen and Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfaltigung auf anderen Wegen and der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten . Eine Vervielfaltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9 . September 1965 in der jeweils geltenden Fassung zulassig. Sie ist grundsatzlich vergiitungspflichtig . Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes . Springer ist ein Unternehmen von Springer Science+Business Media s pringer .de ©Springer Berlin Heidelberg 2003, 2004, 2006 Printed in Germany
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nichtzu derAnnahme,dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten waren and daher von jedermann benutzt werden durften . Umschlaggestaltung: WMXDesign GmbH, Haberstraie 3,69126 Heidelberg Production : LE-TEX, Jelonek, Schmidt & Vockler GbR, Leipzig SPIN 11819288
Gedruckt auf saurefreiem Papier -154/3100 - 5 4 3 21 0
Vorwort
Das vorliegende Lehrbuch gibt eine Einfiihrung in die beschreibende Statistik and in Teile der Wirtschaftsstatistik . Es ist aus Vorlesungen entstanden, die die Autoren regelmaflig an der Wirtschafts- and Sozialwissenschaftlichen Fakultat der Universitat zu Koln halten and umfasst im Wesentlichen den Stoff der dortigen Diplom-Vorprufung im Bereich,,Deskriptive Statistik and Wirtschaftsstatistik" . Eine Einfiihrung in die Wahrscheinlichkeitsrechnung and die schlieflende Statistik bietet unser Lehrbuch ,Wahrscheinlichkeitsrechnung and schlieflende Statistik" . Beide Lehrbiicher beschranken sich auf solche statistische Methoden, die vornehmlich in den Wirtschafts- and Sozialwissenschaften benotigt werden . Der praktische Einsatz statistischer Verfahren ist ohne Computer nicht vorstellbar . Auch im Grundstudium der Wirtschaftswissenschaften sollen die Studierenden die Moglichkeiten des Computereinsatzes kennenlernen and an einschlagige statistische Software herangefuhrt werden . Hierbei beschranken wir uns auf den Einsatz des Programms Excel von Microsoft, das zwar nur begrenzte and etwas umstandliche Moglichkeiten der Auswertung bietet, aber den Studierenden problemlos zur Verfugung steht and sick deshalb am besten fur Anfangerubungen eignet . Im Anschluss an die Kapitel 2, 3, 5 and 6 werden Hinweise zur Durchfuhrung der wichtigsten deskriptiv-statistischen Verfahren am Computer mit Excel gegeben . Datensatze zum Einiiben dieser Verfahren findet man auf der Internetseite w ww .uni-koeln .de/wiso-fak/wisostatsem /buecher /beschr stat . Auf these Internetseite werden auch Ubungsaufgaben and etwaige Erganzungen and Korrekturen zu diesem Lehrbuch gestellt . Das Literaturverzeichnis am Ende des Buches umfasst ausgewahlte Lehrbiicher der beschreibenden Statistik and der Wirtschaftsstatistik, interaktive v
vi
VORWORT
Lernprogramme sowie Einfiihrungen in statistische Software . Ferner sind dort einschlagige Aufgabensammlungen and weiteres Studienmaterial aufgefuhrt . Auf spezielle erganzende Literatur wird in den einzelnen Kapiteln hingewiesen . Bei der Erstellung des Buchmanuskripts haben uns die wissenschaftlichen Mitarbeiter and studentischen Hilfskrafte des Seminars fur Wirtschafts- and Sozialstatistik der Universiti t zu Ko1n tatkraftig unterstiitzt . Genannt seien die Herren Dr . Eckard Grohn, Jadran Dobric, Jens Kahlenberg, Axel Schmidt and Florian Wessels . Sie haben das Manuskript mehrfach gelesen and zahlreiche Korrekturen and Verbesserungsvorschlage beigesteuert . Frau Katharina Cramer hat die Excel-Anleitungen entwickelt, Frau Monia Truetsch die meisten Abbildungen hergestellt . Ihnen alien sei herzlich gedankt . Koln, im Dezember 2002
Karl Mosler Friedrich Schmid
Vorwort zur zweiten Auflage Fur die zweite Auflage wurden die Abschnitte zum Preisindex fur die Lebenshaltung and zu den europaischen Verbraucherpreisindizes neu bearbeitet and den jiingsten Entwicklungen der amtlichen Statistik angepasst . Im gesamten Text wurden zahlreiche kleinere Korrekturen and Aktualisierungen vorgenommen . Koln, im Juli 2004
Karl Mosler Friedrich Schmid
Vorwort zur dritten Auflage Die dritte Auflage entspricht im wesentlichen den vorigen beiden Auflagen . Sie enthalt an vielen Stellen aktualisierte Daten and zahlreiche kleinere Verbesserungen and Erganzungen . Koln, im Juni 2006
Karl Mosler Friedrich Schmid
Inhaltsverzeichnis 0
Was ist Statistik?
1
0 .1 Beispiele
1
0 .2
Beschreibende Statistik and schlief3ende Statistik 4
1 Merkmale and Daten 1 .1
7
Grundgesamtheiten
1 .2 Merkmale
7 8
1 .3
Daten and ihre Erhebung
1 .4
Regelmaf?ige Erhebungen von Haushaltsdaten 17
1 .5
Amtliche and nichtamtliche Statistik
2 Auswertung von eindimensionalen Daten
13
19 25
2 .1
Beliebig skalierte Daten
25
2 .2
Mindestens ordinalskalierte Daten
28
2 .3
Metrisch skalierte Daten
33
2 .3 .1
Lagemessung
34
2 .3 .2
Weitere Mittelwerte
39
2 .4
2 .3 .3 Streuungsmessung
42
2 .3 .4
Additionssatze fur arithmetische Mittel and Varianzen
49
2 .3 .5
Stetig klassierte Daten
52
2 .3 .6
Schiefemessung
60
Anhang zu Kapitel 2 : Verwendung von Excel 65 vii
viii
INHALTSVERZEICHNIS
2 .4 .1
Einzeldaten
65
2 .4 .2
Diskret klassierte Daten
69
2 .4 .3
Stetig klassierte Daten
72
3 Konzentrations- and Disparitatsmessung
77
3 .1 Disparitat and Konzentration
77
3 .2
79
3 .3
3 .4
3 .5
Konzentrationsmessung 3 .2 .1
Konzentrationsraten and Konzentrationskurve
3 .2 .2
Konzentrationsindizes
. . . .
80 85
Disparitatsmessung
88
3 .3 .1
Lorenzkurve
88
3 .3 .2
Disparitatsindizes
91
3 .3 .3
Einkommensungleichheit and Steuertarif 96
3 .3 .4
Disparitat and Konzentration bei klassierten Daten . .
Beziehungen zwischen Konzentration and Disparitat
. . . .
97 102
3 .4 .1
Konzentrationskurve and Lorenzkurve 103
3 .4 .2
Beziehungen zwischen den Indizes 103
3 .4 .3
Allgemeine Forderungen an die Indizes 105
Anhang zu Kapitel 3 : Verwendung von Excel 108 3 .5 .1
Konzentrationsmessung
108
3 .5 .2
Disparitatsmessung
109
4 Verhaltniszahlen, Messzahlen and Indexzahlen
113
4 .1 Verhaltniszahlen
113
4 .2
118
4 .3
Messzahlen des zeitlichen Vergleichs 4 .2 .1
Umbasierung and Verkettung von Messzahlen 119
4 .2 .2
Zuwachsraten and Zuwachsfaktoren 120
4 .2 .3
Logarithmische Zuwachsraten
123
Indexzahlen
125
4 .3 .1
126
Preisindizes
INHALTSVERZEICHNIS
ix
4 .3 .2
Mengenindizes
130
4 .3 .3
Wertindizes
131
4 .3 .4
Aggregation von Subindizes
133
4 .3 .5
Umbasierung and Verkettung von Indizes
137
4 .3 .6
Formale Indexkriterien (Fisher-Proben)
139
4 .3 .7
Der Verbraucherpreisindex fur Deutschland
. . . .
140
4 .3 .8
Europaische Verbraucherpreisindizes
143
4 .3 .9
Internationaler Preisvergleich (Verbrauchergeldparitaten)
144
5 Auswertung von mehrdimensionalen Daten 5 .1
5 .2
Grundbegriffe
151 151
5 .1 .1
Kontingenztafel and Haufigkeiten 153
5 .1 .2
Bedingte Verteilungen
156
5 .1 .3
Deskriptive Unabhangigkeit
158
5 .1 .4
Arithmetische Mittel and Varianzen 159
5 .1 .5
Hoherdimensionale Daten
162
5 .1 .6
Stetig klassierte mehrdimensionale Daten
165
Zusammenhangsmafle
167
5 .2 .1
Metrische Daten : Korrelationskoeffizient . .
168
5 .2 .2
Ordinale Daten : Rangkorrelationskoeffizient
175
5 .2 .3
Nominale Daten : Kontingenzkoeffizient . . . .
179
Deskriptive Regression
183
5 .3 .1
Regression erster Art
183
5 .3 .2
Regression zweiter Art (Lineare Regression)
187
5 .4
Lineare Mehrfachregression
193
5 .5
Anhang zu Kapitel 5 : Verwendung von Excel
196
5 .5 .1 Zusammenhangsmafle
196
5 .5 .2
Lineare Einfachregression
198
5 .5 .3
Lineare Mehrfachregression
199
5 .3
x 6
INHALTSVERZEICHNIS
Analyse von Zeitreihen
201
6 .1 Beispiele von Zeitreihen
202
6 .2
Komponentenmodelle
202
6 .3
Bestimmung der glatten Komponente
205
6 .3 .1
Linearer Trend
206
6 .3 .2
Exponentieller Trend
211
6 .3 .3
Gleitende Durchschnitte
215
6 .3 .4
Lineare Filter
219
6 .4
Bestimmung der Saisonkomponente
220
6 .5
Exponentielles Glatten
226
6 .6
Zeitreihen in stetiger Zeit
229
6 .7
Anhang zu Kapitel 6 : Verwendung von Excel 233 6 .7 .1
Gleitende Durchschnitte im additiven Modell 233
6 .7 .2
Graphische Darstellung von Zeitreihen 233
6 .7 .3
Bestimmung der Saisonkomponente 234
A Summen- and Produktzeichen
235
B Exponentialfunktion and Logarithmus
239
Literaturverzeichnis
243
Index
249
Kapitel 0
Was ist Statistik? Wirtschaftswissenschaften haben eine empirische Seite : sie beziehen sich auf reale okonomische Sachverhalte . Diese mussen beobachtet and gemessen werden . Beobachtung and Messung des wirtschaftlichen Geschehens and die Sammlung der so gewonnenen Daten sind die Aufgaben der Wirtschaftsstatistik. Die beschreibende Statistik, auch deskriptive Statistik genannt, dient dazu, die Daten unter bestimmten Aspekten zu beschreiben and graphisch darzustellen sowie die in den Daten vorliegende Information auf ihren - fur eine gegebene Fragestellung - wesentlichen Kern zu reduzieren . Die wichtigsten Verfahren der beschreibenden Statistik and einige Elemente der Wirtschaftsstatistik sind Gegenstand dieses Buchs .
0 .1
Beispiele
Wir beginnen mit vier Beispielen, die typische Fragestellungen and Methoden der beschreibenden Statistik beinhalten .
Der Preis eines Konsumguts e
Was kostet ein bestimmtes Gut fur den Konsumenten?
Ein Warentestinstitut testet ein Fernsehgerat . Im Testbericht soil auch fiber den Preis informiert werden . Der Einfachheit halber nehmen wir an, dass das Gerat von nur zehn Geschaften gefuhrt wird, and zwar zu folgenden Preisen in Euro : 1
0 . WAS IST STATISTIK?
2 Geschaft Preis
1 398
2 379
3 458
4 5 398 368
6 7 8 379 394 379
9 10 458 398
Welche Preisinformation soil das Institut dem Verbraucher geben? Den gunstigsten Preis (368 €)? Den haufigsten Preis? Als haufigster Preis kommen sowohl 398 :6 wie 379E in Betracht, die jeweils dreimal beobachtet werden . Oder soil das Institut einen geeignet definierten ,mittleren Preis" angeben, etwa das arithmetische Mittel (400,90E) oder den Median (394 €)? Interessant ist auch die Information, wie weft die Preise streuen, etwa die Spanne zwischen dem hochsten and dem niedrigsten Preis (90€) . Eine Grundaufgabe der beschreibenden Statistik ist die Charakterisierung der Daten durch einige wenige Kennzahlen, auch MaJ zahlen genannt . Im Beispiel tritt an die Stelle vieler einzelner Preise eine einzige Zahl, ihr mittlerer Wert . Er wird evtl . durch ein Mall der Streuung erganzt . Eine weitere Grundaufgabe der beschreibenden Statistik besteht darin, die Daten in Graphiken iibersichtlich and anschaulich darzustellen . Die Verteilung der Preise lasst sich - statt in einer Tabelle wie oben - auch graphisch darstellen . Dafiir gibt es viele Moglichkeiten, etwa diese : I 300
I
I
I
'
I 350
I
I
I
I 400
I
I
I
I
I 450
I
500
Der Verkaufspreis eines Gerats kann Verschiedenes bedeuten : den Preis mit oder ohne Mehrwertsteuer sowie mit oder ohne Handlergarantie . Zu den Aufgaben der beschreibenden Statistik gehort es auch, zu kontrollieren, was die gemessenen Daten wirklich bedeuten, and die Daten um etwa aufgetretene Bedeutungsabweichungen zu bereinigen . Wenn wir davon ausgehen, dass die zehn Geschafte einer grofleren Gesamtheit entstammen, stellt sich das Problem, wie viele Geschafte auszuwahlen sind and nach welchem Verfahren . In der Regel nimmt die Qualitat der Information mit der Zahl der ausgewahlten Einheiten zu, allerdings wachst auch der Aufwand der Datenerhebung . Ein weiteres Problem ist die sinnvolle Auswahl der Beobachtungseinheiten . Mit letzterer befasst sich die Stichprobentheorie, die zur schlieflenden Statistik gehort . Schlieillich ist zu uberlegen, ob es gut ist, alle erhobenen Daten zu verwenden oder besser einige,,aus dem Rahmen fallende" Beobachtungen nicht zu beriicksichtigen . Im Beispiel ware etwa zu prufen, ob die Geschafte, die den vergleichsweise hohen Preis von 458 € verlangen, uberhaupt am Markt relevant sind . Die Erkennung and etwaige Elimination von extremen oder untypischen Beobachtungen, so genannten Ausreifgern, ist ebenfalls eine Aufgabe der Statistik .
0.1.
3
BEISPIELE
Der Anstieg des Preisniveaus • Um wie viel ist das Preisniveau in Deutschland im Monat September gegeniiber dem Vorjahresmonat gestiegen?
Diese Frage ist in der offentlichen Diskussion von grofber Bedeutung . Urn sie zu beantworten, muss der Statistiker klaren, welche Preise gemeint sind and was unter einem „Anstieg der Preise" zu verstehen ist . Wenn es um Tarifverhandlungen geht, sind etwa die Preise relevant, die ein typischer ArbeitnehmerHaushalt fur die tauter seiner Lebenshaltung zahlen muss . In der Rentendiskussion sind hingegen die sich fur einen Rentnerhaushalt ergebenden Preise einschlagig . Den Preisanstieg misst der Statistiker durch einen geeigneten Preisindex, in den die Anderungen der Preise von ublicherweise konsumierten Giltern eingehen . Er muss die Giiter auswahlen and sich fur eine von mehreren Moglichkeiten entscheiden, deren Preisanderungen zu mitteln .
Privater Konsum and Volkseinkommen • In welcher Beziehung steht der gesamtwirtschaftliche Konsum der privaten Haushalte zu ihrem verf'igbaren Einkommen? Welche Anteile des Einkommens werden konsumiert, welche gespart?
Im folgenden Streudiagramm bezeichnet jeder Punkt die Hohe des verfugbaren Haushaltseinkommens YH and des Konsums C in einem bestimmten Jahr .
C
YHv
0 . WAS IST STATISTIK?
4
Ein einfaches Modell fur den Zusammenhang zwischen Konsum and Einkommen liefert Keynes' absolute Einkommenshypothese,
C=a+bYH . Aufgabe des Statistikers ist es, die Grol3en a and b des Modells aus den vorliegenden Daten zu bestimmen . Offenbar gilt die Beziehung nicht exakt (dann mussten alle Punkte auf einer Geraden liegen), sondern nur ungefahr . Weiter muss sich der Statistiker fragen, ob statt des linearen Ansatzes etwa eine andere funktionale Beziehung zu wahlen ist . Ferner muss er die Daten uber den Konsum and das Einkommen in geeigneter Weise erheben and die Geldentwertung uber die Jahre,,herausrechnen", d .h . die Daten deflationieren .
Entwicklung der Arbeitslosigkeit • Ist die Arbeitslosenquote innerhalb der letzten zwei Monate gesunken? Die Zahl der Arbeitslosen and die Arbeitslosenquote werden jeden Monat ermittelt . Es entsteht eine Zeitreihe, die jahrlich ein bestimmtes Grundmuster, die „Saisonfigur", and zusatzliche Fluktuationen aufweist . Die Saisonfigur gibt die Schwankungen der Arbeitslosigkeit wieder, die sich allein durch die Abfolge der Jahreszeiten erklaren ; sie zeigt etwa, um wie viel die Arbeitslosigkeit durch die Fruhjahrsbelebung von Februar auf Marz regelmaEig (im Durchschnitt der Jahre) sinkt . Aufgabe der beschreibenden Statistik ist es unter anderem, die Saisonfigur zu bestimmen and die Zeitreihe um die Einfliisse der Saison zu bereinigen .
0 .2
Beschreibende Statistik and schliet ende Statistik
Statistik als wissenschaftliche Methode wird in beschreibende and schliel3ende Statistik unterteilt . Die schliefbende Statistik (auch : statistische Inferenz) stellt weitere Methoden der Datenanalyse zur Verfiigung, die auf Wahrscheinlichkeitsmodellen beruhen . In der wirtschaftswissenschaftlichen Theorie werden Aussagen uber okonomische Sachverhalte gemacht . Die Gultigkeit solcher Satze ist auf Grund von Beobachtungen der Realitat zu iiberpriifen ; das heifut, die Satze sind als Hypothesen zu testen . Soweit es sich um quantitative Aussagen handelt, sind darin enthaltene unbekannte Parameter zu schatzen .
0 .2 .
BESCHREIBENDE STATISTIK UND SCHLIESSENDE STATISTIK
5
Ein Schatzproblem tritt im obigen Beispiel bei der Bestimmung des Zusam-
menhangs zwischen Konsum and Einkommen auf : Hier sind Schatzwerte fur die beiden unbekannten Parameter a and
b zu bestimmen . Ein Testproblem
stellt sich mit der Frage, ob der Konsum uberhaupt vom Volkseinkommen abhangt, d .h . ob b ~4 0 ist oder nicht .
Schatzen and Testen sind Aufgaben der schlief3enden Statistik ; sie baut auf der Wahrscheinlichkeitsrechnung auf . Aber um statistische Schlusse aus
den Daten ziehen zu konnen, mussen Beobachtungen zunachst beschrieben and gemessen werden . In diesem Sinn geht die beschreibende Statistik der schlieflenden Statistik voraus .
Statistische Methoden sind universell ; sie werden in fast alien Wissenschaften eingesetzt . Wir beschranken uns in diesem Lehrbuch jedoch auf solche Metho-
den, die vornehmlich in den Wirtschafts- and Sozialwissenschaften benotigt werden .
Die folgende Abbildung beschreibt schernatisch das Zusammenwirken von beschreibender and schlief3ender Statistik bei der Analyse okonomischer Sach-
verhalte . Die rechte Halfte, das Messen and Beschreiben von empirisch gewon-
nenen Daten, ist Sache der beschreibenden Statistik, wahrend in der linken Halfte mit Methoden der schliefbenden Statistik der Bezug zur okonomischen Theorie hergestellt wird .
Theorie
I
Testen
Schatzen
Empirie
Messen
Beschreiben
Wir schlieflen dieses einleitende Kapitel mit einer kurzen Definition von Statistik .
Statistik ist die methodische Auswertung von Daten, insbesondere
•
deren Erhebung and Bereinigung,
•
deren graphische Darstellung,
•
deren Charakterisieren durch Kennzahlen,
•
das Schatzen unbekannter Parameter,
0 . WAS IST STATISTIK?
6
• das Testen von Hypothesen, • die Prognose kunftiger Entwicklungen . Die ersten drei Aufgaben gehoren zur beschreibenden, die letzten drei hauptsachlich zur schlieflenden Statistik .
Erganzende Literatur zu Kapitel 0 Die meisten Lehrbiicher der beschreibenden Statistik enthalten Einfuhrungen in deren typische Fragestellungen and Anwendungsgebiete . Wir verweisen insbesondere auf Fahrmeir et al . (2003) . Empfehlenswert ist auch Kramer (2001) .
Kapitel 1
Merkmale and Daten In diesem Kapitel werden zunachst einige fur die gesamte beschreibende Statistik grundlegende Begriffe eingefiihrt and an Beispielen illustriert . Die Abschnitte 1 .1 and 1 .2 behandeln Grundgesamtheiten and Merkmale . Abschnitt 1 .3 gibt einen Uberblick fiber Methoden der Datenerhebung . Im Abschnitt 1 .4 werden dann vier wichtige, in Deutschland regelmafbig durchgefiihrte Erhebungen von Wirtschafts- and Bevolkerungsdaten vorgestellt . Im Abschnitt 1 .5 findet sich eine knappe Zusammenstellung von Institutionen der amtlichen and nichtamtlichen Statistik sowie einige Hinweise auf Veroffentlichungen dieser Institutionen and weitere Quellen von Daten .
1 .1
Grundgesamtheiten
Die Grundgesamtheit ist die Gesamtheit der Einheiten, fiber die eine statistische Untersuchung etwas aussagen soil . Sie ist eine Menge (im Sinne der Mengenlehre) and wird mit G bezeichnet . Ihre Elemente heifen Untersuchungseinheiten, statistische Einheiten oder Merkmalstrager . Wenn G aus n Elementen besteht, (GI = n, schreiben wir G = { ei, e2, . . ., e n } . Die Grundgesamtheit einer statistischen Untersuchung muss in sachlicher, raumlicher and zeitlicher Hinsicht genau abgegrenzt sein .
Beispiele fiir Grundgesamtheiten :
• Personen mit deutscher Staatsangehorigkeit am 1 .1 .2003 • Handwerksbetriebe in Koln am 1 .1 .2003 7
8
1 . MERKMALE UND DATEN
• Verkehrsunfalle in Deutschland im Jahr 2002 • Geburten in Deutschland im Jahr 2002 Eine Grundgesamtheit (oder einen Teil davon) bezeichnet man auch als statistische Masse . Man spricht von einer Bestandsmasse, wenn sie durch Angabe eines Zeitpunktes abgegrenzt wird .
Beispiele fur Bestandsmassen :
• Lagerbestand eines Unternehmens am 31 .12 .2002 • Studierende, die zu Beginn des WS 2002/03 an der Universitat zu Koln immatrikuliert sind
Eine Bewegungsmasse liegt vor, wenn sie durch Angabe eines Zeitraumes abgegrenzt wird .
Beispiele fur Bewegungsmassen :
• in Deutschland im Jahr 2002 produzierte Kraftfahrzeuge • Umziige von Haushalten innerhalb Deutschlands im Jahr 2002 Bestands- and Bewegungsmassen hangen offensichtlich zusammen, denn zu jeder Bestandsmasse gibt es eine zugehorige Bewegungsmasse, namlich die Bestandsveranderung .
Beispiel: Haushalte in Deutschland am 1 .1 .2002 Zuziige, Neugriindungen etc . im Jahr 2002 Wegziige, Auflosungen etc . im Jahr 2002 Haushalte in Deutschland am 1 .1 .2003
Bestandsmasse Bewegungsmasse Bewegungsmasse Bestandsmasse
Allgemein ergibt sich die Moglichkeit, eine Bestandsmasse durch die zugehorige Bewegungsmasse fortzuschreiben .
1 .2
Merkmale
Unter einem Merkmal versteht man eine Eigenschaft der Merkmalstrager, die statistisch untersucht wird . Ein Merkmal hat verschiedene mogliche Merkmalsauspragungen . Merkmale notieren wir mit X, Y oder ahnlich .
1.2.
MERKMALE
9
Beispiele :
Grundgesamtheit Private Haushalte in Deutschland am 1 .1 .2003 Handwerksbetriebe in Ko1n am 1 .1 .2003 Studierende zu Beginn des WS 2002/03 an der Universitat zu Koln
Merkmal Verfugbares monatliches Haushaltseinkommen Anzahl der Beschaftigten Geschlecht
Die statistischen Einheiten einer Grundgesamtheit werden haufig als die Ele-
mente einer grog eren Gesamtheit definiert, die in bestimmten Merkmalen bestimmte Werte aufweisen . Beispiele : Private Arbeitnehmerhaushalte in Deutschland am 1 .1 .2003, Handwerksbetriebe mit mindestens fiinf Beschaftigten in Koln am 1 .1 .2003, auslandische Studierende zu Beginn des WS 2002/03 an der Universitat zu Koln .
Operationalisierung eines Begriffs Die zu untersuchende okonomische GrUe ist zunachst als abstrakter Begriff gegeben, der in der Wirtschaftstheorie oder den Anwendungen eine bestimmte Bedeutung besitzt . Vor der statistischen Untersuchung ist der Begriff so zu prazisieren and eventuell um eine Vorschrift zu erganzen, dass jeder statistischen Einheit eine Auspragung der GrUe konkret zugeordnet werden kann . Dies nennt man die Operationalisierung der okonomischen Grofbe . Das Gleiche gilt fur die Bestimmung einer Grundgesamtheit mit Hilfe von Merkmalen . Dariiber hinaus ist manche okonomische GrUe faktisch oder auch prinzipiell nicht als Merkmal beobachtbar (z .B . das Bildungsniveau einer Person, die Wohlfahrt eines Haushalts) . Sie muss fur die statistische Untersuchung durch einen verwandten Begriff and seine Operationalisierung ersetzt werden . Haufig sind mehrere Operationalisierungen einer okonomischen GrUe moglich, die sich in ihrer Bedeutung unterscheiden . Das Ergebnis einer statistischen Untersuchung kann wesentlich von der gewahlten Operationalisierung abhangen! In der arntlichen Statistik werden die meisten Grofben durch Bezug auf gesetzliche Bestimmungen operationalisiert .
10
1 . MERKMALE UND DATEN
Beispiele : Begriff
Erwerbstatigkeit in Deutschland Gewerbliches Preisniveau
Auslandischer Studierender Bildung einer Person Wohlfahrt eines privaten Haushalts
Mogliche Operationalisierung Zahl der Erwerbspersonen i
Index der Erzeugerpreise oder Preisindex fur den Wareneingang (siehe Statistisches Jahrbuch) keine deutsche Staatsangehorigkeit oder kein deutsches Abitur Zahl der absolvierten Schul- and Hochschuljahre Verfiigbares Haushaltseinkommen
Diskrete Merkmale, stetige Merkmale Merkmale lassen sich nach verschiedenen Gesichtspunkten einteilen . Ein Merkmal heif?t diskret, falls es nur endlich viele mogliche Auspragungen hat . (Zugelassen ist auch eine Menge von Auspragungen, die den natiirlichen Zahlen entspricht .)
Beispiele : Handelsklasse eines Nahrungsmittels, Automarke, Kinderzahl, Anzahl der Fachsemester eines Studierenden . Stetig nennt man ein Merkmal, well seine Auspragungen reelle Zahlen sind and die Menge aller Auspragungen aus einem oder mehreren Intervallen besteht . Ein stetiges Merkmal wird auch als kontinuierlich bezeichnet . In der praktischen Anwendung nimmt ein stetiges Merkmal nur endlich viele Auspragungen an, da man nicht beliebig genau messen kann . Ein diskretes Merkmal, das sehr viele, dicht beieinanderliegende Auspragungen aufweist, wird wie ein stetiges Merkmal behandelt and als quasistetig bezeichnet .
Beispiele: .Korpergewicht ist ein stetiges Merkmal, Einkommen and Vermogen sind quasistetige Merkmale . 'In der deutschen amtlichen Statistik gehoren zu den Erwerbspersonen alle Einwohner der Bundesrepublik Deutschland, die in einem Arbeitsverhaltnis stehen oder ein solches suchen (einschliei?lich der Soldaten and mithelfenden Familienangehorigen) oder selbstandig ein Gewerbe oder eine Landwirtschaft betreiben oder einen freien Beruf ausiiben, unabhangig vom Umfang, von der Art, der Dauer and der Regelma1 igkeit der Tatigkeit and unabhangig von der Bedeutung des Ertrags dieser Tatigkeit fur ihren Lebensunterhalt .
1 .2 .
MERKMALE
11
Merkmalswerte, Skalenniveaus Ein Merkmal heif?t qualitativ, wenn seine Auspragungen durch verbale Ausdriicke gegeben sind . Demgegenuber wird ein Merkmal quantitativ genannt, wenn die Merkmalsauspragungen Zahlen sind . Beispiele : Qualitativ sind die Merkmale Beruf and Geschlecht, quantitativ die Merkmale Alter, Einkommen and Klausurnote (wenn die Note als Zahl ausgedriickt wird) .
Fur die statistische Analyse werden den Auspragungen eines qualitativen Merkmals Zahlen zugeordnet . Diese Zahlen werden, ebenso wie die Auspragungen eines quantitativen Merkmals, als Merkmalswerte bezeichnet . Sie werden im Folgenden mit kleinen griechischen Buchstaben bezeichnet, etwa 6, b etc . Will man statistische Berechnungen auf Grund von beobachteten Merkmalswerten durchfiihren, muss man sich vorher klarmachen, welche Rechenoperationen bezogen auf das, was gemessen wird, uberhaupt einen Sinn machen . Die Zuordnung von Zahlen (= Merkmalswerten) zu den Auspragungen eines Merkmals ist eine Funktion, die wir als Skala (auch: Messskala) bezeichnen . Je nachdem, wie frei man bei dieser Zuordnung ist, wird zwischen verschiedenen Skalenniveaus unterschieden .
Nominalskala Den einzelnen Auspragungen werden lediglich verschiedene Zahlen (,,Codes") zugeordnet . Auger class sie verschieden sind, haben diese Zahlen keine Bedeutung . Insbesondere macht es keinen Sinn, sie zu addieren, multiplizieren oder dividieren . (Eine Ausnahme bilden die binaren Merkmale, die mit 0 and 1 kodiert sind ; bei ihnen stellt z .B . die Summe von Merkmalswerten eine Anzahl dar .) Da es bei einer Nominalskala nur auf die Verschiedenheit der Merkmalswerte ankommt, leistet jede andere Zuordnung, die durch eine beliebige, umkehrbar eindeutige Transformation aus der ersten hervorgeht, das Gleiche . Die Nominalskala wird dadurch charakterisiert, class sie eindeutig bis auf bijektive Transformationen ist . Beispiele: Geschlecht, Familienstand, Studienfach, Religionszugehorigkeit .
Ordinalskala Zwischen den Merkmalsauspragungen besteht eine natiirliche Ordnung; die Merkmalswerte sollen lediglich diese Ordnung widerspiegeln . Die Grofle der Abstande zwischen Merkmalswerten hat keine Bedeutung, so class wie bei einer Nominalskala das Addieren usw . von Merkmalswerten keinen Sinn macht . Offenbar fiihrt jede ordnungserhaltende, d .h . streng monoton wachsende Transformation der Merkmalswerte zu einer gleichwertigen Skala . Als Ordinalskala bezeichnet man deshalb eine Skala, die bis auf streng monoton wachsende Transformationen eindeutig bestimmt ist . Beispiele : Klausurnote, Handelsklasse (z.B . bei Obst), Schwierigkeitsgrad einer Klettertour, Windstarke nach Beaufort .
12
1 . MERKMALE UND DATEN
Intervallskala Die Merkmalswerte spiegeln nicht nur die Ordnung der Auspragungen wider ; auch die Grofle der Abstande zwischen je zwei Merkmalswerten kann sinnvoll miteinander verglichen werden . Die absolute Grofle von Merkmalswerten hat dagegen keine Bedeutung ; ebenso ist der Maistab frei wahlbar . Eine Intervallskala ist dadurch charakterisiert, dass sie eindeutig bis auf eine Transformation der Form T (x) = ax + b (mit a > 0 and b c Tl) ist . Differenzen von je zwei Merkmalswerten lassen sich sinnvoll vergleichen, da das Ergebnis nicht von der Wahl des Nullpunkts and der Messeinheit abhangt . Sind beispielsweise x1 i . . . , x4 vier Merkmalswerte and yl, . . . , y4 mit yi = axi + b fur i = 1, . . . , 4 die transformierten Werte, so gilt
y4 - y3 Y2 - Y1
ax4 + b - (ax3 + b) _ x4 - x3 ax2 + b - (ax, + b) x2 - xl '
d .h . die Messeinheit a and der Nullpunkt b kiirzen sich heraus .
Beispiel : Temperatur ist eine intervallskalierte Grof3e . Man kann sie beispielsweise in Grad Celsius (°C) oder in Grad Fahrenheit (°F) messen . Die Temperaturwerte x, gemessen in Grad Celsius, and y, gemessen in Grad Fahrenheit, sind durch die Transformation y=32+1,8x,
x= y
- 32 1,8
miteinander verknupft . Verhaltnisskala (oder Ratioskala) Die Verhaltnisskala ist eine Intervallskala, die zusatzlich einen natiirlichen Nullpunkt besitzt, deren Messeinheit jedoch nicht festgelegt ist . Die Verhaltnisskala ist durch ihre Eindeutigkeit bis auf eine positiv-lineare Transformation der Form T (x) = ax mit a > 0 charakterisiert . Insbesondere hangt der Quotient zweier Merkmalswerte nicht von der gewahlten Messeinheit ab : Denn sind x1, x2 zwei Merkmalswerte and yj = axi mit a > 0 die transformierten Werte, so ist
yi _ ax, _ Y2
ax2
x1
x2
Beispiele : Grof3en aus den Wirtschaftswissenschaften wie Einkommen, Vermogen, Geldmenge and Grolen aus den Naturwissenschaften wie Masse, Lange, Zeit, wenn keine Messeinheit vorgegeben ist . Absolute Skala Die absolute Skala ist eine Verhaltnisskala, die auf3erdem eine vorgegebene Messeinheit besitzt . Die absolute Skala ist daher eindeutig bestimmt . Ihr Anwendungsbereich umfasst absolute Groflen, die in vorgegeben Messeinheiten gemessen werden, sowie Haufigkeiten .
Beispiele : relative Haufigkeit, absolute Haufigkeit, Alter in Jahren, Einkommen in €, Masse in Gramm, Zeit in Sekunden .
1 .3.
DATEN UND IHRE ERHEBUNG
13
Hierarchie der Skalen and statistische Verfahren Offenbar sind die verschiedenen Skalen hierarchisch geordnet : Eine Ordinalskala besitzt auch die Eigenschaften einer Nominalskala, eine Intervallskala die einer Ordinalskala, usw . Will man ein Merkmal mit einem statistischen Verfahren untersuchen, muss man zunachst sein Skalenniveau feststellen . Jedes statistische Verfahren erfordert ein bestimmtes Mindestniveau der Skala ; z . B . um einen Mittelwert bilden zu konnen, muss das Merkmal mindestens intervallskaliert sein . Je hoher das Skalenniveau ist, um so mehr statistische Verfahren stehen zur Verfugung. Statt mindestens intervallskaliert sagt man auch metrisch skaliert . Extensive and intensive Merkmale Extensive Merkmale sind solche, bei denen sich die Summe E ' l xi von Merkmalswerten x 1 , . . . , x n, sinnvoll interpretieren lasst . Ein Merkmal heif?t intensiv, falls der Durchschnitt n E?1 xi eine sinnvolle Interpretation zulasst . Offenbar ist jedes extensive Merkmal auch intensiv . Beispiele fur extensive Merkmale : Einkommen, Vermogen, Einwohnerzahl, Umsatz . Beispiele fur intensive, aber nicht extensive Merkmale : Preis eines Guts, Alter einer Person, Temperatur .
Den Begriff des extensiven Merkmals werden wir insbesondere in der Konzentrations- and Disparitatsmessung (Kapitel 3) benotigen. Haufbare Merkmale, nicht haufbare Merkmale Ein Merkmal heifit haufbar, falls ein Merkmalstrager, also ein Element der Grundgesamtheit, mehrere Merkmalsauspragungen haben kann . Beispiele : Freizeitbeschaftigung, Studienfach, Staatsangehorigkeit .
Andernfalls heif?t es nicht haufbar . Beispiele : Alter, Geschlecht .
1 .3 Daten and ihre Erhebung Daten sind die beobachteten Werte eines Merkmals (oder mehrerer Merkmale) in einer Grund- oder Teilgesamtheit . Bei einem Merkmal X kann man die erhobenen Daten als Folge x1, . . . , x, schreiben, bei zwei Merkmalen X and Y als Folge von Paaren (x1, yl) , . . . , (x,,,, y„) . Die so notierten Daten nennt man Urliste oder statistisches Urmaterial .
14
1 . MERKMALE UND DATEN
Diskrete and stetige Klassierung Ubersichtlicher als die Urliste ist die Haufigkeitsverteilung der Daten . Sie gibt fur jeden Wert des Merkmals die Haufigkeit an, mit der er in den Daten vorkommt . Datenvektor, Datenmatrix Oft ist es praktisch, die fur ein Merkma,l beobachteten Daten als Spaltenvektor zu schreiben, xl xn Der Vektor wird Datenvektor genannt . Hat man Daten fur mehrere Merkmale, so ergibt sich eine Datenmatrix . Ihre Spalten entsprechen den Merkmalen, ihre Zeilen den Beobachtungen . Fur drei Merkmale X, Y and Z erhalt man die n x 3 Matrix xi Yi zl xn
yn
zn
fur vier Merkmale X1, X2, X3, X4 die n x 4 Matrix x11
X21
X31
x41
xln
X2n
X3n
x4n
and allgemein fur m Merkmale eine n x m Matrix. Primarstatistische Daten, sekundarstatistische Daten Statistische Daten werden in verschiedener Weise nach ihrer Herkunft unterschieden . Die erste Unterscheidung betrifft die Beziehung zwischen der Datenerhebung and der aktuellen statistischen Untersuchung . Primarstatistische Daten sind Daten aus einer eigens im Hinblick auf das aktuelle Untersuchungsziel konzipierten Erhebung . Sekundarstatistische Daten sind dagegen Daten, die urspriinglich fur andere Zwecke erhoben wurden .
Beispiel : Peter untersucht in seiner Diplomarbeit die Preisgestaltung fir einen bestimmten Markenartikel im Kolner Einzelhandel and wertet zu diesem Zweck das Werbematerial and die Verkaufspreise vor Ort aus . Paul analysiert in seiner Diplomarbeit die Entwicklung der Einkommensverteilung in Deutschland auf Grand von Daten der Einkommenssteuerstatistik . Peters
1 .3 .
DATEN UND IHRE ERHEBUNG
15
Untersuchung basiert auf primarstatistischen Daten, wahrend Paul sich auf sekundarstatistische Daten stdtzt . Querschnitte, Zeitreihen, Panels Die zweite Unterscheidung betrifft den zeitlichen Zusammenhang der Daten . Von Querschnittsdaten spricht man, wenn die Werte eines Merkmals zur selben Zeit bei verschiedenen Einheiten erhoben werden .
Beispiele : Konsumausgaben von Haushalten, Umsatze von Einzelhandelsgeschaften . Um Zeitreihendaten (oder Langsschnittsdaten) handelt es sich, wenn die Werte eines Merkmals bei derselben Einheit zu verschiedenen Zeiten erhoben werden . Die zeitlich geordnete Folge der Daten wird dann als Zeitreihe bezeichnet .
Beispiele : Zu versteuerndes Jahreseinkommen einer Person im Zeitablauf, Bruttoinlandsprodukt eines Staates in aufeinander folgenden Jahren . Zeitreihen- and Querschnittsdaten treten haufig in Kombination auf . Solche Daten nennt man Paneldaten .
Beispiel : Jahrliche Befragung von Haushalten nach ihrem Einkommen . Vollerhebung, Teilerhebung Weiter unterscheidet man Daten nach dem Umfang ihrer Erhebung . Bei einer Vollerhebung werden die Merkmalswerte von alien Elementen der Grundgesamtheit ermittelt (z .B . Volkszahlung, Gebaudezahlung) . Bei einer Teilerhebung (= Stichprobenerhebung) werden dagegen nur in einem Teil der Grundgesamtheit die Merkmalswerte erhoben (z .B . Mikrozensus, Einkommens- and Verbrauchsstichprobe) . Fur eine Teilerhebung kann es verschiedene Griinde geben :
• Die Grundgesamtheit ist sehr groE, eine Vollerhebung deshalb praktisch unmoglich oder zu aufwandig .
• Die Beobachtung des Merkmals zerstort den Merkmalstrager (z .B . in der Qualitatskontrolle) .
• Die Teilerhebung lasst sich zuverlassiger, genauer oder einheitlicher durchfiihren .
16
1 . MERKMALE UND DATEN
Stichprobenauswahl Bei Teilerhebungen stellt sich die Frage nach der Art der Auswahl der Teilgesamtheit . Sie kann zufallig (z .B . durch reine oder geschichtete Zufallsauswahl) oder systematisch (z .B . durch Abschneide- oder Quotenauswahl) erfolgen .
• Die reine Zufallsauswahl wird so durchgefiihrt, dass jedes Element der Grundgesamtheit die gleiche Chance hat, fur die Stichprobe ausgewahlt zu werden .
Beispiel : Der j6hrliche Mikrozensus; siehe Abschnitt 1 .4 . • Bei der geschichteten Zufallsauswahl werden zunachst anhand ei-
nes Hilfsmerkmals „Schichten" (z .B . Altersklassen) gebildet, dann der Anteil jeder Schicht an der Stichprobe festgelegt and schlielllich die zu beobachtenden Elemente in jeder Schicht zufallig ausgewahlt . Mit der Schichtenbildung kann man insbesondere die Genauigkeit der Ergebnisse fur die einzelnen Schichten steuern .
Beispiel : Das SOEP (Abschnitt 1 .4) untersucht Haushalte von Deutschen and Auslandern in zwei getrennten Schichten. • Bei der Abschneideauswahl gelangen die Elemente der Grundgesamtheit in die Stichprobe, die in einem Hilfsmerkmal eine bestimmte GroEe iiberschreiten .
Beispiel : Stichprobe im Einzelhandel ausgewahlt werden Betriebe, die einen bestimmten Mindestumsatz iiberschreiten . • Bei der Quotenauswahl geht man davon aus, dass die Grundgesamt-
heit in homogene Teile zerfallt, in denen bestimmte sozio-okonomische Merkmale (wie z .B . Geschlecht, Alter, Beruf) die gleichen Auspragungen besitzen, and dass die Quote jedes dieser Teile in der Grundgesamtheit bekannt ist . Die Teile werden in der Stichprobe ohne Zufallsauswahl systematisch nachgebildet, indem solange Personen aufgenommen werden, bis alle Quoten in der Stichprobe den Quoten in der Grundgesamtheit entsprechen . In der Praxis werden Quoten nach Geschlecht, Alter, Berufsgruppe, GrOIlenklasse and Lage (Bundesland) des Wohnorts, Schulbildung, Familienstand and Ahnlichem gebildet .
Beispiele : Einkommens- and Verbrauchsstichprobe, Laufende Wirtschaftsrechnungen der Haushalte (Abschnitt 1 .4), Umfragen in der Meinungsforschung .
1 .4 . REGELM .ASSIGE ERHEBUNGEN VON HAUSHALTSDATEN
1 .4
17
RegelmaMge Erhebungen von Haushaltsdaten
Die statistischen Amter in Deutschland and die wirtschaftswissenschaftlichen Forschungsinstitute erheben in regelmaJ igen Abstanden bestimmte Wirtschaftsdaten . Die fur die privaten Haushalte wichtigsten Erhebungen sind die Volkszahlung, der Mikrozensus, die Einkommens- and Verbrauchsstichprobe sowie die Laufenden Wirtschaftsrechnungen der Haushalte and das Sozio-okonomische Panel . Volkszahlung Die klassische Volkszahlung ist die vollstandige Erfassung aller Personen and Haushalte eines Landes and einiger ihrer sozio-okonomischen Merkmale . In Deutschland wurde sie zuletzt 1987 durchgefuhrt and mit einer Berufs-, Gebaude-, Wohnungs- and Arbeitsstattenzahlung verbunden . Die bei der Volkszahlung erhobenen Daten dienen als Grundlage der Auswahl beim Mikrozensus and bei vielen anderen statistischen Erhebungen . Es besteht Auskunftspflicht . Wegen der hohen Kosten and der zum Teil geringen politischen Akzeptanz von Volkszahlungen werden kaum noch klassische Volkszahlungen durchgefuhrt . An ihre Stelle treten reduzierte Zahlungen, deren Ergebnisse mit Daten aus amtlichen Registern verkniipft werden . Eine ausfiihrliche Darstellung der Volkszahlung findet man im Lehrbuch Rinne (1996, S . 55-69) . Mikrozensus Im Mikrozensus, der ein Mal im Jahr durchgefuhrt wird, werden Daten in tiefer fachlicher Gliederung uber die Bevolkerungsstruktur, die wirtschaftliche and soziale Lage der Bevolkerung and der Familien, den Arbeitsmarkt sowie die berufliche Gliederung and Ausbildung der Erwerbsbevolkerung" (Mikrozensus-Gesetz § 1 (2)) erhoben . Auf der Basis der letzten Volkszahlung and der Melderegister wird ein Prozent der Haushalte in zufalliger Weise ausgewahlt . Einmal ausgewahlte Haushalte werden wiederholt befragt, wobei jedes Jahr ein Viertel der Auswahleinheiten durch andere Einheiten (aus so genannten ,Vorratsstichproben") planmallig ersetzt wird . Es besteht Auskunftspflicht, die allerdings auf einen Zeitraum von vier Jahren beschrankt ist . Erhoben werden auger Geschlecht, Alter, Familienstand and Staatsangehorigkeit, Daten uber die Wohnung, die Haushaltsangehorigen, die Beteiligung am Erwerbsleben, die soziale Stellung im Beruf, die Quelle des uberwiegenden Lebensunterhalts, die Hohe des monatlichen Nettoeinkommens and die Art
18
1 . MERKMALE UND DATEN
der Krankenversicherung . Hinzu kommen alle zwei bzw . drei Jahre Daten fiber den ausgeubten Beruf, fiber Pendelwanderungen, fiber die Altersvorsorge and weitere Merkmale . Fur Einzelheiten des Mikrozensus sei auf die Darstellungen in der Zeitschrift Wirtschaft and Statistik verwiesen, etwa auf Riede (1997), Lotze and Breiholz (2002a) and Lotze and Breiholz (2002b) . Wirtschaftsrechnungen der privaten Haushalte Daten fiber die privaten Haushalte liefern die Einkommens- and Verbrauchsstichprobe (EVS), die alle fiinf Jahre durchgefuhrt wird, sowie die Laufenden Wirtschaftsrechnungen (LWR) . Die Beteiligung der Haushalte ist freiwillig ; sie werden innerhalb von Quoten (nach Haushaltstyp, sozialer Stellung and monatlichem Haushaltsnettoeinkommen) geworben . Erfasst wird das Budget der einzelnen privaten Haushalte ; dies ist ein Verzeichnis aller zugeflossenen Einnahmen and der damit getatigten Ausgaben . Auf Grund dieser Daten werden u .a . das Lebenshaltungsniveau der Haushalte, ihre Beteiligung am Arbeitsmarkt, ihre Spartatigkeit and ihre Einkommensubertragungen beschrieben . Die Wirtschaftsrechungen dienen auch als Grundlage der Berechnung von Verbraucherpreisindizes . Methodische Grundlagen and wichtige Ergebnisse beider Erhebungsverfahren werden regelmaflig in der Zeitschrift Wirtschaft and Statistik beschrieben ; siehe Chlumsky and Ehling (1997) ; Kaiser (2000) ; Kiihnen (1998) . Sozio-okonomisches Panel (SOEP) Im Unterschied zu den bisher genannten Erhebungen, die von den statistischen Amtern durchgefuhrt werden, wird das Sozio-okonomische Panel von einem wirtschaftswissenschaftlichen Forschungsinstitut, dem Deutschen Institut fur Wirtschaftsforschung (DIW), getragen . Im Rahmen des Sozio-okonomischen Panels werden Haushalte and die darin lebenden Personen regelmaf3ig fiber Erwerbsbeteiligung, berufliche Mobilitat, Freizeitverhalten, Einkommen and Transferzahlungen, Wohnsituation and vieles mehr befragt . Im Jahre 1983 wurden dazu etwa 6 000 private Haushalte ausgewahlt, deren Daten seitdem jahrlich auf freiwilliger Basis erhoben werden . Die Stichprobe der Haushalte erganzt sich in natiirlicher Weise durch eigene Haushaltsgrfindungen von bisher befragten Haushaltsmitgliedern . Anlalllich der deutschen Vereinigung wurden weitere Haushalte aus den neuen Bundeslandern mit einbezogen . Die erhobenen Daten erlauben sowohl Querschnitts- wie Langsschnittsanalysen als auch Kombinationen von beiden . Ahnliche Panelerhebungen werden in den ubrigen europaischen Landern and in den USA durchgefuhrt . Nahere, insbesondere aktuelle Informationen fiber das SOEP findet man im Internet unter der Adresse w ww .diw .de/soep/ .
1 .5 .
19
AMTLICHE UND NICHTAMTLICHE STATISTIK
1 .5
Amtliche and nichtamtliche Statistik
Als Trager der Wirtschafts- and Sozialstatistik unterscheidet man die amtliche and die nichtamtliche Statistik . Zur amtlichen Statistik zahlen in Deutschland die so genannten,,ausgelosten Behorden" . Als Beispiele seien genannt :
(w ww . destatis . d e),
•
Statistisches Bundesamt
•
Landesamt fur Datenverarbeitung and Statistik Nordrhein-Westfalen
•
Amt fur Stadtentwicklung and Statistik der Stadt Koln
(www . Ids . nrw . d e),
koeln . de/aemter/15/.
www .stadt-
Ferner gehoren zur deutschen amtlichen Statistik die mit statistischen Aufgaben befassten Teile von Behorden and Institutionen, die nicht in erster Linie fur die Statistik zustandig sind . Hierzu gehoren u .a . :
•
Bundesministerium der Finanzen
(www . bundesfinanzministerium . d e),
•
Bundesministerium fur Wirtschaft and Technologie
•
Bundesministerium fur Arbeit and Soziales
•
Deutsche Bundesbank
•
Bundesagentur fur Arbeit
•
Bundesanstalt fur Finanzdienstleistungsaufsicht
•
Kraftfahrtbundesamt
(w ww . bmwi . d e),
(w ww . betas . band . d e),
(www .bundesbank.de), (w ww . arbeitsagentur. d e), (www . bafin. de),
(w ww .kba .d e) .
Grundlegend fur die amtliche Statistik ist das Prinzip der Legalisierung . Dieses besagt, dass es fur jede Erhebung eine Rechtsgrundlage geben muss, entweder als Gesetz oder als Rechtsverordnung . Abbildung 1 .1 zeigt in schematischer Weise die Durchfurung einer Bundesstatistik, beginnend mit dem Auftrag and dem Entwurf einer Rechtsgrundlage durch das zustandige Ministerium and endend mit der Veroffentlichung der Ergebnisse durch das Statistische Bundesamt . Zwei weitere wichtige Organisationsprinzipien der amtlichen Statistik sind die fachliche Zentralisierung and die regionale Dezentralisierung . Dies bedeutet, dass die Planung and methodisch-technische Vorbereitung von Erhebungen bei einer zentralen Stelle, dem Statistischem Bundesamt in Wiesbaden, liegt . Die Durchfi hrung der Erhebung sowie Teile der Aufbereitung der Daten erfolgt, quasi,,vor Ort", durch die Landesamter . Von diesem Organisationsprinzip gibt es jedoch Ausnahmen .
20
1 . MERKMALE UND DATEN
Bei vielen, jedoch nicht alien Erhebungen besteht Auskunftspflicht der befragten Einheiten . Dem steht die Verpflichtung der amtlichen Statistik gegenuber, Einzelangaben geheim zu halten . Die Ergebnisse der Erhebungen der amtlichen Statistik werden in vielfaltiger Weise veroffentlicht . Vom Statistischen Bundesamt ist besonders das jahrlich erscheinende ,Statistische Jahrbuch fur die Bundesrepublik Deutschland" als zusammenfassende Veroffentlichung zu erwahnen . Publikationen zu einzelnen Bereichen enthalten die 19 Fachserien . Diese sind : 1. Bevolkerung and Erwerbstatigkeit 2.
Unternehmen and Arbeitsstatten
3 . Land- and Forstwirtschaft, Fischerei 4 . Produzierendes Gewerbe 5 . Bautatigkeit and Wohnungen 6 . Binnenhandel, Gastgewerbe, Tourismus 7. Autenhandel 8. Verkehr 9. Dienstleistungen 10 . Rechtspflege 11 . Bildung and Kultur 12 .
Gesundheitswesen
13 . Sozialleistungen 14 . Finanzen and Steuern 15 . Wirtschaftsrechnungen 16 . Lohne and Gehalter 17 . Preise 18 . Volkswirtschaftliche Gesamtrechnungen 19 . Umwelt
1 .5 .
AMTLICHE UND NICHTAMTLICHE STATISTIK
21
Zu erwahnen ist augerdem die monatlich erscheinende Zeitschrift Wirtschaft and Statistik mit Artikeln zu ausgewahlten wirtschaftsstatistischen Themen sowie einem aktuellen Tabellenanhang . Von den Veroffentlichungen der Deutschen Bundesbank sind vor allem die Monatsberichte and deren statistische Beihefte fur den Statistiker von Interesse . Zu den Tragern der nichtamtlichen Statistik zahlt man in Deutschland • die unabhangigen wirtschaftswissenschaftlichen Institute • IfW - Institut fur Weltwirtschaft Kiel (www .uni-kiel.de/ifw) , • DIW - Deutsches Institut fur Wirtschaftsforschung Berlin (www . diw. d e),
• HWWA - Hamburgisches Welt-Wirtschafts-Archiv (w ww .hwwa .d e), • IFO - Institut fiir Wirtschaftsforschung (www . cesifo-group . de),
• RWI - Rheinisch-Westfalisches Institut fur Wirtschaftsforschung (www . rwi-essen . de), • IWH - Institut fur Wirtschaftsforschung Halle (w ww .iwh-halle .d e), • die Wirtschaftsforschungsinstitute von Interessenverbanden, wie z .B . • IW - Institut der deutschen Wirtschaft Koln (www .iwkoeln .d e),
• WSI - Wirtschafts- and Sozialwissenschaftliches Institut in der Hans-Buckler-Stiftung (w ww .wsi .d e ), • unabhangige, aber,,halbamtliche" Institutionen, wie z .B . • Sachverstandigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung (w ww.sachverstaendigenrat-wirtschaft .d e),
• Monopolkommission (w ww.monopolkommission .d e ), • die Markt-, Meinungs- and Umfrageinstitute, wie z .B . • INFAS - Institut fur angewandte Sozialwissenschaft (www . infas . de),
• Emnid - Institut fur Marktforschung and Marktermittlung (w ww . tns-emnid. co m), • GfK - Gesellschaft fur Konsumforschung (www .gfk .d e),
• Institut fur Demoskopie Allensbach (www .ifd-allensbach .d e) .
Eine sehr niitzliche Quelle von Daten ist der Tabellenanhang des Herbstgutachtens des Sachverstandigenrats . Die Hauptgutachten der Monopolkommission enthalten im Tabellenanhang Daten zum Stand der industriellen Konzentration in Deutschland .
22
1 . MERKMALE UND DATEN
Neben dem Statistischen Jahrbuch fur die Bundesrepublik Deutschland veroffentlicht das Statistische Bundesamt jahrlich das Statistische Jahrbuch fur das Ausland . Weitere wichtige internationale Statistiken werden von folgenden iibernationalen Institutionen and Organisationen gefiihrt and veroffentlicht :
• EUROSTAT, das Statistische Amt der Europaischen Union (www . europa . eu . int/comm/eurostat/),
• OECD
(www.oecd.org),
• Vereinte Nationen
(www . u m . org) .
Erganzende Literatur zu Kapitel 1 Die Grundbegriffe der beschreibenden Statistik werden in alien einschlagigen Lehrbiichern behandelt . Genannt seien Fahrmeir et al . (2003), Ferschl (1985), Bamberg and Baur (2002), Benninghaus (2005), Schira (2005) and Heiler and Michels (2004) . Die Methoden der Datenerhebung in der amtlichen and der nichtamtlichen Statistik werden ausfiihrlich in von der Lippe (1996) and Rinne (1996) beschrieben ; siehe auch Statistisches Bundesamt (1997) .
1 .5 .
AMTLICHE UND NICHTAMTLICHE STATISTIK
23
ABLAUF VON BUNDESSTATISTIKEN BUNDESMINISTERIEN Auftrag fur eine Bundesstatistik
Beratung and Beschluss der Rechtsgrundlage
Bundesregierung ∎ Bundesrat ∎ Bundestag
∎∎∎∎∎∎∎∎∎∎ ∎ ∎ ∎ ∎ ∎
∎
∎ ∎ STATISTISCHES BUNDESAMT 6 ∎ ∎ ∎ ∎ ∎ ∎ ∎∎ ∎ VORBEREITUNG Methodisch-technische Vorarbeiten (einschl . Mitw rkung beim Entwurf der Rechtsgrundlage) Plan fur Erhebung and Aufbereitung Zusammenstellung der Landesergebnisse zu Bundesergebnissen VERO1 N ENTLICHUNG ∎ ∎
∎ ∎ STATISTISCHER BEIRAT Beratung des statistischen Programms
•• • •• • • • •
• • •
STATISTISCHE LANDESAMTER ∎ ∎ ∎ ∎ ∎ ∎ ∎ • ERHEBUNG UND AUFBEREITUNG
Aufbereitung der Ergebnisse
∎ im Beirat:
• Auftrag∎ ∎ • • • • ∎ ∎
geber, Durchfihrende, Benutzer, Befragte
∎ ∎ ∎ ∎ ∎ ∎
Feststellung der Befragten Durchfiihrung der Zahlung
• Vertreten ∎
Befragte zum Teil unter Mitwirkung der Gemeinden
der Lan ung Landwesere ergebnisse
Abbildung 1 .1 : Durchfiihrung einer Bundesstatistik (Quelle : Statistisches Bundesamt (1997)) .
Kapitel 2
Auswertung von eindimensionalen Daten Dieses Kapitel behandelt Methoden zur Untersuchung eines einzelnen Merkmals in einer Grundgesamtheit . G = { el, e2, . . . , e n } bezeichnet die Grundgesamtheit and X das zu untersuchende Merkmal . Wenn nicht anders vermerkt, sind die Daten in einer Urliste x1, x2, . . . , x n gegeben, worm xi den Wert des Merkmals X bei der Einheit ei bezeichnet, i = 1, 2, . . . , n . Im Folgenden werden verschiedene Verfahren zur Beschreibung and Auswertung der Daten dargestellt . Um die Verfahren in eine sinnvolle Reihenfolge zu bringen, gehen wir nach dem Skalenniveau von X vor .
2 .1
Beliebig skalierte Daten
Daten sind immer mindestens nominalskaliert . Die in diesem Abschnitt erlauterten Verfahren gelten fur beliebig skalierte Daten ; sie benotigen kein hoheres Skalenniveau als das der Nominalskala .
6,
Das Merkmal X besitze J verschiedene Merkmalswerte, die wir mit ~1, ~j bezeichnen . Fur jeden Merkmalswert berechnet man die absolute and die relative Haufigkeit, mit der er in den Daten vorkommt :
... .
• absolute Haufigkeit von ~j nj = Anzahl der Daten mit Merkmalswert ~ j , 25
j
= 1, . . . , J,
26
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
•
relative Haufigkeit von ~j
fj
=
nj
= Anteil der Daten mit Merkmalswert ~j ,
j = 1, . . . , J .
fj < 1 fur alle j, and es ist Offenbar gilt 0 < < n and 0 < -nj - sowie
•
j=1
j=1
= n
fj = 1 .
Diskrete Klassierung Die Folge der Merkmalswerte mit ihren absoluten Haufigkeiten, (~1, n1), (S2, n2), . . . , (SJ, nJ) , wird als diskrete Klassierung der Daten bezeichnet .
•
Unter einer Haufigkeitstabelle versteht man die folgende tabellarische Darstellung :
j 2
nj fj = nj /n e2 n2
f2
nJ
fJ 1
n
Beispiel „Verkehrsmittel": Die Grundgesamtheit bestehe aus 20 Beschaftigten eines Kolner Betriebs . Merkmal sei das fur den Weg zur Arbeitsstatte benutzte Verkehrsmittel . 61 62 63 6 65
1 (KVB) 2 (PKW) 3 (Motorrad) 4 (Fahrrad) 5 (zu Fuf3)
Urliste : 1, 1, 2, 2, 2, 4, 3, 5, 2, 2, 5, 2, 4,1,1, 2, 2, 1, 2,1 Haufigkeitstabelle : ~j KVB PKW Motorrad Fahrrad zu Fuf3
6
6/20
9 2 2
9/20 1/20 2/20 2/20
20
1
1
2 . 1 . BELIEBIG SKALIERTE
DATEN
27
Saulendiagramm and Kreisdiagramm dienen dazu, die Haufigkeiten graphisch darzustellen . Abbildung 2 .1 and 2 .2 zeigen die Diagramme der absoluten Haufigkeiten des Beispiels . Entsprechende Diagramme sind auch fur die relativen Haufigkeiten in Gebrauch . Als Stabdiagramm bezeichnet man ein Saulendiagramm, das an Stelle der ,Sdulen" senkrechte Striche aufweist . Saulendiagramm 109B7654320
Abbildung CEL)
KVB
2 .1 :
PKW
M--d
Fah,, .d
..Fu6
Graphische Darstellung durch ein Saulendiagramm (- --f EX-
Ein Merkmalswert ~j heifit Modus, wenn seine Haufigkeit mindestens so groE wie die der ubrigen Merkmalswerte ist, d .h . wenn n j > nk fur alle k gilt . Im Beispiel ist t;2 = PKW der einzige Modus . Im Allgemeinen konnen Daten mehrere Modi aufweisen . Ob ein Merkmalswert ein Modus ist, hangt offenbar nur von den Haufigkeiten ab and nicht von der speziell gewahlten Skala, d .h . von der Kodierung der Auspragungen (- EXCEL') . Beispiel ,Bundesliga" : Wir interessieren uns fur die Zahl der Tore, die in Spielen der Fuflballbundesliga erzielt werden, and zwar getrennt nach Heimund Gastmannschaften . Grundgesamtheit sind die Bundesligaspiele der Saison 2000/01 . Dabei bezeichne X die Zahl der Tore der Heimmannschaft and Y die der Gastmannschaft in einem Spiel . Die folgende Ubersicht enthdlt die Hdufigkeitsverteilungen beider Merkmale X and Y . Die erste Spalte gibt die Merkmalswerte (= Zahl der Tore j) an, die zweite die absoluten Haufigkeiten nj (X) von X, die dritte die absoluten Hdufigkeiten n j (Y) von Y, j =0,1, . . .,6 . ' Das Symbol -- EXCEL bedeutet, dass die betreffende statistische Formel oder Graphik mit dem Programm Microsoft Excel am PC berechnet werden kann . Excel ist ein eingetragenes Warenzeichen der Firma Microsoft . Die Rechenschritte am PC sind im Anhang zum jeweiligen Kapitel erlautert .
28
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN zu FuR 10%
PKW 45%
Abbildung 2 .2 : Graphische Darstellung durch ein Kreisdiagramm (y EXCEL) Tore j
nj (X)
nj (Y)
E
306
306
64 89 69 42 26 11 5
105 106 54 28 12 1 0
Wie man sieht, sind sowohl der Modus von X (Torerfolge der heimischen Mannschaft) als ouch der von Y (Torerfolge der gastierenden Mannschaft) gleich 1 .
2 .2
Mindestens ordinalskalierte Daten
In diesem Abschnitt nehmen wir an, dass X (mindestens) ordinalskaliert ist . Fur die Merkmalswerte gibt es dann eine natiirliche Ordnung . Ober die in Abschnitt 2 .1 eingefuhrten Begriffe hinaus kann man weitere Mafizahlen definieren, mit denen sich die Daten naher beschreiben lassen .
2 .2 .
MINDESTENS ORDINALSKALIERTE DATEN
29
Fur ein beliebiges x E R betrachtet man den Anteil der Daten XI, x2 i . . . , die kleiner oder gleich x sind . Sei
F(x)
=
Anteil der Daten
_ fiIxi:5 x}) n
xn ,
< x
_
fr
Die Funktion F(x), x E 11k, wird als empirische Verteilungsfunktion der Daten bezeichnet . Man nennt sie auch kurz die Verteilungsfunktion der Daten . Wenn Daten in einer Urliste gegeben sind, ermittelt man F(x) durch Abzahlen der Beobachtungswerte, die kleiner oder gleich x sind, and anschliefbende Division durch n . Wenn diskret klassierte Daten gegeben sind, wird F(x) durch Addition der entsprechenden relativen Haufigkeiten berechnet .
Beispiel,,Klausurnoten I": 16 Studierende erzielten in einer Klausur die folgenden (ganzzahligen) Noten : 3, 4, 2,1, 2, 4, 5, 5, 2, 1, 4, 5, 3, 3, 2, 4 . Indem wir die aufsteigend geordneten Noten von unten abzahlen, erhalten wir die Werte der Verteilungsfunktion an den Stellen 1, 2, 3,4 and 5, F (1) F(2) F(3)
16 = 0, 1250 ,
= 6 = 0, 3750 , = 6 = 0,5625,
F(4)
16 = 0, 8125 ,
F(5)
l.
Die Verteilungsfunktion ist in Abbildung 2 .3 dargestellt . Die empirische Verteilungsfunktion F ist generell fur alle x ist monoton wachsend, das heilt, fur alle x1, x2 E R gilt
F(xl) < F(x2),
wenn
c
R definiert . Sie
x1 < x2 .
Die Verteilungsfunktion ist eine Treppenfunktion, d .h . stuckweise konstant . Die Spriinge erfolgen an jenen Stellen, die als Daten in der Urliste vorkommen, and die Sprunghohe an einer Stelle x = ~j ist gleich der relativen Haufigkeit des Wertes ~j in der Urliste . Die empirische Verteilungsfunktion ist rechtsstetig, d .h . der Funktionswert an einer Sprungstelle ist gleich dem Grenzwert der Funktionswerte, wenn man das Argument x von rechts der Sprungstelle nahert . Wenn nur die empirische Verteilungsfunktion der Daten bekannt ist, lassen sich daraus die beobachteten Merkmalswerte and ihre relativen Haufigkeiten
30
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
0
1
2
J
4
5
6
Abbildung 2 .3 : Verteilungsfunktion im Beispiel „Klausurnoten I" (- EXCEL) ermitteln . Durch Multiplikation mit n erhalt man die absoluten Haufigkeiten . Also enthalt, wens n gegeben ist, die empirische Verteilungsfunktion die gleiche Information wie die diskrete Klassierung der Daten . Urn die Verteilungsfunktion zu berechnen, geniigt es, class die Daten in diskreter Klassierung (mit absolutes oder relativen Haufigkeiten) gegeben sind . Hierzu ein Beispiel :
Beispiel „Klausurnoten II": Die Diplom-Vorprlifung zu ,Statistik A" an der Wirtschafts- and Sozialwissenschaftlichen Fakultdt der Universitdt zu Koln ergab im Sommersemester 1998 die folgenden Ergebnisse : Ergebnis Note ,sehr gut" Note „gut" Note ,befriedigend" Note ,ausreichend" Note ,mangelhaft" ,,nicht erschienen"
Hdufigkeit
6
63
131 143 177 39
559
2 .2 .
31
MINDESTENS ORDINALSKALIERTE DATEN
Wie Bind die Daten skaliert? Berechnen Sie, wenn moglich, die Verteilungsfunktion . Losung: Die Daten sind nur nominalskaliert ; dies liegt an der Ausprdgung ,,nicht erschienen". Beschrankt man die Analyse, and damit die Grundgesamtheit, auf die Kandidaten, die wirklich zur Klausur erschienen sind, erhalt man die folgende Tabelle :
E
1 2 3 4 5
(,,sehr gut") (,,gut") (,,befriedigend") (,,ausreichend") (,,mangelhaft")
in % 1,15 12,12 25,19 27,50 34,04 100,00
fj -'I n
6 63 131 143 177 520
F(~j ) in % 1,15 13,27 38,46 65,96 100,00
Die Verteilungsfunktion der so eingeschrankten Daten lautet :
F(x) =
0, 0,0115 0,1327 0,3846 0, 6596 1,0000
, , , , ,
falls x < 1 , falls 1<xx[n/2]+1] ist dazu in gleicher Weise geeignet . Wahrend wir hier den Median als den linken Eckpunkt des Intervalls definieren, sind in der Literatur auch andere Definitionen zu linden . Haufig wird die Mitte des Intervalls [x[~/2],x[n/2]+1] als Median bezeichnet . 3 Hinweis : In der statistischen Literatur findet man auch andere Definitionen des Boxplots, bei denen statt min xi and max xi bestimmte Quantile angegeben werden .
34
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
min x i
XO,25
XO,5
max x i
x0,75
Abbildung 2 .4 : Boxplot
mit Pradikat
ohne Pradikat
20
25
30
35
40
45
50
55
60
T €
Abbildung 2 .5 : Vergleich zweier Boxplots
2.3 .1
Lagemessung
Eine der wichtigsten Aufgaben der beschreibenden Statistik besteht darin, die allgemeine Lage von Daten auf der Merkmalsachse durch eine Zahl zu beschreiben . Im Folgenden ziehen wir zur Lagemessung verschiedene Mittelwerte heran . Arithmetisches Mittel Das am weitesten verbreitete Lagemafl fur metrisch skalierte Daten x1 i x2, . . . , x n ist das arithmetische Mittel
n x=-n1 ~ xi . i=1 Es wird oft auch einfach als Mittelwert oder Durchschnitt der Daten bezeichnet ('--3 EXCEL) . Wir diskutieren nun die wichtigsten Eigenschaften von
x.
35
2.3. METRISCHSKALIERTE DATEN 1. Aus der Definition folgt sofort fur die M e r k m a l s s u m m e :
n Summanden
ELl
x, so Dies kann man so interpretieren: Wird die Merkmalssumme auf die Merkmalstrager umverteilt, dass jeder das gleiche erhalt, dann erhalt jeder gerade Z. 2. Das arithmetische Mittel liegt zwischen dem grogten und dem kleinsten Wert der Daten:
< Z < max {xI,.. . ,x , ~ ~ }
min { X I , . . . , x,}
Sind alle Daten gleich, d.h. xl = x2 = . . . = xn
=
x, gilt natiirlich
-
x = Z.
3. Es ist
n
n
d.h. die Abweichungen dcr Daten vom arithmetischen Mittel Z heben sich gegenseitig auf. 3 nennt man deshalb auch den S c h w e r p u n k t der Daten.
4. Fur Z gilt
n
n
d.h. die Summe der quadratischen Abweichungen der Daten von einem festen Punkt c ist am kleinsten fiir c = Z. (Beweis: ubung fur den Leser !)
5. Werden alle Daten x i durch yi transformiert, so gilt
=
a
+ bx, (mit a , b E
R) affiri-linear
d.h. das arit,hmetische Mittel transformiert sich wie die Einzeldaten. Das folgende Beispiel illustriert die Eigenschaft 5.
Beispiel ,,Handwerksbetrieb"::Der durchschnittliche Monatslohn der Beschiiftiyten i n einem Handwerksbetrieb sei 2300 €. Im Dezember erhalt jeder Beschiiftigte (als Weihnachtsgratifikation) zusutzlich
36
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
•
einen Pauschalbetrag von 300 ,E,
•
einen lohnabhiingigen Zuschlag von 20% .
Wie grof3 ist der Durchschnittslohn im Dezember? Unter Verwendung der Eigenschaft 5 mit a = 300 and b = 1, 2 ergibt sich
YD,,
= 300 + 1, 2 . 2300 = 3060 .
Berechnung aus diskret klassierten Daten Die Berechnung von x kann auch ohne Ruckgriff auf die einzelnen Daten der Urliste erfolgen . Es mussen lediglich die Haufigkeiten bekannt sein, mit denen die Merkmalswerte 1 > . . . , bJ in den Daten vorkommen . Gegeben seien die absoluten Haufigkeiten
(e1, nl), (~2, n2), . . . , (~ J, nJ)
oder, alternativ, die relativen Haufigkeiten
(S1, f1), (S2, f2), . . . , (~ J, fJ) . Dann berechnet man das arithmetische Mittel so :
Beispiel,,Jugendliche" : In den n = 1230 Haushalten eines Vorortes wurde die Anzahl der Jugendlichen (unter 18 Jahren) gezdhlt. Aus der Urliste wurde die folgende Haufigkeitsverteilung erstellt (~ j = Anzahl der Jugendlichen im Haushalt ; nj = Anzahl der Haushalte) :
0 1
2 3 4
5 and mehr
500 550 100 50
30 0
1230
Der groflte vorkommende Merkmalswert ist 4 . Wir haben deshalb J = 5 Summanden zu addieren . Die durchschnittliche Anzahl der Jugendlichen Pro Haushalt belauft sich auf x
1230 (0
.500+1 .550+2 . 100+3 . 50+4 . 30)=0,83 .
2 .3 .
METRISCH SKALIERTE DATEN
37
Offenbar hat das arithmetische Mittel hier - wie in vielen anderen Beispielen - einen Wert, den das Merkmal selbst nicht annehmen kann . Gewichtete Mittel Beim arithmetischen Mittel werden alle n Daten der Urliste in gleicher Weise behandelt, indem man sie aufsummiert and die Summe durch n teilt . Eine Verallgemeinerung des arithmetischen Mittels bilden die gewichteten Mittel . Sie haben die Form
mit Gewichten wi > 0 fur alle i and tetes Mittel zum Gewichtsvektor
F_', wi
= 1 . Man nennt
xw
gewich-
w = (wI, W2, . . . , W") . Die Gewichte w1, w2, . . . , w,,, sind fur die jeweilige Anwendung geeignet zu wahlen . Speziell, wenn alle Gewichte den gleichen Wert haben, ist der Gewichtsvektor w = ( 1/n,1/n, 1/n, .,1/n) and man erhalt das gewohnliche arith. metische Mittel, x w = E i 1 nxi = x •
Beispiel : Im Beispiel ,Fernsehgerdt" des Abschnitts 0.1 .1 war aus den Verkaufspreisen in zehn Geschdften ein mittlerer Preis zu bestimmen . Es liegt nahe, ein gewichtetes Mittel zu verwenden, bei dem das Gewicht des i-ten Geschdfts seiner Grole Gi (gemessen etwa durch die Verkaufsfldche oder den Umsatz) entspricht . Man wdhlt dann die Gewichte gleich den relativen Groflen, wi = Gi/ r nj1 C3 .
Getrimmte Mittel In das arithmetische Mittel x geht jeder Beobachtungswert x i mit dem Gewicht 1/n ein . Wenn nun ein Beobachtungswert sehr weit - nach oben oder unten - von den iibrigen entfernt ist, hat sein Beitrag einen groEen Einfluss auf x. Man sagt, class das arithmetische Mittel nicht robust gegeniiber so genannten Ausreii3ern ist . Einen robusteren Mittelwert konstruiert man, indem man die Daten trimmt, d .h . einen bestimmten Anteil ,extremer" Werte weglasst . Wir setzen voraus, dass die Daten bereits aufsteigend geordnet sind, also xl < x2 < . . . < x n gilt . Wenn man den Anteil a der Daten (mit 0 < a < 1/2) oben and unten weglasst and das arithmetische Mittel aus den verbleibenden Daten berechnet, erhalt man das a-getrimmte Mittel xa .
Beispiel : Fur die Daten x1 = X2 = X3 = X4 = X5 =
- 27
1
4 5 10
x6 = x7 X8 = X9 = x10 =
12 14 20 25 300
38
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
ist das arithmetische Mittel gleich x
10
(-27+1+4+5+10+12+14+20+25+300)=36,4
and das 0,1-getrimmte Mittel gleich To , 1
= 8
(1+4+5+10+12+14+20+25) = 11,375 .
Der Einfluss der beiden Ausreifler xl = -27 and x10 = 300 wurde eliminiert .
Die allgemeine
Formel fur das a-getrimmte Mittel lautet
wobei [na] den ganzzahligen Teil
von
na bezeichnet . Es
ist ein gewichtetes
Mittel mit Gewichten wi = 1/(n - 2[na]) fur i = [na] + 1, . . . , n - [na] and
wi = 0 sonst .
Im vorigen Zahlenbeispiel war a = 0, 1, wegen n = 10 gilt also [na] = 1 .
Median and Modus Weitere MaEzahlen
der Lage von metrischen Daten
sind der Median and - falls er eindeutig bestimmt ist - der Modus . Beide
sind bereits fur ordinal- bzw . nominalskalierte Daten definiert . ist besonders robust gegeniiber Ausreif3ern .
Der Median
Betrachtet man die Haufigkeiten nj als Haufigkeitsfunktion Sj H nj, definiert auf der Menge der angenommenen Werte {6, 6, . . . , ~J}, so ist der Modus absolutes Maximum dieser Funktion . Wenn die Haufigkeitsfunktion nur ein absolutes Maximum and keine weiteren lokalen Maxima besitzt, sagt man, die Daten seien unimodal verteilt . Beispiel : Der Median im vorigen Zahlenbeispiel betragt
xo,5 = 10 . Modus ist
jeder der beobachteten Werte ; den Modus als Lagemaf3 zu verwenden, macht deshalb hier keinen Sinn .
In der statistischen Praxis wird meistens das arithmetische Mittel x angegeben, um die Lage der Daten zu beschreiben . Haufig wird zusatzlich der Median xo,5 and - falls er eindeutig ist - der Modus berechnet . Demgegeniiber sind getrimmte Mittel im Bereich der Wirtschafts- and Sozialwissenschaften weniger verbreitet ; dies liegt an der Schwierigkeit, den Trimmparameter a
geeignet zu wahlen . Zu bedenken ist auch, dass,,Ausreilmer" fur den Fachwissenschaftler oft besonders interessante Daten sind ; sie diirfen deshalb in der statistischen Analyse nicht ohne weiteres unterdriickt werden . Begriff des LagemaRes Das arithmetische Mittel, die getrimmten Mittel and allgemein die gewichteten Mittel beschreiben die Lage der Daten ; sie
2.3.
METRISCH SKALIERTE DATEN
39
werden deshalb als Lagemafie bezeichnet . Man mag sich fragen, was denn das Wesen eines Lagemates ausmacht, d .h . welche Eigenschaften eine Mafizahl aufweisen muss, damit man sie als Lagemafi bezeichnen kann . Die allgemeine Definition lautet : Eine Mafizahi ist ein Lagemall, wenn sie affin aquivariant ist . Dies bedeutet Folgendes : Bezeichnet m (xl, . . . , x,,,) die Mafizahl, so soil fur beliebige Zahlen a and b E R, b > 0, gelten :
m(a+bxl, . . .,a+bx,,,) =a+bm(xl, . . .,x,,,) . Ein Lagemafl wird, wenn man die Daten mit einem Faktor multipliziert oder ihren Nullpunkt verschiebt, in gleicher Weise transformiert . Wie man leicht nachpruft, sind die bisher aufgefiihrten Mittelwerte sowie Median and Modus affin aquivariant .
2 .3 .2
Weitere Mittelwerte
Wenn die Daten ein hoheres metrisches Skalenniveau besitzen, lassen sich weitere Mittelwerte bilden . Die fur die okonomischen Anwendungen wichtigsten sind das harmonische and das geometrische Mittel . In diesem Abschnitt nehmen wir an, class x1, x2 i . . . , xn mindestens verhaltnisskaliert and dass alle Werte positiv sind, also xi > 0 fur i = 1, . . . , n . Das harmonische Mittel ist definiert als (~--~ EXCEL)
Das harmonische Mittel ist also der Kehrwert des arithmetischen Mittels der Kehrwerte der Daten xi.
Beispiel „Heizol": Ein Hausverwalter kauft Heizol fiir ein Haus . In drei aufeinander folgenden Heizperioden gibt er jeweils 4000€ dafzir aus . Die Preise pro Liter betragen : erste Heizperiode zweite Heizperiode dritte Heizperiode
0, 30 €/Liter,, 0, 35 €/Liter,, 0, 32 €/Liter .
Wie viel € pro Liter Heizol wurde in den drei Heizperioden durchschnittlich aufgewandt?
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
40
Den Durchschnittspreis (in € pro Liter) berechnet man so : 3 .4000
Ausgaben fur Heizol (in €)
4000 + 4000 + 4000 0,3 0,35 0,32
Menge (in Liter)
3 0,3 + 0,35 + 0,32
(3 (0,1 3 + 0,35 + 0,132) 0,3220
€
L Liter
Der durchschnittliche Preis pro Liter ergibt sich also als harmonisches Mittel der Preise in den drei Heizperioden . Man beachte, dass in diesem Beispiel nicht die Anzahl der gekauften Liter, sondern der ausgegebene Betrag vorgegeben war. Ein weiteres Beipiel fur die Anwendung des harmonischen Mittels findet sich im Kapitel 4 im Zusammenhang mit Indizes vom Typ Paasche . Das geometrische Mittel ist definiert als (_--> EXCEL)
TG = VXI •
x2 ' . . .
xn =
n
11 xi
i=1
Es lasst sich auch in der folgenden Form schreiben :
xG
n i=1
exp
xi
= exp n x= 1
Also gilt In TG
= -
In
n i=1
In
n i=1
n
xi
xi) .
In xi = In xi ,
der Logarithmus des geometrischen Mittels ist das arithmetische Mittel der logarithmierten Daten . Das geometrische Mittel wird vor allem bei der Berechnung von durchschnittlichen Wachstumsfaktoren and Wachstumsraten (siehe Kapitel 4) angewandt . Wir geben hier nur ein einfaches Zahlenbeispiel an :
2 .3 .
METRISCH SKALIERTE DATEN
41
Beispiel : Das geometrische Mittel von xl = 0, 6, ist
x2 = 0, 7
and
x3 = 0, 65
xG = ( 0, 6 . 0, 7 • 0, 65) 3 = 0, 6487 .
Berechnet man fur these Zahlen auch das arithmetische and das harmonische Mittel, so sieht man, dass x H = 0, 6474
< TG
= 0, 6487 < x
Tatsachlich kann man beweisen, dass immer
= 0, 65 .
< xG < x
xH
gilt . Die Gleichheit gilt genau dann, wenn alle x Z den gleichen Wert haben . (Beweis fur n = 2 : Ubung fur den Leser!) Berechnung aus diskret klassierten Daten Arithmetisches, harmonisches and geometrisches Mittel kann man auch berechnen, wenn nur eine diskrete Klassierung (~1, nl), (~2 i n2) , . . . , (~J, nJ) der Daten bekannt ist . Es ist dann x
=
xH
xG
n
j=1
n
=
J
~jn j J
j=1 ~j
j=1 1
J F- ~3 j=1
7
J t
fl Sj ~ j=1
j fj ,
=
l fj
l
1
J
~J j 1 1 ~Jh ' j=1
Fur Anwendungsbeispiele verweisen wir auf Kapitel 4 . Hier begniigen wir uns wieder mit einem Zahlenbeispiel . Beispiel : Aus der Urliste x 1 , . . . , x, eines verhdltnisskalierten Merkmals X wurde die nachfolgende diskrete Klassierung erstellt: 1 2 3
0,25 0,10 0,30 0,35
Man berechnet
x = xH xG
=
=
1 .0,25+2 .0,1+3 .0,3+4 .0,35=2,75, (1 -1 . 0,25+2 -1 . 0,1+3 -1 . 0,3+4 -1 . 0,35)
10,25 .20" . 3 0 ,3 .40 35 = 2 4208 .
1 =2,0513,
42
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Potenzmittel Neben den bisher genannten Mittelwerten, die alle zur Klasse der gewichteten Mittel zahlen, gibt es noch viele weitere Mittelwerte . Eine umfassende Familie von Mittelwerten bilden die so genannten Potenzmittel,
xP =
n
n z=1
P
P
i
Fur jede Zahl p =A 0 ist hierdurch ein Mittelwert der Daten definiert . Fur p = 1 erhalt man das arithmetische and fur p = -1 das harmonische Mittel . Durch eine kleine Rechnung lasst sich (unter Verwendung der Regel von de l'Hospital) zeigen, class sich fur p --> 0 als Grenzwert das geometrische Mittel ergibt . Weiterhin gilt lim
P->-00
p 2
lim
P-p+00
P
=
min {xl, . . .,xn},
= max{xl, . . .,xn} .
2 /
An einfachen Beispielen (Ubung fur den Leser!) lasst sich zeigen, dass das harmonische and das geometrische Mittel ebenso wie die Potenzmittel mit p :,,~ 1 nicht affin aquivariant, d .h . keine Lagemafle im Sinne der obigen Definition sind . Dennoch stellen auch these Maf?zahlen sinnvolle „mittlere Werte" dar .
2.3 .3
Streuungsmessung
Eine zweite Aufgabe der beschreibenden Statistik ist die Streuungsmessung . Sie besteht darin, zu beschreiben, wie weit die Daten auf der Merkmalsachse voneinander entfernt liegen oder um ein geeignet definiertes Zentrum der Daten streuen . Seien x1 i x2, . . . , x n metrische Daten wie bisher . Varianz and Standardabweichung Die am weitesten verbreiteten Matzahlen der Streuung sind die Varianz (auch einfach Streuung genannt)
and die Standardabweichung
2 .3.
METRISCH SKALIERTE DATEN
43
Um anzuzeigen, class Daten des Merkmals X zugrunde liegen, schreibt man auch s x and sx fur die Varianz bzw . die Standardabweichung . 4 Haben die Daten x1, . . . , x n eine Einheit (stellen sie z .B . Geldbetrage in Euro dar), so sieht man, dass
• x dieselbe Einheit hat, • s 2 die ,Einheit im Quadrat" hat, • s dieselbe Einheit hat . Die wichtigsten Eigenschaften von s 2 and s sind die folgenden : 1 . Es ist s 2 > 0 and s > 0 . Weiter gilt s 2 =0
s=0 < >
Die Varianz and auch die Standardabweichung sind also genau dann gleich null, wenn alle Daten den gleichen Wert haben . 2 . Durch Umformungen erhalt man fur s 2 : s2
n 1
(xi -
-
x) 2
n =
2 - 2xix +
i=1
1 n 2x- xi + x 2
n
= -
x2) - 2x 2 +
x2 ,
Diese Formel verwendet nichtzentrierte Summanden (- EXCEL) . Sie ist fur die konkrete Berechnung von s 2 giinstig, wenn die Mehrzahl der Daten dem Betrag nach nicht allzu grot ist . Ansonsten berechnet man s 2 besser nach seiner Definitionsformel mit zentrierten Summanden (----> EXCEL) . 3 . Weiter lasst sich zeigen, dass S2 =
1 2n
n
n
( i - xj) 2 .
4 Hinweis : Statt mit dem Faktor n werden die Varianz and die Standardabweichung gelegentlich mit dem Faktor nll definiert, besonders in manchen Taschenrechnern and statistischen Computerprogrammen . Eine Begrundung des Faktors nl11 ist nur im Rahmen der schlie1 enden Statistik moglich .
44
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN Jeder Summand stellt den quadrierten Abstand zweier Beobachtungen xi and xj dar . Die Varianz ist also proportional dem quadrierten Abstand von je zwei Beobachtungen . 4 . Seien a and b Zahlen in R . Die Daten x i mogen durch die afhn-lineare Transformation fur i = 1, . . .,n
yi = a + bxi
zu den Daten yi transformiert werden, i = 1, . . . , n . Dann gilt 2 22 BY = b SX ,
sy = UI SX .
Die Varianz and die Standardabweichung werden demnach von der,,Verschiebung" um a nicht beeinflusst . Der Faktor b hat jedoch sehr wohl einen Einfluss ; er geht als Faktor mit seinem Quadrat in die Varianz and mit seinem Absolutbetrag in die Standardabweichung ein . Zur Illustration dient das folgende Beispiel . Beispiel „Temperatur": Die mittlere Temperatur x an einer Wetterstation im Januar betrage 4°C (Grad Celsius) . Die Standardabweichung sx sei 7°C . Man gebe die mittlere Temperatur, die Standardabweichung and die Varianz in °F (Grad Fahrenheit) an . Mit yi = 32 + 1, 8x i fur die Temperaturen y j in °F erhalten wir
y = sy
=
s 22, =
32+1,8 .4=39,2 1,8 . 7=12,6
[° F],
[° F] ,
1,8 2 .72 = 158,76
1
[( ° F) 2 .
5 . Fur jede reelle Zahl c gilt der Verschiebungssatz
den man leicht nachrechnet : 1 i=1 n i=1 =
n
( i - c) 2=-
(
y)2
i=1
n
+2 1 n
[(xi -
x) + (x
- c)] 2
i-x)(x-C)+(x- C) 2
82 + (x - c) 2 .
Am Verschiebungssatz erkennt man wiederum die Minimumeigenschaft des arithmetischen Mittels : Die Summe der quadrierten Abweichungen von einem Bezugspunkt c ist minimal, wenn man c = 7 wahlt .
2 .3 .
METRISCH SKALIERTE DATEN
45
Zentrierung und Standardisierung von Daten Aus den Daten X1, X2, . . . , x n zum Merkmal X bildet man die zentrierten Daten x1 -
x,
x2 -
x, . . . ,
xn -
x
und die standardisierten Daten X,
-T
x2-x
sX
sX
,
•
xn
,
-x
SX
Offenbar ist das arithmetische Mittel der zentrierten Daten 0 und ihre Varianz betragt sX . Die standardisierten Daten weisen ebenfalls den Mittelwert 0 auf; ihre Standardabweichung ist 1 . Dies folgt aus der affinen Aquivarianz des Mittelwerts und der Eigenschaft 4 der Varianz . Zentrierung und Standardisierung werden verwendet, um Daten von zwei (und mehr) Merkmalen zu vergleichen . Will man von deren unterschiedlicher Lage absehen und nur die ubrigen Aspekte wie Streuung und allgemeine Form der Verteilung berucksichtigen, so untersucht und vergleicht man die zentrierten Daten . Will man auger vom Unterschied in der Lage auch von dem in der Streuung absehen, so vergleicht man die standardisierten Daten . Wichtige Magzahlen wie die Schiefe (siehe Abschnitt 2 .3 .5) und der Korrelationskoeffizient (siehe Abschnitt 5 .2 .1) sind so definiert, dass sie nur von den standardisierten Daten abhangen . Sie beschreiben bestimmte Aspekte der Daten, die nichts mit ihrer Lage und ihrer Streuung zu tun haben . Getrimmte Varianz und Standardabweichung Dadurch, dass in die Berechnung von s 2 und s quadrierte Abstande eingehen, werden sie besonders stark von ,Ausreigern" beeinflusst . Analog zum getrimmten Mittel definiert man deshalb (fur 0 < a < 1/2) eine a-getrimmte Varianz, 1 sa
n-[nn]
n - 2 [na]
i=[naj+1
(xz
sowie eine entsprechende a-getrimmte Standardabweichung, S a = S 2a . (Wie bei den getrimmten Mitteln setzen wir voraus, class die Daten aufsteigend geordnet sind .) In der beschreibenden Statistik werden noch weitere Magzahlen der Streuung verwandt . Die folgenden vier verhalten sich bei einer affin-linearen Transformation der Daten wie die Standardabweichung (siehe obige Eigenschaft 4) . Die verschiedenen Streuungsmalle unterscheiden sich unter anderem in ihrer Robustheit gegenuber etwaigen Ausreigern .
46
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Mittlere absolute Abweichung vom Median Die MaEzahl
heiRt mittlere absolute Abweichung vom Median ( -4 EXCEL) . Sie besitzt die folgende Minimumeigenschaft : I n i -x0,51 = min aER n i=1
i - aI
Ginis mittlere Differenz Die MaJ zahl
heiEt Ginis mittlere Differenz . Wie bei der Varianz (siehe obige Eigenschaft 3) werden hier die Abstande zwischen je zwei Beobachtungen gemittelt ; allerdings statt der quadrierten sind es die gewohnlichen Abstande . Es gilt o=-
n
n
i=1j=i+
Ixi - xj
I.
A spielt im Rahmen der Disparitatsmessung eine wichtige Rolle . Im Vergleich mit der Standardabweichung werden d and A in geringerem Malie durch Ausreiller beeinflusst, da in ihre Berechnung nicht die quadrierten, sondern die gewohnlichen Abstande eingehen . Quartilabstand Die Differenz zwischen dem oberen and dem unteren Quartil der Daten, Q = x0,75 - 5C0,25,
wird als Quartilabstand bezeichnet . Q ist die Spanne, die die mittleren 50 Prozent der Daten umfasst . Sie ist besonders robust gegenuber Ausreiflern, da die Werte, die die Daten im oberen and im unteren Viertel annehmen, keine Rolle spielen . Spannweite Die Differenz zwischen dem groflten and dem kleinsten Wert der Daten,
R = max xi i=1, . . .,n
min
i=1, . . .,n
xi,
heilt Spannweite (englisch : range) . R wird offenbar besonders stark von Ausreillern beeinflusst .
2.3.
47
METRISCH SKALIERTE DATEN
Beispiel : Fur die Daten - 27 1 4 5 10
x1 =
= X3 = X4 = x5 = X2
x6 = X7 =
= = x10 = x8 x9
12 14 20 25 300
ist das arithmetische Mittel x = 36, 4 . Die Varianz betragt 82
= -
x2
2=
=
01 • 92236 - (36,4) 2
=
7898, 64,
folglich gilt fur die Standardabweichung 8 = \/ s 2 =
88, 87 .
Das 0,1-getrimmte Mittel istTo,1 = 11, 375 . Als getrimmte Varianz berechnet man O2'1
=8
x2,1
z=2
• 1507 - (11,375 ) 2
=
58, 984 .
Mit x0,5 = xs = 10 ergibt sich die mittlere absolute Abweichung vom Median als 10
d
10
i-101 = 37,8 .
i-1
Fv,r Ginis mittlere Differenz erhalt man 2
10
10
100 Fz=1 j=i+1
i-xjI = 64,4 .
Der Quartilabstand betrdgt Q=xo,7s -
xo,25 =x$
- x3=20 - 4=16 .
Fur die Spannweite ergibt sich R = max xi i=1, . . . ,
min xi = 300 - (-27) = 327 .
in =1, . . .,n
2.
48
AUSWERTUNG VON EINDIMENSIONALEN DATEN
Interpretation von MaEzahlen der Lage and Streuung Wahrend sich die Werte von Mailzahlen der Lage (wie Mittelwert Y and Median xo,5) gut inhaltlich interpretieren lassen, ist das bei den Werten von StreuungsmaEzahlen nicht immer der Fall . Beispiel „Einkommensverteilung": Bei den n = 200 Beschaftigten eines Betriebes wurde das monatliche Brutto-Einkommen (in €) erhoben . Es ergab sich :
T
d
=
82 = s =
3 200 1170 3 348 900 1 830
Zur Interpretation der Maizahlen : x =
xo, 5 = A = Q = R
3200
=
2 900 1720 1 850 18 000
ist dasjenige Einkommen, das
jeder bei Gleichverteilung der gesamten Einkommenssumme erhalten wiirde .
xo,5 = 2900
teilt die Einkommensverteilung in zwei Halften : die unteren 50%
and die oberen 50% der Beschaftigten . Q =
1850
ist die Spanne, in der die
mittleren 50% der Beschaftigten mit ihren Einkommen liegen . R =
18000
ist die Spanne zwischen dem hochsten and dem niedrigsten Einkommen . Die Werte der restlichen Maf3zahlen d, s2 , s and A sind nicht so direkt and an-
schaulich interpretierbar. Sie konnen jedoch benutzt werden, um die Streuung dieser Einkommensverteilung mit der einer anderen zu vergleichen .
Zur Interpretation der Standardabweichung s kann man die folgenden Aussagen verwenden, die auf der so genannten Tschebyscheff-Ungleichung der Wahrscheinlichkeitsrechnung beruhen : • Im offenen Intervall ]x - 2s, T
+ 2s[ liegen mindestens 75% der Daten, d.h . auflerhalb dieses Intervalls liegen hochstens 25% der Daten .
• Im offenen Intervall ]x - 3s, T + 3s[ liegen mindestens y . 100% ~ 89%
der Daten, d .h . aul?erhalb dieses Intervalls liegen hochstens s 100% der Daten .
Berechnung aus diskret klassierten Daten Alle Streuungsmal?e lassen sich auch aus einer diskreten Klassierung berechnen . Es gelten die Formeln
2 .3 .
METRISCH SKALIERTE DATEN
49
Fur Q ergibt sich keine andere Formel als im Fall von unklassierten Daten . Begriff des Streuungsmafges Abschlietend sei die Frage gestellt, was ein Streuungsmat im eigentlichen Sinne ausmacht, d .h . welche Eigenschaften ein Streuungsmaf? charakterisieren . Man definiert ein Streuungsmaf3 als eine Mafmzahl m (xl, . . . , x,,), die
• lage-invariant , d .h . invariant in Bezug auf jede Nullpunktsverschiebung yi = xi + a (mit a E R), and • skalen-aquivariant, d .h . aquivariant in Bezug auf jede Maf3stabsanderung yj
bx i (mit b > 0), ist .
Zusammen bedeutet dies, class mit beliebigen Zahlen a E R and b > 0 gelten muss : m(a+bxl, . . .,a+bx,,,)=bm(xl, . . .,xn) . Man kann leicht zeigen (Ubung fur den Leser!), dass alle in diesem Abschnitt aufgefiihrten Malizahlen mit Ausnahme von s 2 lage-invariant and skalenaquivariant, also Streuungsmafle im definierten Sinne sind .
2 .3 .4
Additionssatze fur arithmetische Mittel and Varianzen
Die Problemstellung dieses Abschnitts lasst sich formal folgendermaflen beschreiben . In einer Grundgesamtheit G wurden die Daten x1 i x2, . . . , x,ti eines metrisch skalierten Merkmals erhoben . Die Grundgesamtheit zerfalle in
50
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
J Teilgesamtheiten Gl, . . . , Gj . Wie hangen die Mittelwerte xl J and . . ., 8 2 der Teilgesamtheiten G1, . . . , G j mit dem Mittelwert Streuungen s2, 1 x and der Streuung s2 der Grundgesamtheit G zusammen?
Beispiel „Arbeitslosigkeit": Im Rahmen einer Arbeitsbeschaffungsmaf3nahme fanden 100 Arbeitslose wieder Beschaftigung in einem Groflunternehmen . Sie wurden nach der Dauer X (in Monaten) der vorangegangenen Arbeitslosigkeit befragt . Es ergab sich fiir Frauen and Manner :
Anzahl Mittlere Dauer der Arbeitslosigkeit Standardabweichung der Arbeitslosigkeitsdauer
Frauen 60 9,2
4,1
Manner 40 7,4 3,2
In diesem Beispiel zerfallt die Grundgesamtheit von 100 Arbeitslosen nach dem Geschlecht in zwei Teilgesamtheiten . Wie kann man aus den Angaben der Tabelle die mittlere Dauer and die Standardabweichung aller 100 Arbeitslosen berechnen? Zur Herleitung der erforderlichen Formeln bezeichne G {1, 2, . . . , n} die Grundgesamtheit and G 1 , . . . , G j die Teilgesamtheiten . Die j-te Teilgesamtheit Gj habe den Umfang nj , j = 1, . . . , J . xj sei der Mittelwert aller Merkmalswerte, die zu Merkmalstragern in G j gehoren, d .h .
xj
=1 nj
xi . ieGj
Es ist dann
Die Formel
lasst sich leicht interpretieren : Das Gesamtmittel x ist ein gewichtetes Mittel der Mittelwerte der Teilgesamtheiten xj . Die Gewichte entsprechen dabei den Anteilen der Umfange der Teilgesamtheiten G ; am Umfang der Grundgesamtheit G .
51
2 . 3 . METRISCH SKALIERTE DATEN
Die Herleitung einer entsprechenden Formel fur s 2 ist etwas aufwandiger . Es gilt s2
=1 iEG~ + xj
=1
x) z
-x ) 2
_)2+2( xi - xj)(xj - x)] i - xj) 2 + (x; - x
j=1 iEG 3 J
-
i
2
=1 iEGg
1 J +2n j=1 iEG~
-
1 +-
=1 iEG3
j) (j
- x)
= 0 fur alle j
j=1
7 72
s nt
x)2 -j
7Z ~
j=1 se=t
2 S2 = S 2int + Sext
Diese Formel, der Varianzzerlegungssatz, lasst sick gut interpretieren . Die Gesamtstreuung besteht aus zwei Teilen, namlich
• der internen Variant s nt , die emn gewichtetes Mittel aus den Varianzen s~ der Teilgesamtheiten Gj ist, Bowie
• der externen Variant sext, die emn gewichtetes Mittel der quadrati-
schen Abweichungen (xj - x) 2 der Mittelwerte xj der Teilgesamtheiten Gj vom Gesamtmittel x ist .
Gewichte sind jeweils die Anteile , d .h . die Anteile der Umfange der Teilgesamtheiten Gj am Umfang der Grundgesamtheit G . Die Extremfalle kann man folgendermaiien charakterisieren :
• slu t = 0 (d .h . s 2 = next) bedeutet, dass es innerhalb alley Teilgesamt-
heiten Gj keine Streuung gibt, d .h . alle Merkmalswerte, die zu Merkmalstragern einer Teilgesamtheit Gj gehoren, sind gleich .
52
2.
AUSWERTUNG VON EINDIMENSIONALEN DATEN
• Falls sext = 0, d .h . s 2 = s nt ist, sind alle Mittelwerte
xj gleich . Zwischen den x~ gibt es dann keine Streuung . Die Gesamtstreuung s 2 beruht ausschliefblich auf der Streuung innerhalb der Teilgesamtheiten .
Im obigen Beispiel „Arbeitslosigkeit" ist x
=
7,4 00 +9,2 00
2 sins
=
40 60 3, 22 . + 4,1 2 . 100 = 14,182 Monate2 ] , 100
sext
=
s2 = s =
8,48 [Monate] ,
(7,4 - 8, 48)2 . 00 + (9,2 - 8, 48)2 . 00 slat + sext = 14, 9596 [Monate 2] ,
0,7776 [Monate2] ,
3, 9 [Monate] .
Die Streuungszerlegung s 2 = s nt + sext gibt Anlass zur Definition einer Mallzahl 2 B = sext s2 die man als „Anteil der externen Streuung an der Gesamtstreuung" umschreiben kann and die als Bestimmtheitsmaf~ bezeichnet wird . Sie gibt denjenigen Anteil an der Gesamtstreuung s 2 an, der sick durch die Einteilung der Grundgesamtheit in Teilgesamtheiten begrunden last . Offensichtlich ist 0 x~ .
Innerhalb der Klassen wird linear interpoliert, d .h . fur x E]x~ , x~ ] setzt man (y EXCEL)
(Diese Formel lasst sick auf den aus der Geometric bekannten „Strahlensatz" zuriickfi hren .) Im Beispiel „Studierende" kann die empirische Verteilungsfunktion an den Klassenobergrenzen exakt bestimmt werden; die Klasse K5 erhalt daze wieder die Obergrenze 1500 . Es ergibt sick : j 1 2 3 4 5
Einkommensklasse K~ 0 bis 250 mehr als 250 bis 500 mehr als 500 bis 750 mehr als 750 bis 1000 mehr als 1000 bis 1500
0,06 0,20 0,40 0,20 0,14
F(x?)
0,06 0,26 0,66 0,86 1,00
Zwischen den Klassengrenzen wird linear interpoliert . Abbildung 2.7 stellt die so interpolierte Verteilungsfunktion dar . Beispielsweise ist
F(650)
0,26 + 75 '
-
00 (650 - 500) = 0, 50 .
Quantile Mit Hilfe der (interpolierten) empirischen Verteilungsfunktion kann das p-Quantil x p der stetig klassierten Daten naherungsweise bestimmt werden . Wir nehmen an, dass keine Klasse die Haufigkeit 0 besitzt . Dann wachst
58
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
F(x)
Abbildung 2 .7 : Linear interpolierte Verteilungsfunktion die Verteilungsfunktion im gesamten Intervall sie auEerdem stetig ist, hat die Gleichung
[xi, z,]
streng monoton . Da
F(x) = p fur jedes 0 < p < 1 eine eindeutige Losung, namlich x, . Zur konkreten Berechnung von x p geht man so vor :
•
Erster Schritt : Bestimme die Klasse K~, in der x P liegt, d .h . bestimme dasjenige j, fur das F (x~) < p < F (x~) gilt .
•
Zweiter Schritt : Lose die Gleichung
p=F(x~)+ (xofjxu) (x - x) nach x auf. Man erhalt
Im Beispiel „Stndierende" liegt offenbar der Median xo,5 in der Klasse ncit Index j = 3 . Es ist xo,5 = 500+
]500, 750]
0,5 - 0 26 250=650 [€] . 0 4'
Arithmetisches Mittel her kann man auf die Formel aus Abschnitt 2 .3 .4 zuruckgreifen, indem man jede Klasse K3 als Teilgesamtheit G ; auffasst .
2 . 3.
METRISCH SKALIERTE DATEN
59
Wenn die tatsachlichen Klassenmittelwerte Tj bekannt sind, last sick x exakt berechnen als
Sind die xj nicht bekannt, so ersetzt man xj durch einen geeigneten Stellvertreter, in der Regel durch die Klassenmitte x~ + x~
~j = 2
Dann gilt approximativ (y EXCEL)
Wir ersetzen im Beispiel „Studierende" die unbekannten Mittelwerte xj der Klassen durch die Klassenmitten and erhalten
b0
(125 3+375 • 10+62520+87510+ 1250 7) = 682,50
[€1 .
Hierbei haben wir die Randklasse wiederum durch 1500 abgeschlossen.
Streuung Wir greifen auf den Varianzzerlegungssatz aus Abschnitt 2 .3 .4 zuruck, indem wir die Klassen Kj wiederum als Teilgesamtheiten Gj auffassen . Falls xj and s~ bekannt sind, kann man die Variant s 2 als Gesamtstreuung exakt ausrechnen . Es ist s2
n s? + j=1 In j=1
- x)2
nj
n
.
In der statistischen Praxis sind manchmal die Klassenmittelwerte xj bekannt, die internen Varianzen s~ jedoch so gut wie nie . Je nachdem, was bekannt ist, verwendet man die folgenden Approximationsformeln fur s 2 . Falls die Klassenmittelwerte bekannt sind, die internen Varianzen aber nicht, setzt man approximativ s~ 0 and erhalt
Diese Approximation ist immer kleiner als die wahre Variant . Wenn einzelne Klassen relativ breit sind, kann der Naherungsfehler erheblich sein .
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
60
Falls sowohl die Klassenmittelwerte als auch die internen Varianzen unbekannt sind, verwendet man die entsprechende Formel mit den Klassenmitten anstelle der Mittelwerte,
In diesem Fall kann die Approximation kleiner oder grofler als der wahre Wert der Variant sein (- EXCEL) . Wenn man im Beispiel „Studierende" die Varianzen innerhalb der Klassen
vernachlassigt, erhalt man s2
(125 - 682, 50)2
3 50
+ (375 - 682, 50)2 10 + (625 - 682, 50)2 20 50 50
+ (875 - 682, 50) 2 50 + ( 1250 - 682, 50)2 50 = 91381, 25 [€ 2 ], s
302 [€] .
In ahnlicher Weise lassen sick auch die ubrigen Streuungsmafle aus stetigen Klassierungen berechnen . Bei der naherungsweisen Berechnung von Werten der empirischen Verteilungsfunktion, Quantilen, Mittelwerten and Varianzen aus stetig klassierten Daten konnen - gegenuber der exakten Berechnung aus der Urliste - erhebliche Fehler entstehen, was bei der Interpretation zu berucksichtigen ist . Sofern die Urliste zur Verfugung steht, sollten deshalb alle statistischen Groflen direkt aus der Urliste berechnet werden . Mit den heutigen Mitteln der Datenverarbeitung stellt dies auch bei groflen Datensatzen kein Problem dar .
2.3 .6
Schiefemessung
Neben der Lage and der Streuung der Daten sind weitere Aspekte ihrer Verteilung von Interesse . Man beschreibt sic mit Hilfe von Maf?,zahlen, die sick auf die Form der Verteilung beziehen . Im Folgenden betrachten wir zwei solche Maflzahlen, die die Schiefe der Verteilung, namlich ihre Abweichung von einer symmetrischen Verteilung beschreiben . Die Daten der Urliste seien bereits aufsteigend geordnet, d .h . xl < x2 < . . . < x~ . Um die Symmetric zu definieren, beziehen wir die Daten auf einen zentralen Punkt, xze n tr -
xi ,
falls n ungerade,
a (x 2 + x ~-- ZZ ) ,
falls n gerade .
2 .3 .
61
METRISCR SKALIERTE DATEN
Fur ungerades n ist xzentr gleich dem Median der Daten . Die Verteilung der Daten x 1 , . . . , x n heil3t symmetrisch, wenn fur alle i
xzentr - xi - 'm -i+1 - xzentr gilt . Das heilit, die i-te Beobachtung von unten, xi, and die i-te Beobachtung von oben, xn_i+1, besitzen jeweils den gleichen Abstand vom zentralen Punkt . Wenn die Daten symmetrisch verteilt sind, gilt offenbar xzentr = x.
Beispiel : Die Daten x1= - 2, x6=6,
x2=-1, x7=7,
x3=1, x8=9,
x4=2, x9=10
x5=4,
sind symmetrisch verteilt . Ihr zentralen Pwnkt ist xzentr = xo,5 = x = 4 . Empirische Daten sind so gut wie niemals exakt symmetrisch verteilt . Deshalb ist es nutzlich, Maf3zahlen zu definieren, die Abweichungen von der Symmetric messen . Solche Mafbzahlen sind sinnvollerweise so konstruiert, dass sic die Asymmetric von Daten verschiedener Merkmale unabhangig von deren Lage and Streuung messen . Sie hangen nun von den standardisierten Daten ab . Die Schiefe der Daten x1, . . . , xn ist durch
definiert . Das Vorzeichen von g lasst sick so interpretieren : g > 0
Die Summanden mit (xi -
g < 0
0 uberwiegen .
) 3 < 0 uberwiegen .
Daten mit g > 0 nennt man rechtsschief, Daten mit g < 0 hingegen linksschief. Statt rechtsschief sagt man auch linkssteil and statt linksschief auch rechtssteil . Gemaf3 ihrer Definition auf den standardisierten Daten ist die Schiefe invariant gegeni ber 'Iransformationen des Nullpunkts and der Mai3einheit : Wenn die Daten x1 i . . . , x n die Schiefe g besitzen and a, b gegebene Zahlen sind, b > 0, dann besitzen die transformierten Daten a + bx1 i . . . , a + bx n dieselbe Schiefe g . Wenn die Daten symmetrisch verteilt sind, ist x = xzentr and je zwei der Summanden heben sick auf; es folgt g = 0 . Jede symmetrische Verteilung hat also die Schiefe null .
62
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Der Leser mache sick an einem Beispiel klar, dass die Umkehrung nicht gilt, d .h . aus g = 0 folgt nicht die Symmetric der Verteilung . Die Schiefe g lasst sick auch aus diskret bzw . stetig klassierten Daten berechnen . Bei diskreter Klassierung gilt die Formel 3
g
=
fj
S
j=1
Bei stetiger Klassierung berechnet man approximativ 3
wobei, falls die Klassenmittel falls
xj
J fJ,
S
j=1
bekannt sind,
j
= xj
gesetzt wird, andern-
Beispiel „Semesterzahl": 110 Diplom-Kauflente wurden mach der Anzahl der bis zur Diplomprwfung benotigten Semester befragt . Es ergab sick : Anzahl Semester Anzahl Studenten
8 9 1 1
10 2
11 10
12 25
13 25
14 20
15 16 17 18 19 20 8 6 6 4 1 1
Fur die Schiefe berechnet man den Wert g = 0, 6358 . Die Verteilung ist rechtsschief, d.h . linkssteil; siehe Abbildung 2 .8 .
Die Schiefe ist mit zwei Nachteilen behaftet : • Sie ist nicht normiert, sondern kann beliebig grof~e positive and negative Werte annehmen . • Sie reagiert sehr empfindlich auf Ausreifler in den Daten . Eine Maf3zahl, die diese beiden Nachteile nicht aufweist, ist die Quartilschiefe , gQ _
x0,75 - xzentr) - (xzentr - x0,25 xo,75 - x0,25
Im Zahler vergleicht sic die Abstande des oberen and des unteren Quartils vom zentralen Punkt . Wegen der Division durch den Quartilabstand gilt : -1 C2 his C6 : 1, 3 ,1, 3 , 2
[absolute Haufigkeiten n~]
70
2 . AUSWERTUNG VON EINDIMENSIONALEN DATEN
Relative Haufigkeiten (vgl .CDplayer .xls : rel . Haufigkeit, Verteilungsfkt .) C7
= Summe(C2 :C6)
[Anzahl der Daten
Ti]
Spalte D D2 = C2 / $C$7 '--p „Herunterziehen" his D6
[relative Haufigkeiten f;]
Saulen- and Kreisdiagramm Mit Hilfe der unter dem Menupunkt EINFUGEN / DIAGRAMM / DIAGRAMMASSISTENT zur Vefugung stehenden Befehle lassen sick die diskret klassierten Daten als Saulen- and Kreisdiagramme darstellen . Bei den mit Excel erstellten Diagrammen kann man durch „Doppelklicken" auf das Diagramm (z .B . Graphik selbst, Hintergrund oder Achsen) das Layout nachtraglich verandern . Wenn die Merkmalsauspragungen Zahlen sired, mussen sie fur das Erstellen dieser Diagrammtypen mit Excel durch Textausdri cke kodiert werden . Das Formatieren der Zellen als „Text" reicht reicht aus . her werden die Bezeichnungen Preisl,Preis2, . . . ,PreisS gewahlt . Die Tabelle wird daher wie folgt erganzt (vgl . CDplayer .xls : Diagramme) :
• Anklicken von C2 mit der Maus -* EINFUGEN / SPALTE urea D werden zu Spalte D and E]
[Spalte C
• C2 71CU his C6ne~ : Preisl,Preis2, . . . ,PreisS Saulen- bzw . Kreisdiagramm (vgl . CDplayer .xls : Dsaulendiagramm ; D Kreisdiagramm)
• Markieren der Zellen C2 :C6 and E2 :E6 • EINFUGEN / DIAGRAMM : Auswahl von SAULE, UNTERTYP 1 bzw . KREIS, UNTERTYP 1
• Dri cken von WETTER his Abfrage oh neues Tabellenblatt y ENDS Auf den Diagramm-Assistenten, der bereits warend der Erstellung des Diagramms einige Formatierungen ermoglicht (z .B . die Eingabe eines Diagrammtitels), wird an dieser Stelle reicht weiter eingegangen .
Verteilungsfunktion Berechnung der Verteilungsfunktion (vgl . CDplayer . xls : rel . Hauf igkeit, Verteilungsfkt . )
2 .4 .
ANHANG
Spalte E
ZU
KAPITEL 2 : VERWENDUNG VON EXCEL
E2 : = D2 '--> E3 : = E2 + D3
71
„Herunterziehen" bis E6
Graphische Darstellung der Verteilungsfunktion (vgl . Aufg2_7 .xls textttVerteilungsfunktion) Excel bietet kein Diagramm der Verteilungsfunktion an . Mit einem kleinen Trick lasst sick dennoch emn solches erzeugen . Den folgenden Erlauterungen liegen die Daten aus Aufgabe A2 .7 der Aufgabensammlung zugrunde . • Markieren der Zellen B2 :B8 and E2 :E8 • EINFUGEN / DIAGRAMM : Auswahl von PUNKT (XY), UNTERTYP 1 • Drucken von WEITER his Abfrage oh neues Tabellenblatt ' ENDS • „Doppelklicken" mit linker Maustaste auf das x-Achse : ACHSEN FORMATIEREN : SKALIERUNG : KLEINSTER WERT : -1 [Um den Fall x < 0 im Diagramm zu berucksichtigen] • Hinzufugen der waagrechten Linien per Hand mit den Zeichenhilfsmit-
teln ANSICHT / SYMBOLLEISTEN / ZEICHNEN : \
[ Linie]
Arithmetisches Mittel (vgl . CDplayer .xls : Arith . Mittel) Spalte E
E2 = B2 * D2 - > „Herunterziehen" his E6
E7
= Summe(E2 :E6) [arithmetisches Mittel (relative Haufigkeiten)]
Variant and Standardabweichung (vgl .CDplayer .xls : Variant, Standardabweichung) mit zentrierten Summanden E7 Spalte F
enthalte arithmetisches Mittel F2 : _ ( B2 - $E$7) ^ 2 y „Herunterziehen" his F6
Spalte G
G2 : = F2 * D2 y „Herunterziehen" bis G6
G7 G8
[TVarianz] = Summe(G2 :G6) = Wurzel(G7) [Standardabweichung]
72
2.
AUSWERTUNG VON EINDIMENSIONALEN DATEN
mit nichtzentrierten Summanden E7 enthalte arithmetisches Mittel Spalte I 12 : = B2 ^ 2 * D2 y „Herunterziehen" his 16 17 I8
= Summe(12 :16) = 17 - E7 ^ 2 [Variant]
19
= Wurzel(18)
2 .4 .3
[Standardabweichung]
Stetig klassierte Daten
Erstellung der Tabelle fur eine stetige Klassierung (vgl . miete_stetig .xls : stetige Klassierung) Die Einzeldaten aus dem Beispiel seien stetig klassiert worden : Aufwendungen
Anzahl Studierende
150- 350
4
350- 550
20
550- 750 750- 950
10 5
950 - 1150
1
Um die stetige Klassierung in Form einer Excel-Tabelle aufzubereiten, kann man wie folgt vorgehen : Spalte A Al : Spalte B
j
'-> A2 his A6 : 1, . . . , 5
[Indexspalte j]
B1 : x_j ^ u y B2 his B6 : 150,350,550,750,950 [Klassenuntergrenzen x~]
Spalte C
C1 : x_j^o y C2 his C6 : 350,550,750,950,1150 [Klassenobergrenzen x']
Spalte D D1 : n_j
D2 his D6 : 4, 20,10, 5,1
[Haufigkeiten n3 ]
Dieses Tabellenblatt wird in den folgenden Erlauterungen vorausgesetzt . Es liegt somit eine stetige Klassierung vor, bei der die Klassenmittelwerte unbekannt sind . Zunachst wollen wir erklaren, wie man mit Hilfe von Excel aus Einzeldaten eine stetige Klassierung erstellt (vgl . miete_stetig .xls : stetige Klassierungmit Excel) :
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
73
• Eingabe des Laufindizes j in D2 bis D6 • Eingabe der Klassenuntergrenzen 150 , 350, 550 , 750 , 950 in E2 bis E6 • Eingabe der Klassenobergrenzen 350,550,750,950,1150 in F2 bis F6 • Markieren von G2 :G6 • EINFUGEN / FUNKTION / STATISTIK : Haufigkeit
• Feld
DATEN : B2 : B41, Feld KLASSEN : F2 : F6
• hinter den in der Kommandozeile erscheinenden Befehl =Haufigkeit(B2 :B41 ;F2 :F6) mit der Maus „klicken"
• gleichzeitig Tastenkombination Strg +
+ RETURN dri cken
Die Funktion Haufigkeit ist eine sogenannte Matrizenfunktion . Daher ist es beispielsweise nicht moglich, die Zellen mit den absolutes Haufigkeiten einzeln zu loschen .
Relative Haufigkeiten (vgl . miete_stetig .xls : relative Haufigkeiten) D7
= SUMME(C2 :C6)
[Anzahl der Dates n]
Spalte E E2 = D2 / $D$7 y „Herunterziehen" bis D6
[relative Haufigkeiten f;]
Empirische Dichte and Histogramm Empirische Dichte (vgl . miete_stet1g .xls : Histogramm) Spalte F F2 = E2/(C2 - B2) ' „ Herunterziehen" his F6
[empirische Dichte] Histogramm (vgl . miete_stetig .xls : Histogramm ; D Histogramm)
• Markieren von B2 :C6 and F2 :F6 • EINFUGEN / DIAGRAMM : Auswahl von SAULE, UNTERTYP 1 • REIHE • DATENREIHE : Reihe 3
[Entfernen von Reihe 1 and 2]
74
2 . AUSWERTUNG VGN EINDIMENSIONALEN DATEN
• Feld BESCHRIFTUNG DER RUBRIKENACHSE (X) :
[d .h . vor der Angabe der Felder mit den Klassengrenzen muss der Name des aktuellen Tabellenblattes (in diesem Beispiel Histogramm) eingegeben werden]
=Histogramm! $B$2 : $C$6
• Dri cken von WEITER bis Abfrage ob neues Tabellenblatt '--f ENDS • „Doppelklicken" auf Diagrammbalken y OPTIGNEN : ABSTAND : auf Null setzen
[Verbreitern der Balken, bis sie sick berwhren]
Achtung : Histogramme lassen sick mit Excel nur mit gleichen Klassenbreiten erstellen!
Verteilungsfunktion Die Berechnung der Verteilungsfunktion (im Beispiel in Spalte G) jeweils an der oberen Klassengrenze erfolgt wie bei der diskreten Klassierung (vgl .
miete_stetig .xls :Verteilungsfunktion) .
Graphische Darstellung (vgl . miete_stetig .xls : DVerteilungsfunktion) Um die Verteilungsfunktion graphisch darzustellen, muss der Punkt (xi , F(xi )) _ (150,0) in der Arbeitstabelle erganzt werden :
• Einfugen von je einer Zelle uber C2 and uber F2 : Zeile 2 markieren -* EINFUGEN / ZEILEN : nach unten verschieben
[Zellen mit Klassenobergrenze and mit Verteilungsfunktion verschieben sick nach unten]
• Ausfi llen der Zelle C2Th
mit 150 and der Zelle F2 neu mit 0
• Markieren von C2 :C8 and F2 :F8 • EINFUGEN / DIAGRAMM : AUSwahl von PUNKT (XY), UNTERTYP 4
• Driicken von WEITER bis Abfrage oh neues Tabellenblatt y ENDS
Arithmetisches Mittel (vgl . miete_stetig .xls : Arith . Mittel) Da im vorliegenden Beispiel die arithmetischen Mittel in den Klassen x~ nicht bekannt sind, ist eine Berechnung des arithmetischen Mittels nur approximativ moglich : Spalte F
F2 = (B2 + C2) / 2 -* „Herunterziehen" his F6 [Klassenmittelpunkt ~]
Spalte G
G2 = F2 * E2 -* „Herunterziehen" bis G6
G7
= Summe(G2 :G6)
[~ arithmetischen Mittel]
2 .4 .
ANHANG ZU KAPITEL 2 : VERWENDUNG VON EXCEL
75
Variant and Standardabweichung (vgl .Iniete_stetig .xls : Varianz,Standardabweichung) Auch die Variant and die Standardabweichung konnen nur naherungsweise bestimmt werden : mit zentrierten Summanden G7
enthalt arithmetisches Mittel
Spalte I
12 : _ ( F2 - $G$7) ^ 2 y „Herunterziehen" bis 16
Spalte J J2 : = 12 * E2 ~-> „Herunterziehen" bis J6 J7
= Summe(J2 :J6)
J8
= Wurzel(J7)
[~ Variant] [~ Standardabweichung]
mit nichtzentrierten Summanden G7
enthalt arithmetisches Mittel
Spalte L
L2 : = F2 ^ 2 y „Herunterziehen" bis L6
Spalte M M2 : = L2 * E2
„Herunterziehen" bis M6
M7
= Summe(M2 :M6)
M8
M7 - G7^ 2
M9
= Wurzel(M8)
[~ Variant] [N Standardabweichung]
Literatur zur Verwendung von Excel and anderen Computerprogrammen Eine allgemeine Einfuhrung in das Tabellenkalkulationsprogramm Excel bieten die Broschiiren RRZN (1999a) and RRZN (1999b) . 5 Zwerenz (2001) stellt den Einsatz von Excel bei Aufgabenstellungen der gesamten beschreibenden Statistik dar . Das Buch enthalt auch eine CD-Rom mit interaktiven Zahlenbeispielen and Simulationen. Hafner and Waldl (2001) and Monka and Voss (2005) behandeln die Losung allgemeiner statistischer Probleme mit Excel bzw . dem Programmpaket SPSS . Toutenburg et al . (2004) ist emn Lehrbuch der beschreibenden Statistik, das Anleitungen and Ubungsaufgaben zur Verwendung von SPSS enthalt . Moglichkeiten der Auswertung von Daten mit dem Computer bieten auch interaktive Lernprogramme wie EMILeA-stat (Burkschat et al ., 2004 ; Cramer et al ., 2004), Teach/Me (Lohninger, 2001), MW-Stat (Hardle et al ., 2001) sowie die Software von Mittag and Stemann (2004) and die von Schaich and Mi nnich (2001) . S Naheres im Internet unter w ww.uni-koeln.de/RRZK/dokumentation/handbuecher/ , „Die Handbiicher des RRZ Niedersachsen (RRZN)" .
Kapitel 3 Konzentrations- and Disparitatsmessung In diesem Kapitel gehen wir von Dates eines Merkmals X aus, welches extensiv ist and keine negatives Werte annimmt . Das heilit, wir setzen voraus, dass alle Dates xi grofler oder gleich null sind and dass die Merkmalssumme ~2 xti eine sinnvolle Interpretation zulasst . Im Mittelpunkt steht die Frage, wie sick die Merkmalssumme auf die einzelnen Merkmalstrager verteilt . Im Abschnitt 3 .1 werden die Begriffe der Disparitat and der Konzentration eingefiihrt and verglichen . Es folgen in Abschnitt 3 .2 Methoden der Konzentrationsmessung : zunachst die Konzentrationskurve, dass verschiedene Parameter zur Messung von Konzentration . Abschnitt 3 .3 behandelt in ahnlicher Weise die Disparitatsmessung . Nach einer Anwendung der Begriffe auf das Problem der Einkommensbesteuerung (Abschnitt 3 .3 .3) werden im Abschnitt 3 .4 die engen formalen Verbindungen aufgezeigt, die zwischen KonzentrationsmaEen and Disparitatsmaflen bestehen .
3.1
Disparitat and Konzentration
Zwei Aspekte der Dates sollen im Folgenden untersucht werden : Die erste Sichtweise betrifft die Gleichheit oder Ungleichheit (= Disparitat) der Merkmalswerte . Sind die Merkmalswerte alle gleich, d .h . ist xr = x2 = . . . = x,~, so entfallt offensichtlich auf jeden Anteil der Merkmalstrager der gleiche Anteil der Merkmalssumme . Disparitat liegt vor, wens nicht alle 77
78
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Merkmalswerte gleich sind . Dann gibt es einen kleinen Anteil der Merkmalstrager, auf den emn grol3er Anteil der Merkmalssumme entfallt . Zur Veranschaulichung diem das folgende Zahlenbeispiel . Beispiel : Sei
n =
4 and xI = 0, x2 = 5, x3
= 7,
x4 = 8 . Die Merkmalssum-
me betragt 20 . Die Merkmalstrager sind bereits aufsteigend der Grof3e nach
geordnet. Auf die beiden letzten (das ist die Halfte der Merkmalstrager) ent-
fallen ins gesamt 15/20, also 75% der Merkmalssumme . Auf den letzten allein (entsprechend einem Viertel der Merkmalstrager) entfallen 8/20 = 40% der
Merkmalssumme . Wiiren dagegen die Merkmalswerte alle gleich, wiirden auf die beiden letzten zusammen 50% and auf den letzten allein 25% der Merkmalssumme entfallen .
Bei der Betrachtung der Ungleichheit oder Disparitat einer Verteilung von
Merkmalswerten werden Anteile miteinander verglichen : Anteile von Merk-
malstragern mit Anteilen der Merkmalssumme . Die Anzahl n der Merkmalstrager bleibt hier auger Betracht . Emn klassisches Anwendungsgebiet der Dis-
paritatsmessung 1st die Messung der Einkommens- oder Vermogensdisparitat in einem Land .
Beispiel : Es seien x 1 , . . . , xn die Vermogen der Haushalte in einem Land . Emn hohes Maf3 an Disparitat liegt etwa dann vor, wenn 70% des Gesamtver-
mogens im Land auf nur 15% der Haushalte entfallen . Die absolute Zahl der Haushalte spielt hierbei keine Rolle .
Die zweite Sichtweise bezieht zusatzlich die Anzahl n der Merkmalstrager mit em, die sick die Merkmalssumme teilen . Konzentration liegt vor, wenn auf eine kleine Anzahl von Merkmalstragern emn groi3er Anteil der Merkmalssumme entfallt .
Bei der Konzentrationsmessung wird emn Anteil mit einer Anzahl verglichen :
Emn Anteil an der Merkmalssumme mit einer Anzahl von Merkmalstragern . Das klassische Anwendungsgebiet der statistischen Konzentrationsmessung
liegt in der Industrieokonomik : Untersuchungsmerkmal 1st die GroEe (etwa gemessen durch ihren Umsatz) von Unternehmen, die auf einem abgegrenzten Markt tatig sind .
Beispiel: Auf einem bestimmten Markt sind zehn Unternehmen aktiv . Konzentration liegt etwa dann vor, wenn die zwei grof3ten Unternehmen 80% des Gesamtumsatzes auf sick vereinigen .
Emn Merkmal kann sowohl unter dem Aspekt der Disparitat als auch unter dem der Konzentration untersucht werden . Dies sind jedoch verschiedene Fragestellungen .
Beispiel „Verteilung von Aktien" : Grundgesamtheit seien die Aktionare eines Unternehmens, Merkmal die Zahl der Aktien, die jeder von ihnen besitzt . 1st man am potenziellen Einfluss von Grof3aktionaren interessiert, wird man die
3 .2 .
KONZENTRATIONSMESSUNG
79
Konzentration untersuchen . 1st dagegen nach der gleichmaf3igen Verteilung (etwa bei der Zuteilung von uberzeichneten neuen Aktien) gefragt, wind man die Disparitat betrachten .
Hohe Disparitat kann sowohl mit geringer als auch mit hoher Konzentration einhergehen, and umgekehrt, wie das folgende Tableau zeigt, das vier Beispiele enthalt . In jedem der Beispiele ist eine Urliste Ii, . . . , x, angegeben, deren Merkmalssumme 100 betragt . Disparitat hock
Disparitat gering
Konzent ration x1 = 80 hock x2 = x3 = 10
xl = 34
Konzent ration 11 = . . . =' loo = 0, 8 gering x101 = . . . = x300 = 0,1
x1 = . . . = x100 = 0,34 x101 = . . . = x300 = 0,33
x2 - x3 = 33
Zur Sprechweise : Im Englischen sagt man inequality fur die Ungleichheit and concentration fur die Konzentration . In der deutschsprachigen Literatur wird die Ungleichheit (= Disparitat) haufig auch als relative Konzentration bezeichnet, die Konzentration dagegen als absolute Konzentration .
3 .2
Konzentrationsmessung
Bei der Konzentrationsmessung (= Messung der absolutes Konzentration) geht man davon aus, dass die Dates absteigend geordnet sind, d .h . x1 > 12 > . . . > In > 0,
and dass ~ 1 xi > 0 gilt . Sind die Ausgangsdaten noch nicht absteigend geordnet, so musses sie zunachst entsprechend umgeordnet werden . Es bezeichne xr xr hr= r=1, . . .,n, n-, i=1 den Merkmalsanteil der r-ten Einheit . Wegen der Ordnung der Dates sind auch die Merkmalsanteile geordnet, h1>h2> . . .>h~>0 .
80
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
3 .2 .1 Konzentrationsraten and Konzentrationskurve Die Summe der i grof3ten Merkmalsanteile,
heif3t Konzentrationsrate der Ordnung i . CR(i) ist der Merkmalsanteil, der auf die i groEten Merkmalstrager entfallt . Fur i = 0 wird CR (0) = 0 gesetzt (- EXCEL) . Zeichnet man die Punkte (i, CR (i)), i = 0,1, 2, . . . , n, in der Ebene and verbindet sie durch einen Streckenzug, so entsteht die Konzentrationskurve . Sie beginnt im Punkt (0,0) and endet im Punkt (n, 1) ; vgl . Abbildung 3 .1 . Konzentrationskurven konnen auch mithilfe von y EXCEL erstellt werden . Beispiel „Fiinf Unternehmen" : Fiinf Unternehmen teilen sick einen Markt . Die von ihnen getatigten Umsatze betragen in Mio . € : xl = 330, x2 = 120, x3 = 90, x4 = 30, x5 = 30 . Man berechne samtliche Konzentrationsraten and zeichne die Konzentrationskurve . Die Daten sind bereits absteigend geordnet . Die Konzentrationsraten kann man mit Hilfe der folgenden Arbeitstabelle ermitteln :
1 330 2 120 3 90 4 30
h2 0,55
CR (i) 0,55
0,20 0,15
0,75 0,90
0,05
0,95 1
30
0,05
600
1
Die Koordinaten der relevanten Pankte der Konzentrationskurve lesen wir was der ersten and der letzten Spalte der Tabelle ab : Eigenschaften der Konzentrationskurve Eine Konzentrationskurve hat allgemein die folgenden Eigenschaften :
3 .2 .
KONZENTRATIONSMESSUNG
81
CR(i)
0 .90 -
i
i
0 .75 0 .55 -
i I
I
I
1
2
3
i
I
4
5
Abbildung 3 .1 : Konzentrationskurve 1 . Die Konzentrationskurve ist der Graph einer Funktion, die das Intervall [0, n] in das Intervall [0,1] abbildet . Die Funktion ist stuckweise linear ; sie wachst strikt monoton, ausgehend vom Wert 0, bis sie den Wert 1 erreicht . Die Steigung des r-ten Segments betragt
CR (r) - CR (r -1) _ hr 1
fur r = 1, . . . , n . Die Steigungen hr nehmen mit wachsendem die Konzentrationskurve ist konkav .
r
ab, d .h .
2 . Bei festem n betrachten wir den Fall maximaler and den Fall minimaler Konzentration :
•
Maximale Konzentration : Emn Merkmalstrager vereinigt die gesamte Merkmalssumme auf sick . Dann gilt (Abbildung 3 .2)
h1=1, h2= . . .=h~=0 . Es folgt
•
CR(i) = 1
1, 2, . . . , n and CR(0) = 0 . bei festem n : Jeder Merkmalstrager
fur alle i =
Minimale Konzentration an der Merkmalssumme . Man nennt diese hat denselben Anteil Verteilung die egalitare Verteilung . Dann gilt (Abbildung 3 .3)
n
1
h1=h2= . . .=hn =- .
= n,
n
Wir erhalten CR(i) i = 0,1, . . . , n . Die Konzentrationskurve verlauft als eine Gerade von (0, 0) nach (n,1) .
82
3.
KONZENTRATIONS- UND DISPARITATSMESSUNG
CR(i) 1
i Abbildung 3 .2 : Kurve der maximalen Konzentration
CR(i) 1
0
n Abbildung 3 .3 : Kurve der minimalen Konzentration
Bei beliebigen Werten von x1, x2, . . . , x n liegt die Konzentrationskurve zwischen diesen beiden Extremen .
3 . Berechnung mit abgeschnittenen Daten Um die Konzentration
der Daten zu beurteilen, ist offenbar der rechte obere Teil der Konzentrationskurve weniger relevant . Oft berechnet man deshalb die Konzentrationsraten and damit den Verlauf der Konzentrationskurve nur bis zu einer Ordnung r, r < n, and vernachlassigt den Rest . Um CR(1), CR(2), . . . , CR(r) zu bestimmen, benotigt man lediglich die r groi?ten Anteile h1, h2, . . . ,h r oder, alternativ, die r gro1?ten Merkmalswerte x1, x2 i . . . , x, and zusatzlich die Merkmalssumme .
3 .2 .
KONZENTRATIONSMESSUNG
83
Beispiel „Halbleiter": Die folgende Tabelle enthalt den Umsatz der weltweit 20 grof3ten Hersteller von Halbleitern in Mrd . US-Dollar (Queue : Siiddeutsche Zeitung vom 26 .4 .1996) . Intel NEC Toshiba
Philips
2,9
8,0
Matsushita
7,6
2,9 2,6
10,1
Motorola Hitachi
7,2 6,6
SGS-Thompson Sanyo Sharp
Texas Instruments Samsung
5,6
AMD
4,8
Fujitsu Mitsubishi
3,9
2,1 2,0
3,8
Siemens Nat. Semicond . Sony
IBM
3,0
Goldstar
1,7
2,3 2,2 2,1
1,9
Ubung : Nehmen Sie an, dass der Gesamtumsatz auf dem Halbleitermarkt 83 .3 Mrd . US-Dollar betrug, and zeichnen Sie die Konzentrationskurve bis zur Ordnung r = 10 . 4 . Ordnung von Konzentrationskurven Die Konzentrationsraten and die Konzentrationskurve kann man benutzen, um das Ausmall der Konzentration auf zwei verschiedenen Markten miteinander zu vergleichen . (flier and im Folgenden sprechen wir bei der Konzentrationsmessung von Unternehmen and Markten statt allgemein von Merkmalstragern and Grundgesamtheiten .) Seien CR I (i) and CRII (i), i = 1, . . . , n, die Konzentrationsraten auf den Markten I and II . Wenn
CRI (i) > CRII (i) ,
i = 1, . . . , n,
gilt, sind die Konzentrationskurven geordnet . Die Konzentrationskurve des Marktes I verlauft oberhalb der Konzentrationskurve des Marktes II . (Dabei diirfen sick die Kurven beriihren .) Man sagt in diesem Fall, Markt I weise eine gleichmai~ig hohere Konzentration als Markt II auf. Die Ordnung zweier Konzentrationskurven ist auch moglich, wenn die Anzahl der Unternehmen auf beiden Markten nicht ubereinstimmt . Sei etwa n die Anzahl auf Markt I and m die auf Markt II, n < m . In diesem Fall erganzt man den Markt I gedanklich um m-n Unternehmen, deren Umsatz jeweils 0 betragt, and erhalt CRI (i) = 1 fur i = n + 1, . . . , m .
84
3 . KONZENTRATIONS - UND DISPARITATSMESSUNG
Beispiel „Drei Markte" : Wir betrachten drei Markte I, II and III, auf denen je funf Unternehmen agieren . Die Urns atze auf den Markten seien wie folgt gegeben . 38,
12,
106,
34,
10
auf Markt I,
25,
20,
39,
7,
9
auf Markt II,
60, 60,
60
auf Markt III .
60, 60,
Wir ordnen die Werte, bezeichnen die Umsatze auf Markt I mit xi, die auf Markt II mit y i and berechnen die Konzentrationsraten in der folgenden Tabelle : i
xi/
2r=1
xr
CRI(i)
x
yi/ L.r=1 yr
CRII (i)
106
0,53
0,53
39
0,39
0,39
38
0,19
0,72
25
0,25
0,64
34
0,17
0,89
20
0,20
0,84
12
0,06
0,95
9
0,09
0,93
10
0,05
1,00
7
0,07
1,00
200
1,00
100
1,00
Die Konzentrationskurven der Markte I and 77 sired in Abbildung 3 .4 dargestellt . Markt I weist eine gleichmaf3ig hohere Konzentration als Markt II auf. Auf Markt III herrscht eine egalitare Verteilung : Die Unternehmen teilen sick den Markt zu gleichen Anteilen . Die Konzentrationskurve des Marktes III ist deshalb die Diagonals des Rechtecks, liegt also unterhalb den anderen beiden Kurven . CR(i)
a
Abbildung 3 .4 : Ordnung von Konzentrationskurven
3 .2 .
KONZENTRATIONSMESSUNG
3 .2 .2
85
Konzentrationsindizes
Wir stellen uns nun die Aufgabe, die Konzentration zweier beliebiger Markte zu vergleichen . Wenn die Konzentrationskurve des einen Marktes fiber der des anderen liegt, die Kurven also geordnet sind, ist der erste Markt jedenfalls starker konzentriert als der zweite . Wenn die Konzentrationskurven sick jedoch schneiden, benotigen wir weitere Kriterien des Vergleichs . Emn Konzentrationsindex misst die Konzentration einen Marktes durch eine Zahl . Im Folgenden behandeln wir die zwei gebrauchlichsten Konzentrationsindizes, den Rosenbluth-Index and den Herfindahl-Index . Rosenbluth-Index Die Teilflache des Rechtecks [0, n] x [0, 1], die oberhalb der Konzentrationskurve liegt, werde mit A bezeichnet . Der RosenbluthIndex KR ist als eins durch zweimal diese Flache definiert,
KR _
1 2A '
Um eine Formel zur Berechnung von KR zu erhalten, zerlegen wir (siehe Abbildung 3 .5 fur n = 5) :
CR(i)
1
2
3
4
5
Abbildung 3 .5 : Zur Berechnung des Rosenbluth-Index Wegen A= and
Ai =hi
i=1
A
wie folgt
86
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
ist
Ti Z
n
2i - 1
2
i=1
Z
and (- EXCEL) 1 1 KR== (2i n .h)1 ~, i -
(Zur Erinnerung : Die Merkmalswerte xi sind absteigend geordnet, d .h . x1 > x2> . . .> x n > 0, and deshalb ist auch h1 >h2> . . .> h n .) Die folgenden Eigenschaften von KR lassen sick aus der Formel bzw . aus der Skizze leicht ableiten : KR = 1 KR
=
1 n
h1=1, h2=h3= . . .=hn=0
(maximale Konzentration),
1
h1=h2= . . .=hn=-n
< >
(minimale Konzentration bei festem n)
Letzteres ersieht man leicht aus KR =
1
i=1
Insgesamt gilt :
1
n 2Ei '1 -1
1
n
1
21nn(n+1) -1 2 1
30
0,05
0,05
30 90 120
0,05 0,15
0,10 0,25
330
0,20 0,55
0,45 1,00
600
1,00
2i-5-1 5 4 -5 _ 2
i hT
5 0 2
5 4 5
0
Abbildung 3.12 zeigt die Lorenzkurve der
fi
2i-5-1 , a 5
-0,04
-0,02 0 0,08 0,44 0,46
=
DG
of Unternehmen .
Variationskoeffizient Emn weiterer Disparitatsindex, der besonders einfach ist and deshalb haufig verwendet wird, ist der VariationskoefHzient v ("--> EXCEL), s v=- .
x
(Man beachte, dass nach Voraussetzung alle xi > 0 sind and x > 0 gilt .) Der Variationskoeffizient ist der Quotient aus dem StreuungsmaE s and dem LagemaE x, also - wie auch der Gini-Koeffizient - emn relatives StreuungsmaE . Beispiel : Fir die obigen Daten ergibt sick s='/12240=r110,6345,
=120,
3 .3 .
DISPARITATSMESSUNG
1 5
0
95
2 5
3 5
4 5
1
Abbildung 3 .12 : Lorenzkurve zum Beispiel „Fi of Unternehmen"
d. h. v
12040
=0,9220 .
Offenbar ist v nicht durch Eins nach oben beschrankt . (Der Leser mache sick dies an einem Beispiel klar!) Allgemein gilt jedoch 00
(maximale Disparitat) .
Dies erschwert die Interpretation des Wertes von v . Demgegenuber ist der Wert des Gini-Koefhzienten leichter zu interpretieren, da DG immer im Intervals [0, 1 -1/n] liegt, wobei er den Wert 0 im Fall vollstandiger Gleichheit and den Wert 1 - 1/n im Fall maximaler Disparitat annimmt .
96
3 .3 .3
3 . KONZENTRATIONS- UND DISPARITATSMESSUNG
Einkommensungleichheit and Steuertarif
Emn erklartes Ziel der Einkommensbesteuerung in Deutschland ist es, die Ungleichheit der Einkommen zu verringern . Im Folgenden wollen wir den Einfluss der Besteuerung auf die Einkommensungleichheit untersuchen . Wie muss emn Steuertarif beschaffen sein, damit das Einkommen nach Steuern weniger ungleich verteilt ist als das Einkommen vor Steuern? Emn Steuertarif T ist eine Vorschrift, die fur jeden zu versteuernde Einkommen die zu entrichtende Steuer angibt . Das Einkommen bezeichnen wir mit x, die zugehorige Steuer mit T(x) . T heif~t auch Steuerfunktion . Eine nati rliche Forderung an jeden Steuertarif besteht darin, dass die Steuer nicht hoher als das Einkommen sein darf, d .h . T (x) < x fur alle Einkommen x gilt . Seien nun x1, x2, . . . , x n die Einkommen von n steuerpflichtigen Personen vor Steuern . Die Einkommen Seien nicht alle gleich and sie Seien bereits aufsteigend geordnet, 0 < xI < x2 < . . . < x, . Dann sind durch y2 = x2 - T (x2)
fur i = 1, . . . , n
die Einkommen nach Steuern gegeben . Gemaf der obigen Forderung sind alle y2 >_ 0 . Zu vergleichen ist die Disparitat der Einkommen yl, y2, . . . , y~ nach Steuern mit der Disparitat der Einkommen xl, x2 i . . . , xn vor Steuern . Nach deco Kriterium der Lorenzkurvenordnung bedeutet geringere Ungleichheit nach Steuern, dass die Lorenzkurve der Y1 , Y2, . . . ,y, fiber der Lorenzkurve der 11,12, . . . , x~ zu liegen kommt . Wir betrachten zunachst eine so genannte Proportionalsteuer, bei der auf alle Einkommen emn konstanter Steuersatz angewandt wind . Bezeichne a den Steuersatz, 0 < a < 1 . Es gilt dann T (x) = ax fur alle x . Wegen y2 = x2 -axe = (1 - a)x2
fur i = 1, . . . , n
unterscheidet sick y2 von x2 jeweils um den Faktor 1 - a . Da die Lorenzkurve nun von den Anteilen an der Merkmalssumme abhangt, folgt, dass die Einkommen vor and nach Steuern die gleiche Lorenzkurve besitzen . Eine Proportionalsteuer andert also nichts an der Ungleichheit der Einkommen . Als Nachstes betrachten wir eine so genannte Kopfsteuer, bei der jeden Steuerpflichtige unabhangig von seinem Einkommen einen festen Betrag c als Steuer zu eetrichten hat . Bei einen solchen Kopfsteuer gilt T(x) = c fur alle x, also firi=l, . . .,n . y2 =x2-c Es ist leicht zu sehen, dass die Lorenzkurve der Einkommen nach Steuern nun unterhalb der Lorenzkurve der Einkommen vor Steuern liegt, denn fur
3 .3 .
97
DISPARITATSMESSUNG
.,n-
1 erhalt man i j=1
xj
L xj j=1
a > j=1
(x3 -c)
L.2(zj j=1
c)
z j=1
yj
Lr yj j=1
Eine Kopfsteuer erhoht demnach die Einkommensungleichheit . Wie muss nun die Steuerfunktion T beschaffen sein, damit fur beliebig gegebene Einkommen xi vor Steuern die Einkommen y2 = x2-T(xi) nach Steuern eine geringere Ungleichheit aufweisen? Allgemein ist dies dann der Fall, wenn T den folgenden Bedingungen geni gt :
1 . T(x) < x fur alle x. („Positives Einkommen nach Steuern") 2 . T(x)/x wachst monoton and ist nicht fur alle x konstant . („Steigende relative Belastung" . Dies schliefl,t die Proportionalsteuer aus .) 3.
x - T (x) wachst monoton . („Steigendes Einkommen nach Steuern ")
Beispiel „Dreistufiger Steuertarif ": Emn Politiker schlagt den folgenden dreistufigen Einkommenssteuertarif vor : Bis zu einem Jahreseinkommen von € 10 000 wird keine Steuer erhoben . Zwischen € 10 000 and € 25 000 betragt der marginale Steuersatz 10%, zwischen € 25 000 and € 50 000 betragt er 20%, and jenseits € 50 000 betrdgt er 30% . 1st dieser Tarif geeignet, die Ungleichheit der Einkommensverteilung zu verringern? Aus den Angaben ergibt sick in Abhangigkeit von x (in Tausend €) die Steuerfunktion T,
T(x) -
0 0,1(x - 10) 0,2(x-25)+1,5 0,3(x-50)+6,5
fur0<x p95(i)g91(i) i=1
n
i=1
p95( 2 )g95(Z)
_ p - ILa ;95,96
Man sieht, dass die durch Umbasierung entstandene Grof e 195,96 emn Konstrukt ist, das weder einen Laspeyres- noch einen Paasche-Index darstellt . Das eben beschriebene Problem tritt auch auf, wenn man aus einer vorhandenen Reihe von Preisindizes zur Basiszeit to (also etwa Iia ;to,t fur t = to, to + 1, . . . , T) jahrliche Inflationsraten berechnen mochte . Hierzu benotigt man fur jedes Jahr t einen einjahrigen Preisindex Iia ;t-1,t • Wenn diese nicht gesondert zur Verfugung stehen, behilft man sick mit den umbasierten Indizes
It _ 1 , t =
ILa,t o t
IpLa ;to,t-1
=
n > pt(i)9to(t)
,L
i=1
Pt-1(i)gto (Z)
Jedoch gilt im Allgemeinen It _l, t ~ 1ia ;t-l,t Die durch Umbasieren berechnete Grof,e stimmt nicht mit dem einjahrigen Laspeyres-Index i herein, vgl . oben das Beispiel „Umbasieren eines Index" mit to = 91 and t = 95 .
4 .3 . INDEXZAHLEN
1 39
Beispiel „Inflationsrate": Jahr Preisindex
ILa ;2OOo,t
2000
2001
2002
2003
2004
100
102,0
103,4
104,5
106,2
1,0200
1,0137 1,0106
1,0163
2,00%
1,37% 1,06%
1,63%
It_l,t Inflationsrate in %
Emn Problem, auf das wir nicht naher eingehen konnen, besteht darin, welchen Fehler man bei dieser Art der Berechnung der Inflationsrate in Kauf nimmt, d .h . wie grofi die Abweichung zwischen deco verfugbaren Konstrukt It _l, t and dem gewunschten, aber nicht verfugbaren Index Iia ;t-i,t ist .
4 .3.6
Formale Indexkriterien (Fisher-Proben)
Die Frage, was einen „vernunftigen" Index auszeichnet, hat neben inhaltlichen Aspekten auch eine messtheoretische Seite, die anhand formaler Kriterien diskutiert werden kann . In diesem Abschnitt stellen wir sieben formale Postulate dar, die emn Index erfiillen sollte . Sie wurden von Irving Fisher aufgestellt and heif?,en deshalb Fisher-Proben ; siehe Fisher (1922) . Laut Fisher sollen fur einen gegebenen Index Is , t (zur Basiszeit s and Berichtszeit t) and beliebige Zeiten 0, t, t1, . . . , t o die folgenden Postulate erfi llt sein :
• Identitatsprobe • Zeitumkehrprobe
• Rundprobe
1 It,o = -, Io,t
It1,t .. = It1,t2 . It2,t3 It n _ 1 ,t~
• Faktorumkehrprobe
Io,t = Io,t ' Io,t
• Proportionalitatsprobe Io,t = 1+a, well alle Preise um a 100% steigen,
• Dimensionswechselprobe
Der Wert der Indizes hangt nicht davon ab, in welchen Einheiten Preise and Mengen gemessen werden .
140
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
• Bestimmtheitsprobe
Der Index soil auch dann bestimmt sein, wenn einzelne Preise oder Mengen gleich null sind .
Die folgende Tabelle gibt fur die Preisindizes nach Laspeyres, Paasche and Fisher an, ob die einzelnen Fisher-Proben erfullt (+) oder nicht erfullt (-) werden. (Der Leser mache sick dies im Einzelnen als Ubung klar!)
Identitatsprobe
Zeitumkehrprobe Rundprobe
Faktorumkehrprobe
Proportionalitatsprobe Dimensionswechselprobe Bestimmtheitsprobe
Laspeyres Paasche Fisher +
+
+
-
-
+
+
+
+
-
+ +
+ +
+
+ +
Wie man sieht, erfullt der Fisher-Index jede der Proben, die der Laspeyresoder der Paasche-Index erfullt, and noch zwei weitere . Die Rundprobe erfullt jedoch auch der Fisher-Index nicht .
4.3 .7
Der Verbraucherpreisindex fur Deutschland
In diesem Abschnitt soil der Verbraucherpreisindex fur Deutschland (VPI) des Statistischen Bundesamtes naher beschrieben werden . Dabei handelt es sick um den traditionsreichen deutschen Preisindex fur die Lebenshaltung alley privaten Haushalte, der seit der Umstellung auf das Basisjahr 2000 inter dieser neuen Bezeichnung fortgefi hrt wird . Emn Verbraucherpreisindex soil anzeigen, wie sick die Preise eines typischen Gutersortiments im Zeitablauf entwickeln, das von privaten Haushalten laufend fur Konsumzwecke gekauft wird . Der Index betrifft alle privaten Haushalte . Haufig wird er daher als Indikator fur die Geldwertstabilitat angesehen . Dieser Verbraucherpreisindex misst die isolierte Preisentwicklung, ist also kein Index fur die Kosten der Lebenshaltung . Emn Index der Lebenshaltungskosten unterscheidet sick von einem reinen Verbraucherpreisindex darin, dass in ihm auch Veranderungen der Verbrauchergewohnheiten, also auch Mengenanderungen, berucksichtigt werden .
4 .3 .
INDEXZAHLEN
141
Das Statistische Bundesamt berechnet den Preisindex fur die Lebenshaltung auf der Grundlage konstanter Verbrauchsstrukturen eines Basisjahres nach der Indexformel von Laspeyres, and zwar in der Mittelwertform als gewichtetes arithmetisches Mittel von Preismesszahlen . Diese Indexkonstruktion wirft Probleme auf, deren Losung den Aussagegehalt der laufend berechneten Werte des Preisindexes beri hrt .
• Warenkorb and Wagungsschema Die Verbrauchsstruktur der unterschiedlichen privaten Haushalte des Basisjahres (z .B . Haushalte von Rentnern, Familien mit Kindern, Alleinerziehenden, Alleinstehenden) wird modellhaft durch einen Warenkorb abgebildet, das ist eine Kollektion von gegenwartig ca . 750 ausgewahlten, nach Art, Menge and Qualitat genau spezifizierten Waren and Dienstleistungen, die als Preisreprasentanten bezeichnet werden . Sie sollen den gesamten privaten Verbrauch hinreichend genau reprasentieren . Das Wagungsschema legt die Gewichte felt, mit denen die Preisreprasentanten in den Gesamtindex eingehen . Entsprechend der Mittelwertform des Indexes handelt es sich bei den Gewichten um Ausgabenanteile der einzelnen Gi ter an den gesamten Verbrauchsausgaben fur den Warenkorb . Die Datenbasis liefern umfangreiche and intensive, periodisch wiederkehrende Haushaltsbefragungen auf Stichprobenbasis . Hierzu gehoren die Einkommens- and Verbrauchsstichprobe sowie die Laufenden Wirtschaftsrechnungen ; siehe Kapitel 1 .
• Gliederung Mit der Umstellung des VPI auf das neue Basisjahr 2000 entfallt der friiher iibliche Nachweis eigenstandiger Indizes fur spezielle Haushaltstypen Bowie fur das fri here Bundesgebiet and fur die neuen Bundeslander einschliefllich Berlin-Ost . Seitdem wird nur noch auf der Grundlage eines einheitlichen Wagungsschemas der Verbraucherpreisindex fur ganz Deutschland laufend veroffentlicht . Allerdings bleiben regionale Untergliederungen weiterhin verfi gbar . Die einzelnen Waren and Dienstleistungen des Warenkorbs werden im Hinblick auf unterschiedliche Zielsetzungen zu Gi tergruppen zusammengefasst . Am bekanntesten ist die Gliederung nach dem Verwendungszweck in der Abgrenzung des internationalen „Classification of Individual Consumption by Purpose" zu zwolf Abteilungen (siehe Tabelle 4 .1) .
• Verbraucherpreiserhebungen Die aktuellen Preise fur die ausgewahlten Gi ter werden jeweils zur Monatsmitte auf Grund von nichtzufalligen Stichproben ermittelt . Gegenwartig werden fur die 750 Preisreprasentanten insgesamt ca . 350 000
142
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
einzelne Preisreihen in 190 Berichtsgemeinden, die fiber das gesamte Bundesgebiet verteilt sind, durch Preisermittler bei 40 000 so genannten Berichtsstellen (uberwiegend Verkaufsstellen) erhoben. Problematisch ist insbesondere die Beri cksichtigung von Qualitatsanderungen and der Austausch von „veralteten" gegen neue Gi ter . Zur Qualitatsbereinigung werden neuerdings Verfahren herangezogen, die versuchen, mit Hilfe der Regressionsrechnung „refine" Preisveranderungen von Preisveranderungen zu trennen, die auf Qualiatsanderungen beruhen ; siehe hierzu Linz and Eckert (2002) . • Basisjahr and Indexumstellung
Da emn Laspeyres-Index mit festem Wagungsschema Veranderungen in den Verbrauchsgewohnheiten and im Guterangebot kurzfristig nicht abbilden kann, veraltet er im Zeitablauf and wird daher in Abstanden von ca . funf Jahren „umgestellt" . Diese Neuberechnung umfasst die Auswahl der Gi ter, die Fixierung des Wagungsschemas and eine Neufestsetzung des Basisjahres . In der Regel wird gleichzeitig der alte Index umbasiert . Als Basisjahr fur den VPI dient derzeit das Jahr 2000 . Die Veranderung des Wagungsschemas von 2000 gegenuber denen von 1995 and 1991 kann man der Tabelle 4 .1 entnehmen .
In der statistischen Praxis wird der VPI in Stufen berechnet . Dabei wird zunachst fur jede der 750 Gi terarten, getrennt nach Bundeslandern, emn Teilindex ermittelt . Anschlieflend wird dann fur jede Gi terart aus den 16 Landesergebnissen das Bundesergebnis als gewichtetes Mittel berechnet, wobei die Gewichte die Landeranteile der privaten Verbraucher am gesamten privaten Verbrauch in Deutschland darstellen . Der VPI wird vom Statistischen Bundesamt zeitnah veroff'entlicht, endgultige Monatswerte liegen ca . zwei Wochen nach Abschluil des Berichtsmonats vor . Bei der Interpretation der Werte der Preisindizes fist Vorsicht angebracht . Die Messung der Preisentwicklung der von privaten Haushalten gekauften Gi ter beruht auf einem modellhaften Warenkorb . Eine Ubertragung auf die Lebenshaltung in real existierenden Haushalten fist nicht ohne weiteres moglich, da jeder private Haushalt individuell ausgepragte Verbrauchsgewohnheiten hat, die semen Warenkorb and das Wagungsschema festlegen . Der VPI kann deshalb nur als Anhalts- and Vergleichspunkt fur die realen Haushalte dienen . Dennoch spielt der Preisindex in privatrechtlichen Vertragen, die eine Wertsicherungsklausel enthalten, eine wesentliche Rolle . Beispiel: In einem Scheidungsvertrag wird festgelegt, dass die monatlichen Unterhaltszahlnngen an die geschiedene Ehefrau gemaf3 dem Verbraucherpreisindex fur Deutschland jahrlich znm 1 . Januar angepasst werden .
4 .3 .
INDEXZAHLEN
143
Der VPI ist, wie erwahnt, emn Index vom Typ Laspeyres . Das Wagungsschema stammt also aus der Basiszeit and bleibt damit fur einige Jahre fest . Aus praktisch-statistischer Sicht ist es vorteilhaft, das Wagungsschema nicht jedes Jahr neu erheben zu mi ssen . Letzteres ware aufwandig and teuer . Andererseits bildet der Laspeyres-Index kurzfristige Mengenanderungen der Haushalte nicht ab . Reagieren Haushalte kurzfristig auf Preiserhohungen einiger Giiter mit Mengenreduktion and auf Preissenkungen anderer Gi ter mit Mengenerhohungen, so bringt dies der Laspeyres-Preisindex fur die Lebenshaltung nicht zum Ausdruck . Emn Paasche-Index mit deco Wagungsschema der Berichtsperiode wiirde diesen Effekt sehr wohl zum Ausdruck bringen and einen geringeren Wert anzeigen . Bei rationalem Verhalten der Konsumenten - insbesondere fallenden Nachfragefunktionen - weist emn Laspeyres-Index prinzipiell die Veranderungen des Preisniveaus zu hoch aus . Deshalb wird gelegentlich die Berechnung and Publikation von Paasche-Preisindizes gefordert . Sind die Unterschiede zwischen einem Laspeyres- and einem Paasche-Preisindex fur die Lebenshaltung wirklich gravierend? Das Statistische Bundesamt hat mehrfach darauf hingewiesen, dass fur Deutschland die Unterschiede vernachlassigbar klein sind . In einer Untersuchung fur 1990 bis 1995 ergibt sick sogar, dass der Unterschied zwischen den beiden Indizes unterhalb der Nachweisgrenze ist . Der interessierte Leser sei auf den Aufsatz von Elbel (1999) verwiesen, der die Berechnung der Wagungsschemata behandelt .
4.3 .8
Europaische Verbraucherpreisindizes
Um Anderungen der Verbraucherpreise international vergleichen zu konnen, werden fur die Staaten der EU sowie fur Norwegen and Island neben den nationalen Verbraucherpreisindizes weitere Preisindizes berechnet . Im Harmonisierten Verbraucherpreisindex (HVPI) werden die unterschiedlich konzipierten Landerindizes vereinheitlicht . Dabei werden die deco HVPI zugrunde gelegten Waren and Dienstleistungen in der Gliederung der modifizierten „Classification of Individual Consumption by Purpose" fur alle Lander einheitlich festgelegt, ohne jedoch einen gemeinsamen Warenkorb vorzuschreiben . Der Erfassungsbereich wird dabei im Zuge der Harmonisierung schrittweise erweitert . Der Erfassungsbereich des deutschen HVPI entspricht mittlerweile mit Ausnahme des selbstgenutzten Wohneigentums deco des deutschen VPI . Die Abweichungen der jahresdurchschnittlichen Veranderungsraten zwischen beiden Indizes betrugen zuletzt nicht mehr als 0,1 Prozentpunkte .
144
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
EUROSTAT, das Statistische Amt der EU in Luxemburg, berechnet seit 1997 aus den nationalen HVPI aggregierte europaische Verbraucherpreisindizes : • den Europaischen Verbraucherpreisindex (EVPI) fur die 25 Mit-
gliedsstaaten der EU,
• den Verbraucherpreisindex der Europaischen Wahrungsunion
(VPI-EWU) fur die Staaten der Europaischen Wahrungsunion and
• den Verbraucherpreisindex fur den Europaischen Wirtschafts-
raum (VPI-EWR), der zusatzlich Norwegen and Island umfasst .
Diese Indizes werden als gewichtete Mittel aus den HVPI der einzelnen Staaten gebildet . Die Landergewichte sind die Anteile der Ausgaben fur den Privaten Verbrauch aus der Volkswirtschaftlichen Gesamtrechnung des jeweiligen Landes an der Gesamtheit dieser Ausgaben . Die europaischen Indizes dienen insbesondere dem Inflationsvergleich zwischen den Landern, etwa bei der Umsetzung des Maastrichter Konvergenzkriteriums der Preisstabilitat . Fur die Europaische Zentralbank ist der VPIEWU Mal3stab fur die Geldwertstabilitat des Euro . 4.3 .9
Internationaler Preisvergleich (Verbrauchergeldparitaten)
Die bisher behandelten Preisindizes dienen dem zeitlichen Vergleich von Preisen . Leicht modifiziert konnen sie auch fur den raumlichen Vergleich von Preisen zwischen verschiedenen Regionen herangezogen werden . Im Folgenden bezeichnen A and B zwei Lander oder Regionen . Weiterhin sei eine fur beide Lander gemeinsame Kollektion von Giitern (emn Warenkorb) gegeben . Fur jedes Gut i = 1, . . .,n ist der Preis des Gutes i im Lande A die Menge des Gutes i im Lande A. Entsprechend sind pB (i) and qB (i) definiert . Als ersten Preisindex des raumlichen Vergleichs definiert man den Index ILa,B A
PA( 1 ) pB( 2 )gB(Z)
Z=
n Ti
i=1
PBz) (
j=1
pA(i)gB(i) pB (i)gB(~)
pB(.7)gBU)
Wahrung des Landes A [Wahrung des Landes B ]
4 .3 .
INDEXZAHLEN
145
Dies ist emn Index des Typ Laspeyres ; sein Wagungsschema bezieht sick auf die Mengen im Lande B . (Man beachte, dass der Index jetzt eine Benennung besitzt, falls sick die Wahrungen beider Lander unterscheiden .) Analog definiert man gemall Paasche einen zweiten Preisindex des raumlichen Vergleichs,
IPPa ;B,A
Ti
1
1 PA(z)9A(z) n=1 pE(i) PA(j)9A(z) n Ti
i=1
j=1
pA(z)4A(z) pB(i)gA(Z)
Wahrung des Landes A
[Wahrung des Landes B ]
Sein Wagungsschema entspricht dem Mengengeriist im Lande A . Verbrauchergeldparitaten Handelt es sich beim Warenkorb um Gi ter der Lebenshaltung von Haushalten and bei den Mengen um typischerweise konsumierte Mengen, so nennt man Indizes dieser Art Verbrauchergeldparitaten, in Zeichen VGPB , A . Sie geben an, wie viele Wahrungseinheiten (WE) des Landes A einer Wahrungseinheit des Landes B kaufkraftmaflig entsprechen, and zwar beim Laspeyres-Index aus Sicht eines Konsumenten im Lande B, beim Paasche-Index aus Sicht eines Konsumenten im Lande A . Am Devisenmarkt werden Wahrungen gehandelt . Bezeichne WB ,A den Preis, der fur eine Einheit der B-Wahrung in Einheiten der A-Wahrung gezahlt wird . Wenn beispielsweise B die Bundesrepublik Deutschland ist and A die Vereinigten Staaten von Amerika, gibt WB,A den Preis eines Euro in Dollar an . Im Folgenden bezeichnet B die Bundesrepublik Deutschland and A emn Ausland . Verbraucherpreisniveau and Kaufkraftindex 1st die Verbrauchergeldparitat VGPB,A groler als der Wechselkurs WB,A, so ist das Land A teurer als die Bundesrepublik . Mittels
V GPB,A VPNB,A .100 WB,A
146
4 . VERHALTNISZAHLEN, MESSZAHLEN UND INDEXZAHLEN
last sick emn Index fur das Verbraucherpreisniveau des Landes A definieren (Bundesrepublik = 100) and mittels
KKB
WB,A .100 ,A = VGPB,A
emn Index fur die Kaufkraft des Euro im Land A (Bundesrepublik = 100) . Der Kaufkraftgewinn bzw . -verlust (in %) ist dann durch
KKGB,A =
WB ' A
VGPB,A
- 1
• 100
gegeben .
Beispiel : Werden Mitarbeiter dents cher Unternehmen im Ausland eingesetzt, so kann dies en emn Kaufkraftverlust entstehen . Zum Ausgleich des Kaufkraftverlustes last sick mit Hilfe des entsprechenden Index fur das Verbraucherpreisniveau emn angemessener Zuschlag (in %) auf die Gehaltszahlung bestimmen . Dieser ergibt sick gemaf (VGPB,A l~ • 100 . WB, /A Das Statistische Bundesamt berechnet fur ausgewahlte Lander (bzw . fur deren Hauptstadte) Verbrauchergeldparitaten mit deutschem Wagungschema . Zugrunde liegt emn Warenkorb aus Gi tern and Dienstleistungen der privaten Lebenshaltung (ohne Wohnungsmieten), der ca . 220 Einzelpositionen umfasst . Fur April 2006 ergaben sick unter anderem die Werte der folgenden Tabelle . Sie enthalt die Verbrauchergeldparitaten VGPB,A fur die Berichtsorte (=Hauptstadte) von fi of ausgewahlten Landern, die Wechselkurse WB,A and den Kaufkraftgewinn bzw . -verlust . Land A (Berichtsort)
Wah-
VGPB,A
WB,A
KKGB,A
rung
1€=
1€=
in %
ausl . WE
. . . ausl . WE
Japan (Tokio)
YEN
205, 2631
143, 5900
-30,0
England (London)
GBP
0, 8266
0, 6946
-16,0
USA (Washington D .C .)
USD
1, 3228
l, 2271
- 7,2
Spanien (Madrid)
EUR
1,0279
1, 0000
- 2,7
Siidafrika (Pretoria)
ZAR
6, 4567
7,4656
15, 6
4 .3 . INDEXZAHLEN
147
Tabelle 4 .1 : Wagungsschema fur den Preisindex fur die Lebenshaltung alley privaten Haushalte bzw . den Verbraucherpreisindex, Angaben in Promille
Bezeichnung 01 02 03
Nahrungsmittel and alkoholfreie Getranke Alkoholische Getranke and Tabakwaren Bekleidung and Schuhe
1991
1995
2000
144,81
131,26
103,35
45,19
41,67
36,73
76,89
68,76
55,09
240,46
274,77
302,66
72,87
70,56
68,54
30,56
34,39
35,46
156,77 138,82
138,65
Wohnung, Wasser, 04
Strom, Gas and andere Brennstoffe
05
Einrichtungsgegenstande usw . fur den Haushalt
06
Gesundheitspflege
07
Verkehr
08
Nachrichtenubermittl .
09
Freizeit, Unterhaltung and Kultur
10 Bildungswesen 11 12
Beherbergungs- and Gaststattendienstleist . Andere Waren and Dienstleistungen Insgesamt
17,92
22,66
25,21
99,59
103,57
110,85
5,42
6,51
6,66
58,44
46,08
46,57
51,08
60,95
70,23
1000,00
1000,00
1000,00
Monat Januar
Februar Marz April
Mai
Juni Juli August September Oktober
November Dezember
94,5
95,0
96,4
96,7
2002 2003 2004 2005 2006 102,9 104,0 105,2 106,9 109,1
2001
97,8 99,4 100,8
2000
97,6
99,6
99,6
97,8 98,0
98,1
102,2 103,4
101,8 103,3
101,4 103,2 104,5 105,4 107,3 109,5 101,4 103,4 104,6 105,7 107,6 109,5 104,3 106,0 107,7 109,9 98,5 99,5
102,4 103,4 104,4 106,2 108,1
100,1 102,3 103,5 104,6 106,7 108,7 100,3 102,3 103,4 104,5 106,4 109,1
100,3 102,5 103,7 104,6 106,5 108,6
98,6 99,9
106 2 108,0
99,6
96,6 97,7 96,4 97,8
98,1 98,2
104,1
98,5
1995 1996 1997 1998 1999 93,2
93,7 93,7 95,1 951 93,8
93,9 95,3 96,8 96,9
99,0
98,5
97,6
94,0 95,4 94,2 95,5
98,7
95,5
97,9 98,6 98,0
98,6
99,1
100,0 102,0 103,4 104,5 106,2 108,3
101,2 102,8 104,0 105,1 107,3 109,6
97,4
97,6
98,0
100,2 102,0 103,3 104,5 106,6 109,1 100,3 101,8 103,0 104,3 106,2 108,6 95,7
97,1
98,8 95,3
95,5
98,9 97,5 98,1 94,0
95,5 97,7 98,3 94,2
97,4 97,9
94,2
94,0 95,4 94,3
Jahresdurchschnitt 93,9
4 .3 .
INDEXZAHLEN
149
Erganzende Literatur zu Kapitel 4 Wer sick vertieft mit der Theorie and Praxis von Indexzahlen, insbesondere von Preisindexzahlen beschaftigen mochte, sei auf folgenden Monographien and Lehrbicher verwiesen : Neubauer (1996), von der Lippe (1996) and von der Lippe (2001) . Fur weitere Einzelheiten zur Berechnung des Verbraucherpreisindexes sei auf Egner (2003) and Buchwald (2004) verwiesen . Hinweise zur Berechnung and Verwendung von Verbrauchergeldparitaten finden sick in Strohl (2001), sowie in den Heften der Fachserie 17, Reihe 10, des Statistischen Bundesamtes . Zum HVPI siehe Eurostat (2004) .
Kapitel 5
Auswertung
von
mehrdimensionalen
Dates
In den bisherigen Kapiteln wurden Methoden fur die Auswertung von Dates uber emn einzelnes Merkmal dargestellt . Kapitel 2 and 3 behandelten MaJ e der Lage, Streuung, Schiefe, Konzentration and Disparitat von univariaten Dates . Im Kapitel 4 grog es zunachst um Messzahlen fur den zeitlichen Vergleich der Werte eines Merkmals . Deren Aggregation zu Indexzahlen betraf dann bereits mehrere Merkmale, namlich die Preise and Mengen der verschiedenen Giterim Warenkorb . In diesem Kapitel 5 werden nun allgemeine Methoden zur Auswertung von Dates uber mehrere Merkmale vorgestellt . Solche Dates nennt man mehrdimensional oder multivariat . Es geht um die simultane Beschreibung der Dates durch Tabellen and Graphiken, um die mehrdimensionale Messung ihrer Lage and Streuung, Bowie - and das ist das Wichtigste - um das Aufdecken von Beziehungen zwischen den Merkmalen . Dabei beschranken wir uns im Wesentlichen auf die Auswertung zweidimensionaler (d .h . bivariater) Dates and insbesondere auf die Messung der Abhangigkeit zwischen zwei Merkmalen .
5 .1 Grundbegriffe Wir gehen davon aus, dass die Werte zweier Merkmale X and Y in einer Grundgesamtheit G = {e1, e2, . . . , en} gegeben Bind . Im Folgenden sprechen wir auch von den Variables X and Y . Sei (xi, y,) der Wert der beiden 151
152
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
. Variables bei der Einheit ei . Die Urliste lautet dann (xi, yi) , (x2, y2), (xn , yr,,) oder, als n x 2 Matrix geschrieben, xl
yi
12 y2 In
yn
Beispiel „Obsthandler": Emn Obsthandler notiert an zehn aufeinander folgenden Tagen den Preis (in Euro pro kg) einer bestimmten Erdbeersorte and die verkaufte Tagesmenge (in kg) : X Preis in €/kg
Y Menge in kg
4,70 4,30
70 75
3,80 4,50
80 75
5,40
50
5,00 4,10
60 70 65
4,30 3,90 4,00
75 85
Wens X and Y - wie in diesem Beispiel - metrisch skaliert sind, veranschaulicht man die Dates in einem Streudiagramm( '- EXCEL) . Es besteht aus einem Achsenkreuz and den n Punkten (xi,yi),(x2,y2), . . .,(xn,yn) in der Zeichenebene . Das zum Beispiel „Obsthandler" gehorige Streudiagramm ist in Abbildung 5 .1 zu sehen . Werden allgemein p > 2 Merkmale betrachtet, so bezeichnet man diese mit X 1 , X2 , . . . , Xp . Es ist dann (xil, xi2, • • • , xip) die Auspragung von X 1 , X 2 , . . . , Xp bei der Einheit ei . Die Urliste hat die Form (x11, . . .,xlp),(121, . . .,x2p), . . .,(xnl, . . .,xnp) oder, als Datenmatrix,
5 .1 .
GRUNDBEGRIFFE
153
y
o
8580 = o 75 .
0
0
70=
o
0 +
o
0
65-E
0
60-E 55
0
3 .8
4 .0
4 .2
4 .4
4 .6
4 .8 5 .0
5 .2
5 .4
x
Abbildung 5 .1 : Streudiagramm „Obsthandler" (Das Zeichen „+" bezeichnet den Schwerpunkt (x, y) der Dates .)
x11
112
1 21
122
xnl
xn2
x1p x2p xnp
Der erste Index (der Zeilenindex) gibt die Untersuchungseinheit an, der zweite Index (der Spaltenindex) die Variable, zu der der Wert gehort . Die meisten Aussagen dieses Kapitels beziehen sick auf den Fall von zwei Variables X and Y . Eine Verallgemeinerung auf den Fall von p Variables (insbesondere p = 3 and p = 4) erfolgt anhand eines Beispiels .
5 .1 .1 Kontingenztafel and Haufigkeiten Sei eine n x 2 Datenmatrix, d .h . n Zahlenpaare (xi, yi) als Werte zweier Merkmale X and Y, gegeben . X and Y mogen beliebig skaliert sein . Als Erstes bilden wir Tabellen der absolutes and der relatives Haufigkeiten . Bezeichne Tlx die moglichen i, S2, . . . , j die moglichen Werte von X and .,J and k = 1, 2, . . . , K ist . Werte von Y . Fur jedes j = 1,2,
m, 72, . . .,
• nj k
= Anzahl der Datenpaare (xi, yi) mit xi =
die gemeinsame absolute Haufigkeit von
j and yi = r/k j and 17k,
1 54
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN • nj . _
K k=1
njk bzw . n .k =
J j=1
njk
die absolute Randhaufigkeit von j bzw . rik . Offenbar gilt
x j=1 =1
k =
j=1
k=1
Die gemeinsamen absolutes Haufigkeiten stellt man zusammen mit den absolutes Randhaufigkeiten in einer Haufigkeitstabelle dar :
y= 12
rll
nii
E
• .
.
n12
77K
n1K
n1 . n2 .
n21
nz2
n2K
fj1
TJ2
fJK
n j.
72 .1
n .z
n .K
n
Die Haufigkeitstabelle wird auch Kontingenztafel oder Kontingenztabelle genannt . Beispiel „Beruf and Sport" : Bei n = 1000 Erwerbspersonen warden die Berufszugehorigkeit X and das Ausmafl der sportlichen Betatigung Y erhoben . Es ergab sick : Y sportl. Betatigung X Berufszugehorigkeit rile gelegentlich regelmaf.~ig
240
120
70
160
90
90
30
30
30
Landwirte
37
7
sonstige
40
32
6 18
507
279
214
Arbeiter Angestellte Beamte
E
E
430 340 90 50 90 1000
Die Randhaufigkeiten nl ., n2 •, • . . , nJ . beziehen sick auf die Variable X allein . Ebenso beziehen sick n .1, n .2, • . . , n .K nur auf Y . Aus den gemeinsamen
5 .1 .
GRUNDBEGRIFFE
1 55
Haufigkeiten kann man die Randhaufigkeiten bestimmen . Man beachte, dass das Umgekehrte nicht gilt : Ohne weitere Annahmen lasses sick die gemeinsamen Haufigkeiten aus den Randhaufigkeiten nicht eindeutig bestimmen . Es gibt im Allgemeinen mehrere Haufigkeitstabellen, die mit vorgegebenen Randern vertraglich sired . Die gemeinsamen Haufigkeiten enthalten offenbar mehr Information als die Randhaufigkeiten . Im obigen Beispiel „Beruf and Sport" stehen in den Randern die absolutes Haufigkeiten der Variables X (letzte Spalte) and Y (letzte Zeile) . Sie ergeben sick durch Bildung von Zeilen- and Spaltensummen . Betrachtet man die Randhaufigkeiten als vorgegeben, so ist es leicht, andere gemeinsame Haufigkeiten zu finden, die mit den Randern vertraglich sired (Ubung fur den Leser!) .
Statt mit den absolutes Haufigkeiten kann man die Kontingenztafel auch mit relatives Haufigkeiten aufstellen :
Y= r71
r)2
111
112
• ••
11K
2 121
122
. ..
12K
12 •
1J1
1J2
• ••
1JK
1J •
1.K
1
S1
r1K
her ist fur jedes j = 1,2, . . . , J and k = 1, 2, . . . , K nk
•
1jk =
•
1j •
n
die gemeinsame relative Haufigkeit von j and K
= k=1 > 1jk bzw .
J f.k = > j=1
f
die relative Randhaufigkeit von j bzw . and es gilt
J K
K
> fj j=1 k=1
k=1
Die relatives Randhaufigkeiten 11 • , f2 1J •
17k,
156
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
der Werte von
X nennt man auch die Randverteilung von X . Ebenso bilden
die relatives Randhaufigkeiten von Y
f.1,f.2, . . .,f.x die Randverteilung von Y .
5 .1 .2
Bedingte Verteilungen
Von den gemeinsamen relatives Haufigkeiten zu unterscheiden sind die so genannten bedingten relatives Haufigkeiten .
•
Fur festes Ice {1, .,K} and j = 1, . . . , J wird .
fj1Y=?k =
fjk f•k
als die bedingte relative Haufigkeit von
unter der Bedingung
Y = T1k bezeichnet . Sie stelit die relative Haufigkeit des Werts ~ in der Teilgesamtheit alley Einheiten day, die in der Variables Y den Wert 1lk aufweisen, dens es ist
fjk
nj k
njk
n
.1k = nk = n k n
Die Gesamtheit der J bedingten relatives Haufigkeiten
f1IY=nk, f2IY=nk, . . . , fJ~Y =~k
X wird bedingte Verteilung von X unter der BedinY = Tik genannt .
der Werte von gung
•
Ebenso wird fur festes j e {1, . . . , J} and k = 1, . . . , K
fk~x=fig =
f~k fJ •
bedingte relative Haufigkeit von 1/k unter der Bedingung genannt . Die Gesamtheit dieser Haufigkeiten
fiix=g; , f2Ix= wird als bedingte Verteilung von bezeichnet .
X = ~
. .
Y unter der Bedingung X = ~
5 .1 . GRUNDBEGRIFFE
1 57
Es gilt offenbar
and
j=
k
f3jY=7/k -
=1
firk=1, . . .,K
fiir j = 1, . . . , J .
k=1
Im obigen Beispiel „Beruf and Sport" ergeben sick als bedingte relative Haufigkeiten fur Y aster der Bedingung X = 1 (das ist die Verteilung der sportlichen Betatigung bei den Arbeitern) : n11 _ 240 _ (me), fi~X=~1 = n1 . 430 0,558 _ n12 120 _ 0, 279 (gelegentlich), f2IX=~1 n1 . 430 n13 70 = 0,163 (regelmaf3ig) . f3JX=e1 = n 1 . 430 Die relatives Haufigkeiten von X aster der Bedingung Y = ri3 (Verteilung der Berufszugehorigkeit bei den regelmaf3ig sportlich Aktiven) : fi~Y=~3 f2IY= v3 f3IY=v3 f4 I Y = ~13 fs~Y=v3
70 _ = 214 - 0,327, 90 421 = 0,421, ' ' 30 _ 0,140 , = 214 6 = 0,028, ' 18 _ = 214 - 0,084 .
Aus den absolutes Randhaufigkeiten von X and den bedingten relatives Haufigkeiten fur Y unter der Bedingung X = ~ kann man die gemeinsamen absolutes Haufigkeiten njk eindeutig bestimmen, dens es gilt : njk njk = -nj . = fkIX=g,nj . n3 .
Analog kann man aus den bedingten relatives Haufigkeiten fur X unter der Bedingung Y = rlk and den absolutes Randhaufigkeiten von Y die gemeinsamen absolutes Haufigkeiten eindeutig bestimmen, dens es gilt : njk =
njk n .k = fjIY=r1k" k n .k
158
5 .1 .3
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Deskriptive Unabhangigkeit
Die zwei Variables X and Y heil3en deskriptiv unabhangig, wens fur alle j = 1, . . . , J and k = 1, . . . , K die Beziehung
njk =
n
zutrifft . Im Fall der deskriptiven Unabhangigkeit sind also die gemeinsamen absolutes Haufigkeiten durch die absolutes Randhaufigkeiten eindeutig bestimmt . Man uberpruft die deskriptive Unabhangigkeit zweier Variables anhand ihrer Kontingenztafel .
Beispiel „Geschlecht and Partei": Wir betrachten die Merkmale X =
Geschlecht (mannlich weiblich),
Y =
gewahlte Partei (A B I C)
in der nachfolgenden Tabelle : B
C
E
mdnnlich
200
120
80
400
weiblich
300
180
120
600
500
300
200
1000
Offenbar sind die beiden Variables hier deskriptiv unabhangig . Wie man an dem Beispiel sieht, stimmen die drei bedingten Verteilungen von X (unter der Bedingung Y = rik fur k = 1, 2, 3) iiberein . Ebenso sind die zwei bedingten Verteilungen von Y (unter der Bedingung X = j fur j = 1,2) gleich . Generell gilt : Die Variables X and Y sind genau dann deskriptiv unabhangig, wens eine der vier folgenden aquivalenten Bedingungen erfi llt ist : 1 . Fur alle j = 1, . . . , J and k = 1, . . . , K gilt :
njk =
njfl
n
n .k
2 . Fur alle j = 1, . . . , J and k = 1, . . . , K gilt : fjk
=
f . f•k
5 .1 .
GRUNDBEGRIFFE
159
3 . Fur alle j = 1, . . . , J gilt : fjly=~1 = . . . = fj~y=,IK = fj .
4 . Fur alle k = 1, . . . , K gilt : fkIX=~1 - . . . - fkIX=~~ = f•k
Bedingung 1 ist nichts anderes als die Definition von oben . Bedingung 2 entspricht Bedingung 1 dividiert durch n . Bedingung 3 besagt, dass die bedingten Verteilungen von X unter Y = 1]k nicht von k abhangen . Mit anderen Worten : Die bedingten Verteilungen von X stimmen alle mit der Randverteilung von X uberein . Bedingung 4 besagt, dass die bedingten Verteilungen von Y unter X = j nicht von j abhangen ; die bedingten Verteilungen von Y stimmen alle mit der Randverteilung von Y uberein .
5.1 .4
Arithmetische Mittel and Varianzen
Im Folgenden wollen wir zusatzlich annehmen, dass X and Y metrische Merkmale, also mindestens intervallskaliert sind . Dann konnen insbesondere die arithmetischen Mittel and Varianzen von X and Y sinnvoll berechnet werden . Auch lasses sick Mittelwerte and Streuungen fur die bedingten Verteilungen definieren . Bei den nachfolgenden Formeln handelt es sich im Wesentlichen um die wohlbekannten Formeln fur den Mittelwert einer univariaten Verteilung . Diese werden lediglich auf unterschiedliche Verteilungen (Randverteilungen and bedingte Verteilungen) angewandt . Wir gehen davon aus, dass die Dates in einer Kontingenztafel (mit absolutes oder relatives Haufigkeiten) gegeben sind .
• Das arithmetische Mittel von X bzw . Y ist das arithmetische Mittel der entsprechenden Randverteilung :
fj K
K
k=1
k=1
•
?Jk f. k
• Das Paar ( , y) ist das arithmetische Mittel der gemeinsamen Verteilung von X and Y . Im Streudiagramm bildet es den Schwerpunkt .
1 60
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
• Das bedingte arithmetische Mittel von X unter der Bedingung Y = rik (k fest gegeben) ist das arithmetische Mittel der entsprechenden bedingten Verteilung von X : xk =
j fj II'=~1k
Ebenso ist das bedingte arithmetische Mittel von Y unter der Bedingung X = j (j fest gegeben) das arithmetische Mittel der entsprechenden bedingten Verteilung von Y : K
K
k=1
7lknjk =
k=1
Tlkfk~X= ;
Der Zusammenhang zwischen den bedingten Mitteln and dem Mittel der Randverteilung ist durch den aus Kapitel 2 bekannten Additionssatz fur arithmetische Mittel gegeben . Man zerlegt die Grundgesamtheit G = { 1, 2, . . . , n} in K Teile Gk, die den Werten von Y entsprechen, Gk = {i E G : y2 = ?c'k} . Dann ist ~Gk~ = n .k and der Additionssatz liefert die Formel : x =
K k=1
Analog gilt :
J
_ n .k xk n
_ nj .
j=1
Falls X and Y deskriptiv unabhangig sind, stimmen, wie im vorigen Abschnitt bemerkt, samtliche bedingten Verteilungen von X mit der Randverteilung von X uberein . Da das bedingte arithmetische Mittel von X gegeben Y = rlk der Mittelwert der entsprechenden bedingten Verteilung von X ist, stimmt im Fall der deskriptiven Unabhangigkeit auch fur jedes k der bedingte Mittelwert von X mit dem gewohnlichen Mittelwert uberein, x1=x2= . . .=xx=x • Gleiches gilt im Fall der deskriptiven Unabhangigkeit fur die bedingten Mittelwerte von Y, namlich
Y1-Y2= . . .=YJ=y Aus den Randverteilungen and den bedingten Verteilungen von X and Y kann man auch die entsprechenden Varianzen berechnen .
5 .1 .
161
GRUNDBEGRIFFE
• Die Variant von X bzw . Y ist die Variant der entsprechenden Randverteilung :
S 2X
-
s zY -
• Die bedingte Variant von X unter der Bedingung Y =
'i1k (k fest gegeben) ist definiert als die Variant der entsprechenden bedingten Verteilung von X, z
S x I Y=lk _
- xk)2
njk n. k
die bedingte Variant von Y unter der Bedingung X = j (j fest gegeben) als die Variant der entsprechenden bedingten Verteilung von S zY I x=e •
=
2 nak (17k - y) n k=1 ~
K
=
k=1
ri2k
njk n. ~
- gj2
Die Variant von X (bzw . Y) and die bedingten Varianzen hangen fiber den bekannten Additionssatz fur Varianzen (siehe Kapitel 2) zusammen . Wie bei den Mittelwerten erhalt man S zx
x) 2 n k
2 sY
- y)2 nj0 . n
n '
j=1
Im Fall der deskriptiven Unabhangigkeit von X and Y sind alle bedingten Verteilungen von X gleich der Randverteilung von X and deshalb auch alle bedingten Varianzen von X gleich der gewohnlichen Variant von X, z z 2 z S X1Y-71 = SX1Y-,12 = . . = SxIY-~K = Sx .
Entsprechendes gilt bei deskriptiven Unabhangigkeit fur Y, SYJx=~1 = SyIx=~ 2 =
= S7 X
J = Sy .
Beispiel „Wohnungen" : In n = 1000 Wohnungen einer Trabantenstadt warden die Anzahl der Wohnraume X and die Anzahl der Personen Y in der Wohnung erhoben . Es ergab sick :
162
5.
AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Y=1
2
3
4
X=1 2
200
40
0
0 0
3
200
100
80
40
30 100
20 0
15 5
10 10
500
200
150
4 5
E 240
10
0
340
60
10
290
20 20 10 20
85 45
100
50
1000
a) Man berechne die arithmetischen Mittel and Varianzen von X and Y. Das Ergebnis lautet
x = 2,355,
sx = 1,149,
y = 2,000,
s 12, = 1,500 .
b) Man berechne die bedingten arithmetischen Mittel and Varianzen von X unter der Bedingung Y = k fiir k = 1, . . ., K. Man erhalt als Ergebnis :
x1 = 500 x2 = 2,225
Lij=1
x4
= 3,000 = 3,300
x5
= 4,200
x3
~~n~1
= 1, 840
sxIY=1 = ~j=1 Sj 500 -
s zx Y=z - 0,874 s zx ~ Y=s = 0,533 s 2x ~ Y=4 = 0,610
( 1,840)2 = 0,694
~
S
x~Y=5
= 0,560
Ferner gilt 0,691, 0,458, Sx 2
5 .1 .5
0,691 + 0,458 = 1,149 .
Hoherdimensionale Daten
Zum Abschluss dieses Kapitels soil anhand eines einfachen Beispiels gezeigt
werden, wie man auch hoherdimensionale Daten iibersichtlich darstellen kann .
5 .1 .
GRUNDBEGRIFFE
1 63
Beispiel „Rauchen": Bei n = 1000 Personen werden die drei Merkmale X
Rauchgewohnheit (Rancher Nichtrancher),
Y
Geschlecht (mannlich
Z
I
weiblich),
Hanfigkeit von Kopfschmerzen
(einmal oder weniger pro Woche J mehr als einmal pro Woche)
erhoben . Die Datenmatrix hat hier das Format 1000x3 . Da jedes Merkmal fur sick betrachtet zwei mogliche Werte besitzt, gibt es 2 3 = 8 mogliche Antworten fur jede befragte Person . Die Haufigkeiten, mit der these acht Antworten in den Dates vorkommen, kann man in einer modifizierten Haufigkeitstabelle wie folgt darstellen : Z
X
Y
einmal oder weniger mehr als einmal
Rancher
mannlich
20
290
weiblich
60
170
20
230
40
170
Nicht rancher mannlich weiblich
Die modifizierte Haufigkeitstabelle enthalt die gemeinsamen absolutes Haufigkeiten nijk der drei Merkmale . Durch Aggregation in einem Merkmal erhalt man zweidimensionale Randhaufigkeiten . So ist L njk • =
1=1
?2jkl
die absolute Randhaufigkeit von rik), das ist die Anzahl der Beobachtungseinheiten, bei denen X den Wert ~ and Y den Wert r)k annimmt . Ebenso sind ri and n .kl definiert . Weiter treten eindimensionale Randhaufigkeiten auf; beispielsweise ist x ni . .
k=1
K k• =
L
k=11=1
jkl
die absolute Randhaufigkeit von j, das ist die Anzahl der Einheiten, bei denen X = ~ beobachtet wird . Ebenso sind n.k . and n . .l definiert .
a) Man gebe im Beispiel „Rauchen" die eindimensionalen Randhaufigkeiten von X, Y and Z an .
1 64
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Man erhalt die Randhaufigkeiten von X
?ti . . = 540,
n2 . . = 460,
von Y
n .l . = 560,
n .2 . = 440,
von Z
n . .l = 140,
n . .2 = 860 .
b) Man gebe die zweidimensionalen Randhaufigkeiten von X and Y Bowie von Y and Z jeweils in einer gewohnlichen Hanfigkeitstabelle an . Y X
E
mannlich weiblich
Rancher
310
230
540
Nichtrancher
250
210
460
E
560
440
1000
Z Y
E
einmal oder weniger mehr als einmal
mannl.
40
520
560
weibl.
100
340
440
E
140
860
1000
c) Man gebe die bedingten zweidimensionalen Randhaufigkeiten von X and Z nnter der Bedingung Y = mannlich an . z X
einmal oder weniger mehr als einmal
E
Rancher
20
290
310
Nicht rancher
20
230
250
E
40
520
560
Teilt man absolute Randhaufigkeiten durch n, erhalt man relative Randhaufigkeiten, beispielsweise nj . . njk . usw . fjk . = n , fj . . = n Die drei Variables X, Y and Z heif3en deskriptiv unabhangig, well fj kl = f . . f. k . f. .l
fur
j = 1, . . . , J, k = 1, . . . , K and l = 1, . . . , L .
5 .1 . GRUNDBEGRIFFE
165
d) sind X, Y and Z in der obigen Tabelle deskriptiv unabhangig? Offensichtlich nicht! Wir haben (fur j = k = l = 1) fni = 0, 02, aber fl . . f.l . f. .l =0,54 . 0,56 . 0,14 = 0,042
0, 02 .
Auch fur vier Variables lasst sick eine modifizierte Haufigkeitstabelle angeben . Erweiterung des Beispiels „Ranches": Es wurde zusdtzlich das Merkmal U = sportliche Betdtigung (selten / haufig) erhoben . Nun sind 16 mogliche Antworten zu berucksichtigen . Eine modifizierte Haufigkeitstabelle sieht etwa so aus : Z einmal oder weniger mehr als einmal U X Rancher
Y
selten
haufig
selten
haufig
mannlich
10
10
140
150
20
40
70
100
5
15
150
80
20
20
70
100
weiblich Nichtraucher mannlich weiblich
5 .1 .6
Stetig klassierte mehrdimensionale Dates
Die bisher entwickelten Definitionen and Formeln beziehen sick auf die diskrete Klassierung von mehrdimensionalen Dates . Wens eines der Merkmale oder mehrere stetig klassiert sind, verwendet man analoge Formeln . Seien nun zweidimensionale Dates gegeben, die in beiden Variables X and Y stetig klassiert sind . Das heifit, gegeben sind Klassengrenzen -o0<xi <xi=x2 < . . .<xJ_1=xj<xj 0,
falls
(x i , yi)
im Quadranten I oder III liegt,
(xi - ~) ( yi - y) < 0,
falls
(xi, yi)
im Quadranten II oder IV liegt .
5 .2
•
ZUSAMMENHANGSMASSE
169
y
85-
o
80-o 75-
I I
II o
-
I
I
o
~, I
-
70=
- o I
o
65 =
60-
I I I
III
I
=
I
55 -i
I
IV
o
I
50-
I
1"'
3 .8
4 .0
s
1'
4 .2
i"
4 .4
4 .6
1
i"
4 .8
o
1
1
1111
5 .0
1
5 .2
11
5 .4
x
Abbildung 5 .2 : Zur Interpretation der Kovarianz
Das Vorzeichen von SXY ist dann positiv, wenn die Flachen im ersten and dritten Quadranten uberwiegen, es ist negativ, wenn die Flachen im zweiten and vierten Quadranten uberwiegen • Eine positive Kovarianz bedeutet deshalb, dass x-Werte and y-Werte eine gemeinsame Tendenz besitzen : groflere x-Werte gehen mit grofleren y-Werten and kleinere x-Werte gehen mit kleineren y-Werten einher • Umgekehrt bedeutet eine negative Kovarianz, dass x-Werte and y-Werte eine gegenlaufige Tendenz aufweisen • Eine Kovarianz nahe null wird als Fehlen einer solchen Tendenz interpretiert • Aus der Definition der Kovarianz sieht man sofort, dass sie sick nicht andert, wenn man die beiden Merkmale vertauscht ; es gilt sxY = SYx • Die Variant eines Merkmals ist gleich der Kovarianz des Merkmals mit sick selbst,
1 70
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Beispiel: Im obigen Beispiel „Obsthandler" ergibt sick folgende Arbeitstabelle : i
1
4,70
70
22,09 4900
2
4,30
75
18,49
5625 322,5
3
3,80
80
14,44
6400
4
4,50
75
20,25
5625 337,5
5
5,40 50
29,16
2500
270,0
6
5,00
60
25,00
3600
300,0
7
4,10
70
16,81
4900 287,0
8
4,30
65
18,49
4225 279,5
9
3,90
75
15,21
5625
292,5
10
4,00
85
16,00
7225
340,0
44,00 705
Es ist
x =4,40,
sxY
n n
i=1
304,0
195,94 50625 3062,0
y =70,5, sX = 0,234,
Die Kovarianz ist dann (-*
329,0
sY = 92, 25 .
EXCEL)
xzyz - x
y
10 .
3062 - 4, 4 . 70, 5 = -4 .
Ahnlich der Variant kann auch die Kovarianz aus einer Haufigkeitstabelle berechnet werden . Seien 1, . . . , j and rll i . . . , riK die Werte von X and Y and nj k die gemeinsamen absolutes Haufigkeiten, so ist
5 .2 .
171
ZUSAMMENHANGSMASSE
Beispiel „Wohnungen" aus Abschnitt, 5 .1 : Es war X die Anzahl der Wohnraume and Y die Anzahl der Personen pro Wohnung, n = 1000 . Fur sxY ergibt sick sxY
x
= -
jr/knjk - x y
_
j=1 k=1 1 .2,0 .20)_2,355 .5 .240++5 .200+1 .1 i00(1
=
0, 82 .
Wir untersuchen nun das Verhalten von sxY, wenn die Daten of n-linear Y' . Jedes beobachtete Wertepaar
transformiert werden, X H X' and Y (xi, yi) wird dabei wie folgt abgebildet,
(xz, yi) H (z, y)
mit xi = a + bxi,
y2
= c + dy i ,
wobei a, b, c and d feste reelle Zahlen sind . Dann gilt :
x')(y Z
i=1
=
bd 1
-
p')
+ bxi - ( a + bx))(c + dyi - (c + d~)) n i=1
i - x)(yi -2J)
sx'Y' = b d sxY Man sieht, dass die Kovarianz eine lags-invariance Maf3zahl ist . Sie ist linear in jedem ihrer Arguments, das heif?,t emn gemeinsamer Faktor der x-Werte last sick vor die Kovarianz ziehen, ebenso emn gemeinsamer Faktor der yWerte . Es folgt, dass sxY beliebig grofle Werte annehmen kann, also nicht normiert ist . Auf3erdem tragt sxY eine Benennung (namlich die Benennung von X mal der Benennung von Y) . Die Kovarianz last sick normieren, indem man sie durch die Standardabweichungen von X and Y dividiert . Das so konstruierte normierte ZusammenhangsmaE heiEt KorrelationskoefHzient von X and Y ('--3 EXCEL),
rxY =
sXY sx sY
Aus Einzeldaten berechnet man rxY mit den bekannten Formeln fur sxY, sx and Sy,
1 72
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
rxy
=
n
n i=1
(x2 - x)
n - ~) 2 n ~ (xz i=1 n n i=1
i=1
(y2 -
n
n
2=1
y) (yi - y) 2
xiyi - nx y n
x? - nx2
i=1
y2 - ny 2
Der Korrelationskoeffizient hat folgende wichtige Eigenschaften :
l.
rxY hat keine Benennung .
2.
rxY andert rYx .
3. rxY ist xi H x?
sick nicht, wenn man
X
and
Y
vertauscht ; es gilt
rxY =
invariant in Bezug auf affin-lineare Transformationen der Daten, H yz = c ~- dxi , i = 1, 2, . . . , n, mit bd > 0 . Es gilt
= a + bxi, yi
namlich fur beliebige a, b, c, d E R
rx , Y ,
sx,Y,
sx' SY' bdsx' ~bI sx Id~ sY
=
bd
Ib Id rXY
Die Bedingung bd > 0 bedeutet, dass die Vorzeichen von b and d iibereinstimmen . Dann ist offensichtlich rx'Y' = rxY . Wenn sie unterschiedlich sind, ist rx'Y' _ -rxY .
4. rxY
ist normiert . Es gilt (ohne Beweis) :
-1
a + bx i fur alle i,
g2 -
• exakter negatives affin-linearer Zusammenhang rxY = -1
Es gibt b < 0 and a E R, so dass
yz = a + bxi fur alle i .
6 . Wens rxY = 0 ist, sagt man, die Variables X and Y seien unkorreliert . Insbesondere sind deskriptiv unabhangige Variable unkorreliert . Wens X and Y deskriptiv unabhangig sind, gilt namlich
njk n
nj . n
n .k n
fur j . . =,J 1, and k = 1, . . . , K . Fur sxY ergibt sick dann J K
j=1 k=
j=1
(
-
(j - x)
x) (rlk - y) nk
n
k=1
(r1 - y) nk = 0
and damit rxY = 0 . Deskriptive Unabhangigkeit impliziert also die Unkorreliertheit . Das Umgekehrte gilt jedoch nicht : Emn Korrelationskoeffizient von null impliziert nicht die deskriptive Unabhangigkeit .
Zahlenbeispiel : Gegeben sei die folgende Kontingenztabelle . Y=2
4
6
E
10
0
10
0 10
20
X=1
0
3
10
5
0
10
0
10
10
20
10
40
Man rechnet leicht aus, dass sxY = 0, also auch rxY = 0 ist. Andererseits sieht man an der Kontingenztafel, dass die bedingten Verteilungen von X nicht mit der Randverteilung von X iibereinstimmen, also keine deskriptive Unabhangigkeit vorliegt. Aus den genannten Eigenschaften von rxY folgert man : Der Korrelationskoeffizient ist emn Ma13 des linearen Zusammenhangs (genauer : des affinlinearen Zusammenhangs) von X and Y in den Dates .
1 74
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Im Beispiel „Obsthandler" ist der Korrelationskoef zient
-4 sxY rxY = = ~sX • ~sY ~/0, 234 • x/92,
25
=
- 0,8609 .
Es existiert also emn starker negatives linearer Zusammenhang zwischen Preis and abgesetzter Merge . Bei der Interpretation des Wertes von rxY ist besondere Vorsicht angebracht . 1 . rxY mist nur die Starke des linearer Zusammenhangs . Auch wenn rxY gleich null odes ungefahr gleich null ist and somit kein linearer Zusammenhang angezeigt wird, konnen andere Arten des Zusammenhangs vorliegen . Zahlenbeispiel: Sei n = 5 and (xi,yi) (x 2 , Y 2 ) (x 3 , j) (X4, i4) (x5,
ys)
Wie man sieht, gilt y2 = xx fiir i = 1, . . . , 5, es existiert emn exakter quadratischer Zusammenhang der x- and y-Werte ; vgl . Abbildung 5 .3 . Demgegeni ber gilt hier jedoch rxY = 0, der Korrelationskoef zient zeigt den quadratischer Zusammenhang nicht an . 2.
Der Korrelationskoeffizient rxY andert sick nicht, wenn man X and Y vertauscht . Aus dem Wert von rxY darf deshalb nicht auf eine Kausalbeziehung von X auf Y odes umgekehrt geschlossen werden . Eire solche Kausalbeziehung kann nur durch sachlogische, inhaltliche Uberlegungen im Kontext der Anwendung festgestellt werden, nicht jedoch durch die Berechnung von rxY .
3 . Emn nahezu linearer Zusammmenhang von X and Y kann verschiedene Ursachen haben . So konnen z .B . X and Y beide von einer dritten Variables Z abhangen (ohne dass Z explizit betrachtet wird) . Emn hoher West von rxY wird in diesem Fall als Scheinkorrelation bezeichnet .
5 .2 .
ZUSAMMENHANGSMASSE
175 I' 43-
/
x Abbildung
5 .3 :
Nullkorrelation bei quadratischer Abhangigkeit
Beispiel: Wortschatz X and Korpergrof3e Y von Kindern weisen h,aufig einen deutlich ausgepragten linearen Zusammenhang auf . Tatsachlich hangen beide Variable von einer dritten ab, namlich dem Alter Z des Kindes . 4.
Emn hoher Wert von rxy kann auch dann entstehen, wenn xz and yZ Zeitreihen sind, die einen starken gemeinsamen Trend aufweisen (zum Begriff des Trends siehe Kapitel 6) . Auch hier kann es sich um eine Scheinkorrelation handeln, die durch den gemeinsamen Trend verursacht ist . SchlieElich sei noch darauf hingewiesen, dass vollig sachfremde Variable X and Y gelegentlich eine hohe Korrelation aufweisen (so genannte Nonsens-Korrelation) .
5.2 .2
Ordinate Dates : Rangkorrelationskoeffizient
Den Zusammenhang zwischen nur ordinal skalierten Variables misst man mit dem Rangkorrelationskoeffizienten (nach Spearman) . Sind X and Y nur ordinalskaliert, so ist die direkte Anwendung des Korrelationskoeffizienten auf die Dates (x2, y2) , i = 1, . . . , n, nicht zulassig, da weder die arithmetischen Mittel x and y noch die Varianzen sX and sY noch die Kovarianz sXY eine Bedeutung haben . Man kann allerdings die Dates x 2 and yz durch ihre Rangzahlen RX (x i ) and RY (yz) ersetzen and den Korrelationskoeffizienten dieser Rangzahlen berechnen . Zunachst unterstellen wir, dass die Werte xl, x2 i . . . , x,,, alle verschieden sind . Dann erhalt xi die Rangzahl RX(xi) = r (kurz : den Rang r), wenn xi in der aufsteigend geordneten Folge der x-Werte an der r-ten Stelle steht, i = 1, 2, . . . , n . Analog ist fur jedes i die Rangzahl RY (y2) von yZ definiert .
1 76
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
= 4, 13 = 7, 14
Zahlenbeispiel : Fur 11 = 1, 12
= 3, 15 = 6 and xs = 8 ist
= 3, Rx(x3) = 5, Rx(x4) = 2, Rx(x5) = 4, Rx(xs) = 6 . Rx(x1) = 1, Rx(x2)
Die Anwendung der Formel des Korrelationskoef izienten auf die Range Rx (xi ) and Ry (yi) ergibt
n
_ (Rx(xi) - Rx) (RY(yi) - R Y ) i=1
R rXY V
n i=1
(Rx(xi) - RX~2
n i=1
(RY(yi) - RY) 2
,
wobei Rx and Ry die arithmetischen Mittel der Range bezeichnen . Die Summe alley Range, das sind die Zahlen von 1 bis n, ist gleich n metische Mittel der Range daher gleich
xRY = =
~21) ,
das arith-
n+1 , 2 ,
also gilt
n
R rXy =
n i=1 ~,
(Rx(xi) -
) ( RY(yi) -
n n21)2 ~(RX(xi)i=1
)
Ti
~(RY(yi)i=1
n21)2
Die Ma1lzahl rX y nennt man den RangkorrelationskofFizienten der Daten Eine aquivalente Formel fur rX y lautet : (xi, yi), . . .
R rXy =
n i=1
i=1 RX(xi)
n ( n41 )z
RX(xi)RY(yi) 2
n(n+1)z 4
-
n i=1
2 n(n±i) z 4 RY(yi) -
Mittels einer Umformung erhalt man (unter Ausnutzung der Verschiedenheit der xi bzw . yi) die vereinfachte Formel ('-> EXCEL)
n
rR xY
= 1-
6 ~, (Rx(xi) - RY(yi)) a=1
2
n (n 2 _ 1 )
Beispiel „Bewerber" : Sechs Bewerber (i = 1, . . . , 6) um eine Stelle wurden vom Personalchef auf einer von 1 bis 10 reichenden Ordinalskala in Bezug auf Fachwissen (= X) and Auftreten (= Y) beurteilt . Es ergab sick
5 .2 .
ZUSAMMENHANGSMASSE i 1 1 4
177
Rx(x)
RY(y2)
(Rx(x~) - RY(yz)) 2
21
21
10
2
7 9 3 4 6
10
8
5
E
Aus dies en Werten berechnet man rXY = 1 -
60
6(62101) = 1 - 6 35 = 0,714 .
Die wichtigsten Eigenschaften des Rangkorrelationskoeffizienten kann man so zusammenfassen : 1 . rX Y hat keine Benennung. 2 . rX Y andert sick nicht, wenn man
X
and
Y
vertauscht .
3 . rX Y ist invariant in Bezug auf streng monoton wachsende Transforma-
tionen . D .h ., wenn and streng monoton wachsende Funktionen sind and x? _ ~(xi) and y2 = zl~(y2) fur i = 1, . . ., n, so gilt R rx
Y -
R rx Y .
Dies folgt aus der Tatsache, dass sick die Range durch die streng monoton wachsenden Funktionen and nicht andern, d.h . fur alle i gilt Rx(x) = Rx(x) and RY(y2) = RY(y2) . 4 . rX Y ist normiert,
-1 R X (j)znj .
j=1
(n+1) 2 4
? n
K
k=1
. - (n Ry(r7k) z nk
41)2
berechnet . Die vereinfachte Formel ist im Fall von Bindungen falsch . Bei einer groEeren Anzahl von Bindungen kann durch ihre Anwendung emn erheblicher Fehler entstehen .
5 .2 .
179
ZUSAMMENHANGSMASSE
Beispiel „Kursentwicklung": 27 Aktien warden in Bezug auf X =
Gewinn des Unternehmens (gering mittel hoch),
Y =
Kursentwicklung im Vergleich zum Markt (unterproportional
I
proportional iiberproportional)
beurteilt . Es ergab sick : Y X
?71
72
773
unterprop . prop . iiberprop .
1
3
gering
4
2
1
7
mittel
3
7
4
14
hock
1
2
3
6
8
11
8
27
Man ermittelt folgende Durchschnittsriinge : Rx(1)=7(1+2+ . . .+7)=4,
Rx(2)=i4(8+9+ . . •+ 21)=14,5, Rx (1;3) Rx=
z
=
s (22 + 23 + . . . + 27) = 24, 5 , = 14,
Ry (77h) = 4, 5 , Ry(r)2)=14,
Ry (rl3) = 23, 5, Ry = 14 .
Es ergibt sick (2741)2 2 7 (4 .4,5 .4+4 .14 .2+ . . .+24,5 .23,53)rR _ _ 0 348 . xy /2 (4 2 .7+14,5 2 .14+24,52 .6)-19627 (4,5 2 .8+14 2 .11+23,5 2 .8)-196 Mit der (fur den vorliegenden Fall unzuhissigen) rechentechnisch einfacheren Formel wurde sick rX y = 0,441 ergeben, also emn deutlich hoherer Wert .
5 .2 .3
Nominale Dates : Kontingenzkoeffizient
In diesem Abschnitt wird fur X and Y nur eine Nominalskala vorausgesetzt . Den Zusammenhang zwischen blof3 nominal skalierten Variables mist man mit dem KontingenzkoefFizienten . Die Dates seien in Form einer Kontingenztafel gegeben . Die beiden Variafur alle bles sind in der Tabelle deskriptiv unabhangig, wens njk _ . Emn Maim fur die Abweichung von der j = l, . . . , J and k = 1, . . . , K gilt deskriptiven Unabhangigkeit stellt der Ausdruck
180
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
dar. Wir setzen hier nati rlich n~ . > 0 and n .k > 0 fur alle j and k voraus. Sollte r . = 0 oder n .k = 0 fur emn j oder k sein, so kann der entsprechende Merkmalswert bzw . rik gestrichen werden . x2 ist offensichtlich genau dann null, wens die Variables deskriptiv unabhan-
gig sind . Im Fall J
= K = 2 x2
erhalt man die einfachere Formel
_ n
(nlln22 - n12n2l) 2 nl .n2 .n .ln .2
x2 ist jedoch noch nicht normiert . An Stelle von x 2 verwendet man deshalb
den Kontingenzkoeffizienten C,
min{J, K} min{J, K} -
x2
C=CxY=
x2 + n
1
Der Kontingenzkoeflizient wachst streng monoton mit x 2 and ist normiert, 0 K and man berechnet (0 - 502000)2 - 500 J2+(50 - 50000)2 + (50 50 .50 50 .150 50 .150 200 200 200 .150) 2 .50) 2 .50) z 200 200 200 - 100 100 + (O -5050 + (100 100 + (O -100 .50 .150 .50 200 200 200 = 200, X
2
CXY
_
200 . 200 + 200 2 = 1
Der Wert 1 von X tritt hier nur gemeinsam mit dem Wert 772 von Y auf, der Wert 2 von X nur gemeinsam mit dem Wert 771 von Y, and der Wert s von X ebenfalls nur gemeinsam mit dem Wert i von Y . Bei jeder Beobachtung (x27 y2) kann man also vom Wert von x2 auf den Wert von y2 schliejlen . Umgekehrt kann man jedoch nicht vom y-Wert auf den x-Wert schlieJSen . Beispiel 2 (mit J = K) : E h1 772 0 50 50 E
100
0
100
100
50
150
182
5.
Hier ist
J = K
AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
and man erhalt
x z 2=1 . =x2+150
CXY
1 immer mit Biz and z immer mit ril auf. Aus dem Wert von X kann man also auf den Wert von Y schlief3en and Im zweiten Beispiel trio also umgekehrt .
Wens Cxy maximal, das heill,t gleich sins ist, sagt man, dass emn vollstandiger Zusammenhang zwischen den Variables besteht . Dabei sind zwei Falls zu unterscheiden : • Im Fall J < K ist Cxy = 1 aquivalent damit, dass xz = n(J - 1) .
Man kann zeigen, dass dann jede Spalte der Kontingenztafel genau eine gemeinsame Haufigkeit enthalt, die von null verschieden ist ; siehe das obige Beispiel 2 mit J = K = 2 .
• Im Fall J > K bedeutet Cxy = 1, dass xz = n(K - 1) ist and sick
in jeder Zeile der Kontingenztafel genau eine gemeinsame Haufigkeit befindet, die von null verschieden ist ; siehe das obige Beispiel 1 mit J=3undK=2 .
Bei der Interpretation von Cxy ist zu beachten, dass Cxy nur die Starke des Zusammenhangs misst, nicht jedoch die Richtung . Allerdings misst Cxy Zusammenhangs beliebiger Art and nicht nur den affin-linearen (wie rxy) oder den monotones (wie rXy ) Zusammenhang . Zur praktischen Anwendung der ZusammenhangsmaJle rxy, rX y and Cxy noch einige Hinweise . • Sind die Skalenniveaus von X and Y verschieden, so muss emn Zusam-
menhangsmaJ gewahlt werden, das hochstens das geringere der beiden Skalenniveaus erfordert . X
Y
Nominalskala Ordinalskala
Metrische Skala
Nominalskala Ordinalskala Metrische Skala cXY
CXY
CXY
R rxy
cXY
TR yy
cXY R
rxY
TXY
• Wie schon mehrfach erwahnt, misst rxy nur die Starke des affin-linearen
Zusammenhangs von zwei metrischen Variables Xund Y, rX y nur die Starke des monotones Zusammenhangs . Will man jedoch fur metrische
5 .3 .
DESKRIPTIVE REGRESSION
1 83
oder ordinalskalierte Variables den allgemeinen Zusammenhang messes, so berechnet man CXY . Sind X oder Y (oder beide) stetig, so muss zunachst eine stetige Klassierung vorgenommen and dann CXY aus der Haufigkeitstabelle berechnet werden . Allerdings hangt der Wert von CXY nicht unerheblich von der Anzahl der Klassen and der Wahl der Klassengrenzen ab .
5 .3
Deskriptive Regression
Mit den in Abschnitt 5 .2 angegebenen Zusammenhangsmaflen wird die Starke des Zusammenhangs zwischen zwei Variables X and Y gemessen . Diese Mane andern sick nicht, wens X and Y vertauscht werden . Man kann mit ihnen daher keine Kausalbeziehung zum Ausdruck bringen . Demgegenuber betrachten wir nun verschiedene Methoden der Regression . Bei ihnen wird eine Variable auf eine andere „zuruckgefuhrt", genauer : die Variation der ersten Variables durch die Variation der zweiten Variables „erklart" . Die beiden Variables haben hierbei unterschiedliche Rollen . Die erste Variable wird als abhangige Variable oder Regressand bezeichnet . Die zweite, der Erklarung dienende Variable heifit unabhangige Variable oder Regressor . Welche von beiden die Rolle der unabhangigen and welche die Rolle der abhangigen Variables einnimmt, hangt vom Kontext der Anwendung ab . Auch die Art, d .h . die funktionale Form des Einflusses der unabhangigen auf die abhangige Variable wird ggf . vorweg durch inhaltliche and sachlogische Uberlegungen bestimmt .
5 .3.1
Regression erster Art
Bei dieser Art der Regression wird vorausgesetzt, dass die abhangige Variable Y mindestens intervallskaliert ist . Die unabhangige Variable X darf beliebig skaliert sein ; sie besitze die moglichen Auspragungen . . .,~j. Aus den Dates (z1, yI) , . . . , ( x,, yn ) berechnen wir die bedingten Mittelwerte von Y unter der Bedingung X = j fur j = 1, . . . , J . Die Zuordnung
yj
Sj F-
yj
heiEt deskriptive Regression erster Art von Y auf X . Graphisch stellt man die deskriptive Regression erster Art wie folgt dar : 1st X blofi nominal skaliert, zeichnet man emn Saulendiagramm ; die Saule bei j hat darin die Hohe = l, 2, . . . , J . Wens X ordinal oder metrisch skaliert ist and j gilt, zeichnet man die Punkte . . . < . . . , ( ~, yJ) in die z-yI < Ebene emn and verbindet sie .
184
5 . AUSWERTUNG VON MEHRDIMENSIONALEN DATEN
Beispiel „Haushaltseinkommen" : Wir untersuchen den Einfluss des Haushaltstyps X auf das durchschnittliche verfiigbare Haushalts-Nettoeinkommen Y in den alters Bundeslandern . Sei G die Grundgesamtheit oiler Privathaushalte der alters Bundeslander im Jahre 1998 . Sie wird in sechs Haushaltstypen unterteilt; siehe die folgende Tabelle . Durchschnittliches verfiigbares Haushalts-Nettoeinkommen reach Haushaltstypen ; alts Bundeslander in 1998 (Queue : Statistisches Jahrbuch 2001) mittl . Einkommen y~ Anzahl Haushalts Haushaltstyp ~~
(in 1000)
(in DM)
Selbstandige
8470
2248
Beamte
7977
1734
Angestellte
6150
10452
A rbeiter
4967
7240
Arbeitslose
2892
1983
Nichterwerbstatige
3756
13124 36781
Das zur Regression gehorige Saulendiagramm ist in Abbildung 5 .4 dargestellt. 18000 16000 14000 12000 -
yi
10000 8000 6000 4000 2000 0 j=
1 Haushaltstyp
Abbildung 5 .4 : Saulendiagramm zur Regression erster Art
5 .3 . DESKRIPTIVE REGRESSION
1 85
Durch das Merkmal X mit den Auspragungen 1 i . . . , 1 j ist eine Zerlegung der Grundgesamtheit in J Teilgesamtheiten mit den Umfangen n1 ., ., n2 . nj . gegeben . Es gilt :
z = SY
2=1
2 SYl x=~,
nj. +
1
s2~t
j =1
(y~
-) 2 n .
seat
Hierbei bezeichnet s 12 lX= ~~ die bedingte Variant von Y unter der Bedingung
X = j (vgl . Abschnitt 5 .1 .4) .
Der Erklarungswert der unabhangigen Variables X fur Y kann dann durch die Mafizahl
B=
2
seat
s 2Y
ausgedriickt werden . B heifit Bestimmtheitsmai3 oder Determinationskoeffizient der deskriptiven Regression erster Art . Es gilt
0 0
gilt das
_1.
Multiplikationstheorem ln(zy) = ln(x) + ln(y) .
(iv) Fur jedes 0 < x < 2 gilt die Reihenentwicklung
1 )k+1 (-1)k = k+l
(x k=o
(x -
1
1) - (x - 1) 2 2
+
(x - 1)s 3
242
B . EXPONENTIALFUNKTION UND LOGARITHMUS
Weitere Definitionen and Formeln (i) Die allgemeine Potent x 5 ist durch xy = exp(yln(x))
fur alle x > 0 and y e R definiert . Insbesondere ist e X = exp(x) , x E R .
(ii) Sei a > 0 and a Basis a ist durch
1 . Der allgemeine Logarithmus log(x) von x zur y = log a (x)
x = ay
fur alle x > 0 definiert . Es gilt ln(x) ln(x)
-
log(x)
=
loge (x), log(x) .ln(a), ln(x) ln(a)
Der Logarithmus zur Basis a = 10 heif~t dekadischer Logarithmus . Sei f eine differenzierbare Funktion f : ]a, b[-~ R . Fur jedes x E ]a, b[, fur das f (x) 0 ist, heiiit die Ableitung / f~ ) d ln(f (x)) _ (ln f (x)) = dx f(x) logarithmische Ableitung von f an der Stelle x . Man nennt die logarithmische Ableitung von f auch (stetige) Wachstumsrate . Die Wachstumsrate von f ist genau dann konstant gleich w, wenn f (x) = ae'"~ gilt, wobei a eine positive Konstante ist .
(iv) Sei f eine differenzierbare Funktion f : ]a, b[--3 R . Fur jedes x E ]a, b[, fur das f (z) 0 ist, heiRt die Ableitung d ln(f (x)) dln(x)
x
f'(x) f(x)
doppelt-logarithmische Ableitung von f an der Stelle x . Wenn x > 0 and f (x) > 0 ist, wird die doppelt-logarithmische Ableitung auch als Elastizitat von f an der Stelle x bezeichnet .
Literaturverzeichnis ABELS, H . (1993) . Wirtschafts- and Bevolkerungsstatistik . Gabler, Wiesbaden, 4 . Aufl .
ASSENMACHER, W . (2002) . Einfuhrung in die Okonometrie . Miinchen, 6 . Aufl .
Oldenbourg,
ASSENMACHER, W . (2003) . Deskriptive Statistik. Springer, Berlin, 3 . Aufl . AUER, L . VON (2005) . Berlin, 3 . Aufl .
Okonometrie . Eine Einfuhrung.
Springer Verlag,
BAMBERG, G . and BAUR, F . (2002) . Statistik . Oldenbourg, Miinchen, 12 . Aufl .
BENNINGHAUS, H . (2005) . Einfuhrung in die sozialwissenschaftliche Daten-
analyse . Oldenbourg, 7 . Aufl .
BOL, G . (2004) . Deskriptive Statistik . Oldenbourg, 5 . Aufl . BGMSDGRF, E . (2002) . Deskriptive Statistik . J . Eul, Lohmar, 11 . Aufl . BOMSDORF, E ., DYCKERHOFF, R ., MOSLER, K . and SCHMID, F . (2006a) .
Klausurtraining Statistik . Band 2. Universitat zu Koln .
BOMSDORF, E ., GROHN, E ., MOSLER, K . and SCHMID, F . (2006b) . Defi-
nitionen, Formeln and Tabellen zur Statistik . Universitat zu Koln, 5 . Aufl .
BOMSDORF, E ., GROHN, E ., MOSLER, K . and SCHMID, F . (2006c) . Klau-
surtraining Statistik . Band 1 . Universitat zu Koln, 4 . Aufl .
BOSCH, K . (1998) . Statistik-Taschenbuch . Oldenbourg, Miinchen, 3 . Aufl . BUCHWALD, W . (2004) . Vom Preisindex fur die Lebenshaltung zum Verbraucherpreisindex . Wirtschaft and Statistik 1, 11-18 .
BURKSCHAT, M ., CRAMER, E . and KAMPS, U . (2004) . Beschreibende Sta-
tistik - Grundlegende Methoden . Springer, Berlin . 243
244
LITERATURVERZEICHNIS
CHLUMSKY, J . and EHLING, M . (1997) . Grundzuge des kiunftigen Konzepts der Wirtschaftsrechnungen der privaten Haushalte . Wirtschaft and Stati-
stik 7, 455-461 .
COWELL, F . (1995) . Measuring Inequality. Prentice Hall, London, 2 . Aufl . CRAMER, E ., CRAMER, K ., KAMPS, U . and ZUCKSCHWERDT, C . (2004) . Beschreibende Statistik - Interaktive Grafiken . Springer, Berlin . DIALEKT-PROJEKT (2002) . Springer, Berlin .
Statistik interaktiv. Deskriptive Statistik .
ECKEY, H .-F ., KOSFELD, R . and DREGER, C . (2002) . Statistik, Grundlagen - Methoden - Beispiele . Gabler, 3 . Aufl . ECKEY, H .-F ., KOSFELD, R . and DREGER, C . (2004) . Okonometrie. Gabler, Wiesbaden, 2 . Aufl . ECKEY, H .-F ., KOSFELD, R . and TURCK, M . (2005) . Deskriptive Statistik. Gabler, Wiesbaden, 4 . Aufl . EGNER, U . (2003) . Umstellung des Verbraucherindex auf Basis 2000 . Wirt-
schaft and Statistik 10, 423-432 .
ELBEL, G . (1999) . Die Berechnung der Wagungsschemata fur die Preisindizes fur die Lebenshaltung . Wirtschaft and Statistik 1999, 171-178 . EUROSTAT (2004) . Hamonisierte Verbraucherpreisindizes (HVPI) . Emn kurzer Leitfaden fur Datennutzer. Amt fur amtliche Veroffentlichungen der Europaischen Gemeinschaften, Luxemburg . FAHRMEIR, L ., KUNSTLER, R ., PIGEOT, I . and TUTZ, G . (2003) . Statistik - Der Weg zur Datenanalyse . Springer, Berlin, 4 . Aufl . FAHRMEIR, L ., KUNSTLER, R ., PIGEOT, I ., TUTZ, G ., CAPUTO, A . and LANG, S . (2004) . Arbeitsbuch Statistik. Springer, Berlin, 4 . Aufl . FERSCHL, F . (1985) . Deskriptive Statistik . Physica, Wiurzburg, 3 . Aufl . FISHER, I . (1922) . The Making of Index Numbers : A Study of Their Varieties, Tests and Reliability . Houghton Muffin, New York . HAFNER, R . and WALDL, H . (2001) . Statistik flit Sozial- and Wirtschaftswissenschaftler, Bd.2, Arbeitsbuch fur SPSS and Microsoft Excel . SpringerVerlag, Wien . HARDLE, W ., LEHMANN, H . and RONZ, B . (2001) . MM* Stat . Eine interaktive Einfi hrung in die Welt der Statistik . Springer, Berlin .
LITERATURVERZEICHNIS
245
HARTUNG, J . and HEINE, B . (1999) . Statistik-Ubungen, Deskriptive Statistik . Oldenbourg, Munchen, 6 . Aufi . HEILER, S . (1995) . Zur Glattung saisonaler Zeitreihen . In H . Rinne, B . Ruger and H . Strecker, Hrsg ., Grundlagen der Statistik and ihre Anwendungen, Festschrift fur Kurt Weichselberger . Physica, Heidelberg . HEILER, S . and MICHELS, P . (2004) . Deskriptive and explorative Datenanalyse . Oldenbourg, Munchen, 2 . Aufl . KAISER, J . (1998) . Budgets ausgewahlter privater Haushalte 1997 . schaft and Statistik 8, 680-688 .
Wirt-
KAISER, J . (2000) . Die Statistik der laufenden Wirtschaftsrechnungen in neu konzipierter Form . Wirtschaft and Statistik 10, 773-781 . KRAMER, W . (2001) . Statistik verstehen . Eine Gebrauchsanweisung . Campus Verlag, Frankfurt, 3 . Aufl . KRUG, W ., NOURNEY, M . and SCHMIDT, J . (2001) . Wirtschafts- and Sozialstatistik : Gewinnung von Daten . Oldenbourg, Munchen, 6 . Aufl . KUHNEN, C . (1998) . Das Stichprobenverfahren der Einkommens- and Verbrauchsstichprobe . Wirtschaft and Statistik 1, 111-115 . KuNZ, D . (1987) . Praktische Wirtschaftsstatistik . Kohlhammer, Stuttgart . LAMBERT, P . (2002) . The Distribution and Redistribution of Income . Manchester University Press, Manchester, 3 . Aufl . LAUx, G . (1983) . Ausbau der Konzentrationsstatistiken im Produzierenden Gewerbe . Wirtschaft and Statistik 1983, 385-395 . LINZ, S . and ECKERT, G . (2002) . Zur Einfuhrung hedonischer Methoden in die Preisstatistik . Wirtschaft and Statistik 10, 857-863 . LIPPE, P . VON DER (1996) . Wirtschaftsstatistik . Amtliche Statistik and Volkswirtschaftliche Gesamtrechnungen . Lucius & Lucius, Stuttgart, 5 . Aufl . LIPPE, P . VON DER (2001) . Chain Indices . A Study in Price Index Theory. Metzler-Poeschel, Stuttgart . LIPPE, P . VON DER (2006) . Deskriptive Statistik . Formeln, Aufgaben, Klau-
surtraining. Oldenbourg, Munchen, 7 . Aufl .
LoHNINGER, H . (2001) . Teach/Me Datenanalyse . Springer, Berlin . LOTZE, S . and BREIHOLZ, H . (2002a) .
Zum neuen Erhebungsdesign des Mikrozensus - Teil 1 . Wirtschaft and Statistik 10, 359-366 .
246
LITERATURVERZEICHNIS
LoTZE, S . and BREIHOLZ, H . (2002b) . Zum neuen Erhebungsdesign des Mikrozensus - Teil 2 . Wirtschaft and Statistik 11, 454-459 . MITTAG, H .-J . and STEMANN, D . (2004) . Statistik . Beschreibende Statistik and Explorative Datenanalyse : Interaktive Multimedia-Lernsoftware . Hanser, 5 . Aufl . MONKA, M . and Aufl .
Voss, W . (2005) . Statistik am PC . Hanser, Munchen, 4 .
MoNOPOLKOMMISSION (Verschiedene Jahre) . Hauptgutachten . Nomos-Verlagsgesellschaft, Baden-Baden . MOSLER, K . and SCHMID, F . (2006) . Wahrscheinlichkeitsrechnung and schliefTende Statistik. Springer, Berlin, 2 . Aufl . MUNNICH, M . (2000) . Einkommens- and Geldvermogensverteilung privater Haushalte in Deutschland - Teil 1 . Wirtschaft and Statistik 679-691 . MUNNICH, M . (2001) . Einkommens- and Geldvermogensverteilung privater Haushalte in Deutschland - Teil 2 . Wirtschaft and Statistik . NEUBAUER, W . (1996) . Preisstatistik. Vahlen, Munchen . PFLAUMER, P ., HEINE, B . and HARTUNG, J . (2005) . Statistik fur Wirtschafts- and Sozialwissenschaften : Deskriptive Statistik . Oldenbourg, Munchen, 3 . Aufl . PIESCH, W . (1975) . Statistische Konzentrationsmaffe . J .C .B . Mohr (Paul Siebeck), Tubingen . PINNEKAMP, H .-J . and SIEGMANN, F . (2001) . Deskriptive Statistik. Oldenbourg, Munchen, 4 . Aufl . POLASEK, W . (1994) . EDA - Explorative Datenanalyse . Springer, Berlin, 2 . Aufl . RIEDE, T . (1997) . 40 Jahre Mikrozensus . Wirtschaft and Statistik 3, 160174 . RINNE, H . (1996) . Wirtschafts- and Bevdlkerungsstatistik : Erlduterungen, Erhebungen, Ergebnisse . Oldenbourg, Munchen, 2 . Aufl . RINNE, H . and SPECHT, K . (2002) . Zeitreihen. Vahlen, Munchen . RRZN (1999a) . Excel 97. Einfuhrung in die Benutzung enter Windows 95/NT. Rechenzentrum Hannover, 6 . Aufl . RRZN (1999b) . Excel 97 fur Fortgeschrittene . Excel 97 enter Windows 95 and Windows NT. Rechenzentrum Hannover, 5 . Aufl .
247
LITERATURVERZEICHNIS
E . and MUNNICH, R . (2001) . Mathematische Statistik fur Okonomen . Lernprogramm . Vahlen, Munchen .
SCHAICH,
E . and schaftsstatistik.
SCHAICH, SCHIRA,
Praxis .
SCHWEITZER, W . Vahlen, Munchen,
(1999) . Ausgewahlte Methoden der Wirt2 . Aufi .
J . (2005) . Statistische Methoden der VWL and BWL - Theorie and Pearson, Munchen, 2 . Aufl .
SCHLITTGEN, chen .
R . (2001) . Angewandte Zeitreihenanalyse .
SCHLITTGEN, 10 . Aufl .
R . (2003) . Einfuhrung in die Statistik.
SCHLITTGEN,
R . (2005) . Das Statistiklabor.
SCHLITTGEN, R . and STREITBERG, B . bourg, Munchen, 9 . Aufl . SCHULZE, Aufl .
P.
M.
Oldenbourg, Munchen,
Springer, Berlin .
(2001) . Zeitreihenanalyse .
(2003) . Beschreibende Statistik.
SCHWARZE, J . (2005) . Grundlagen NWB, Herne, 10 . Aufl .
Oldenbourg, Mun-
Olden-
Oldenbourg, Munchen,
5.
der Statistik I, Beschreibende Verfahren .
STATISTISCHES BUNDESAMT, Hrsg . (1997) . statistik . Metzler-Poeschel, Stuttgart .
Das Arbeitsgebiet der Bundes-
STOCK, G . and OPFERMANN, R . (2000) . Neue Wege zur Verbesserung der Konzentrationsbeobachtung im Rahmen der amtlichen Wirtschaftsstatistik . Wirtschaft and Statistik 2000, 485-490 . STROHL, G . (2001) . Die Neuberechnung von Verbrauchergeldparitaten im Rahmen des Internationalen Vergleichs der Preise fur die Lebenshaltung .
Wirtschaft and Statistik 2001, 730-749 .
H ., FIEGER, A . and KASTNER, C . (2004) . Deskriptive Statistik . Eine Einfuhrung mit Ubungsaufgaben and Beispielen mit SPSS . Springer, Berlin, 4 . Aufl .
TOUTENBURG,
J . W . (1977) . Exploratory Data Analysis .
Addison-Wesley, Reading
VOGEL, F . and GRUNEWALD, W . (1996) . Kleines und Sozialstatistik. Oldenbourg, Munchen .
Lexikon der Bevolkerungs-
TUKEY, MA .
Voss, W . (2003) . Taschenbuch der Statistik . WINNER, ZWERENZ,
Fachbuchverlag Leipzig,
P . (1997) . Empirische Wirtschaftsforschung . K . (2001) . Statistik verstehen mit Excel .
2.
Aufl .
Springer, Berlin .
Oldenbourg, Munchen .
Index c -getrimmtes Mittel, 37 absolute Skala, 12 Abschneideauswahl, 16 affin-linear, 35, 44 Aggregation, 133 aquidistante Zeiten, 118 Aquivarianz afHne, 39 monotone, 32 Skalen-, 49 arithmetisches Mittel, 34 Ausreifler, 2, 37, 38, 45, 46, 62, 63, 232
deskriptive Regression erster Art, 183 zweiter Art, 187 Determinationskoeffizient , 185 Dezil, 32 Dimensionswechselprobe, 139 Disparitat, 77 gleichmaEig geringere, 91 Disparitatsindex, 91 Doppelsumme, 237 durchschnittliche Zuwachsrate, 122 durchschnittlicher Zuwachsfaktor, 121 Durchschnittsrange, 178
Basiszeit, 125, 127 bedingte Verteilung, 156 bedingtes arithmetisches Mittel, 160 Beobachtungseinheit, 2 Berichtszeit, 125
egalitare Verteilung, 81 Einkommens- and Verbrauchsstichprobe, 18 empirische Verteilungsfunktion, 29, 56 Europaische Verbraucherpreisindizes, 144 EUROSTAT, 144 Exponentialfunktion, 239
Bestandsmasse, 8 Bestandsveranderung, 8
BestimmtheitsmaE, 52, 185, 191, 192, 194 Bestimmtheitsprobe, 140 Bewegungsmasse, 8 Beziehungszahl, 114 Bindungen, 178 Boxplot, 33 Daten, 13 primarstatistisch, 14 sekundarstatistisch, 14 Datenmatrix, 14 Datenvektor, 14 deskriptiv unabhangig, 158, 164
exponentielles Glatten, 226
fachliche Zentralisierung, 19 Faktorumkehrprobe, 139 Folge arithmetische, 237 geometrische, 237 geometrisches Mittel, 40 getrimmtes Mittel, 37 gewichtetes Mittel, 37 Gini-Koeffizient, 92
Ginis mittlere Different, 46 249
250
INDEX
gleitender Durchschnitt, 215, 219 allgemein, 219 einfach, 219 zweifacher, 220 Gliederungszahl, 113 Grundgesamtheit, 7
Konzentrationsrate, 80 Kopfsteuer, 96 Korrelationskoeffizient, 171 Kovarianz, 168 Kreisdiagramm, 27
Identitatsprobe, 139 Indexzahlen, 126 Intervallskala, 12
Ma]lzahl, 2 Median, 32, 38 Mengenindex Typ Fisher, 131 Typ Laspeyres, 130 Typ Paasche, 130 Mengenschema, 127 Merkmal, 8 binar, 11 diskret, 10 extensiv, 13 haufbar, 13 intensiv, 13 kontinuierlich, 10 nicht haufbar, 13 qualitativ, 11 quantitativ, 11 quasistetig, 10 stetig, 10 Merkmalsanteil, 79 Merkmalsauspragung, 8 Merkmalstrager, 7 Merkmalswert, 11
Lags-Invariant, 49 Lagemafl, 38 harmonisches Mittel, 68 harmonisierter Verbraucherpreisindex, Langsschnittsdaten, 15 laufende Wirtschaftsrechnungen, 18, 143 141 Haufigkeit lineare Einfachregression, 187 absolute, 25 lineare Mehrfachregression, 187 bedingte relative, 156 lineare Regression, 187 gemeinsame absolute, 153 linearer Filter, 219 gemeinsame relative, 155 Logarithmus, 241, 242 relative, 25 logarithmus naturalis, 241 Haufigkeitstabelle, 26, 154 Lorenzkurve, 89 Haufigkeitsverteilung, 14 Lorenzkurvenordnung,91 Herfindahl-Index, 87
Kerndichteschatzer, 56 Klassenhaufigkeit absolute, 166 relative, 166 Klassierung diskrete, 26, 165 stetige, 52, 165 Komponentenmodell, 202 additives, 204 multiplikatives, 204 Kontingenzkoeffizient, 180 Kontingenztabelle, 154 Kontingenztafel, 154 Konzentration, 78 absolute, 79 gleichmaf3ig hohere, 83 horizontals, 87 relative, 79 Konzentrationsindex, 85 Konzentrationskurve, 80
Messskala, 11
251
INDEX
Messzahl, 118 Methode der kleinsten Quadrate, 187 metrisch skaliert, 13 Mikrozensus, 15 mittlere absolute Abweichung vom Median, 46 Modus, 27, 38 monoton wachsend, 29 nichtzentrierte Summanden, 43 Nominalskala, 11 Nonsens-Korrelation, 175 Normalgleichungen, 188 Nullerganzung, 106 Operationalisierung, 9 Ordinalskala, 11 Paneldaten, 15 Perzentil, 32 Phasendurchschnittsverfahren, 221 Potent allgemeine, 242 Potenzmittel, 42 Preisindex Typ Fisher, 129 Typ Laspeyres, 126 Typ Paasche, 127 Preisindex fur die Lebenshaltung, 140 Prinzip der Anonymitat, 106 Prinzip der egalisierenden Transfers, 106 Prinzip der Legalisierung, 19 Prinzip der Skaleninvarianz, 106 Produktzeichen, 238 Prognose, 210, 212, 225 Proportionalitatsprobe, 139 Proportionalsteuer, 96 Prozentpunkt, 31 Quantil, 31 Quantilfunktion, 32 Quartil, 32, 33 Quartilabstand, 46
Quartilschiefe, 62 Querschnittsdaten, 15 Quintil, 32 Quotenauswahl, 16 Randhaufigkeit absolute, 154 eindimensionale, 163 relative, 155, 164 zweidimensionale, 163 Randverteilung, 156 Rang, 175 Rangkorrelationskoffizienten, 176 Rangzahl, 175 Ratioskala, 12 rechtsstetig, 29 regionale Dezentralisierung, 19 Regressand, 183 Regression, 183 Regressionsgerade, 189 Regressionskoeffizienten, 187, 189 Regressor, 183 Replikation der Daten, 106 Residualvarianz, 192 Residuen, 187 Robustheit, 37, 38, 45, 46, 63 Rosenbluth-Index, 85 Rundprobe, 139 Saisonbereinigung, 222 Saisonfigur, 220 Saisonkomponente, 221 Sattigungsniveau, 230 Saulendiagramm, 27 Schachteldiagramm, 33 Scheinkorrelation, 174 Schiefe, 61 schlieEende Statistik, 4 Skala, 11 Skalen-Aquivarianz, 49 Skalenhierarchie, 13 Spannweite, 46 Stabdiagramm, 27 Standardabweichung, 42
252 c -getrimmte, 45 Standardisierung von Dates, 45 Statistik amtliche, 19 nichtamtliche, 19 statistische Einheit, 7 statistische Inferenz, 4 statistische Masse, 8 statistisches Urmaterial, 13 Steuerfunktion, 96 Steuertarif, 96 Streudiagramm, 152 Streuung, 42, 59 Streuungsmafl, 49 relatives, 94 Subindizes, 133 Summenzeichen, 235 symmetrische Verteilung, 60 Teilerhebung, 15 Trend, 202 exponentieller, 211, 230 linearer, 206, 230 logistischer, 230 mit Sattigungsniveau, 230 Treppenfunktion, 29 Trimmen, 37 Umbasierung, 119 Ungleichheit, 77 unkorreliert, 173 Untersuchungseinheit, 7, 153 Urliste, 13 Variable abhangige, 183 unabhangige, 183 Variables, 151 Variant, 42, 161 a-getrimmte, 45 bedingte, 161 externe,51 interne, 51 Varianzzerlegungssatz, 192
INDEX
Variationskoeffizient, 94 Verbrauchergeldparitaten, 145 Verbraucherpreisindex, 140 Verhaltnisskala, 12 Verhaltniszahl, 113 Verkettungsproblem, 119 Verschiebungssatz, 44 Verteilungsfunktion, 29 Volkszahlung, 15 Vollerhebung, 15 Wachstum,marginales, 229 Wachstumsfaktor, 121 Wachstumsrate, 121 konstante stetige, 229 stetige, 229, 242 Wagungsschema, 127 Warenkorb, 125 Wertindex, 131 Zeit, 118 Zeitpunkt, 118 Zeitraum, 118 Zeitreihe, 15, 118 Zeitreihendaten, 15 Zeitumkehrprobe, 139 zentrierte Summanden, 43 Zentrierung von Dates, 45 Zufallsauswahl geschichtete, 16 refine, 16 Zusammenhang vollstandig gegenlaufiger, 178 vollstandig gleichgerichteter, 177 Zuwachsfaktor, 120 Zuwachsrate, 120