Udo Kuckart z . St efan Rädiker . Thom as Ebert . Julia Schehl Statistik
Udo Kuckartz . Stefa n Rädiker Thomas Ebert ...
303 downloads
3648 Views
73MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Udo Kuckart z . St efan Rädiker . Thom as Ebert . Julia Schehl Statistik
Udo Kuckartz . Stefa n Rädiker Thomas Ebert . Julia Schehl
Statistik Eine verständliche Einfüh rung
III VSVERLAG
Bibliogra fische Information der Deutschen Nationalbibliothek Oie Deutsche Nationalbibliothek verzeichnet diese Publika tion in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Int ernet über c ht t o.z/dnb.d-nb.des abrutbar.
1. Auflage 2010 Alle Rechte vorbehalten
© VS verlag für Sozialwissenschaften I Springe r Fachmedien Wiesbaden GmbH 2010 Lektorat: Frank Engelhardt VS Verlag für Sozialwissenschaften ist eine Marke von Springer sacrmeden Springer Fachmedien ist Teil der Fachverlagsgruppe Springer scence-eusmess Media . wwwvs -verleg.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und verarbeitung in elektronischen Systemen. Oie Wiedergabe von ceoraucnsnamen. Handelsnamen. Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeic hnung nicht zu der Annahme, dass solche Namen im Sinne der warenzechen - und Markenschutz-Gesetzgebung als frei zu bet rachten wären und daher von jedermann benu tzt werden dürften. Umschlaggestaltung: k ünkenopka Medienentwicklung. Heidelberg Druck und bucnbmcenscne Verarbeitung: reo Brink, Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem capter ennteo in the Netnertenos ISBN 978-3-531-16662 -9
Inhalt
~ ~ r t
9
1
Die Aufbe re it u ng der Daten für die sta tistische Anal yse 1.1 Der Codep lan 1.2 Fehlen de Werte, immer ein Problem 1.3 Der Entwu rf eines Codeplans - ein Beispiel 1.4 So geht es mit SPSSjSYSTAT
13 14 20 21 26
2
Häufigkei ts verteilungen und ihre grafisch eu Da rstellungen 2.1 Häufigkeitstabellen 2.2 Bildung von Kategorien bei intervallskalierten Variab len 2.3 Grafische Dar stellungen einfacher Häu figkeitsvertei lungen 2.4 So gehtes mit SPSSjSYSTAT
33 34 37 38 51
3
Mitt elwerte und Streuungs maße 3.1 Mittelwerte 3.2 Streu ungs maße 3.3 Boxplots: Grafische Dars tellung von Streuu ngen 3.4 Stand ardi sierungsverfahren 3.5 So geht es mit SPSSj SYSTAT 3.6 Mitt elwerte und Streuungsmaße in der Forschungsliterat ur
57 57 64 70 72 75 80
4
Kreuztab elle, Chi-Quadrat und Zusammenban gsm aße 4.1 Das Prin zip der Kreuztabelle 4.2 Absolute Häufigkeiten, Spalten summ en und Zeilensummen 4.3 Relative Häufigkeiten, Spalte nprozente und Zeilenprozente 4.4 Erwar tu ngswerte und die Berechnung von Chi-Quadrat 4.5 Die Kreuztab elle mit meh rfach gest uften Merkmalen 4.6 Zusammenhangs maße für d ie Kreuzta bellenana lyse 4.7 Weitere Variablen in die Analyse ein bezie hen 4.8 Chi-Quad rat-Berechnung für univariate Verte ilungen 4.9 Grafische Darste llung von Kreuztabe llen 4.10 So geht es mitSPSSjSYSTAT 4.11 Die Kreuztabellenanalyse in der For schungsliteratur
81 81 83 84 86 89 91 93 93 95 98 101
Inhalt
6
5 Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen 5.1 Was ist Wahrscheinlichkeit und wie berechnet man sie? 5.2 Irren ist nicht nur menschlich, sondern auch wahrscheinlich 5.3 Wahrscheinlichkeitsverteilungen 5.4 Die Binomialverteilung 5.5 Die Normalverteilung 5.6 Die t-Verteilung 5.7 Die Chi-Quadrat-Verteilung 5.8 Die F-Verteilung
103 104 111 112 115 119 126 127 128
6
129 129 133 135 138 140 142 144 145
Die 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8
Logik des statistischen Schließens Die Verteilung von Stichprobenkennwerten Konfidenzintervalle Die statistische Hypothese Der Hypothesentest Einseitige und zweiseitige Tests Alpha-Fehler und Beta-Fehler Signifikanz - ein Begriff, der in die Irre führen kann Effektgröße
7 t- Test: zwei Mittelwerte vergleichen 7.1 Mittelwerte von zwei unabhängigen Stichproben vergleichen 7.2 Mittelwerte von zwei abhängigen Stichproben vergleichen 7.3 So geht es mitSPSS/SYSTAT 7.4 Der Vergleich von Mittelwerten in der Forschungsliteratur
147 149 154 158 165
8
Varianzanalyse: mehr als zwei Mittelwerte vergleichen 8.1 Grundbegriffe der Varianzanalyse 8.2 Das Prinzip der einfaktoriellen Varianzanalyse 8.3 Durchführung einer einfaktoriellen Varianzanalyse 8.4 Die mehrfaktorielle Varianzanalyse 8.5 Voraussetzungen für die Durchführung einer ANOVA 8.6 So geht es mitSPSS/SYSTAT 8.7 Die Varianzanalyse in der Forschungsliteratur
167 167 168 170 178 180 181 186
9
Korrelation: Zusammenhänge identifizieren 9.1 Zusammenhänge von Variablen grafisch darstellen 9.2 Die Korrelation von intervallskalierten Variablen 9.3 Die Korrelation von ordinalskalierten Variablen 9.4 Die Korrelation von nominalskalierten Variablen 9.5 Korrelation und Kausalität 9.6 So geht es mit SPSS/SYSTAT 9.7 Die Korrelationsanalyse in der Forschungsliteratur
189 189 192 198 200 203 206 211
Inhalt
7
10 Skalenbildung 10.1 Was ist überhaupt eine Skala? 10.2 Skalierungsverfahren 10.3 Konstruktion einer Likert Skala 10.4 Die Qualität einer Skala 10.5 Angaben der Skalengüte in der Forschungsliteratur 10.6 So geht es mit SPSS/SYSTAT
215 216 219 220 227 228 228
11 Regression: komplexe Zusammenhänge analysieren und Vorhersagen treffen 11.1 Einfache lineare Regression 11.2 Multiple lineare Regression 11.3 Ausblick auf die logistische Regression 11 .4 So geht es mitSPSS/SYSTAT 11.5 Die Regressionsanalyse in der Forschungsliteratur
233 233 239 244 246 250
Glossar
253
Literatur
261
Anhang A. Datensätze von sozial- und erziehungswissenschaftlichen Studien B. Tabellen
263 263 267
Register
272
Vorwort
Dieses Lehr buch der sozialwis sen schaftlichen Sta tistik ist spe ziell für die neuen Bachelor- und Master-Studieng änge konzipiert: Es ist forsc hungsorientiert, verstä ndlich und anwendungsorientiert Was heißt das ? Forschungsorientiert bed eutet, das s zu Beginn der Planu ng des Inhalts dieses Buches die method enkritische Lektü re de r Top-Fachzeits chriften sta nd. Wir haben zunächst katalogisiert, welche sta tistischen Verfahren in den forschun gsorientierten Artikeln verwe ndet werden, d ie bs pw. in d er Kölne r Zeitschri ft für Soziologie, der Zeitschrift für Erzie hungswissenschaft, der Zeitschr ift für Evaluation, der Zeitschrift für Soziologie oder der Zeitschrift für Pädagogik a bged ruc kt w urden. Verfahren, d ie dort häufi g Verwend ung finden, muss man als Fachwi s-
sensc haftlerj in kennen , allein schon um die Fachbeitr äge verstehen und kriti s ieren zu können. Solche Verfahren hab en pr ioritär Eingang in dieses Buch gefunden, weil diese Zeitsc hriften den Stare-of-th e-art vo n Forschu ng und For sch ungsmet hodik repräsentieren. Verständlich bedeutet, dass wi r darauf verzichtet haben, ein Lehrbuch der Stochasti k mit sozialwiss enschaftliehen Beispie len zu schreiben. Unsere Devise lautete: Soviel Math ematik und sovie l Form eln wie nötig, soviel sozialw issenscha ftliehe Forschu ngs- und Interpretationslogik wie möglich. Wir wo llen also in diesem Buch dar ste llen, was man aus der Persp ektive der empirischen Sozialforschu ng an Stati stikkennt nissen besitzen muss und nicht der inneren Logik der statistische n Verfah ren und ihr er mathematischen Grund lagen folgen. Anwendun gsorienti ert bedeutet, das s w ir die Leser und Leserinnen in den Stand vers etzen wollen, die dargestellten Verfah ren auch pra ktisc h im Forschungsalltag einsetz en zu können - und dies geschieht heutzuta ge mit Statis tik-Software, die preisgünstig und teilwei se kosten los für herkömmliche P'Cs verfügba r ist. Die Fäh igkeit, all die s auch per Hand mit dem eigenen Taschenrechner a usführen zu können, ist da gegen von begren ztem Nutzen . Wir hab en deshalb Wert darauf gelegt, jeweils zu erk lären, w ie d ie bes prochenen Statistikverfa hren in die Praxis umsetzba r sind, und zwar zum einen mit dem we it verb reiteten Program m SPSS und zum anderen mit dem Programm SYSTAT, dessen Version für Stud ierende unter dem Namen MYSTAT kosten los zu r Verfügung geste llt wi rd. Statistik-Puris ten werden vielleicht vorbringen, dass die Darstellung in diesem Buch zu oberflächlich sei und die Kompetenz pre ise n, au ch eine Varianz -
10
Vorwort
analyse oder eine multiple Regression mit dem Taschenrechner lösen zu können. Wir halten diese Fähigkeit für entbehrlich. Viel wichtiger ist es unseres Erachtens, die Ergebnisse statistischer Analysen interpretieren zu können und die Realität empirischer Forschung mit kritischem Blick wahrzunehmen. Was nützt bspw. die theoretisch unbestrittene Überlegenheit von Zufallsstichproben als Auswahlverfahren, wenn mehr als die Hälfte der so ausgewählten Menschen aus was für Motivlagen auch immer - nicht zu einem Interview bereit sind? Die Kritik, die an den quantitativ-statistischen Methoden und den mit ihnen produzierten Ergebnissen in den letzten Jahrzehnten vorgetragen worden ist, hat nicht zuletzt deshalb gegriffen, weil das Festhalten am standardisierten Vorgehen und mathematisch-statistischen Prinzipien oftmals an den Realitäten der Lebenswelt vorbei ging. Es wäre allerdings falsch, aus der teilweise berechtigten Kritik gleich eine fundamentale Ablehnung zu folgern. Die Betrachtung von zahlenmäßigen Verteilungen, Relationen und Korrelationen kann sehr erhellend sein und stellt ein machtvolles Instrumentarium empirischer Sozialforschung dar. Das ist auch trotz der Ablehnung, auf die der Lerngegenstand Statistik des Öfteren stößt, den Studentinnen und Studenten durchaus bewusst. Im Rahmen unserer Vorlesung "Einführung in die sozialwissenschaftliehe Statistik haben wir Studierende im 2. Semester schriftlich gefragt "Was ist der Nutzen von statistischen Erhebungen für die Pädagogik?" Von den mehreren hundert Antworten auf diese offen gestellte Frage seien hier nur wenige exemplarisch genannt: Erfolg oder Misserfolg von bestimmten Maßnahmen/Experimenten überprüfen Aktuelles, repräsentatives Bild von der Gesellschaft erhalten Bedürfnisse, Wünsche, Meinungen der Klienten und Klientinnen kennenlernen Theorien und Hypothesen überprüfen Ursachen und Problemfelder erkennen Verbesserung der Qualität pädagogischer Arbeit Schon diese kleine Auswahl zeigt in ihrer verblüffenden Vielschichtigkeit, wie wichtig ein solides Basiswissen in statistischen Methoden sein kann. Dieses Buch folgt der Logik der statistischen Datenanalyse. wie sie typischerweise in Forschungsprojekten praktiziert wird. Die Kapitel bauen aufeinander auf und sollten deshalb auch der Reihe nach gelesen werden. Der Prozess der Datenerhebung und deren verschiedene Formen wie Interview, Beobachtung, Experiment oder Inhaltsanalyse bleiben in diesem Buch außen vor. Wir starten mit dem ersten Kapitel an dem Punkt, wo die auszuwertenden Daten bereits vorliegen, z.B. in Form ausgefüllter Fragebögen oder Beobachtungsbögen. In den folgenden zehn Kapiteln wird ein anwendungsorientiertes statistisches Grundwissen vermittelt.
Vorwort
11
Alle Kapitel, in denen Berechnungen erläutert werden, beinhalten einen Abschnitt "So geht es mit SPSS/SYSTAT", in dem die Umsetzung des Beschriebenen mit Statistiksoftware erklärt wird. Den Abschluss der meisten Kapitel bildet ein Abschnitt, in dem Beispiele aus der aktuellen Forschungsliteratur dargestellt werden. Der Anhang enthält unter anderem ein Glossar der zentralen Begriffe sowie Hinweise aufwichtige, für die Forschung frei zugängliche Datensätze großer sozial- und erziehungswissenschaftlicher Studien. Das Buch ist als Begleitbuch für einen einsemestrigen Hochschulkurs mit 15 Terminen konzipiert, wobei der erste Termin wie üblich als Einführungstermin und der letzte Termin für die abschließend Klausur vorgesehen ist. Je nach intendierter Schwerpunktsetzung können dann zwei Kapitel, bspw. Kapitel 4 .Kreuztabellenanalyse" und Kapitel 11 "Regression", vertiefend an zwei Terminen bearbeitet werden. Es ist empfehlenswert und höchst sinnvoll, parallel zum inhaltlichen Seminar/Vorlesung einen Übungstermin oder ein Tutorium vorzusehen. Wir möchten uns bei allen bedanken, die uns bei der Erarbeitung und Fertigstellung dieses Buches unterstützt haben. Dies gilt vor allem für die Mitarbeiterinnen der Marburger Arbeitsgruppe für Methoden & Evaluation (magma), insbesondere für Katrin Peyerl, Dina Weiler, [anika Olschewski, Julia Busch und Stefanie Zanetti, die bei der Erstellung der Grafiken sowie beim Satz und Layout sehr engagiert und zuverlässig gearbeitet haben. Udo Kuckartz, Siefan Rädiker, Thomas Ebert,julia Schehl Marburg, im April 2010 P.S.: Im Internet stellen wir unter V\TWV\l.statistik-verständlich.de zusätzliche Informationen (interessante Links, Formelsammlung etc.) bereit.
1
Die Aufbereitung der Daten für die statistische Analyse
Bevor Daten ausgewe rtet werden können, müs sen sie zunächs t so aufberei tet w erden, dass sie mit sta tisti schen Analysep rogrammen bearbeite t werden können. Hat man etwa eine Pace-tc-face-Befragung! - also eine mündliche persönliche Befragung - du rchgeführt und die Antworten in einem Papierfragebogen notiert, s o muss man nun den Transfer der Dat en von den vielen einzelnen Fra geböge n in eine einzige übersichtliche Datenta belle orga nisieren. Eine so lche Datentabelle für die statistische Analyse besitzt eine n rechteckigen Aufbau und s ieht im Prinzip folgendermaßen aus: Tab 1-1 ' Die Datentabelle als Ergebnis d er Dat en au fber eit ung 10
Geschl echt
Note
Religion
Zufriedenheit
Beruf
101
m
3,2
2
2
Lehre r
10 2
w
2,1
1
3
Ärzt in
103
m
2,3
2
3
Schreiner
10 4
w
3,2
3
4
Päd ago gin
1,9
1
0
Anwa lt
105 106
m
2,9
3
2
Verkäufer
107
m
1,6
0
1
Krankenpfleger
Die erste Zeile ent hält die Namen der Variablen, hier z.B. Geschlecht, Note etc. Die fertige Dat entabelle, die häufig au ch Datenmat rix genannt wird, besteht aus n Zeilen, also genau so vielen Zeilen, wie es Befragte gibt, und m Spalte n, d h. so vielen Spa lte n, wie der Fragebogen Fragen ent hä lt bzw. um es gena u zu for mu-
1
Jm Fall von Online-Befra gungen muss man sich viele der hier folgenden Überlegungen bereits vor der Datenerhebung ma chen (vgl. hier zu z.B. Kuckart z u.a. 2009).
14
Die Aufbereitung der Daten fur die statistische Analyse
lieren: so viele Spalten, wie Variablen definiert werden müssen, um die Befragung adäquat auswerten zu können.
Was ist eigentlich eine Variable? Der Begriff "Variable" wird in den Sozialwissenschaften für ein Merkmal oder eine Eigenschaft verwendet. Eine Variable besitzt verschiedene Ausprägungen, z.B. hat das "Geschlecht" die Ausprägungen "männlich" und "weiblich" und die Ausprägungen der Variable "Alter in Jahren" sind die Jahre. Häufig werden die Begriffe "Variable" und "Merkmal" sy'nony'm verwendet. In der ersten Spalte der oben dargestellten Datentabelle (Tab. 1-1) steht eine Identifikationsnummer (Spaltenbenennung "rDU), die es ermöglichen soll, schnell auf den Originalfragebogen zurückzugreifen. Wenn auf den zu erfassenden Fragebögen nicht bereits eine eindeutige Kennung abgedruckt war, muss man also vor der Dateneingabe einen Stift zur Hand nehmen und alle ausgefüllten Fragebögen mit einer laufenden Nummer versehen. Eine solche Identifikationsnummer ist vor allem dann wichtig, wenn sich später bei der Kontrolle der eingegebenen Daten herausstellt, dass offenbar ein Eingabefehler vorliegen muss, weil die Datentabelle z.B. Variablenwerte enthält, die es aufgrund des Codeplans gar nicht geben kann oder die sehr unwahrscheinlich sind (Alter = 200 Jahre, 20-Jährige mit sieben Kindern etc.).
1.1 Der Codeplan Wenn man die Daten in Tabelle 1 näher betrachtet, wird man höchstwahrscheinlich die Tabellenwerte der Variablen "Geschlecht" intuitiv mit den tatsächlichen Ausprägungen der Variable in Verbindung bringen. Man vermutet wohl zurecht, dass der Code .rn" männlich bedeutet und es sich bei ID = 101 um einen männlichen Befragten handelt. Dementsprechend bedeutet die Eingabe "w", dass die befragte Person "weiblich" ist. Anders verhält es sich bei der vierten Spalte, die Angaben über die Religionszugehörigkeit enthält. Diese ist hier nicht im Klartext eingetragen, sondern wir finden dort nur Zahlenangaben, die wir nicht direkt in Verbindung mit den möglichen Ausprägungen "katholisch", "evangelisch", "keine Religionszugehörigkeit" etc. bringen können. Hier bedarf es also einer entsprechenden Korrespondenztabelle, in der die Bedeutung eines Variablenwertes eindeutig festgelegt wird. Eine solche Korrespondenztabelle bezeichnet man auch als Codeplan, Codierscherna oder englisch als Codebook. Betrachten wir Tab. 1- 2 als Beispiel:
15
Der Codeplan
Tab. 1-2:
Beispiel-Codeplan für sechs Variablen
Variablenname
Variablenlabel
Wertelabel
Variablentyp
Skalenniveau
ID
Identifikations nummer
Wert eingeben
Numerisch
nominal
Geschlecht
Geschlecht
w = weiblich
Strtng
nominal
Numerisch,l Dezimalstelle
intervall
Numerisch
nominal
Numerisch
ordlnal
Strtng
nominal
m - männlich 0= k.A.
Wert eingeben
Note
Durchschnittsnote im Abitur
0= k.A.
Religion
Religionszugehörigkelt
2 = protestantisch 3 = nlcht-chrtstl. Religion
1
katholisch
0= k.A.
1
Zufriedenheit
Beruf
Zufriedenheit mit Einkornmens-höhe Welchen Beruf üben Sie aus?
sehr zufrieden
2 = eher zufrieden 3 = eher nicht zufrieden 4 = sehr unzufrieden 0- k.A. Text eingeben
Der Codeplan ordnet den Fragen und Teilfragen eines Fragebogens Variablennamen (engl. Variable Names) und den möglichen Ausprägungen einer Variablen Wertelabels (Value Values) zu. Im folgenden Abschnitt werden die einzelnen Spalten von Tab. 1- 2 erläutert: Variablenname
Die Variablennamen dienen einem Statistikprogramm zur eindeutigen Identifizierung der einzelnen Variablenspalten. Variablennamen bestehen aus einem Wort bzw. einer Zeichenkette ohne Leerzeichen. Wenn der Fragebogen kurz ist und nur wenige Variablen zu definieren sind, kann man wie in Tab. 1-2 eine einfache, gegebenenfalls verkürzte Klartextbezeichnung verwenden. In den meisten Codeplänen enthält der Variablenname jedoch die Nummer der korrespondierenden Frage im Fragebogen, also bspw. "F1" oder "v23", wobei das "F" als Abkürzung für Frage und das "v" für Variable stehen. Diese Methode hat insbesondere bei längeren Fragebögen den Vorteil, dass man leichter den Überblick behält und im Statistikprogramm auf gesuchte Variablen schnell zugreifen kann. Zu beachten ist ferner, dass Statistikprogramme häufig nur bestimmte Zeichenkombinationen als Variablennamen erlauben (die Vorschriften werden im Detail weiter unten dargestellt).
16
Die Aufbereitung der Daten fur die statistische Analyse
Variablenlabel
In das Feld .Vartablenlabel" lässt sich für jede Variable eine detaillierte Beschreibung der Variablen eintragen. Während die Variablennamen meist Beschränkungen unterliegen, hat man bei der Definition von Variablenlabels "freie Hand". So bietet es sich an, die vollständige Formulierung der Frage aus dem Fragebogen als Variablenlabel zu übernehmen. Statistikprogramme benutzen das Variablenlabel später bei der Ausgabe zur Beschriftung von Tabellen und Grafiken. Wertelabel
Die dritte Spalte ist für die Ausprägungen der jeweiligen Variablen vorgesehen. Es wird festgehalten, wie die Antworten auf eine Frage in die Datenmatrix eingegeben werden. Enthält eine Frage im Fragebogen Antwortvorgaben (z.B. männlich und weiblich), so informiert die Spalte Wertelabel darüber, mit welcher Zahl oder mit welchem Zeichen die unterschiedlichen Antvvortmöglichkeiten in der Datenmatrix erfasst werden. Variablen typ
Beim Anschauen der Tab. 1-1 stellt man auf den ersten Blick fest, dass es offenbar Variablen verschiedenen Typs geben kann, bspw. findet man in der Spalte Geschlecht nur einzelne Buchstaben ("w" und "m") und in der Spalte Beruf ganze Wörter Ll.ehrerm"}. Solche Variablen, die nicht nur Zahlen, sondern auch Buchstaben und andere Zeichen enthalten, bezeichnet man als Zeichenkettenoder Stringvariable. Die Variablen Religion und Zufriedenheit enthalten hingegen ganze Zahlen und die Variable Note (das ist die Durchschnittsnote der Befragten im Abitur) enthält Zahlen mit Nachkommstellen. Derartige Variablen werden als "numerisch" bezeichnet. Skalenniveau
Welche Operationen man mit Variablen durchführen kann, hängt von ihrem Skalenniveau (Messniveau) ab. Man unterscheidet zwischen Nominalskala, Ordinalskala und Intervallsakala-, wobei die Nominalskala das geringste Skalenniveau und die Intervallskala das höchste aufweisen. Beim Vorgang des Messens werden den Merkmalen des empirischen Relativs Zahlen so zugeordnet, dass die ursprünglichen Relationen möglichst erhalten bleiben. Für das einfachste Skalenniveau. die Nominalskala, sieht dies etwa wie in Abb. 1-1 aus.
2
Die vierte Skalenart, die Verhältnisskala oder Ratioskala, spielt in der empirischen Forschung so gut wie keine Rolle und wird hier nicht berücksichtigt
Der Codeplan
17
Abb. 1-1: Veranschaulichung der Nominalskala
I Merkmal "Geschlecht" I
I
~
Camilla
!
Isabel Florian Nils
I
Zahlen
-
Empirisches Relativ
..
1
..
2
~
~
I
I
Numerisches Relativ
I
I
Anstelle der Werte ,,1" und ,,2" hätte man auch andere Werte zur Bezeichnung des Geschlechts wählen können [etwa; 7" und ,,12"). Für Variablen mit Nominalskalenniveau lassen sich nur Aussagen über Gleichheit bzw. Ungleichheit treffen. Jemand ist männlich oder weiblich; deutscher, italienischer, französischer oder anderer Nationalität. Dementsprechend ist es auch ohne Belang, welche Zahlen man den verschiedenen Ausprägungen einer nominalskalierten Variable zuordnet, ob man bei der Frage nach der Parteipräferenz der SPD ,,1" oder ,,4" zuordnet, spielt keine Rolle. Anders verhält es sich bei der Ordinalskala. Hier ist es erforderlich, dass im empirischen Relativ eine Ordnungsrelation besteht und diese Relation muss bei der Zuordnung von Zahlen erhalten bleiben. Beispiele für ordinalskalierte Variablen sind Gehaltsstufen, Bildungsabschlüsse, soziale Schicht und alle Arten von Rangfolgen. Sind Objekte äquivalent - etwa Personen, die beide nach der Gehaltsgruppe TVÖD 13 bezahlt werden - erhalten sie eine identische Zahl zugeordnet. Die schematische Darstellung in Abb. 1-2 verdeutlicht, dass die Information über den Rangplatz (Platzierung) auch erhalten bleibt, wenn anstelle von ,,1", ,,2", ,,3"und ,,4" die Zahlen ,,1", ,,3", ,,6" und" 7" zugeordnet werden. Die Intervallskala erlaubt nicht nur Aussagen über die Rangfolge von Objekten, sondern auch über die Größe ihrer Abstände. Während ich bei der Rangskala den zugeordneten Werten nur entnehmen kann, dass Camilla vor Isabel und Florian vor Nils ins Ziel gekommen ist, sind die Werte einer Intervallskala so zugeordnet, dass gleiche Zahlendifferenzen zwischen zwei Objekten gleichen Merkmalsunterschieden entsprechen. Erhalten bspw. unsere vier Läufer linnen die von ihnen benötigte Zeit in Sekunden zugeordnet, so lassen sich auch Aussagen über die Abstände von je zwei Objekten formulieren ("Der Abstand zwischen Camilla und Isabel ist größer als der zwischen Florian und Nils"]. Beispiele für intervallskalierte Variablen sind "Zeit, die für Zusammenlegen eines Puz-
18
Die Aufbereitung der Daten fur die statistische Analyse
zles benötigt wurde", "Zahl der Kinder", "Einkommen in Euro", "Entfernung von Wohnung zur Arbeit in Kilometern". Anstelle von Intervallskalenniveau ist häufig auch vom metrischen Skalenniveau die Rede. Abb. 1-2: Veranschaulichung der Ordinalskala
Merkmal "Gemessene Zeit beim 100m Lauf'
I
I
Zahl
---:-----_~
3
--+-----~~
6
--+-----~~
7
Numerisches Relativ
I
Zu unterscheiden sind ferner stetige (kontinuierliche) und diskrete Variablen: Bei stetigen Variablen existieren im Prinzip zwischen zwei Werten unendliche viele Zwischenwerte (Beispiel: Zeitmessung), während bei diskreten Variablen die Werte abzählbar sind und keine Zwischenwerte auftreten können (Beispiel "Zahl der Kinder"). Mit dem Begriff kategoriale Variablen werden üblicherweise neben nominalskalierten auch ordinalskalierte Variablen mit relativ wenigen Ausprägungen
bezeichnet. Anstelle von Ausprägungen ist dann meistens von Kategorien die Rede. In manchen Statistikprogrammen, wie etwa in SYSTAT, wird nur zwischen intervallskalierten und kategorialen Variablen unterschieden. Häufig findet man in der Literatur auch den Begriff dichotome Variable. Dies ist eine Variable mit lediglich zwei Ausprägungen, wobei es sich um eine natürliche oder konstruierte Dichotomie handeln kann. Das Merkmal "Geschlecht" ist ein Beispiel für eine natürliche Dichotomie, während andere Dichotomien wie etwa die dichotome Variable "Einkommen" von den Forschenden konstruiert werden, indem ein Schwellenwert definiert wird, der die Werte in lediglich zwei Gruppen aufteilt (erste Gruppe: Einkommen über dem Durchschnitt; zweite Gruppe: Einkommen unter dem Durchschnitt). Prinzipiell können Variablen eines bestimmten Skalenniveaus in solche eines geringeren Skalenniveaus transformiert werden. So kann die intervallskalierte Variable "Einkommen" nicht nur wie beschrieben in eine dichotome (=nominalskaliert), sondern auch in eine
19
Der Codeplan
ordinalskalierte Variable verwandelt werden, indem die Probanden gemäß ihrem Einkommen in eine Rangreihe gebracht werden. Das Skalenniveau determiniert die Art von möglichen mathematischen Operationen und damit auch die statistischen Verfahren, die mit den so skalierten Variablen durchführbar sind (vgl. Tab. 1-3). So ist es offenkundig unsinnig, einen Mittelwert der Religionszugehörigkeiten zu berechnen, obwohl die Spalte in der Tab. 1-3 nur Zahlenangaben enthält und theoretisch - anders als bei der Stringvariable "Geschlecht" - die Berechnung eines Mittelwerts denkbar wäre. Tab. 1-3
Skalenniveau nominal
ordinal
Erlaubte Operationen
Beispiele
a=b
Geschlecht, Beruf, Partelpräferenz. Studienfach,
a,b
Religionszugehö rigkeit
ab Interva!l
a-b=c-d
Zahl der Kinder, Einkommen, Durchschnittsnote im Abitur, Zahl der Elektroge räte im Haushalt,
Die Variablen der Tab. 1-2 besitzen also folgendes Skalenniveau: Variablenname
Skalenniveau
ID
nominal (zur Identifikation von Fragebögen)
Geschlecht
nominal (dichotom)
Note
Interva!l
Religion
nominal
Zufriedenheit
ordlnal
Beruf
nominal
An der unterschiedlichen Codierung der Variablen Geschlecht, Beruf und Religion lässt sich erkennen, dass nominalskalierte Variablen sowohl als Stringvariable als auch als numerische Variable codiert werden können. Während das Geschlecht in unserem Beispiel als Stringvariable definiert wurde, ist die Religionszugehörigkeit als numerische Variable definiert. In der Regel ist es bei Benutzung von statistischen Analyseprogrammen vorzuziehen, numerische Variable zu verwenden, obwohl deren Ausprägungen wie gesehen nicht ohne Hinzuziehen einer Korrespondenztabelle interpretiert werden können.
20
Die Aufbereitung der Daten für die statistische Analyse
1.2 Fehlende Werte, immer ein Problem Bei der Übertragung der Informationen aus einem Papier- oder OnlineFragebogen in eine Datenmatrix steht man häufig vor dem Problem, dass eine Antwort eines Befragten nicht auswertbar ist. Hierfür können zahlreiche Gründe vorliegen, z.B. Die Befragten haben die Antwort verweigert oder die Frage aus anderen Gründen nicht beantwortet Die Befragten haben zwei Antwortmöglichkeiten angekreuzt, obwohl nur eine Antwort erlaubt ist. Gelegentlich werden Kreuze auch zwischen zwei Ankreuzkästchen gesetzt und sind nicht eindeutig einer Antwortalternative zuzuordnen. Die Antwort ist offensichtlich falsch, z.B. wenn bei der Befragung von Studierenden eine Befragte als Alter ,,225" angegeben hat, ist nicht klar, ob sie 22 Jahre oder 25 Jahre meinte oder sich einen Scherz erlaubt hat. Die Antwort ist nicht lesbar. Die Antwort ist im Vergleich mit anderen Angaben nicht plausibel, z.B. eine 20-Jährige Person mit sieben Kindern. Die Frage trifft nicht zu, z.B. die Frage nach der Höhe des Einkommens bei einem befragten Kind. Das Problem der sogenannten fehlenden Werte ist bei der Auswertung von Forschungsdaten keineswegs trivial, sondern verursacht vielfältige Probleme. Zunächst muss man aber entscheiden, wie man solche fehlenden Werte in der Datentabelle codiert. Hierfür bieten sich im Wesentlichen zwei Methoden an. Erstens kann man das entsprechende Feld in der Datenmatrix einfach leer lassen, wie dies z.B. in Tab. 1-1 bei der Person mit der Identifikationsnummer 105 bei der Frage nach dem Geschlecht geschehen ist. Zweitens kann man fehlende Werte mit einem Zahlencode in die Datenmatrix aufnehmen. Dies ist dann hilfreich, wenn man zwischen verschiedenen Arten fehlender Werte unterscheiden möchte, so kann man z.B. die ,,9" für zweideutige Antworten verwenden und die ,,0" bei Antwortverweigerung. Von zentraler Bedeutung ist, welche Vorgaben das benutzte Statistikprogramm für die Verwaltung der fehlenden Werte macht, denn bei der Auswertung, z.B. bei der Berechnung des Mittelwertes, muss das Statistik- Programm in der Lage sein, die fehlenden Werte aus den Berechnungen auszuschließen. Wenn man als Code für fehlende Werte bei der Altersangabe den Wert ,,99" definiert hat, würde sich das Durchschnittsalter der Stichprobe nicht unerheblich erhöhen, wenn der Wert 99 in die Berechnung einbezogen würde. SPSS ist in Bezug auf die Handhabung fehlender Werte sehr flexibel, denn man kann fast alle denkbaren Werte als fehlende Werte deklarieren. Auch kann man unterschiedliche Arten fehlender Werte - etwa Antwortverweigerung.
Der Entwurf eines Codeplans - ein Beispiel
21
Weiß-nicht-Antvvorten etc. unterscheiden. SYSTAT ist in dieser Hinsicht weitaus restriktiver. Hier kann man fehlende numerische Werte nur durch einen Punkt kenntlich machen und fehlende Werte von Stringvariablen müssen als Leerzeichen codiert werden.
1.3 Der Entwurf eines Codeplans - ein Beispiel Nach diesen Vorklärungen wollen wir die Entstehung eines Codeplans an einem Beispiel demonstrieren. Wir werden dazu den Originalfragebogen der Studie Umweltbewusstsein in Deutschland> ausschnitt:vveise durchgehen.
OffeneFragen Der Fragebogen beginnt wie folgt: 1.
Was, glauben Sie, ist das wichtigste Problem, dem sich unser Land heute gegen übersieht?
INT.:
Bitte die Antwort des/der Befragten genau notieren! Bitte nur die ersten zwei Probleme, die der Befragte nennt, notieren!
Die erste Frage ist also eine offene Frage ohne Antwortvorgaben. Bei offenen Fragen werden die Antworttexte der Befragten in der Regel einfach in das entsprechende Feld der Datenmatrix eingegeben, so dass als Variablentyp nur .Stnng" in Frage kommt. Der Codeplans beginnt folgendermaßen: Variablenname
Label
Wertelabel
Typ
Skala
Fl
Wichtigstes Problem in Deutschland
(entfällt; Codieranweisung .Antworttext eingeben")
String
nominal
Um später eine Häufigkeitstabelle mit den Antworten auf die erste Frage erstellen zu können, müssen zunächst die Antworten durchgelesen werden und eine sinnvolle Kategorisierung entwickelt werden. Dabei verwendet man am besten die aus der qualitativen Inhaltsanalyse stammende Technik der induktiven Codierung (vgl. Mayring 2008: 74). Da die Zahl der Probleme, die potenziell von den Befragten genannt werden können, riesig groß ist, verfährt man bei der Kategorienbildung am besten so, dass bei der späteren Bearbeitung der Antworttexte für jedes Problem eine Oll-Variable definiert wird, wobei für den Fall,
3
Vgl. KuckartzjRheingans-HeintzejRädiker (2006). Der vollständige Fragebogen ist unter www.umweltbewusstsein.deverfügbar.
Die Aufbereitung der Daten fur die statistische Analyse
22
dass das betreffende Problem genannt wurde, eine 1 codiert wird. Die erarbeiteten Kategorien werden dann als Wertelabel in den Codeplan integriert. Zu diesem Zeitpunkt kann man allerdings noch nicht wissen, welche Kategorien gebildet werden, deshalb sind diese auch nicht Teil des ursprünglichen Codeplans, sondern werden erst später in diesen eingefügt.
lternbatterien Frage 2 des Fragebogens zum Umweltbewusstsein stellt eine sogenannte Itembatterie dar. Das Antwortformat ist jeweils gleich, nämlich eine 4er-Skala, sie von "sehr wichtig" bis "überhaupt nicht wichtig" reicht. 2. Ich lese Ihnen nun verschiedene politische Aufgabenbereiche vor. Bitte sagen Sie mir jeweils, ob Sie persönlich die Aufgabe für sehr wichtig, eher wichtig, weniger wichtig oder für überhaupt nicht wichtig halten. sehr wichtig
eher wichtig
weniger wichtig
überhaupt nicht wichtig
1
2
3
4
die Arbeitslosigkeit bekämpfen
0
0
0
0
den Bürger wirksamer vor Verbrechen schützen
0
0
0
0
für wirksamen Umweltschutz sorgen
0
0
0
0
das Zusammenleben mit Ausländern regeln
0
0
0
0
Die Umsetzung in den Codeplan geschieht wie in der folgenden Abbildung. Die Variablenlabels und Wertelabels werden zweckmäßigerweise so formuliert, dass die Formulierungen des Fragebogens so weit wie möglich im Originaltext übernommen werden. Gerade bei Fragebogenerhebungen ist äußerst wichtig zu wissen, wie die Frageformulierung lautet, insofern verbietet es sich an dieser Stelle, sich neue Formulierungen auszudenken, und zwar auch dann, wenn sie vielleicht präziser und besser wären.
23
Der Entwurf eines Codeplans - ein Beispiel
Variablenname
Label
Wertelabel
Typ
Skala
F2- 1
Politische Aufgabenberelche: Arbeitslosigkelt bekämpfen
1 = sehr wichtig
numerisch
Intervall
2 = eher wichtig
numerisch
Intervall
3 = weniger wichtig 4 = überhaupt nicht wichtig 0= fehlend
F2_4
das Zusammenleben mitAusländern regeln
Siehe F2- 1
Mehrfachnennungen Sehr häufig sind Frageformen, die den Befragten Mehrfachnennungen gestatten, wie bei der Frage 5 des Fragebogens zum Umweltbewusstsein. 5. Ich habe hier jetzt Karten mit verschiedenen Aufgabenbereichen im Umweltschutz. Welchen Aufgaben sollte sich die Bundesregierung Ihrer Meinung nach in der Zukunft verstärkt zuwenden? Bitte suchen Sie die drei Aufgaben aus, die Ihnen am wichtigsten erscheinen. ausgewählt
A
für einen sparsameren Umgang mit Energievorräten sorgen
D
B
mehr informieren über gesundheits- und umweltgefährdende Produkte und Zusätze
D
C
für eine umweltfreundliche Stadtentwicklung sorgen
D
für einen verbesserten Naturschutz sorgen
E
das Aussterben von Tier- und Pflanzenarten verhindern
F
für eine Unabhängigkeit von Öl und Gas durch erneuerbare Energien sorgen
G
die Entwicklung von sparsamen Antrieben und Motoren fördern
D D D D D
H
für eine deutliche Verringerung von klimaschädlichen Gasen sorgen, z.B. den Ausstoß von Kohlendioxid (C02)
D
I
für einen sparsameren Rohstoffverbrauch sorgen
D
Solche Fragen lassen sich prinzipiell auf zwei unterschiedliche Arten codieren. In der ersten Variante sieht man so viele Variablen vor, wie Nennungen möglich sind, in diesem Fall also drei Variablen:
Die Aufbereitung der Daten fur die statistische Analyse
24
F5- 1N
Vorrangige Aufgabenberelche im Umwelt-
1- sparsamer Umgang mit Energievorräten
schutz 1. Nennung
2 = Information über gesundhelts- und umweltgefährdende Produkte
numerisch
nominal
3 = für umweltfreundliche Stadtentwickl ung sorgen 4= .
5 =. 6 =. 7=. 8 =. 9 = für sparsameren Roh-
stoffverbrauch sorgen
0= fehlend F5- 2N
Vorrangige Aufgabenberelche im Umweltschutz 2. Nennung
Wie FS-
1N
numerisch
nominal
F5- 3N
Vorrangiger Aufgabenbeteich im Umweltschutz 3. Nennung
Wie FS-
1N
numerisch
nominal
Bei der zweiten Variante der Umsetzung in einen Codeplan sieht man für jede Antvvortmöglichkeit eine Variable vor: Aufgabenbereiche im Umweltschutz: Sparsamer Umgang mit Energievorräten Aufgabenbereiche im Umweltschutz: mehr informieren über gesundhelts- und umweltgefährdende Produkte
1 = genannt
numerisch
nominal
numerisch
nominal
0= nicht genannt 9 = gesamte Frage nicht beantwortet 1 = genannt 0= nicht genannt 9 = gesamte Frage nicht beantwortet
Die erste Variante ist dann vorzuziehen, wenn es nur eine relativ kleine vorab festgesetzte Anzahl von Nennungen gibt. Die zweite Variante ist dann günstiger, wenn die Zahl der Nennungsmöglichkeiten groß ist oder wenn die Zahl der möglichen Nennungen nicht von vornherein festliegt. Beim vorliegenden Beispiel würden bei der zweiten Variante also neun Variablen gebildet.
25
Der Entwurf eines Codeplans - ein Beispiel
Normale Einzelfragen Normale Einzelfragen sollten ohne weitere Umstände in den Codeplan übertragen werden wie die folgende Frage 7: 7.
Jetzt einige Fragen zur Umweltpolitik und zu umweltpolitischen Maßnahmen. Wenn Sie die Politik der Bundesregierung bewerten, soll die Regierung Ihrer Meinung nach insgesamt mehr für den Umweltschutz tun, weniger für den Umweltschutz tun, oder ist es so richtig , wie es derzeit ist?
1 2 3
F7
D D D
soll mehr für den Umweltschutz tun soll weniger für den Umweltschutz tun ist so richtig, wie es derzeit ist
Soll die Bundesregierung mehr für den Umweltschutz tun?
1 = soll mehr tun
numerisch
nominal
2 = soll weniger für den Umweltschutz tun 3 = ist so richtig, wie es ist 9 = keine Antwort
Wer die Antwortvorgaben aufmerksam liest, wird vielleicht bemerken, dass die Reihenfolge der Antwortvorgaben unglücklich gewählt wurde, denn in dieser Form besitzt die Variable nur Nominalskalenniveau. Besser wäre es gewesen, die Antwort "ist so richtig, wie es derzeit ist" in der Mitte (mit dem Code 2) anzuordnen, dann hätte die Variable Ordinalskalenniveau. Gegebenenfalls lässt sich die Reihenfolge später noch verändern, für die Dateneingabe sollte man aber - um die Codierer nicht zu verwirren - die Zuordnungen des Fragebogens beibehalten. Erst, wenn auf die beschriebene Weise der gesamte Fragebogen in den Codeplan umgesetzt wurde, kann mit der Eingabe der Daten begonnen werden.
26
Die Aufbereitung der Daten fur die statistische Analyse
1.4 So geht es mit SPSSjSYSTAT Aufbereitung der Daten mit SPSS4 Hinweise zu Variablennamen
SPSS besitzt einige Besonderheiten, die man von vornherein berücksichtigen sollte: Bei älteren Versionen (bis Version 11) durften Variablennamen nur aus maximal 8 Zeichen bestehen. Seit der SPSS-Version 12 sind immerhin 64 Zeichen erlaubt. Die Variablennamen dürfen aus Buchstaben, Ziffern und einigen wenigen Sonderzeichen (z.B.: _, @) bestehen, aber keine Leerzeichen enthalten. Variablennamen müssen einzigartig sein, d.h. im gesamten Codeplan darf der gleiche Name nur einmal existieren. Dabei unterscheidet SPSS nicht zwischen Groß- und Kleinschreibung. In den neueren Versionen bleibt die Groß- Kleinschreibung allerdings bei der Anzeige erhalten.
Legale Namen EinstellungUmwelt Geschlecht einsA KUCKARTZ_RÄDIKER Einkommen Frage_l
Illegale Namen Einstellung zur Umwelt Geschlecht.Lehrer
lA
KUCKARTZ&RÄDIKER Einkommen! Frage 1
Definition der Variablen in der Variablenansicht Der SPSS-Dateneditor unterscheidet zwischen zwei Ansichten: der Datenansicht und der Variablenansicht, zwischen denen man durch Klick auf die bei den "Tabs" am unteren Bildschirmrand hin- und herwechseln kann. In der Datenansicht können die Variablenwerte angezeigt und verändert werden. Die Definition des Codeplans und die Eingabe von Variablennamen und -werten etc. erfolgt in der Variablenansicht.
4
Für die Darstellung des Vorgehens in SPSS greifen wir auf die Softwareversion 18 zurück, die zwischenzeitlich auch unter dem Namen PASW firmierte.
..
So geht es mitSPSSjSYSTAT
27
rm lJ~b .~ .~~U [D .'.~ \.ot01 _ PA>W ,' .ti", D .'.~ _ 'Mo, Datei
'; ~
Bearbeiten
"" s icht
Oa1en
~
t:?'
T,ans fofmieren
Diagramme
E.tras
fenster
Hilfe
'"'" • il. =I .. . .Jiil . ll2. Bi An a l~ s i e r e n
.N.,
= "" ~I
~_N ame ~YP --..l.Spa lt e nfOf'!"'t LOezi ~l st e ll e n"yari " bl e n l a l>e~I~e rt e l a l>eI U e h l e nde ,!,eft e_~Spa lt enJLAu s ricl1t un9!L Mes s niveauJ
, ,
~ e
.=-+-1
~[
Umschalten zwischen Daten- ) : und Variablenansicht
..
~ atenans ich.1'(ltrill l>le"a"S)Chti
~Slat;su c:s f'fozes so.-;s t bereit ITI~
I
Man geht so vor, dass man in die erste Spalte den Namen der Variablen einträgt und dann mit der Tab-Taste in die nächste Spalte springt, wo man den Variablentyp auswählt. SPSS unterscheidet zwischen acht verschiedenen Variablentypen, von denen man aber normalerweise nur zwei braucht, nämlich "Numerisch" und .Stnng".
fm Variabl en!YJl::.:d"~",,"",,,,,,,,,,,"...
[;Q;I
@[~~~:~~j~i
Bre!te: 18
O ~o mm a
O Eu n ~
o ~is s e nS ch am i ch e Notation o O~tu m
ö eam eut enen.
~12==~
O OO!la r
o sgezrene Währung O Sl! ing
OK
I
Abtlfechen
Hilfe
Bei der Umsetzung eines Fragebogens in SPSS-Variablen hat man es in den meisten Fällen mit einstelligen Zahlen ohne Nachkommstellen zu tun, so dass man den Wert für die "Breite" der Variablen auf 1 und für Dezimalstellen auf 0 einstellen kann. Die oben beschrieben Variable "Note", mit der die Durchschnittsnote im Abitur erfasst wird, benötigt allerdings eine Nachkommstelle. Stringvariablen können in älteren Versionen von SPSS maximal 255 Zeichen lang sein. Seit der Version 14 können Texte mit bis zu 32768 Zeichen eingegeben werden.
Die Aufbereitung der Daten für die statistische Analyse
28
Bei SPSS kann in die Spalte .Variablenlabel" eine ausführliche Bezeichnung für die Variable eingetragen werden und in der Spalte "Wertelabels" können Labels für die Ausprägungen der Variablen definiert werden.
Fehlende Werte In der Datenansicht behandelt SPSS alle nicht ausgefüllten Eingabefelder von Variablen als fehlende Werte. Diese Werte heißen in SPSS systemdefiniert fehlend. Es können aber auch beliebige Zahlenwerte als benutzerdeJiniert fehlend definiert werden. Ein Klick in die Spalte Missing Values öffnet das in der folgenden Abbildung dargestellt Dialogfeld, in dem alle Werte angegeben werden können, die SPSS als fehlend behandeln soll.
l'ill F. hlond. w.rt.
11 I
11
o !3ereirn und einzelne, fehlende, Wert !geinste,Welt E"'felne,We,t:
L OK ,
GfOßle,We,t
=::=J
1 ~ b<erneiiJ
U
H ilfe
Bei itembatterien, die alle das gleiche Antwortformat haben, wäre es unpraktisch jeweils alle Wertelabel und Missing Value Vereinbarungen neu einzugeben. SPSS erlaubt es hier, eine komplette Variablendeklaration zu kopieren, in dem man diese anklickt, mit "Bearbeiten > Kopieren" in die Zwischenablage kopiert und dann mittels "Bearbeiten > Einfügen" erneut einfügt. Da Variablennamen nicht doppelt definiert werden dürfen, ändert SPSS lediglich den Variablennamen ab, alles andere erscheint in der gleichen Form wie bei der Ausgangsvariablen, d.h. mit allen Definitionen von Wertelabeln. Alle Zahlenwerte, die in der dargestellten Eingabemaske in eins der drei Felder unter "Einzelne fehlende werte" eingetragen werden, behandelt SPSS bei der Auswertung der Daten als fehlend und schließt diese aus den Berechnungen aus. Die Spalten "Spalten" und "Ausrichtung" beziehen sich nur auf die Darstellung der Variablenwerte im SPSS Dateneditor, die Spalte Measures ermöglicht einem die Skalenqualität der Variablen zu definieren. Allerdings hat die Angabe primär nur einen Wert für die eigene Erinnerung, SPSS prüft nicht immer, ob das gewählte statistische Verfahren auch für diesen Skalentyp überhaupt geeignet ist.
29
So geht es mit SPSSjSYSTAT
. bei M ; 0;
il unb enmnf,!<W [[l,t enSetl] · PfJ.SWSt,t"li" [l,t en·,ditor
I~
s
::S!Ofmieren ~a'iin
. .gr.
i
-'C4f ..
ite~is
~J
1_--,-_~Icc'N a~~y~--.Jl§~lt e.n.f~~_P!'zj~ S!~H ~~"~ar~,,~.!'.n.l a ~!jL~e.1t_e l a ~ I ,;,.f!'.~I.~~~ e We.rto;..1 pa lt e~hJ.~0~ u~g. ..!o1.!~;;,~ auJ ~ 10
Numerisch 4
0
Identifib tion
~ G e sc h~ht Numerisc h ,1 - - - ·0 - - -Gesc hleIen~ n sJc ht
255 I
11
10
Abitu rdu rchs.:::..~~O Welchen Ber
I
Keine
I
Keine I
. "_~:: 5oc hts_ 8
-' l inks
li
'$'~k.;I . _ ;;, Nommal
I
.
.
,PASWstati s~cs Pml ess", ;st bereil l ll T U
Eingabe der Daten Wenn alle Variablen definiert sind, kann mit der Eingabe der Daten begonnen werden. Bevor man dies tut, sollte man noch einmal überprüfen, ob die gewählten Variablentypen korrekt sind, denn eine nachträgliche Veränderung (etwa des Typs String in eine numerische Variable) ist nicht immer möglich. Die Definition von Wertelabels und fehlenden Werten kann hingegen auch später noch verändert werden, ohne dass die zwischenzeitlich eingegebenen Daten davon direkt betroffen sind. Selbstverständlich ist darauf zu achten, dass keine falschen Zuordnungen von Variablenwerten zu Wertelabels erzeugt werden. Zur Dateneingabe schaltet man in die Datenansicht und beginnt - dem Codeplan entsprechend - mit der Eingabe der Daten. Durch das Drücken der Tabulator-Taste springt man jeweils ins nächste Eingabefeld. Bei der Eingabe der ersten Fragebögen stellt man eventuell fest, dass der Codeplan noch einmal verbessert werden muss. Man nimmt dann diese Verbesserung vor und fährt mit der Eingabe fort. Fragebogen für Fragebogen werden die Daten eingegeben. Hilfskräfte sind in den meisten Fällen willkommen.
Die Aufbereitung der Daten für die statistische Analyse
30
lilI unb en,nn!. "", [O, t enSrtl] Qatei
.1J" arbeiten
- PASW 5lolirtic Options" auf maximal 256 Zeichen erhöht werden. Stringvariablen erlauben die Verwendung von Groß- und Kleinschreibung.
5
Für die Darst ellung der Verwendung von SYSTAT greifen wir auf die Softwareversion 12 zurück. Unter www.systat.com können Studierende das kostenfreie Programm MYSTAT herunterladen, das den Großteil aller Funktionen von SYSTAT enthält, jedoch nur 100 Variablen pro Datei erlaubt
32
Die Aufbereitung der Daten für die statistische Analyse
Das Skalenniveau lässt sich in der Spalte .categorical" festhalten. SYSTAT bietet die Möglichkeit sowohl String- als auch numerische Variable als .xategorical" zu deklarieren. In diesem Fall ist der Wert in der Spalte auf "YES" zu stellen. §
MYSTAl , A ';lud. nl V. " ion 01 5V>TAT - IC,\lI,",,\St>ll>ti k\D ~,lctop\SI't"li kb u( h\\.c ro.n ,h ol>\Unl~l .d, ", . nt., o lol>el.
......
h 5']R]
U n t il l ed.5YZ* I
GESCHlE CIfl
c---; f---.' c---;
~
Q!J;ck Aecess '!"!'i ndow !::!elp
OVR
Fehlende Werte Für fehlende Werte sieht SYSTAT nur sehr eingeschränkte Möglichkeiten vor: Bei einer numerischen Variable wird ein fehlender Wert durch Leerlassen des Eingabefeldes oder durch Eingabe eines Punktes erzeugt, bei Stringvariablen durch ein Leerzeichen. Weitergehende Möglichkeiten zur Deklaration fehlender Werte existieren nicht. Eingabe der Daten Sobald alle Variablen definiert sind, schaltet man in die Ansicht .Data" um und kann mit der Dateneingabe beginnen. Mit der Tabulator-Taste kann man sich von einem Eingabefeld zum nächsten bewegen. Speichern der Daten und Zusammenftigen von Daten Mit der Menüfunktion "File> Save as" werden die Daten und der Codeplan gemeinsam in einer SYSTAT-Systemdatei (erkennbar an der Endung .syz) gespeichert. Ähnlich wie bei SPSS kann man, wenn mehrere Mitglieder eines Teams die Dateneingabe vornehmen, zwei von der Struktur her identische Systemdateien leicht zusammenfügen. Nachdem die erste Datei geöffnet wurde, wählt man .Data > Merge Files> Append Cases" und SYSTAT fügt die beiden Dateien zusammen.
2
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Die Kapitel 2 bis 4 befassen sich mit der des kr iptiven oder besc hreibenden Sta tistik Unter der des kriptiven Stati sti k verste ht man eine Vielzahl von Verfah re n, die eine gegebene Datenmenge summ arisch zusammenfassen und die Beziehu ngen zwischen Varia blen unte rsuchen. Die Desk ript ivstatist ik besc hränkt sich au f Aussagen über die erhobenen Daten, ihr e Verfahren könn en sic h auf einzelne Merkmale bezieh en (uni variate Analyse) ode r Zusammenhänge zw ischen zwe i (bivariat e Ana lyse) oder mehr Variab len (mu ltivariat e Analyse) untersuchen. Wenn d ie Daten aufbereitet sind, d h. die Eingab e in eine Datenmatrix beendet ist und gegeben enfa lls die offenen Fragen kategori siert s ind, kann die statistische Analyse beginnen. Der Deskriptivstatistik ste hen prinzipiell drei Möglichkeiten zur Verfügung: tabellarische Darste llungen in Form sogenannte r Häufigkeitstabellen grafische Darstellungen Ber echnung von statistischen Kennwerten Die ers te Phase der Auswertung empirischer Daten ist in der Regel durch Exploration gekenn zeichnet, d.h. man unternimmt ein e ers te Erkundung durch das Dickicht der Zahlen und verschafft sich ein en Überblick über die Ergebn isse der Studi e. Sinnvollerweise beginnt man mit einer Auszählun g der Häufigke ite n der Merkm alsausprägungen der Variablen, und zwar für de n gesa mten Datens atz. Natürli ch wird man im späteren Forschungsbe richt nu r einen Teil der Tabe llen ver we nde n kön nen, den noch ist es sinnvoll, zunächst einma l für alle Variab len am best en in der Reihenfo lge des Fragebogen s - eine Häufigkeits auswertung an zufer tigen. Di ese Vorgehen sweise erla ubt es au ch, eine Kontrolle der eingegebene n Werte hinsicht lich des Auftretens von nicht erlaubte n Werten vorz unehm en . Zielvor stellung ist es also, über Ta bellen nach de m Muster von Tab. 2-1 zu verfügen. Dort ist da s Ergebni s einer Erhebung unt er Mitgliedern der Gese llscha ft für Evaluati on (DeGEval) dargestellt; gefragt wa r, we lchen institutio nellen Hintergru nd d ie Mitglied er der Gesellschaft besitzen.
34
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Tab. 2-1: Institutioneller Beschäftigungskontext (n = 163) Häufigkeit
Prozent
Freiberuflich
38
23,3
Privatwirtschaftliches Unternehmen
26
16,0
Non-Profit-Organ lsatlon
19
11,7
Universität, Hochschule
52
31,9
Sonstiger Öffentlicher Dienst
28
17,2
Man erfährt aus dieser Tabelle, dass nahezu ein Drittel der Mitglieder der DeGEval an Universitäten und Hochschulen beschäftigt sind und dass insgesamt 163 Personen befragt wurden. Nicht immer sind Überblicke über die Antwortverteilungen so einfach herzustellen wie bei dieser einfachen nominalskalierten Variable "Institutioneller Beschäftigungskontext". So kann eine Variable nicht nur fünf Ausprägungen wie in diesem Beispiel aufweisen, sondern eine intervallskalierte Variable hat vielleicht sogar mehrere hundert Ausprägungen (wenn man etwa in einer Repräsentativstudie mit 2000 Forschungsteilnehmenden nach dem exakten Monatseinkommen in Euro fragt) oder es können Mehrfachantworten möglich sein, was dazu führt, dass mehrere Variablen zu einer einzigen Häufigkeitstabelle zusammengefasst werden müssen. Beginnen wir also etwas ausführlicher mit der Beschreibung von Häufigkeitstabellen.
2.1 Häufigkeitstabellen Häufigkeitstabellen sind Darstellungen der absoluten und relativen Häufigkeiten der Ausprägungen einer Variablen. Als absolute Häufigkeit bezeichnet man die nach Kategorien ausgezählte Verteilung der Antworten einer Variablen. Die relative Häufigkeit gibt - meist in Form einer Prozentangabe - an, wie häufig die jeweilige Kategorie (Ausprägung) in Relation zur Anzahl der Fälle auftritt. Je nach empirischer Studie können Fälle aus Personen, Haushalten, Institutionen etc. bestehen, die Gesamtzahl der Fälle wird üblicherweise mit n [entweder dem kleinen oder großen Buchstaben) bezeichnet. Die Häufigkeitstabellen, die man in der ersten Phase der Auswertung erstellt, sollten auch die fehlenden Werte explizit aufführen. In späteren Forschungsberichten wird auf eine explizite Angabe über fehlende Werte häufig aus pragmatischen Gründen verzichtet, allerdings sollte bei einer relevanten Anzahl fehlender Werte zumindest in einer Fußnote eine Angabe hierzu erfolgen. Häufigkeitstabellen erstellt man heute nicht mehr mit Hilfe von Strichlisten, sondern mit
35
Häufigkeitstabellen
Hilfe von Statistik-Software. Die ausgegebenen Tabellen folgen meistens dem Muster der hier dargestellten Tab. 2-2 Diese Tabelle zeigt die Ergebnisse einer Befragung von 122 Studierenden des BA-Studiengangs "Erziehungs- und Bildungswissenschaft", die nach ihrem Interesse für bestimmte Profilmodule gefragt wurden. Tab. 2-2: Beispiel für eine Häufigkeitstabelle Interesse Profilmodul
Häufigkeit
Prozent
Gültige Prozent
Kumulierte Prozent
Medien
13
10,7
14,1
14,1
Umwelt
7
5,7
7,6
21,7
Gender
4
3,3
4,3
26,1
Gesellschaft und Bildung
22
18,0
23,9
50,0
Beratung
46
37,7
50,0
100,0
92
75.4
100,0
28
23,0
2
1,6
122
100,0
Total Weiß ich noch nicht . Fehlende Werte Total
Spalte 1 enthält die Ausprägungen der Variablen, hier also die zur Auswahl stehenden fünf Profilmodule sowie die Antwortmöglichkeit "Weiß ich noch nicht." Spalte 2 listet die Anzahl der Personen mit der entsprechenden Merkmalsausprägung: Es sind also 13 Personen, die Medien als Profilmodul wählen wollen und 7 Personen, die sich für Umwelt entscheiden. Spalte 3 enthält die relativen Häufigkeiten in Prozent. Diese werden wie folgt berechnet: f(k) %k =--·100%
n
f(k)
n
=
absolute Häufigkeit in der Kategorie k Anzahl der Fälle
Die 13 Personen, die als Profilmodul Medien wählen möchten, haben an den 122 befragten Personen also einen Anteil von 13/122 . 100% = 10,%.
36
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Spalte 4 enthält die sogenannten gültigen Prozentwerte. Da fehlende Werte in der empirischen Sozialforschung immer vorkommen können, ist es sinnvoll eine weitere Form der Prozentuierung vorzunehmen, die nur die gültigen Werte berücksichtigt. Die Ursachen für fehlende Werte können wie beschrieben sehr vielfältig sein. Bei der obigen Frage nach der Entscheidung für ein bestimmtes Profilmodul kann es natürlich passieren, dass Befragte sich noch nicht entschieden haben, welches Profil modul sie studieren wollen. Für eine Schätzung, wie viele Studierende bspw. "Beratung" wählen werden, würde man auf den Prozentwert auf der Basis der gültigen Antworten zurückgreifen, d.h. den Anteil mit 50% schätzen. Ähnlich verhält es sich bspw. bei der bekannten Sonntagsfrage "Welche Partei würden Sie wählen, wenn nächsten Sonntag Bundestagswahl wäre?". Hier sind beide Arten von Prozentwertverteilungen interessant. Aus der Prozentangabe bezogen auf alle Werte kann man entnehmen, wie groß der Prozentsatz der noch Unentschlossenen ist. Aus der Prozentangabe der gültigen Werte kann man entnehmen, wie die Prozentanteile der Parteien bei den bereits Entschiedenen aussehen. Die gültigen Prozente werden nach folgender Formel berechnet
f(k) %k =--·100%
ng
f(k)
ng
=
absolute Häufigkeit in der Kategorie k Anzahl der Fälle mit gültigen Werten
Anstatt durch alle Fälle zu teilen, wird also bei der Berechnung der gültigen Prozente nur durch die Anzahl der gültigen Fälle dividiert - in unserem Beispiel also durch 92.
Spalte 5 enthält die kumulierten gültigen Prozentwerte. Die in der Tabelle von oben nach unten summierten gültigen Prozentwerte ergeben die kumulierte Häufigkeitsverteilung. Die zweite Zahl in der letzten Spalte ,,21,7%" ergibt sich also als Summe von 14,1% und 7,6%. In der letzten Ausprägung muss die kumulierte Häufigkeitsverteilung den Wert 100% ausweisen. Der kumulierte Prozentwert berechnet sich wie folgt: "k _fkum(k) ·100" 70kum70
n
fkum(kJ = die aufsummierten absoluten Häufigkeiten bis einschließlich zur Kategorie k n = Anzahl der Fälle
Bildung von Kategorien bei intervallskalierten Variablen
37
Z.Z Bildung von Kategorien bei intervallskalierten Variablen Bei intervallskalierten Variablen (oder ordinalskalierten Variablen mit sehr vielen Ausprägungen) macht es keinen Sinn, eine Häufigkeitstabelle nach dem obigen Muster zu erstellen. Hat man bspw. das Monatseinkommen in Euro erhoben, so kann eine solche Variable eine kaum mehr überschaubare Anzahl von Ausprägungen besitzen, d.h. die Häufigkeitstabelle würde sich vielleicht über mehrere Seiten erstrecken und wäre als Information ziemlich nutzlos. Die Lösung sieht dann so aus, dass Kategorien gebildet werden, d.h. die Variablenwerte werden systematisch gruppiert und in Kategorien zusammengefasst. Als erstes stellt sich natürlich die Frage, wie viele Kategorien man braucht. Auf diese Frage lässt sich keine allgemeingültige Antwort geben. Die Zahl der zu bildenden Kategorien richtet sich einmal nach dem gewünschten Differenzierungsgrad und zum anderen nach der Anzahl der zu kategorisierenden Fälle. Hat man wie im Beispiel der Mitgliederumfrage der DeGEval nur eine relativ kleine Fallzahl (n = 163), würde es wenig Sinn machen, für das Einkommen zehn Kategorien zu bilden, denn bei einer späteren Zusammenhangsanalyse mit einem drei- oder vierfach gestuften Merkmal würden sich bereits 30 bzw. 40 Merkmalskombinationen ergeben. Verfügt man hingegen wie bei den großen EurobarometerStudien oder der Shell-Jugendstudie (vgl. Anhang Al über mehr als 2.000 Probanden, so wäre die Unterscheidung von zehn Einkommenskategorien an sich unproblematisch. Es ist dann abzuwägen, welcher Differenzierungsgrad sinnvoll ist bzw. von den Rezipierenden oder Auftraggebenden der Studie gewünscht wird. Bei Grundlagenforschung wird man naturgemäß für größere Exaktheit und für einen höheren Differenzierungsgrad plädieren, bei angewandter Forschung oder Forschung mit hoher öffentlicher Aufmerksamkeit (wie der ShellJugendstudie) wird man sich auf ein besser kommunizierbares Maß beschränkenmüssen. Zur Bestimmung der Kategoriengrenzen und der Kategorienbreiten ermittelt man zunächst die Variationsbreite als Differenz aus größtem und kleinstem Wert, anschließend dividiert man durch die gewünschte Anzahl der Kategorien und erhält die Kategorienbreite. Beispiel: Man habe bei 100 vierjährigen Kindern die Zeit ermittelt, die sie zum Zusammenlegen eines Puzzles benötigen. Der kleinste Wert betrug 180, der größte 360 Sekunden. Es sollen 6 Kategorien gebildet werden. Variationsbreite: 360 - 180 180 Kategorienbreite: -6-
= 180 Sek.
= 30 Sek.
38
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Damit ergeben sich die in Tab. 2-3 dargestellten Kategorien. Tab. 2-3 Kategorie
Sekunden
1
180 - 209
2
210 - 239
3
240 - 269
4
270 - 299
5
300 - 329
6
330 - 360
Auf den ersten Blick irritiert der Wertebereich der Randkategorie ,,330 - 360 Sekunden". Da es sich bei der gemessenen Zeit um ein stetiges Merkmal handelt, gehen die eigentlichen Kategoriengrenzen bis 359,9 Periode. Da aber anders als bei olympischen Wettbewerben keine NachkommastelIen gemessen wurden, ermöglicht die Zuordnungstabelle eine eindeutige Kategorisierung aller Messwerte. Wenn sich bei der Ermittlung von Kategorienbreiten sehr unanschauliche Werte ergeben (z.B. 233,5 bis 246,4) Sekunden, empfiehlt es sich, die Zahl der Kategorien um 1 zu erhöhen und ganzzahlige Kategorienbreiten vorzusehen. Ein Problem können Ausreißerwerte darstellen, also wenn in unserem Beispiel ein Kind 500 Sekunden benötigt hätte. Solche Werte sollten bei der Bestimmung der Variations breite nicht berücksichtigt werden und die Randkategorien sollten dann als offene Kategorien definiert werden, hier also ,,330 und mehr Sekunden".
2.3 Grafische Darstellungen einfacher Häufigkeitsverteilungen In diesem Abschnitt sollen Möglichkeiten der grafischen Darstellung von einfachen Häufigkeitsverteilungen und Kennwerten aufgezeigt werden. Über konkrete Hinweise und Beispiele zur Gestaltung von grafischen Darstellungen bzw. Visualisierungen hinaus wird in diesem Kapitel auch die Frage beantwortet, welche Form der Darstellung sich wann und wie sinnvoll einsetzen lässt. Bereits die erläuterten Häufigkeitstabellen stellen als "Nicht-Text-Elemente" eine Form von Visualisierungen dar und schon dieser einfache Typus zeigt deutlich den Zugewinn, der durch den Einsatz von Tabellen und Grafiken möglich ist. Denn Visualisierungen erlauben es, komplexe Informationen übersichtlicher und schneller
Grafische Darstellungen einfacher Häufigkeitsverteilungen
39
erfass bar bereit zu stellen, als dies mittels Beschreibungen in einem Fließtext möglich wäre. Somit spielen grafische Darstellungen bei der Unterstützung des Verstehensprozesses eine wichtige Rolle, wenn bspw. sprachliche Erklärungen zu umständlich oder ausufernd wären. Der Zugewinn durch Visualisierungen besteht nicht nur bei der hier im Fokus stehenden Darstellung von Häufigkeiten oder Verteilungen, sondern auch bei der Verdeutlichung von Verknüpfungen und Zusammenhängen. Die bildlichschematische Abbildung von Abläufen ist deutlich anschaulicher als deren sequenzielle Beschreibung in der Schriftsprache. Für den Einsatz von Visualisierungen spricht außerdem deren motivierender Charakter, etwa indem sie Texte auflockern. Nichts wirkt abschreckender als Absätze gefüllt mit Zahlenkolonnen. wohingegen Grafiken sofort den Blick auf sich ziehen. Während die letztgenannte Funktion der Motivation vorrangig für die Darstellung von Ergebnissen gilt, spielen die anderen Vorteile auch bei der Erkundung von Daten eine wichtige Rolle. In den 1970er Jahren plädierte [ohn W. Tukey in seinem Buch .Bxplorauve Datenanalyse" für den Einsatz von Grafiken zur Datenerkundung um so bspw. Hypothesen über die möglichen Gründe für das Zustandekommen der vorliegenden Daten aufzustellen zu können. Sowohl Zusammenhänge als auch Ausreißer treten aus grafischen Darstellungen deutlich plastischer und schneller hervor als aus Tabellen. Balkendiagramme In Balkendiagrammen (engl. bar charts) erfolgt die Darstellung von absoluten oder relativen Häufigkeiten auf einem zweiachsigen rechtwinkligen Koordinatensystem. Je nach Ausrichtung der Balken wird dabei zwischen horizontalen und vertikalen Balkendiagrammen unterschieden. Bei einem horizontalen Balkendiagramm sind die Balken übereinander angeordnet. Die Merkmalsausprägungen stehen auf der y-Achse (Ordinate) und die Häufigkeiten werden durch horizontale Balken dargestellt. In Abb. 2-1 würden sich also 24% der Befragten für die SPD entscheiden, wenn am nächsten Sonntag Bundestagswahl wäre. Im Falle eines vertikalen Balkendiagramms hingegen sind die Merkmalsausprägungen auf der horizontalen Achse (Abszisse) und die Häufigkeiten auf der vertikalen (Ordinate) abgetragen - die Balken stehen also nebeneinander. Häufigwerden vertikale Balkendiagramme auch Säulendiagramme genannt. Abb. 2-2 zeigt ein vertikales Balkendiagramm. bei der auf der Abszisse die Antwortmöglichkeiten auf die Frage nach der Selbsteinschätzung des eigenen Gesundheitszustandes zu sehen sind. Anhand der Höhe der Balken kann abgelesen werden, dass bspw. 25% der Befragten ihren Gesundheitszustand als "ausgezeichnet" einschätzen.
Häufigkeitsverteilungen und ihre grafischen Darstellungen
40
Abb.2-1
,
,
,
,
I
I
Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre? CDU/CSU
5PD Grüne
Linke
FDP Sonstige
~
I
I
i
I
i
I
i
I
36 26
15 11
8
)- ~ 0%
5%
10%
15%
20%
25%
30%
35%
40"10
Quelle: infratestdimap, 04.02.2010, n = 1.500
Abb.2-2 Wie schätzen Sie Ihren Gesundheitszustand ein? 60%
50% 40% 30%
20% 10% 0% ausgezeichnet
gut
einigermaßen
schlecht Quelle: fiktive Daten
Balkendiagramme können sehr schnell ein Bild über die quantitative bzw. relative Rangfolge von Merkmalsausprägungen vermitteln, was durch eine sinnvolle Sortierung noch verstärkt werden kann. Im Falle der Darstellung von nominalskalierten Variablen wie der Parteienpräferenz in Abb. 2-1 sollte die Sortierung direkt nach der Häufigkeit erfolgen, sodass bspw. ohne große Anstrengungen ersichtlich ist, welche Ausprägung am häufigsten bzw. am seltensten vertreten ist. Bei ordinalskalierten Variablen hingegen sollte die Reihenfolge der Kategorien beibehalten werden, da diese sonst durch den Betrachter/die Betrachterin in einem zusätzlichen Schritt erst wieder hergestellt werden muss (siehe Abb. 2-2).
41
Grafische Darstellungen einfacher Häufigkeitsverteilungen
In beiden gezeigten Beispielen wurde jeweils die relative Häufigkeit verwendet, was in den meisten Fällen die beste Wahl darstellt. Liegen hingegen nur kleine Stichproben vor (n < 20), so empfiehlt es sich, zusätzlich die absoluten Häufigkeiten anzugeben und die Prozentangaben ohne NachkommastelIen zu belassen, da sonst eine nicht vorhandene Genauigkeit suggeriert wird. Ein sehr wichtiger Aspekt bei der Erstellung sowie Bewertung von Balkendiagrammen ist die Gestaltung der Achse, auf der die Häufigkeiten abgetragen werden. So kann die die Nicht-Verwendung der Null als Startpunkt also der Beschneidung der Achse, zu Verzerrungen führen. Ebenso verhält es sich mit der Streckung der Achse durch kleinere Abstände zwischen den Skalen punkten. Beides führt dazu, dass bereits geringe Unterschiede zwischen den Merkmalsausprägungen visuell deutlich stärker hervortreten, wie Abb. 2-3 zeigt, in der die identischen Daten auf unterschiedliche Weise dargestellt sind. Prinzipiell ist gegen das Beschneiden der Achsen nichts einzuwenden, denn bisweilen kann dies durchaus angemessen sein, etwa wenn nur sehr kleine Unterschiede veranschaulicht werden sollen und auch viele Grafiktools machen dies automatisch. Wichtig ist allerdings, die Leserinnen und Leser darauf hinzuweisen. In Abb. 2-3 sieht man, wie trotz einer eher homogenen Alterszusammensetzung durch das Beschneiden der x-Achse die erste Altersgruppe optisch überproportional stark hervortr'itt," Abb . 2-3: Die selb e n Daten, links mit und rechts ohne Nullpunkt visualisiert Altersverteilung der Kursteilnehmer/-innen
30%
Altersverteilung der Kursteilnehmer/-innen
28%
25% 20%
26%
15%
24%
10%
22%
5%
20%
0% 20-25
26-31
32-37
Alter i n Jahren
38-43
20-2 5
26-31
32-37
38-43
Alter in Jahren
Bei der Betrachtung und Erstellung von Balkendiagrammen, die kategorisierte Daten (vgl. Kapitel 2.2) darstellen, ist weiterhin darauf zu achten, dass identische Kategorienbreiten gewählt werden, da sonst ein direkter Vergleich zwi6
Weitere Beispiele, wie mittels Grafiken Ergebnisse verfälscht dargestellt werden, finden sich bei Krämer 2008.
Häufigkeitsverteilungen und ihre grafischen Darstellungen
42
sehen den Gruppen nur schwer möglich ist. Dies wäre bspw. dann der Fall, wenn man das Einkommen von Befragten nicht in gleich breite Kategorien von etwa 1.000 Euro einteilt, sondern die eine von 0 - 1.000 EUR, die andere von 1.001 2.500 EUR und die letzte von 2.501 - 3.500 geht. Ein höherer Balken der mittleren Kategorie käme dann nicht zwangsläufig durch die Einkommensverteilung zustande, sondern auch dadurch, dass potenziell mehr Personen in dieses breitere Intervall fallen. Histogramme Histogramme sind eine besondere Form von Balkendiagrammen zur Darstellung intervallskalierter Variablen mit vielen Werten, wie etwa dem Alter oder dem Jahreseinkommen. Histogramme bilden dabei die Daten häufig in kategorisierter Form ab, womit sie sich besonders für die Visualisierung vieler Ausprägungen oder großen Datenmengen eignen. Abb.2-4 Wie hoch ist Ihr persönliches monatliches Nettoeinkommen? 50% 40% 30% 20% 10% 0%
500
1000
1500
2000
2500
3000
3500
4000
>4000
persönliches Monatseinkommen in EUR
Quelle:Jiktive Daten
Abb. 2-4 zeigt die fiktive Verteilung des persönlichen monatlichen Nettoeinkommens von 1438 Befragten. Dieses ist auf der x-Achse abgetragen und in Intervalle mit einer Breite von jeweils 500 EUR eingeteilt, über denen jeweils ein Rechteck gezeichnet wurde. Auf der y-Achse kann die relative Häufigkeit der einzelnen Kategorien abgelesen werden. Man kann so bspw. sehen, dass 45% der Personen angeben, von 1001 bis 1500 Euro im Monat zu verdienen. Meist sind - wie hier - die für ein Histogramm gebildeten Kategorien gleich breit, was jedoch nicht zwingend sein muss. Denn eigentlich dient nicht die Höhe oder Länge der Rechtecke als direktes Maß und Repräsentant für die Häufigkeit, sondern die Fläche und so sind auch ungleichgroße Kategorienbreiten denkbar. Da die Fläche jedoch deutlich schwieriger zu interpretieren ist als die
Grafische Darstellungen einfacher Häufigkeitsverteilungen
43
Länge oder Höhe und darüber hinaus bei unterschiedlichen Kategorienbreiten auch die Beschriftung der y-Achse wegfällt, wird in der Regel auf gleiche Kategorienbreiten zurückgegriffen. Eine weitere Besonderheit von Histogrammen ist, dass die einzelnen Balken direkt aneinander grenzen, ohne sich jedoch zu überschneiden. Dies verdeutlicht, dass die Grenzen der gebildeten Intervalle ebenfalls aneinander grenzen, kein Wert ausgelassen wurde und es sich somit um die Darstellung einer kontinuierlichen Variablen handelt. In unserem Beispiel gibt es keine Werte in der Kategorie ,,4000 EUR", sie wird aber dennoch mit eingezeichnet, um auf einen Blick zu zeigen, dass diese Kategorie leer ist. Damit bieten Histogramme eine gute Möglichkeit, die Form einer Verteilung zu erkennen und zu beschreiben. Häufig verwendete Begriffe hierbei sind "Schiefe" (engl. skewness) und "Exzess" (engl. kurtosis). Eine schiefe Verteilung kann entweder linkssteil und damit rechtsschief oder rechtssteil und damit linksschief sein. Die Einkommensverteilung in Abb. 2-4 hat ihren Gipfel links und einen langgezogenen rechten Ausläufer, womit sie linkssteil bzw. rechtsschief ist. Bei einer linkssteilen Verteilung ist der Mittelwert größer als der Median, der Schwerpunkt ist also nach links verschoben. Umgekehrt ist bei einer rechtssteilen Verteilung der Mittelwert kleiner als der Median (siehe Abb. 2-5). Unter Exzess wird die Wölbung einer Verteilung verstanden wobei zwischen schmalgipflig und breitgipflig unterschieden wird (Abb. 2-5). Sowohl für die Schiefe als auch den Exzess gilt, dass deren Angabe nur bei Verteilungen sinnvoll sind, die eingipflig (uni modal) sind. Abb.2-5
linkssteil/ rechtssch lef
rechtssteil/I inksschlef
1\
hreitgipflig
unimoda I/eing!pflig
bimoda I/zweigipflig
schmalgipflig
44
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Beachtet werden sollte allerdings, dass sich das Bild eines Histogramms erheblich durch die Variation der Intervallbreite verändern lässt Zu viele Kategorien ziehen in der Regel ein verstärktes Auf und Ab der Balken nach sich, während zu grob gewählte Intervalle ein eher flaches Histogramm bewirken. Aber selbst bei einer gut gewählten Kategorienbreite geht in einem Histogramm die Information darüber verloren, wie sich die Werte innerhalb der Intervalle verteilen. Dieser Informationsverlust, der mit der Einteilung in Kategorien einhergeht, verhindert Aussagen darüber, ob die Werte innerhalb eines Intervalls dicht beieinander liegen oder sich gleichmäßig über die gesamte Breite verteilen. Kreisdiagramme Kreisdiagramme (engl. pie charts) bieten die Möglichkeit relative Häufigkeiten darzustellen. Die jeweiligen Anteile der verschiedenen Merkmalsausprägungen werden durch den Flächeninhalt bzw. Winkel einzelner Kreissegmente dargestellt, wobei 1% einem Winkel von 3,6 0 entspricht. Hierdurch ergibt sich das Bild eines Kuchens, der in unterschiedlich große Stücke geschnitten wurde, weshalb Kreisdiagramme häufig umgangssprachlich auch als Torten- bzw. Kuchendiagramme bezeichnet werden. Wie auch beim Kuchen bilden in einem Kreisdiagramm alle Einzelstücke ein Ganzes, was bedeutet, dass die Summe aller Anteile (rundungsbedingt annähernd) 100% ergeben muss. Abb.2-6 Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre?
CDU/CSU 36%
SPD 26%
Quelle: infratest dimap, 04.02.2010, n = 1.500
Gleichwohl Kreisdiagramme sehr häufig in den Medien eingesetzt werden, sind sie als Visualisierungsform nicht unproblematisch. Zunächst sind sie nur für eine beschränkte Anzahl von unterschiedlichen Merkmalsausprägungen geeignet, da sie sonst zu unübersichtlich werden. Weiterhin ist es bei mehreren kleinen
Grafische Darstellungen einfacher Häufigkeitsverteilungen
45
Teilstücken sehr schwierig, deren Größen zu unterscheiden. Hinzu kommt noch, dass es für die menschliche Wahrnehmung im Vergleich zu Längenunterschieden bei Balkendiagrammen deutlich schwieriger ist, Unterschiede zwischen Flächen oder Winkeln wahrzunehmen. Besonders gut sichtbar werden in Kreisdiagrammen hingegen vorhandene große quantitative Unterschiede zwischen Kategorien. Bei der Entscheidung für die Verwendung von Kreisdiagrammen sollte also aufgrund der Einschränkungen bedacht werden, dass es meist bessere Alternativen gibt und gänzlich verzichten sollte man auf ihren Einsatz beim Vergleich von Anteilen zwischen mehreren Gruppen. Fällt die Wahl schließlich doch auf diesen Visualisierungstyp, so erhöht bei nominalskalierten Daten eine Anordnung der Teilsegmente der Größe nach und im Uhrzeigersinn die Lesbarkeit, so wie dies in Abb. 2-6 vorgenommen wurde. Liegen ordinalskalierte Daten vor, so sollte - wie auch beim Balkendiagramm - deren Sortierung beibehalten werden. Bei vielen kleinen, schwer unterscheidbaren Kreissegmenten bietet es sich an, diese in einer Kategorie "Sonstige" zusammenfassen, wobei darauf zu achten ist, dass diese Kategorie nicht größer ist als eine der anderen. Außerdem sollte dieser Schritt auf jeden Fall für die Leserinnen und Leser dokumentiert werden. Liniendiagramme Sollen Daten in ihrem zeitlichen Verlauf dargestellt werden, z.B. wenn Zeitreihen vorliegen, so bietet sich hierfür ein Liniendiagramm an. Abb. 2-7 zeigt die zeitliche Entwicklung der Arbeitslosenquote differenziert für die alten und neuen Bundesländer. Abb.2-7 Arbeitslosenquote nach Gebietsstand 25% 20% 15% 10%
5% 0%
2000
2001
~ Gesa mt
2002
2003
~ A l te
2004
2005
Länder (ohne Berlin)
2006 ~
2007
2008
2009
Neue Länder (einschi. Berlin)
Quelle: Statistisches Bundesamt 2010
46
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Entsprechend unseren Lesegewohnheiten hat es sich durchgesetzt, dass auf der x-Achse die Zeiteinheiten, also bspw. Jahre, Monate, Stunden U$W. von links nach rechts aufsteigend und auf der y-Achse die darzustellenden Werte eingezeichnet werden. Die einzelnen Datenpunkte werden anschließend mit Linien verbunden, was diesem Diagrammtyp seinen Namen gibt. Liniendiagramme haben gegenüber Balkendiagrammen den Vorteil, dass mit ihnen auch sehr viele Datenpunkte visualisiert werden können, ohne dass die gesamte Abbildung unübersichtlich wird. Bei Liniendiagrammen ist immer darauf zu achten, dass die Verwendung von Linien logisch sinnvoll sein muss. Die Verteilung von Schulabschlüssen in einer Stichprobe bspw. lassen sich nicht in einem Liniendiagramm darstellen, da in diesem Fall Verbindungslinien inhaltlich keinen Sinn haben. In diesem Fall ist ein Balkendiagramm besser geeignet. Abb. 2-7 zeigt einen großen Vorteil dieser Visualisierungsart: Mit ihrer Hilfe lassen sich sehr gut mehrere Datenreihen gleichzeitig abbilden und damit vergleichen. Zur Unterscheidung der einzelnen Datenreihen können unterschiedliche Gestaltungselemente herangezogen werden. Zum einen können die Datenpunkte jeweils durch unterschiedliche Symbole markiert werden (Dreiecke, Vierecke, etc.). Eine andere Möglichkeit der Unterscheidung bietet die Verwendung verschiedener Linienfarben. Schließlich können auch die Linien in ihrer Form variiert werden, sodass bspw. gepunktete, gestrichelte und durchgezogenen Linien gezeichnet werden. Um den Leserinnen und Lesern die Unterscheidung zu vereinfachen, sollte man sich jedoch auf eine Markierungsart beschränken . Wie bei den Balkendiagrammen kann auch in Liniendiagrammen der Verlauf optisch entweder drastischer oder weniger bedeutsam dargestellt werden. Dies kann hier ebenfalls durch Streckung bzw. Stauchung der y-Achse erreicht werden. Darüber hinaus sind aber auch durch Veränderungen der x-Achse Verzerrungen möglich: Je nachdem, wie groß der Abstand zwischen den Zeitpunkten gewählt wird, erscheinen die Unterschiede zwischen den Datenpunkten stärker oder schwächer. Stamm-Blatt- Diagramme Stamm-Blatt-Diagramme (engl. stem-and-leaf plots) sind eine quasi-grafische Form von Histogrammen und verlangen demnach ebenfalls intervallskalierte Variablen mit vielen Werten. Auch hier werden wie bei einem Histogramm Kategorisierungen vorgenommen, jedoch bleibt die Information, wie sich die Werte jeweils in den Kategorien verteilen, erhalten. Dies bringt allerdings mit sich, dass sich Stamm-Blatt-Diagramme nicht für sehr große Datensätze mit mehr als 150 Datenpunkten eignen. Genau wie Histogramme geben Stamm-BlattDiagramme ein sehr gutes Bild über die Form einer Verteilung.
47
Grafische Darstellungen einfacher Häufigkeitsverteilungen
Am besten lässt sich diese Visualisierungsform anhand eines Beispiels verstehen. Gegeben sei folgende Verteilung der von 14 Studierenden erreichten Klausur- Punkte 25,26,31,31,35,36,37,39,40,41,44,48,56,57
In einem Stamm-Blatt-Diagramm sieht diese Verteilung wie folgt aus. 2
56
3
115679
4
0148
5
67
Der Stamm wird in diesem Fall durch die Zehnerwerte gebildet, die Blätter entsprechen den Werten der Einerstellen. Liegen wie hier ganze Zahlen vor, so ist die Abtrennung der ersten Ziffer als Stamm die Regel. Würden statt zweistelliger Punktwerte vierstellige Einkommen vorliegen, so entspräche der Stamm dementsprechend den Tausendern und die Blätter den Hundertern. Dabei wird entweder auf die HundertersteIle gerundet oder aber die Zehner und Einer werden einfach abgetrennt Aus den Monatseinkommen 500, 600, 1350, 1920, 2210,2680 und 2840 erhält man folgendes Stamm-Blatt-Diagramm mit gerundeten Daten. 500600 13501920
500600 ~
221026802840
Werte so rti eren
14001900
~
220027002400 ~
auf- bzw. abrunden
~
o
56
1
49
2
278
Zehner und Einer streichen
Bei rationalen Zahlen werden meist die ganzen Zahlen als Stamm und die Dezimalstellen als Blätter verwendet, wobei meist nur die erste Nachkommastelle ebenfalls abgetrennt oder gerundet eingezeichnet wird. Allgemeine Hinweise zu grafischen Darstellungen Für die Erstellung von Grafiken lassen sich einige generelle Richtlinien zur Vermeidung von Fehlern, die zu Verzerrungen und Problemen beim Ablesen führen, formulieren.
48
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Vollständige Beschriftungen Ein wichtiger Punkt bei der Gestaltung von Grafiken ist deren Beschriftung, da fehlende oder falsch platzierte Informationen die korrekte Interpretation erheblich erschweren, wenn nicht gar unmöglich machen. Zunächst sollte die gesamte Grafik einen Titel erhalten, der deutlich beschreibt, was genau die Abbildung zeigt. Hierfür bewährt hat sich die Orientierung an der im Erhebungsinstrument gestellten Frage oder gar deren wörtliche Wiedergabe, wenn diese nicht zu lang ist und sich nicht bereits im Text befindet. Um den Titel deutlich als solchen erkennbar zu machen, sollte er weit genug von den Datenachsen entfernt platziert werden. Hilfreich kann es auch sein, ihn in einer anderen Schriftauszeichnung oder -größe zu formatieren. Bei zu langen Fragen sollte diese unterhalb der Grafik platziert sein. Beschriftet werden müssen auch die vorhandenen Achsen. Die Achsenbeschriftung bei der Darstellung von Häufigkeitsverteilungen gibt Auskunft darüber, welche Variable abgebildet ist und ob es sich um absolute oder relative Häufigkeiten handelt. Zur Gestaltung der Achsen gehört weiterhin, die entsprechenden Skalenwerte bzw. Merkmalsausprägungen einzutragen. Zusätzlich können noch Teilstriche eingezeichnet werden, wobei zwischen den einzelnen Skalenpunkten maximal fünf von diesen liegen sollten. Um eine hohe Lesbarkeit zu erreichen, sollten alle Beschriftungen grundsätzlich horizontal von links nach rechts verlaufen, also in der für den Leser und die Leserin gewohnten Art Gleichwohl dies nicht immer leicht umzusetzen ist, sollten vertikale Beschriftungen die Ausnahme darstellen. Eine gute Alternative bspw. bei vertikalen Balkendiagrammen stellen schräg gestellte Beschriftungen dar. Bei allen Beschriftungen der Achsen und deren Punkte ist weiterhin darauf zu achten, dass diese jeweils näher am entsprechenden visuellen Objekt liegen, als an irgend einem anderen Teil der Grafik, damit sie in der Wahrnehmung schnell als zugehörig erkannt werden. Zu einer vollständigen Beschriftung gehört ebenfalls die Information darüber, auf welcher Fallzahl die Abbildung beruht. Diese lässt sich am besten in der Form "n = xy" platzieren, und zwar so, dass sie schnell gefunden werden kann z.B. im Titel oder direkt unterhalb der Grafik. So kann die Leserin/der Leser gerade bei der Darstellung von Prozentangaben die abgebildeten Daten besser einordnen und bewerten. Gerade bei Präsentationen und wenn Daten aus unterschiedlichen Quellen visualisiert werden, sollte die Herkunft der Daten ebenfalls ersichtlich sein. Wie eine gut und vollständig beschriftete Grafik aussehen kann, zeigt Abb. 2-8.
Grafische Darstellungen einfacher Häufigkeitsverteilungen
49
Abb. 2-8: Gut und vollständig beschriftete Grafik Akzeptanz von Aktivität in Umwelt- oder Naturschutzgruppe bei Freunden/Bekannten würden das sehr gutfinden würden das eher gut finden wären eher zurückhaltend würden das eher schlecht finden
,
,
~
I
16
1I I I I I
.2
würden das sehr schlecht finden
47
34
1 0%
5%
10"10
15%
20%
25%
30%
35%
40%
45%
50%
Frage: Was glauben Sie: Finden oder fänden es Ihre Freunde und Bekannten gut, wenn Sie in einer Umwelt- oder Natu rschutzgr uppe aktiv sind oder wären? Quelle: Umweltbewusstsein in Deutschland 2006, n = 2.034
2D statt 3D
Die meisten Programme zur Erstellung von Grafiken ermöglichen die Erstellung von sogenannten .Pseudo-Sü-Diagrammen", bei denen eigentlich zweidimensionale Darstellungen mittels 3D-Körpern wie z.B. räumlich dargestellte Säulen in scheinbar räumlicher Form ausgegeben werden. Auch in den Medien wird bei der Verwendung von Grafiken häufig auf die 3D-Form zurückgegriffen. Diese mögen aus ästhetischer Sicht zuweilen sicherlich ansprechender sein als deren zweidimensionalen Pendants, für die Verwendung in wissenschaftlichen Arbeiten sind sie jedoch ungeeignet. Die Gründe hierfür liegen in einer unnötigen Erhöhung der Komplexität und in den durch sie verursachten Verzerrungen, die ein schnelles bzw. fehlerfreies Ablesen verhindern. Zusätzlich führt die Beschränkung der zweidimensionalen Zeichnungsfläche bei einer räumlich verteilten Anordnung dazu, dass Objekte im Hintergrund von anderen Elementen überlagert und verdeckt werden. Abb. 2-9 und Abb. 2-10 zeigen dieselben Daten in einem vertikalen Balkendiagramm. Bereits der Vergleich der Säulen über der ersten Kategorie zeigt deutlich den Verzerrungseffekt durch die Pseudo-3D-Darstellung. Dieser verhindert ein fehlerfreies Ablesen der Werte, da die Säule weit unter der Linie, die den Wert 70 markiert, endet.
50
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Abb. 2-9: Verzerrung durch Pseudo-3D-Darstellung
80
70 60 50 40 30 20 10
o 3
2
4
Abb. 2-10: Dieselben Daten in zweidimensionaler Darstellung 80
70 60
50 40 30 20 10
o 2
3
4
AufÄsthetikachten Bei der Gestaltung von Visualisierungen sollte weiterhin ein Augenmerk auf deren Proportionen bzw. Form gelegt werden. Grafiken sollten eine horizontale Ausdehnung aufweisen, also breiter sein als hoch, wofür es mehrere Begründungen gibt (vgl. Tufte 2007: 186ff.). Für diese Gestaltung spricht unter anderem die Analogie zum Horizont und der menschlichen Fähigkeit, Veränderungen an diesem schnell wahrnehmen zu können - damit entspricht diese Form eher den natürlichen Sehgewohnheiten. Auch wirken bestimmte Seitenverhältnisse auf den Menschen als besonders ästhetisch. Man muss hier jedoch nicht zwingend den "Goldenen Schnitt", der als das Maß in der Kunst und Architektur gilt, einhalten. Denn auch andere Seitenverhältnisse gelten als ästhetisch, sodass als Faustregel Grafiken etwa 50 Prozent breiter als hoch sein sollten. Teilt man die
51
So ge ht es mit SPSS/ SYSTAT
Breite durch d ie Höhe sollte demnach das Ergebni s ca. 1,5 bet rage n, so wie dies bei einer Gra fik mit den Maßen 12cm x 8cm der Fall ist. Schließ lich s prec he n auch ga nz pragmat ische Grü nde für eine derartige Gestalt ung: d ie oben ausges proc he ne Emp fehlung, d ie Schrift horizon tal verlaufen zu lassen , lässt s ich so leichter umsetzen.
2 .4 So ge h t es mitSPSSjSYSTAT Häufigke it sverteilun gen in SPSS In SPSS findet man die Funktio n zur Erste llung von Häufigkeitstabellen unte r dem Menüpu nkt .Analysteren > Deskriptive Statistik > Häufigkeite n ...". Im Hauptdialogfeld wird im linken Fenste r die Var iable nliste dargestellt, aus de r man die interessieren de(n) Variable(n) auswählt. Durch Anklicken des Dre iecks in de r Mitte zwische n d en Fenster n kann man ausgewählte Variable( n) in das zu Anfang noch leere recht e Variab lenfenster übert rage n. Nach Bestätigen mit "OK" wird eine Häufigkeits ta belle ersteLLt, die mit Tab. 2-2(5.35) nahezu ide nt isch ist. Die Tabelle kann übe r d ie Zwische nab lage d irekt in eine n Forschu ngs ber icht hinein kopiert we rde n. fiI Ho"' ogkeot
Ii:>l
I Slatistiken.. ~
vanatlll'(n~
I~_--.o= ~ Gudll."" IGUCIII , "",, '" Jan,... lNte~ ~) Rel'Il' o Recodier en" be nutzt. Man kann entscheiden, ob man die beste he nde Variable umcodier en w ill oder für die neuen Kategorien zuordnungen eine neue Variable erz eugen w ill. Letzteres ist vorzuziehen, denn so bleiben die ursp rü nglichen Date n, di e ja gena ue re Messungen darstellen , für etwa ige weitere Analysen er halten.
52
Häufigkeitsverteilungen und ihre grafisch en Darstellungen
filiIJmkodieron in . nder. V" " hl Diagramme rst ellung": fillo..gtlmmerst ellutlg
It :oentrlit3llonllDl ~ :!,:"' ~lll ...
Oi:il Dlagr~u_ lIOOI ~ren
Gesc1>ledl11GuC'>l ,.
1~ ~"~J ~n ..nl'Jte1 Rellg< onsIUgenong
.d Zulrreoenne lt m Deskriptive Statistiken> Explorative Datenanalyse...", Hier kann nach einem Klick auf "Diagramme ..." ein entsprechendes Häkchen gesetzt werden.
Häufigkeitsverteilungen in SYSTAT SYSTAT ist nicht ganz so komfortabel wie SPSS. Um Häufigkeitstabellen zu erstellen geht man auf .Analyze > One-Way Frequency Tables ...", Im linken Dialogfenster können die Variable(n) ausgewählt werden und mittels des .Add". Buttons ins rechte Dialogfenster übertragen werden. Als nächstes muss alleine die Option .Frequency distrfbution" aktiviert werden.
Moin
I Cel sl olislOod
I
Resompling
Selecled v", ioble(s)
Avoiloble v", ioble(s)
'0
•
GESCHLECHH lI ALTER
I
I
Add --)
L:il . _ 1 I
Wenn keine weiteren Einstellungen vorgenommen werden, erstellt SYSTAT die Häufigkeitstabelle nur mit den gültigen Werten. Es besteht die Möglichkeit, die fehlenden Werte zu integrieren, indem die Option .jncl ude missing values" aktiviert wird. Als Ergebnis werden alle Werte mit in die Häufigkeitstabelle aufgenommen. In SYSTAT können die gültigen Prozente und die Prozente aller Ausprägungen nicht in einer Tabelle angezeigt werden. Die Kategorisierung von Variablen ist in SYSTAT unter .Data > Transform > Recode" verfügbar. Wie bei der Erstellung von Häufigkeitstabellen werden auf der linken Seite die relevanten Variablen ausgewählt und mit dem .Add '<Butron in die rechte Tabelle übertragen werden. Es besteht die Option, die bestehende
55
So geht es mit SPSSjSYSTAT
Variable umzukodieren oder eine neue Variable zu erzeugen. Für den zweiten Fall muss in der Tabelle rechts neben der ausgewählten Variable ein neuer Variablenname eingetragen werden. Mithilfe eines Buttons, welcher mittig auf der rechten Seite zu finden ist, wird eine neue Zeile im unteren Bereich des Fensters erzeugt. Nun können auf der linken Seite die alten und auf der rechten die neuen Werte eingetragen werden.
Avoiloble vorioble(s)
'0 C GESCHLECHT ALTER C RELIGION ZLIFRIE DENHE
•,:'7,'::'
IJI ~~~ r--~-==","~'",mi"iiail II [ Add --> I 1Ie !l'aph,.-< o a s",* Ir""", D Slack bars 01 rrruli:tpIe var,obIes
~~ffiJ
D Range bElwoen lwo variobles
1
"'
11
c_, I
In SYSTAT lässt sich ein Stamm-Blatt-Diagramm über das Menü .Analyze > Descriptive Statistics > Stem-and-Leaf" anfo rdern.
3
Mittelwerte und Streuungsmaße
3.1 Mittel werte Mittelwerte, au ch Maße der zentralen Tendenz genannt, bieten die Möglichkeit Datenmengen so zu aggregi er en, dass man sie du rch einen ein zigen Wert ausdrü cken kan n. Wenn man an Mittelwerte denkt, fallt einem zunächst das arith meti sche Mittel, de r Durchschnittswert, ein, den man bereits aus der Schule kennt, wo z.B. die Durchschnittsnote einer Klassen arbeit berechnet wur de. ln diesem Ka pite l we rde n die drei Mittelwerte Mod us, Median und arithm etis ches Mittel vorgeste llt. Der Unterschied zwischen den drei Mittelwer ten ist die Art und Weise, wie s ie die ze ntrale Tendenz der Werte beschreib en . Mo dus
Der Modu s (e ng!. mode), auc h Modalwert genannt, ist der Wert, der in nerha lb ein er Dat enmen ge am häufigs ten vor komm t. Er muss nicht ber echnet werden, ma n kann ihn in einer Häufigkeitstabelle oder einer grafisc he n Darste llung ein fach ablesen. Beispielsweise w ur de das Alter von neun Kindern einer Kinderg artengrupp e er ho ben und die Ergebnisse wie in Abb. 3-1da rges tellt. Ab b.3·1 5
6
4
2
o 4 Jahre
5 Jahre
6 Jahre
Der Modu s bet rägt in diesem Fall 6 Jahre, we il d ieser Wert am häufigsten vorkomm t. Da nu r ein Modus vor handen ist, handelt es s ich um eine unimo dale Verteilung. Wen n in einer Verteilung zwei Werte die höchste Anza hl von Nen nun gen haben, wü rde ma n von eine r bimodalen Vert eilung sprec he n. Wenn alle Wer te gleichhäufig vo rkommen, es also in jeder Alterss tufe die gleiche Anzahl von Kinderga rtenkind ern gäbe, so würde die Bestimmung eines Modus
Mittelwerte und Streuungsmaße
58
keinen Sinn haben, weil man dann keine zusammenfassende Information erhält Üblicherweise wird der Modus vor allem dann angegeben, wenn die Verteilung ein oder zwei herausstehende Werte hat. Die Bestimmung des Modus ist an kein Skalenniveau gebunden, er lässt sich sowohl für Intervallskaien als auch für Ordinal- und Nomialskalen ermitteln. Es könnte sowohl ein bestimmtes Alter [intervall], ein bestimmter Schulabschluss (ordinal) oder eine Religionszugehörigkeit (nominal) am häufigsten vorkommen. Wenn es einzelne Werte gibt, die stark von den restlichen Werten abweichen, sogenannte Ausreißer, so bleibt der Modus konstant. Man spricht deswegen davon, dass er gegenüber Ausreißern robust ist, da sich die Werte neben dem Modalwert beliebig ändern können, ohne ihn zu beeinflussen. Dieser Vorteil des Modus ist gleichzeitig auch seine Schwäche, da er nur darüber eine Aussage treffen kann, welcher Wert am häufigsten vorkommt und außer diesem Wert keine weiteren Werte berücksichtigt. Abb. 3-2 zeigt drei verschiedene Verteilungen, die alle den gleichen Modus aufweisen und trotzdem eine völlig andere Form haben. Abb.3-2
10 1
1 2
3
1
2
1
4
5
6
7
10
8
2
3
4
10
9
5
6
2
3
9
4
5
6
Median Der Median (engl. median) teilt die Datenmenge genau in der Mitte, so dass 50% der Werte über dem Median und 50% der Werte unter dem Median liegen. Um den Medien bestimmen zu können, werden zunächst alle vorkommenden Werte der Größe nach sortiert. Dafür muss die analysierte Variable mindestens ordinalskaliert sein. Je nachdem ob eine gerade oder ungerade Anzahl von Werten vorliegt, gestaltet sich die Bestimmung des Medians unterschiedlich. Bei einer ungeraden Anzahl von Werten ist der Median der Wert, der genau in der Mitte der nach Größe aufgereihten Werte steht. Um ihn zu bestimmen, sind folgende Schritte notwendig:
59
Mittelwerte
Bestimmung a es Meaians 6ei einer ungeranen Anzalil von Wert en a) Alle Werte der Größe nach sortieren. b) Die Position des mittleren Werts mit der Formel ~ bestimmen, 2
wobei n der Anzahl der Werte entspricht. c) Den mittleren Wert ablesen.
Wenn der Median des Alters der neun Kindergartenkinder aus dem obigen Beispiel bestimmt werden soll, muss folgendermaßen vorgegangen werden: Werte sortieren
4
5
5
5
6
6
6
6
6
i.
2.
3.
4.
5.
6.
7.
8.
9.
Position des mittleren Wertes bestimmen Mittleren Wert ablesen
Der fünfte Wert ist 6. Der Median beträgt also 6 Jahre.
Wenn nun die Kindergartengruppe ein neues Kind im Alter von 4 Jahren aufnimmt, verändert sich die Situation ein wenig, denn nun haben wir es mit zehn Kindern zu tun und es gibt keinen Wert mehr, der genau in der Mitte der Reihe steht. In diesem Fall müssen die zwei mittleren Werte bestimmt werden, weil der Median genau in der Mitte dieser beiden Werten liegt. Bestimmung a es Meaian Dei einer ungeranen Änzalil von Werten a) Alle Werte der Größe nach sortieren. b) Die Position der beiden mittleren Werte mit den Formeln?:. und ~ 2
2
bestimmen. c) Die beiden mittleren Werte ablesen. d) Die Mitte dieser beiden Werte mit der Formel Wert 1+W ert 2 berechnen. 2
Für das Beispiel mit den nun zehn Kindergartenkindern bedeutet dies: Werte sortieren
4
4
5
5
5
6
6
6
6
6
i.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Position der mittleren Werte bestimmen
1. Wert:?:. = ~
Mittlere Werte ablesen
Der fünfte Wert ist 5 und der sechste Wert ist 6. Mitte der beiden Werte bestimmen: ~
Mitte der mittleren Werten bestimmen
2
2
=5
Der Median beträgt also 5,5 Jahre.
2
= 5,5
Mittelwerte und Streuungsmaße
60
Genau wie der Modus ist der Median gegenüber Ausreißern robust. Ein Anwendungsbeispiel des Medians findet sich im World Fact Book der CrA7. Für jedes Land der Welt ist unter anderem der Median des Alters aufgeführt, also das Alter durch das die Bevölkerung eines Landes in zwei Gruppen geteilt wird. Der Median des Alters in Deutschland beträgt 43,8 Jahre während er in Afghanistan bei 17,6 jahre liegt. In Afghanistan sind also 50% der Bevölkerung jünger als 17,6 jahre und in Deutschland sind 50% der Bevölkerung jünger als 43,8 jahre. Allein durch den Median erhält man so eine wichtige Information über die Altersstruktur der beiden Länder.
Arithmetisches Mittel Der Mittelwert, oder das arithmetische Mittel (engl. mean value], ist umgangssprachlich als der Durchschnittswert bekannt. Alle Maße der zentralen Tendenz können unter dem Begriff Mittelwerte zusammengefasst werden, wenn von dem Mittelwert die Rede ist, so ist jedoch das arithmetische Mittel gemeint. Der Mittelwert begegnet einem häufig auch im Alltag, z.B. wenn das Durchschnittseinkommen einer Berufssparte in den neuen und alten Bundesländern verglichen oder über das Abschneiden verschiedener Länder in der PISA-Studie gesprochen wird. Um den Mittelwert zu berechnen, werden alle vorkommenden Werte summiert und durch die Anzahl der Werte dividiert. Der Mittelwert wird üblicherweise mit x (ausgesprochen x quer) abgekürzt und die Formel für seine Berechnung lautet: Mittelwert Xi
n
= =
x=
Xl
+
xa
+ x 3 + .+ x n
--'-----"----''--------''
IY=l Xi
n
n
Messwert des i-ten Falls Anzahl der Fälle
Berechnen wir nun den Mittelwert für das Alter der neun Kindergartenkinder aus Abb. 3-1: 4+5+5+5+6+6+6+6+6 ------:::9-----
49 =9" = 5,4
Für die Kindergartenkinder ergibt sich ein Durchschnittsalter von 5,4 Jahren. Der Mittelwert ist demnach um 0,6 Jahre niedriger als der weiter oben berechnete Median von 6 Jahren.
7
https:jjwww.cia.govjlibraryjpublicationsjthe-world-factbook
Mittelwerte
61
Das Summenzeichen L Das Summenzeichen kann als vereinfachte Schreibweise verwendet werden, wenn Zahlen aufsummiert werden sollen. In unserem Beispiel liegen als Messwerte X i die Altersangaben von neun Kindern vor. Um den Vorgang der Summierung dieser neun Werte zu beschreiben, könnte die folgende Schreibweise gewählt werden:
Bei einer großen Anzahl von Werten kann diese Schreibweise jedoch schnell umständlich werden. Ein Summenzeichen vor dem Xi steht für die folgende Abkürzung: LXi = die Summe aller Werte Xi Das Summenzeichen wird mit einem sogenannten Laufindex (meistens mit dem Buchstaben i) versehen, der angibt, was summiert werden sollen. Am unteren Rand des Summenzeichens steht der erste zu summierende Wert und am oberen Rand der letzte. Folgendes Summenzeichen meint also:
Soll das Alter aller neun Kindergartenkinder aufsummiert werden, muss das Summenzeichen demnach folgendermaßen beschriftet werden:
Um den Mittelwert berechnen zu können, muss die untersuchte Variable, wie hier das Alter, intervallskaliert sein. Für Variablen mit niedrigerem Skalenniveau hat die Berechnung des Mittelwerts keinen Sinn. Man stelle sich den Versuch vor, den Mittelwert der nominalskalierten Variable Familienstand mit den Werten 1 = ledig, 2 = verheiratet und 3 = verwitwet zu bilden. Ein Mittelwert von 2,5 wäre in diesem Fall offensichtlich unsinnig. Bei der Interpretation eines Mittelwertes muss bedacht werden, dass dieser Wert von einigen außergewöhnlich hohen oder niedrigen Ausreißerwerten leicht beeinflusst werden kann. Ein einziger hoher Wert treibt den Mittelwert in die Höhe. Wird zum Alter der neun Kinder das Alter der dort tätigen 26-jährigen Erzieherin hinzugerechnet. steigt der Mittelwert von 5,5 auf 7,5 Jahre. Man spricht deshalb davon, dass der Mittelwert anfällig gegenüber Ausreißern ist. Zudem ist die Berechnung des Mittelwertes nur bei Verteilungen üblich, die unimodal und annähernd symmetrisch sind. Bei einer Verteilung mit mehreren
Mittelwerte und Streuungsmaße
62
Modi oder einer u-förmigen Verteilung hat der Mittelwert wenig Aussagekraft. weil er die realen Begebenheiten nicht wiedergeben kann. Wenn man z.B. das Alter der Besucherinnen und Besucher eines Stadtteilzentrums erhebt, das vor allem von älteren Menschen und Kindern und Jugendlichen besucht wird, dann ist die Altersverteilung u-förmig und das Durschnittsalter einer Untersuchung beträgt könnte bspw. 35 Jahre betragen. Dieser Wert gibt die Realität jedoch nicht gut wieder. In einem solchen Fall ist es besser, für beide Gruppen das jeweilige Durchschnittsalter zu berechnen und so z.B. die bei den Mittelwerte 15 und 76 Jahre zu erhalten. Bevor man einen Mittelwert berechnet, sollte man also einen Blick auf die Verteilung der Werte in einer Häufigkeitstabelle oder grafischen Darstellung werfen.
Mittelwertfür eine Häujigkeitstabelle Auch wenn Werte bereits in einer Häufigkeitstabelle zusammengefasst wurden, lässt sich der Mittelwert berechnen. Die Tab. 3-1 bildet die Altersverteilung von 25 Kindern eines Kindergartens ab. Die ersten Spalte enthält die drei verschiedenen Altersstufen k i Die zweite Spalte gibt für jedes Alterskategorie an, wie häufig sie vorkommt (fi). Um den Mittelwert der so vorliegenden Altersverteilung der Kindergartenkinder zu bilden, müssen die Alterskategorien, wie in der dritten Spalte dargestellt, mit der Häufigkeit ihres Auftretens multipliziert und anschließend summiert werden. Tab. 3-1 Alte r k i
Häufigkeit
t,
r..«,
4
6
24
5
9
45
6
10
60
Lf,;,1 fi . k i =129
Um den Mittelwert zu berechnen, wird diese Summe nun durch die Summe der Häufigkeiten dividiert (also durch die Summe der zweiten Spalte). Formalisiert lässt sich dieser Vorgang folgendermaßen beschreiben.
x= fi ki
m
If,:,lh· k i If,:,lh
f, . k,
+ f, . k, + f3 . k 3 + .+ km t, + f, + t, + ... + fm
Die Häufigkeit des Vorkommens einer Kategorie Der Wert einer Kategorie Die Anzahl der Kategorien
63
Mittelwerte
Für die Kinder des Kindergartens ergibt sich demnach ein Mittelwert von 5,2 Jahren.
x~
129
25~
5,2
Mittelwert für gruppierte Daten Es kommt vor, dass Daten bereits kategorisiert, d.h. gruppiert, wurden und nun aus der Tabelle der gruppierten Daten heraus der Mittelwert berechnet werden soll. Zum Beispiel wurde die Zeit, die die Kinder einer Grundschulklasse täglich im Internet verbringen, zu den Kategorien 0 bis Deskr iptive Stat istik> Häu figkeite n" an. Ein Klick auf den Butt on "Stat istik" öffnet ein Dialogfeld, in dem versch ieden e Kennwerte ausgew ählt we rden können: ill l-l."'i9k.~.~: St.1O.h' P.mo~ ti lw.!t.
la~.m"ß.
[.... Qu"' tJl.
:.... ~IIt.lw.!t
~
n.nnW. ll. IIJ.' 1()
gI. K:ll. Gru pp .~
li[] ~ .;j
;j ;~ -
f"j ~ mm .
I"] Werte sind Qruppe nmrtl.tpunll. Verteilun ~
~ Diagrammerstellung" aufgerufen werden und im unteren Bereich .Boxplot" ausgewählt werden.
78
Mittelwerte und Streuungsmaße
Iill Di'9"mm erstellu~9 ~ a f i .t> e n
(T
es ells rn aftlid1e
,;?
Familien stan d (' 51
C"st, . bl. "------fk '"b . .--- ,,,,,I ----------- -,
~ l ebenss ituation (
e?Alter (2 00 &-Geb J
,;? Alle r kale goris ie rl
.d Bildun g kal ogo ns $? K ind er j aln ein I I
6' BIK-Drtsg,öße (1 # #
BI K-{)rts ~öß . (2. Monatlid1es N ett
,;? '.." zahl der Kind er ~ -SKALEN_ (VA
~ SJW:AKlim.a~ew
#
Alter kal egorisi erl
~ All e r k. legOfis ie rl Keioo Kategorien (metrische V5IfiiilIJe)
Galerie
Grunaelemente
Grupp'erliPunKl- ID
iTi te llfu ß n ote ~
ae me nletgens c;llanen
Ausw Basic Statistics" aus. Im erscheinenden Dialogfenster können alle hier behandelten Kennwerte bis auf den Modus ausgewählt werden. Um den Modus zu bestimmen, kann man diesen aus einer mit SYSTAT erstellten Häufigkeitstabelle ablesen.
So geh t es mit SPSSjS YSTAT
79
J~~ANJYie: BISlC SlMtiu
I
~ oin .H P.He. 1 R.~ l A"""OO' . ..IIJbIel.1
0_
·
. ""
.~ "_ ~"" ",DD C
I!:! Al w bo",
D
Selecl. d . .. ,lIbIeltt
.
F8_ECT S F8_AU SLANDS'L I F10_MASTE R F10_CMASTEf
~
. I
Nomllla l
Ofdinal
~ K~tinoellZkoellizienl
I!':l Qamma
r;t ~'j_~d~a~!r:Y __
J
~ .§omers·d
~ bambda
fj Kendall·Talt-b
~ Uns";h erlle~s koeTr1Den1
~ Kendall-Talt-C
[~;;~ bezu~lC~ mte~]
~ Kappa ~ RISIko
11";1 Ud'l emar ~ Cochf~n· und Uant~+laens.zeI-Sli!IJsbk Ge~SiImesOuo': Tables > Two Way", Sodann erscheint das Haup tdi alogfeld. in dem im obere n Dritt el die zu unt er suchenden Var iablen aus gewählt werden könn en. Fern er lässt sich angeben, welc he Häufigkel ten in der Tabelle ausgegeben wer den sollen (~ Devia tes " ste ht für Residuen). Über de n Reite r ~M ea s u res" forde rt man ChiQuadrat, Phi, Kontin genskoeffizient C und Cramers V sowie zahlreiche wei tere Maßzah len an.
fIow• ....tIk(.~
A""" ...........I~
~~~~sl· ~ VERANI'\IIOFlT NACHHALIIJl:1 BILDUNG SCHUlABSCHL·
, IAI j
'
C.,...,..
STUOIHIFlICHTUN:
GiilI!"""""J . ~
r=-I
CcUm._
I
-
rl c.,...,.. ar'Ioo Um n
Anzahl der günstigen Ereignisse Anzahl der durchgeführten Zufallsexperimente
Die Wahrscheinlichkeit eines Ereignisses ist also definiert als Grenzwert (Limes) der relativen Häufigkeit, mit der das Ereignis auftritt, wenn man theoretisch unendlich viele Experimente durchführt. Wie ist diese Definition zu verstehen? Dies wollen wir zunächst am Beispiel des Münzwurfs erläutern. Die theoretische Wahrscheinlichkeit beim Münzwurf "Kopf' zu erhalten, beträgt wie oben gezeigt 1/2 = 50%. Alternativ könnte man diese Wahrscheinlichkeit auch ermitteln, indem man eine Münze sehr häufig wirft, und notiert, wie oft sie dabei "Kopf' zeigt. Dieses Experiment kann man mithilfe eines Computers simulieren. In der folgenden Tabelle sind Ergebnisse einer solchen Simulation für 10, 50, 100, 500 und 1.000 Mal werfen einer Münze aufgeführt: Tab . 5-1: Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit durchgeführte Münzwürfe
absolute Häufigkeit von "Kopf"
relative Häufigkeit von "Kopf"
10
4
4/10 = 40,0%
50
24
24/50 = 48,0%
100
51
51/100 = 51,0%
500
254
254/500 = 50,8%
1.000
502
502/1.000 = 50,2%
In unserer Simulation beträgt die relative Häufigkeit von "Kopf' bei 10 Würfen 40% und liegt damit 10 Prozentpunkte niedriger als die wahre Wahrscheinlichkeit von 50%. Bei 100 Würfen beträgt der Abstand nur noch 1 Prozentpunkt, bei 1.000 nur noch 0,2. Die relative Häufigkeit schwankt um den wahren Wahrscheinlichkeitswert von 50% und nähert sich diesem Wert mit zunehmender Zahl der Würfe immer weiter an.
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
110
Dieses Beispiel ist gut geeignet, um das Prinzip der empirischen Wahrscheinlichkeit zu verdeutlichen. Allerdings ist das Beispiel künstlich konstruiert, denn um die Computersimulation überhaupt durchführen zu können, muss man die Wahrscheinlichkeit kennen, mit der die Münze "Kopf' zeigt. Diese Wahrscheinlichkeit liegt aber in der Praxis nicht vor, sondern eben diese wird gesucht. Man kann sich aber das vorgestellte Prinzip zu Nutze machen, um in der Praxis bspw. die Wahrscheinlichkeit zu bestimmen, zufällig eine Jugendliche auszuwählen, die Heiraten "in" findet. Man wählt einfach zufällig (der Zufall ist dabei sehr bedeutend, ohne ihn funktioniert es nicht) mehrere Jugendliche aus. Mit zunehmender Personenzahl muss sich der relative Anteil an Personen, der Heiraten "in" findet, immer weiter dem wahren Wert bzw. der Wahrscheinlichkeit annähern. Dies ist für Stichproben der Größe 10, 100 und 1.000 in Tab. 5-2 anhand von fiktiven, aber an die Ergebnisse der Shell-Jugendstudie 2006 angelehnten Daten dargestellt. Auf Basis der empirischen Daten schätzen wir also die Wahrscheinlichkeit, in Deutschland einen Jugendlichen anzutreffen, der Heiraten "in" findet, auf 41 %. Tab. 5-2 Anzahl zufällig ausgewählter Personen
Anteil der Personen, die Heiraten "in" finden
10
48%
100
39%
1.000
41%
Der Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten Auch wenn es bereits angeklungen ist, soll zur besseren Verständlichkeit an dieser Stelle noch einmal der Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten kurz an einem Beispiel verdeutlicht werden. Angenommen, an einem Vortragsabend der Volkshochschule zum Thema .Erneuerbare Energien" nehmen 30 Männer und 20 Frauen teil. Die Wahrscheinlichkeit, aus den Zuhörern zufällig einen Mann für ein kurzes Interview auszuwählen, kann man bestimmen, indem man den relativen Anteil der Männer ermittelt: 30 der anwesenden 50 Personen sind Männer, was einer relativen Häufigkeit von 30/50 = 0,6 = 60% entspricht. Dies ist genau die Wahrscheinlichkeit, einen Mann auszuwählen, denn die Wahrscheinlichkeit für ein Ereignis entspricht genau seinem relativen Anteil am Ereignisraum. Das zahlenmäßige Verhältnis von Frauen und Männer im Ereignisraum ist in dem Kreisdiagramm in Abb. 5-1 visualisiert: Der Flächenanteil der Frauen beträgt 40% und die Männer nehmen 60% der Fläche ein.
Irren ist nicht nur menschlich, sondern auch wahrscheinlich
111
Abb. 5-1: Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten
20 Frauen = 40% 30 Männer = 60%
Die relative Häufigkeit der Männer/Frauen e ntsprieht der Wa hrschein lieh kelt, el nen Mann/eine Frau per Zufall auszuwählen.
5.2 Irren ist nicht nur menschlich, sondern auch wahrscheinlich Menschen neigen dazu, Wahrscheinlichkeiten von Ereignissen falsch einzuschätzen. Nehmen wir als einfaches Beispiel das Glücksspiel Roulette, bei dem es 18 rote und 18 schwarze Zahlen sowie die grüne Null gibt. Das sogenannte Gesetz der großen Zahlen, das die Gültigkeit der oben vorgestellten empirischen Definition der Wahrscheinlichkeit garantiert, besagt, dass auf lange Sicht gesehen beim Roulette schwarz genauso häufig fallen wird wie rot Dieses Gesetz besagt jedoch nicht, was viele Glücksspieler/innen irrtümlich glauben: "Wenn fünfmal oder sogar sechs- oder siebenmal hintereinander rot gefallen ist, wird beim nächsten Mal sicherlich schwarz fallen." In vielen Casinos wird dieser Irrglaube sogar gehegt und gepflegt, denn eine elektronische Anzeige neben dem Roulette- Tisch informiert genau darüber, welche Zahlen mit welchen Farben als letztes gefallen sind. Doch gleich was die Anzeige verraten mag, bleibt die Wahrscheinlichkeit für schwarz in jeder Runde gleich und beträgt immer 18/37, also knapp 49%, denn das Roulette hat im Gegensatz zum Menschen kein Gedächtnis. Es gibt zahlreiche Wahrscheinlichkeiten, die man intuitiv aus dem Bauch heraus zu hoch oder zu niedrig ansetzt. Die Wahrscheinlichkeit, dass zwei Personen am gleichen Tag des Jahres Geburtstag haben, beträgt bereits bei 27 Anwesenden mehr als 50% und die Lotto-Kombination 1, 2, 3, 4, 5, 6 ist genauso wahrscheinlich wie jede andere auch, die keinem einfachen Muster folgt. Es herrscht zudem nicht immer Einigkeit und es kann einige Zeit dauern, bis komplexe Wahrscheinlichkeiten eindeutig bestimmt sind.
112
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Besonders populär geworaen ist aas ZiegenproJjlern, Dei (lern es um eine Spielshow mit drei Türen geht, bei denen hinter zweien eine Ziege und hinter einer Tür der Hauptgewinn wartet. Nachdem der Kandidat eine der Türen ausgewählt hat, öffnet die Moderatorin (die weiß, hinter welcher Tür, was steht) eine Tür mit einer Ziege. Die Wahrscheinlichkeitsfrage lautet: Erhöht die Kandidatin, wenn sie jetzt noch einmal die Tür wechselt, ihre Chancen auf den Hauptgewinn? Zum Ziegenproblem haben sich zahlreiche Mathematiker linnen gegenseitig denunziert, es wurde in mehreren Büchern aufgearbeitet (vgl. z.B. Randow 2004), es kann einen eigenen Wikipedia-Eintragvorweisen und ist unter dem Stichwort .Monty-Ilall-Problem" auch als Video im Internet verfügbar. Inzwischen ist aber unumstritten, wenn auch nicht immer intuitiv erkennbar, dass sich die Wahrscheinlichkeit von 1/3 auf 2/3 erhöht, wenn die Kandidatin die Tür wechselt ..... Walter Krämer (1995) zählt in seinem Buch .Dcnkstc! Trugschlüsse aus der Welt der Zahlen" namhafte Gelehrte auf, die einem Irrtum bei der Wahrscheinlichkeitsrechnung unterlagen. Neben anderen Erklärungsansätzen, warum Menschen gerade bei Wahrscheinlichkeiten irren, weist Krämer insbesondere darauf hin, dass wir Menschen erfahrungsgeleitet sind und darauf getrimmt sind, Gesetzmäßigkeiten zu identifizieren. "Auch die einzigartige Fähigkeit des Menschen, Muster im Chaos zu entdecken, auch im größten Unsinn einen Sinn zu finden, ... schlägt bei chaotischen Prozessen leicht ins Negative aus: Wir sehen dann imaginäre Muster in Aktienkursen oder Regelmäßigkeiten bei Glücksspielen und Würfeln, wo keine Muster oder Regelmäßigkeiten sind" (ebd. Krämer 1995: 183). Fazit: Wenn man sich mit Statistik befasst, sollte man diese Eigenschaft des Menschen immer vor Augen haben und lieber einmal rechnerisch überschlagen, ob ein vermeintlich unwahrscheinliches Ereignis tatsächlich so unwahrscheinlich ist, wie es auf den ersten Blick scheint.
5.3 Wahrscheinlichkeitsverteilungen Eine Häufigkeitsverteilung informiert darüber, wie häufig die Ausprägungen einer Variablen vorkommen. In einer Altersverteilung kann man z.B. ablesen, wie viele Personen oder wie viel Prozent der Personen 18 Jahre alt sind. Eine Wahrscheinlichkeitsverteilung informiert darüber, mit welcher Wahrscheinlichkeit die jeweils möglichen Ereignisse eines Zufallsexperiments auftreten können. In Abb. 5-2 sind bspw. die Wahrscheinlichkeiten der sechs Augenzahlen beim Würfeln dargestellt. So wie bei der Altersverteilung die Variable Alter mit all ihren Ausprägungen auf der x-Achse abgetragen wird, so wird bei der Wahrscheinlichkeitsverteilung auf der x-Achse eine sogenannte Zufallsvariable aufgetragen, deren Ausprägungen den möglichen Ereignissen entsprechen.
Wahrscheinlichkeitsverteilungen
113
Da alle sechs Augenzahlen mit der gleichen Wahrscheinlichkeit von p = 1/6 = 16,7% auftreten können, sind in Abb. 5-2 alle Säulen gleich hoch.
In Kapitel 2 haben Sie den Unterschied zwischen diskreten und stetigen Variablen kennen gelernt: Bei diskreten Variablen lassen sich die möglichen Ausprägungen abzählen (z.B. bei der Anzahl der Kinder), bei stetigen Variablen existieren unendlich viele Ausprägungen (z.B. bei der Zeitdauer in Minuten). Die gleiche Unterscheidung wendet man auch bei Wahrscheinlichkeitsverteilungen an. Bei diskreten Wahrscheinlichkeitsverteilungen lassen sich die möglichen Ereignisse abzählen und sie lassen sich daher wie in Abb. 5-2 gut in Säulendiagrammen visualisieren. Stetige Verteilungen werden graphisch in Liniendiagrammen veranschaulicht, da es unendlich viele Ereignisse gibt. In der deskriptiven Statistik verwendet man üblicherweise lateinische Buchstaben für die Abkürzung wichtiger Kennwerte und so haben wir in Kapitel 2 für den Mittelwert x und für Varianz und Standardabweichung S2 und seingeführt. Bei einer Wahrscheinlichkeitsverteilung werden hingegen griechische Buchstaben verwendet Statt vom Mittelwert spricht man zudem von dem Erwartungswert, der mit dem Buchstaben f1 (mü) abgekürzt wird. Für die Standardabweichung verwendet man (Y (sigma). Der Einfachheit halber verwenden wir im folgenden Text statt .Erwartungswert" dennoch den Begriff "Mittelwert". Wichtig ist schließlich die Unterscheidung zwischen Kennwerten und Parametern: Die Kennwerte einer theoretischen Wahrscheinlichkeitsverteilung und von Grundgesamtheiten nennt man Parameter. Diese Begriffsvielfalt ist übersichtlich in folgender Abbildung dargestellt.
114
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Stichproben
Wahrscheinlichkeitsverteilungen
Grundgesamtheiten
.Kennwerte"
"Parameter"
"Parameter"
Mittelwert x
Erwartungswert J1
Mittelwert J1
Standardabweichung 5
Standardabweichung a
Standardabweichung a
Varianz 52
Varianz
d
Varianz
cl
Welchen Nutzen haben die Wahrscheinlichkeitsverteilungen eigentlich? Um diese Frage zu beantworten, wollen wir noch einmal die eingangs eingeführte Definition von Zufallsstichproben heranziehen. Demnach besteht eine Stichprobe aus zufällig ausgewählten Einheiten der Grundgesamtheit, wobei alle Einheiten mit der gleichen Wahrscheinlichkeit ausgewählt werden können. Eine Stichprobe kann man also auch als Ergebnis eines Zufallsexperiments verstehen: Je nachdem, welche Personen ich per Zufall auswähle, erhalte ich unterschiedlich zusammengesetzte Stichproben, mit jeweils unterschiedlichen Mittelwerten, Varianzen, Standardabweichungen und Prozentanteilen. Die wichtige Bedeutung der Wahrscheinlichkeitsverteilungen besteht nun darin, dass diese statistischen Kennwerte von Stichproben nicht wahllos und beliebig sind, sondern mathematisch bestimmbaren Wahrscheinlichkeitsverteilungen folgen. Angenommen, man zieht (theoretisch) sehr viele Zufallsstichproben aus einer Grundgesamtheit, dann folgen bspw. die Mittelwerte in den Stichproben der sogenannten Normalverteilung. Wenn wir jetzt von einem Stichprobenmittelwert auf den Mittelwert der Grundgesamtheit schließen, können wir dank der Verteilung genau sagen, mit welcher Wahrscheinlichkeit wir richtig liegen. Wir können also mithilfe der Wahrscheinlichkeitsverteilungen eine Aussage über die Genauigkeit unserer Schätzung treffen. Weil diese Überlegungen von zentraler Bedeutung für die gesamte Inferenzstatistik (also die schließende Statistik) sind, werden wir zu Beginn von Kapitel 6 unter dem Stichwort "Zentraler Grenzwertsatz" auf sie zurückkommen. In den folgenden zwei Abschnitten sollen jedoch erst einmal häufig verwendete Wahrscheinlichkeitsverteilungen vorgestellt werden: die diskrete Binomialverteilung, die für die Statistik besonders wichtige stetige Normalverteilung sowie die t-, die Chi-Quadrat- und die F-Verteilung.
Die Binomialverteilung
115
5.4 Die Binomialverteilung Zur Erläuterung der Binomialverteilung greifen wir auf ein einfaches Beispiel zurück: Man wirft zweimal eine Münze und interessiert sich für die Wahrscheinlichkeiten, einmal Zahl zu erhalten. Mit der oben vorgestellten theoretischen Definition der Wahrscheinlichkeit, lässt sich diese Aufgabe leicht bewerkstelligen, denn man benötigt lediglich die Anzahl der günstigen und die Anzahl der möglichen Ereignisse. Beim zweimaligen Münzwurf können insgesamt vier mögliche Ereignisse auftreten: Zahl, Zahl
Zahl, Kopf
Kopf, Zahl
Kopf, Kopf
Es gibt zwei günstige Ereignisse, bei denen nur einmal Zahl vorkommt, nämlich bei den Abfolgen "Zahl, Kopf' und "Kopf, Zahl". Um die Wahrscheinlichkeit für einmal Zahl beim zweimaligen Münzwurf zu berechnen, muss man nun die Anzahl der günstigen (2) durch die Anzahl der möglichen Ereignisse (4) teilen:
prix Zahl bei 2 Würfen)
= 2/4 = 0,5 = 50%
Sucht man die Wahrscheinlichkeit, einmal Zahl beim dreimaligen Münzwurf zu erhalten, kann man analog vorgehen. Zunächst muss die Anzahl der möglichen Ereignisse bestimmt werden. Hierzu notiert man alle möglichen Abfolgen des dreimaligen Münzwurfes, wobei Kfür "Kopf' und Z für "Zahl" steht: ZZZ
ZZK
ZKZ
ZKK
KZZ
KKZ
KZK
KKK
Es gibt also insgesamt acht mögliche Ereignisse, wenn man dreimal hintereinander eine Münze wirft. Bei drei Ereignissen kommt genau einmal Zahl vor, und zwar, wenn man Zahl nur beim ersten, nur beim zweiten oder nur beim dritten Wurf erhält (ZKKoder KKZ oder KZK). Die gesuchte Wahrscheinlichkeit beträgt also:
prix Zahl bei 3 Würfen)
= 3/8 = 0,375 = 37,5%
Auf die gleiche Weise ließe sich berechnen, wie wahrscheinlich es ist, beim zehnmaligen Münzwurf genau dreimal Zahl oder beim zehnmaligen Würfelwurf genau dreimal eine Sechs zu erhalten. Dies wäre jedoch mit der vorgestellten Methode nicht mehr einfach per Hand und Taschenrechner zu bewerkstelligen. Komfortabler ist es, auf die sogenannte Binomialgleichung zurückzugreifen, die folgendes besagt:
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
116
Wenn ein Ereignis mit der Wahrscheinlichkeit p eintritt, dann beträgt die Wahrscheinlichkeit, dass es k-mal bei n hintereinander durchgeführten Zufallsexperimenten eintritt: ?(n; p; k)
=
G) .p" .
n)
wobei ( k n!
p k
(1- p)n-k
n! = ";""7---;---;" k! . (n - k)!
1· 2 . 3 ..... n (gelesen: n Fakultät] Wahrscheinlichkeit des interessierenden Ereignisses beim einmaligen Experiment = Anzahl, wie häufig das interessierende Ereignis auftreten soll = =
Die gesuchte Wahrscheinlichkeit, beim zehnmaligen Münzwurf genau dreimal Zahl zu erhalten, ergibt sich durch einfaches Einsetzen in die Formel, wobei n 10, denn zehnmal wird die Münze geworfen, p 0,5, denn mit dieser Wahrscheinlichkeit tritt "Zahl" bei einem Wurf ein und k 3, denn das interessierende Ereignis "Zahl" soll dreimal auftreten. ?(n
= 10;p = 0,5; k = 3) = C30).
10) wobei ( 3
10! - 3)!
= 3! . (10
=
0,5 3 . (1- 0,5)7
= 0,117 = 11,7%
1· 2 . 3 ·4· 5 . 6 . 7·8 . 9 . 10 1·2·3·1· 2 . 3 ·4·5·6·7
= 120
Mithilfe der Binomialgleichung lässt sich auch die Wahrscheinlichkeit ermitteln, dass eine Familie mit drei Kindern ein, zwei oder drei Mädchen hat, denn in diesem Fall gibt es drei Zufallsexperimente. k ist 1, 2 oder 3 und die Wahrscheinlichkeit für ein Mädchen kann näherungsweise als 50% angenommen werden (Beispiel aus Krämer 2002]. Die Anwendung der Binomialgleichung soll an einem weiteren Beispiel demonstriert werden. Angenommen, bei einem viertägigen Bildungsurlaub mit zehn Teilnehmenden wird jeden Morgen neu gelost, wer an diesem Tag das Protokoll zu schreiben hat. Dann lässt sich die Wahrscheinlichkeit errechnen, dass eine Person zweimal Protokoll schreiben muss. In diesem Beispiel gilt: n 4 an vier Tagen wird die Protokollvergabe gelost p = 0,1 jeden Tag gibt es ein günstiges Ereignis und zehn mögliche Ereignisse k = 2 gesucht ist die Wahrscheinlichkeit, dass eine Person zweimal ausgelost wird
117
Die Binomialverteilung
Einsetzen in die Formel ergibt: P(n
= 4;p = O,l;k = 2) =
G)·
0,1'· (1- 0,1)'
= 0,049 = 4,9%,
Das heißt, mit einer Wahrscheinlichkeit von 4,9% muss eine Person genau zweimal während des Bildungsurlaubes Protokoll schreiben. Für die praktische Anwendung der Binomialgleichung ist es noch nicht einmal notwendig, die Formel zu bemühen und die Wahrscheinlichkeit mit der Hand zu berechnen, denn es gibt Binomialtabellen, in der man für ausgewählte Werte von n, p und k die zugehörigen Wahrscheinlichkeiten nachschlagen kann (vgl. Tabelle im Anhang B). Allerdings offerieren diese Tabellen zwangsläufig nur einen kleinen Ausschnitt aller möglichen p-Werte von 0 bis 1 und reichen meist nur bis n = 20. Im Internet existieren zahlreiche Binomialrechner, die in Sekundenschnelle und ohne Mühen exakte Wahrscheinlichkeiten für (fast) beliebige Eingaben von n, p und k berechnen können. Einige Links haben wir unter www.statistik-verständlich.de zusammengestellt. Von der Binomialgleichung zur Binomialverteilung ist es nur ein kleiner Schritt. Bei einer Binomialverteilung wird auf der x-Achse abgetragen, wie häufig das interessierende Ereignis auftreten kann. Die x-Achse reicht also immer von 0 bis n, weil das interessierende Ereignis Ox, Lx, 2x ... bis maximal n Mal eintreten kann. Die Höhe des Balkens k informiert über die jeweilige Wahrscheinlichkeit, dass das Ereignis k-Mal eintritt. Die konkrete Gestalt einer Binomialverteilung ist von den beiden Einflussgrößen n (Anzahl der Experimente) und p (Eintrittswahrscheinlichkeit des interessierenden Ereignisses) abhängig. Man kann deshalb nicht von der Binomialverteilung sprechen, sondern es gibt unendlich viele Verteilungen. Abb. 5-3 stellt die Binomialverteilung für das obige Beispiel dar, also die Verteilung mit n = 4 und p = 0,1. Abb. 5-3: Binomialverteilung für n = 4 und p = 0,1 70% c,
.ij; ~
:§
••
"E ~
~
;;:•
~
60% 50% 40% 30% 20% 4,9%
10%
0,36%
0,01%
3
4
0% 0
2
k
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
118
Aus der Abbildung liest man ab, dass eine Person mit der Wahrscheinlichkeit von gerundet 66% keinmal, mit 29%iger Wahrscheinlichkeit einmal und - wie oben bereits berechnet - mit 4,9%iger Wahrscheinlichkeit zweimal Protokoll während der vier Tage Bildungsurlaub schreiben muss. An der Abbildung kann man sich auch leicht verdeutlichen, wie man die Wahrscheinlichkeit dafür berechnet, dass ein Ereignis nicht gen au k mal sondern mindestens oder höchstens k-mal auftreten soll: Hierfür addiert man einfach die entsprechenden Wahrscheinlichkeiten. So beträgt die Wahrscheinlichkeit, dass eine Person maximal einmal Protokoll schreibt: P(k Jhand
J!Stadt ~ Jhand
Berechnung der Prüfg röße t und der Freiheitsgrade für homogene Varianzen Nach der Formulierung der Hypothesen wird die Prüfgröße t berechnet, anhand derer man bestimmen kann, wie wahrscheinlich es ist, dass die gefundene Mittelwertsdifferenz auftritt. Für homogene Varianzen ist t definiert als Quotient von Mittelwertsdifferenz und Standardfehler der Mittelwertsdifferenz:
= Mittelwert der Stichprobe 1 = Mittelwert der Stichprobe 2 = geschätzter Standardfehler der
Mittelwertsdifferenz in der Grundge-
samtheit Was versteht man unter dem Standardfehler der Mittelwertsdifferenz? Wenn man (theoretisch) unendlich oft die Mittelwertsdifferenz von zwei Zufallsstichproben ermittelt, erhält man eine Verteilung. Die Streuung dieser Verteilung nennt man Standardfehler. Dieser Wert ist unbekannt und wird aus den Stichprobendaten anhand folgender Formel geschätzt, was darin zum Ausdruck kommt, dass der Buchstabe Sigma [o] ein Dach trägt: (ni - 1) . s{ (ni - 1) n,
= Anzahl der Fälle in Stichprobe 1
n, = Anzahl der Fälle in Stichprobe 2
+ (n, - 1) . s~ + (n, -1)
.
J
1 n,
+1 tta
st = Varianz der Stichprobe 1 s~
= Varianz der Stichprobe 2
151
Mittelwerte von zwei unabhängigen Stichproben vergleichen
Berechnen wir nun die Prüfgröße t für die unterschiedlichen Mittelwerte des Klimabewusstseins für die Stichprobe auf dem Land und die Stichprobe in der Stadt anhand der folgenden Daten: Grundschulkinder Stadt
Grundschulkinder Land
Mittelwert Klimabewusstsein i\ = 21,0
Mittelwert Klimabewusstsein X2 = 19,1
Stichprobengröße: n 1 = 100 Kinder
Stichprobengröße: n 2 = 100 Kinder
Standardabweichung:
Standardabweichung:
Varianz
si
(Tl
= 2,5
Varianz
= 6,2
si
(T2
= 2,5
= 6,4
Zunächst wird auf der Grundlage der Varianzen in den beiden Stichproben der Standardfehler der Mittelwertsdifferenz geschätzt: (100 - 1) . 6,2 2 + (100 - 1) . 6,42 (100 - 1)
+ (100 -
1)
Nun kann der geschätzte Standardfehler in die Formel zur Berechnung der Prüfgröße t eingesetzt werden und es ergibt sich: Xl
-xz
t=--8CXI-XZ)
21,0 - 19,1 0,89 = 2,13
Wie in Kapitel 5 erläutert, gibt es nicht eine t-Verteilung, sondern unendlich viele t-Verteilungen. Die Form einer t-Verteilung hängt von der Anzahl der Freiheitsgrade ab, die beim t- Test für zwei unabhängige Stichproben wie folgt bestimmt werden: Freiheitsgrade d f
= (n i -
1)
+ (n, -
1)
=
n,
+ tta -
2
Für unser Beispiel gilt also: df
= 100 + 100 -
2
= 198
Berechnung der größe t und der Freiheitsgrade für heterogene Varianzen Sind die Varianzen der beiden Stichproben heterogen, muss eine im Nenner leicht veränderte Formel für die Bestimmung der Prüfgröße t verwendet werden.
152
t- Test: zwei Mittelwerte vergleichen
Prüfgröße t für heterogene Varianzen
Xl
x2 sf
=
Mittelwert der Stichprobe ls~= Varianz der Stichprobe 2 Mittelwert der Stichprobe 2n 1 = Anzahl der Fälle in Stichprobe 1 = Varianz der Stichprobe 1 n z = Anzahl der Fälle in Stichprobe 2
Auch die Freiheitsgrade werden bei Stichproben mit heterogenen Varianzen nach einer anderen Formel berechnet. Wenn man diese veränderte Formel anwendet, können sich für djnicht-ganzzahlige Werte ergeben. Zum Beispiel ist im Abschnitt 7.3 in den Ergebnistabellen von SPSS und SYSTAT für heterogene Varianzen ein Wert von df= 1955,296 aufgeführt, während die Berechnung der Freiheitsgrade für homogene Varianzen zu einem Ergebnis von df= 2011 kommt. Zufallswahrscheinlichkeit der Prüfgröße t bestimmen Es gibt zwei Varianten, um die Zufallswahrscheinlichkeit der Prüfgröße t zu bestimmen. In der heute üblichen Variante greift man auf den exakten Signifikanzwert zurück, der von einer Statistiksoftware ausgegeben wird. Für eine Prüfgröße t und eine bestimmte Anzahl von Freiheitsgraden erhält man dort den zugehörigen Signifikanzwert, wie z.B. p = 0,568 oder p = 0,047. Im ersten Fall wird die Nullhypothese beibehalten, da die Irrtumswahrscheinlichkeit mit 56,8% über 5% liegt. Im zweiten Fall ist die Irrtumswahrscheinlichkeit p mit 4,7% geringer als 5% und man entscheidet sich demzufolge für die Alternativhypothese (vgl. Kapitel 6.4). Bei der zweiten Variante vergleicht man den empirisch berechneten t-Wert mit einem sogenannten kritischen t-Wert. Für dieses Vorgehen nimmt man tabellarische Darstellungen von t-Verteilungen zu Hilfe, denen für verschiedene Irrtumswahrscheinlichkeiten sogenannte kritische t-Werte zu entnehmen sind, die die Signifikanzgrenzen angeben. Wenn die empirisch ermittelte Prüfgröße t den für ihre Freiheitsgrade maßgeblichen kritischen t-Wert überschreitet, bezeichnet man das Ergebnis als signifikant. Jede Spalte der t- Tabelle im Anhang B enthält die kritischen t-Werte für eine bestimmte Irrtumswahrscheinlichkeit. Man kann erkennen, dass die kritischen t-Werte kleiner werden, je größer die Anzahl der Freiheitsgrade ist. Für kleine Stichproben muss also ein höherer t-Wert überschritten werden. Den kritischen t-Wert ermittelt man, indem man den Wert in der Tabelle identifiziert, der sich im Kreuzungspunkt von Signifikanzniveau und den Freiheitsgraden befindet.
Mittelwerte von zwei unabhängigen Stichproben vergleichen
153
Wir testen nun die ungerichtete Alternativhypothese H1 "Das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet sich" und legen dabei das Signifikanzniveau auf 5% fest. Die Anzahl der berechneten Freiheitsgrade von df= 98 ist jedoch in keiner Zeile der t-Tabelle aufgeführt. Daher muss der nächst niedrigere Wert für df identifiziert werden, in diesem Fall der Wert df= 60. Aus der t-Tabelle kann in der Zeile für die Anzahl von 60 Freiheitsgraden und der Spalte für eine zweiseitige Fragestellung mit der Irrtumswahrscheinlichkeit 5% ein kritischer t-Wert von 2,00 abgelesen werden. Die oben errechnete Prüfgröße t übersteigt also den kritischen t-Wert. ....
.P.r'""üfgröße t = 2,13
>
kritischen-Wert = 2,0 "'0 "-
..1
Der Mittelwertunterschied der beiden Gruppen ist demnach auf dem 5%-Niveau signifikant und wir entscheiden uns mit einer Irrtumswahrscheinlichkeit von maximal 5% für die Alternativhypothese. nämlich dass sich das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet. Die grundsätzlichen Entscheidungsregeln sind noch einmal in folgendem Kasten veranschaulicht Der t- Tabelle kann man einen kritischen t-Wert tem entnehmen. Ist der Betrag der Prüfgröße t größer als dieser Wert, ist der Mittelwertsunterschied signifikant. Ist die Prüfgröße t kleiner oder gleich groß, ist der Mittelwertsunterschied nicht signifikant. Entscheidungsregel für Alternativ- oder Nullhypothese: Prüfgröße t> tem = Entscheidung für die Alternativhypothese Hi Prüfgröße t < tilfn = Entscheidung für die Nullhy p.:I00~th~e..s:oe..H ..o....
...
Effektstärke beim t-Test für unabhängige Stichproben Wie entscheidet man nun, ob eine gefundene signifikante Mittelwertsdifferenz als groß oder als klein zu interpretieren ist? Hierfür haben wir in Kapitel 6.8 die Effektstärke eingeführt, die beim t- Test über die Stärke der Mittelwertsdifferenz informiert. Die Effektstärke wird beim t-Test für unabhängige Stichproben nach folgender Formel bestimmt:
Effektstärke einer Mittelwertsdifferenz
x -x
=~ "p
Xl
Xz 8p
Mittelwert der Stichprobe 1 als Schätzung für die Grundgesamtheit Mittelwert der Stichprobe 2 als Schätzung für die Grundgesamtheit geschätzte Standardabweichung der Grundgesamtheit (Population)
t- Test: zwei Mittelwerte vergleichen
154
Bei der Berechnung der Effektstärke wird also die Differenz der bei den Mittelwerte durch die Standardabweichung geteilt und dadurch normiert. Es existieren verschiedene Effektstärkemaße für den t- Test bei unabhängigen Stichproben, die sich darin unterscheiden, wie sie die Standardabweichung 8 p in der Grundgesamtheit schätzen. Häufig in der Literatur anzutreffende Effektstärkemaße sind "Cohens d" und .Hedges g". Cohens d wird bspw. folgendermaßen berechnet:
Für unser Beispiel ergibt sich also: _ 2 1~,=: 0 =-=10=:9''01
J2,S; 2,S
~
0,76
Nach Cohen (1988) betrachtet man eine Effektstärke von d = 0,2 als niedrig, von
d = 0,5 als mittel und von d = 0,8 als hoch. Für unser obiges Beispiel berechnen wir ein Cohens d von 0,76, was also einem mittleren Effekt entspricht Der Unterschied zwischen den Kindern auf dem Land und den Kindern in der Stadt von 1,9 Skalenpunkten beim Klimabewusstsein ist also als mittelgroß zu betrachten. Voraussetzungen für den t-Test bei unabhängigen Stichproben Um überhaupt einen t-Test durchführen zu können, müssen zwei Grundvoraussetzungen für die Durchführung erfüllt sein: Da der t- Test auf der Basis von Mittelwerten berechnet wird, muss die untersuchte Variable Intervallskalenniveau besitzen und zweitens sollte das Merkmal für kleine Stichproben in der Grundgesamtheit annähernd normalverteilt sein.
7.2 Mittelwerte von zwei abhängigen Stichproben vergleichen Wie zu Beginn dieses Kapitels erläutert, können bei abhängigen Stichproben immer zwei Messwerte miteinander verbunden werden, weshalb man manchmal auch von verbundenen Stichproben (engl. paired sampies) spricht. Wenn bspw. die Einstellung zur Elternzeit bei Ehepaaren gemessen wird, kann jeder Messwert einer Frau mit dem Messwert ihres Mannes verbunden werden und
155
Mittelwerte von zwei abhängigen Stichproben vergleichen
die bei den Messwerte bilden ein sogenanntes Wertepaar. Während bei unabhängigen Stichproben nur die Mittelwerte der beiden Stichproben betrachtet werden und in die Berechnung der Prüfgröße t einfließen, wird bei abhängigen Stichproben zunächst die Differenz jedes Wertepaares gebildet. Nehmen wir einmal an, in einer Grundschulklasse mit 16 Kindern wird eine Projektwoche zum Thema "Das Internet" durchgeführt Mit Hilfe eines t- Tests wird untersucht, ob die Medienkompetenz der Kinder nach der Projektwoche gestiegen ist. Dafür wird die Medienkompetenz der Kinder vor und nach der Projektwoche anhand einer Skala mit möglichen Ergebnissen zwischen 10 und 30 Punkten gemessen. Für jedes Kind ergeben sich also zwei Messwerte, die ein Wertepaar bilden. Für die gesamte Klasse werden die folgenden Mittelwerte berechnet: Medienkompetenz vorher: 18,1
Medienkompetenz nachher: 20,8
Anhand eines t- Tests soll nun überprüft werden, ob die Mittelwertsdifferenz von 2,7 Punkten mit dem Zufall erklärt werden kann oder ob die Medienkompetenz der Kinder nach der Projektwoche signifikant gestiegen ist und man darauf schließen kann, dass eine solche Projektwoche generell zu einer Steigerung der Medienkompetenz bei Grundschulkindern führt. Formulieren der Hypothesen Vorab werden wiederum die zu testende Null- und Alternativhypothese formuliert und die Entscheidung für eine gerichtete oder ungerichtete Fragestellung gefällt. Wir haben schon vor der Projektwoche die gerichtete Alternativhypothese aufgestellt, dass solch eine Projektwoche dazu führt, dass die Grundschulkinder nach der Durchführung eine höhere Medienkompetenz besitzen als vorher.
ungerichtet (=zweiseitig)
gerichtet (=einseitig)
Alternativhypothese H 1
Nullhypothese Ho
Die Medienkompetenz vor und nach der Projektwoche unterscheldet sich:
Die Medienkompetenz vor und nach der Projektwoche unterscheidet sich nicht:
Jivor;j:. Jinach
Ji vor = Jinach
Die Medienkompetenz ist nach der Projektwoche größer als vor der Projektwoche:
Die Medienkompetenz ist nach der Projektwoche kleiner oder gleich groß wie vorher:
Jivor< Jinach
Jivor
> Jinach
t- Test: zwei Mittelwerte vergleichen
156
Berechnung der Prüfg röße tfür abhängige Stichproben Grundlage für die Berechnung der Prüfgröße t für abhängige Stichproben ist folgende Tabelle: Tab. 7-1 vor Projektwoche
Medienkompetenz nach Projektwoche
Differenz
1
18,5
20,3
1,8
2
19,0
18,5
-0,5
3
17,2
20,6
3,4
n
Xn ,
xn ,
Fall i
Medienkompetenz
xm = xn 1
Summe der Differenzen:
Lf-lXDi
-
xn 2
= 58,3
Mittelwert der Differenzen: XD = 5:~3
: : ; 3,6
Jede Zeile der Tabelle enthält die Messwerte eines Kindes vor und nach der Projektwoche. In der letzten Spalte ist die Differenz dieser bei den Werte abgebildet, wobei auf das Vorzeichen geachtet werden muss. In den beiden untersten Zeilen wird die Summe aller Differenzen gebildet und anschließend durch die Anzahl der Fälle, in diesem Fall 16 Grundschulkinder, geteilt, um den Mittelwert der Differenzen zu bestimmen. Die Formel für die Berechnung der Prüfgröße t lautet: Prüfgröße tfür abhängige Stichproben Xv
8v
n
=
Mittelwert der Mittelwertsdifferenzen aller Wertepaare geschätzter Standardfehler der Mittelwertsdifferenz in der Grundgesamtheit = Anzahl der Wertepaare
In Tab. 7-1 ist ersichtlich, dass für jedes Wertepaar zunächst die Differenz XVi der beiden Messwerte Xii und XiZ gebildet wird, d.h. für jedes Kind wird die Differenz der Medienkompetenz vor und nach der Projektwoche berechnet. Anschließend werden alle Differenzen aufsummiert und durch die Anzahl der Wertepaare geteilt.
Mittelwerte von zwei abhängigen Stichproben vergleichen
157
n XVi Xii
x iZ
n
= = =
Differenz der Wertepaare Xii und Wert 1 eines Wertepaares Wert 2 eines Wertepaares Anzahl der Wertepaare
XiZ
Wie man der letzten Zeile der Tabelle entnehmen kann, ergibt sich ein Mittelwert der Differenzen von Xv = 3,6 Stunden. Nun muss der Standardfehler der Differenz 8 D für die Grundgesamtheit geschätzt werden. Die Formel hierfür lautet:
IY-l(X V i ~ XV ) 2 n-1 XVi
Xv
n
= = =
Differenz der Wertepaare Xii und x iZ Mittelwert der Mittelwertsdifferenzen aller Wertepaare Anzahl der Wertepaare
Für jedes Wertepaar wird also von der Differenz der beiden Messwerte (letzte Spalte der Tab. 7-1) der Mittelwert der Differenzen abgezogen und das Ergebnis quadriert. Anschließend wird durch n-1 geteilt und die Wurzel gezogen. Für das Beispiel bedeutet dies: (1,8 - 3,6)2
+ (3,5
- 3,6)2 + (3,4 - 3,6)2 16 -1
+ usw.
~ 2,1
Nun können die beiden Werte in die Formel zur Berechnung der Prüfgröße t eingesetzt werden und es ergibt sich eine Prüfgröße t = 0,43 Xv
1
3,6
1
2,1
v'I6
t=_·_=_·_~
fiv..;n
043
'
Ermittlung der Freiheitsgrade df Die Anzahl der Freiheitsgrade beim t- Test für abhängige Stichproben beträgt: df
= n-1
Für unser Beispiel mit den 16 Grundschulkindern ergeben sich also 16-1 = 15 Freiheitsgrade.
t-Test: zwei Mittelwertevergleichen
Zujallswahrscheinlichkeit der Prüjgröße t bestimmen Ein Statistikprogramm gibt für die Anzahl von 15 Freiheitsgraden und die Prüfgröße t= 0,43 einen Signifikanzwert von p = 0,338 aus, weshalb eine Entscheidung für die Ha getroffen wird, da dieser Wert von 33,8% über der Signifikanzschwellevon 5% liegt. Aus der t -Tab elle entnehmen wir für das 5%-Niveau den kritischen Wert t= 1,75, und logischerweise ist auch hier das Ergebnis nicht signifikant, da die empirisch berechnete Prüfgröße t= 0,43 erheblich kleiner ist. Die unt erschiedliche Medienkompetenz vor und nach der Projektwoche lässt sich au f den Zufall zurückführen. Die Projektwoche hatte keinen signifikanten Einfluss au f die Medienkompetenz von Grundschulkindern.
7.3 So geht es mit SPSSjSYSTAT t- Test für
unabhängige Stichproben in SPSS Um einen t-resr mit unabhängigen Stichproben zu berechnen, wählt man die Option "Analysieren> Mittelwerte vergleichen> t -Test bei unabhängigen Stichproben" aus. Im ersten Dialogfenster m uss zunächst die zu testende Variable (hier das Klimabewusstsein] ausgewählt werden.
Im 1 -T..t bei un,bh,n glgen 5ttch p'robe n .f Al ., n Ja hron l, l.,]
4? H"h e
Im G,upp.~ deli~i.,.~
@ An!l"!/Obe",, ~'~ ~'_ ~' 11 ""~_ - Gru;>pe !
Gru;>pe ~ 12
Cl ! "",,,wert
Nach einem Klick auf "OK" präsentiert SPSS zwei Tabellen.
....
,
..
v.,
V...-.llln:l
nSl=
, , ,
" te' . ... . mTh.m " t.r= .mTh. m " tor. ..e.mTh.m
,
-
z
I
Iw
" te' e... . mTh.m
.
I
,,,"",
ox
!iilmne n J
V.na.ble2
49 Kmobe .
..
o"t>e ,
,
Vaflable1 ' ue _ 1 _ ,47 KlrMbe
~
I l l~~ ~en "' lz"ruckset<erJ iLAbbfocl1 0R"
~
•
I~ "'
161
So geht es mit SPSSjSYSTAT
Die Ausgabe von SPSS besteht wie beim t-Test für unabhängige Stichproben aus zwei Tabellen: statistik bei g.paa.... n Stichproben
Miit< Klimabewusstsein nachher Klimabewusstsein \IOrher
rt
S1anclardfelier
S1andard-
M'
; h
N
da.
10,3846
52
3,92
0,54
9,3654
52
4,24
0,59
Tut bei gepaarten Stichproben
Klmabewusstseln nachherKlmabelMJSstsein \IOrher
...
"
~
1,02
Gepaarte Differenzen SlandardfetEr Standarddes 2,32
0,32
T
3,165
"'51
I
~,.,
""
""'
,003
Die erste Tabelle informiert über die Stichprobengröße, Mittelwerte, Standardabweichung und den Standardfehler der Mittelwerte der gepaarten Stichprobefn}. Die Anzahl der Fälle (N) ist hier natürlich mit 52 Fällen gleich groß, da es sich um dieselben Personen handelt. Enthält eine der bei den Variablen fehlende Werte, bspw. weil ein Kind bei einer der Untersuchungen gefehlt hat, schließt SPSS diesen Fall automatisch von der Berechnung aus. Der zweiten Tabelle sind die Ergebnisse des t- Tests zu entnehmen. Für den t-Wert von 3,165 und 51 Freiheitsgrade ergibt sich eine Signifikanz von p = 0,003 (zweiseitiger Test bei ungerichteter Fragestellung). Die Mittelwerte des Klimabewusstseins vor und nach der Projektwoche unterscheiden sich signifikant voneinander. t- Testfür unabhängige Stichproben in SYSTAT Um einen t-Test mit unabhängigen Stichproben mit SYSTAT zu berechnen, wählt man im Menü .Analyze > Hypothesis Testing > Mean > Two Sampie t-Test", Sodann erscheint ein Dialogfenster. in dem die zu untersuchenden Test- und Gruppenvariablen ausgewählt und die Irrtumswahrscheinlichkeit (100% minus Alpha im Feld .Eonfidence") festgelegt werden können. Für einseitige Tests wählt man bei "Alternative type" den Eintrag "greater than" bzw. .Jess than", wenn man davon ausgeht, dass eine der bei den Gruppe einen höheren Mittelwert hat. Bei zweiseitigen Tests lässt man die Vorauswahl "not equal" bestehen.
162
t-Test: zwei Mittelwerte vergleichen
Il.1t..HyROl ho>i, Tort ing: Me, ,,, l wo -
[ Moin
I R e,~ 1
I
[ Mol-->
I GROUP
N
Mean
veneneo
Mann
920
9.858
10.013
Frau
1093
10.139
10.091
95.00% Ccnüdence Interval
0.877
F-ratio
0.992
df
o-verue
919,1092 0.905
I
1.124
t -Te st : zwe i Mitte lwe rte ve rgleiche n
164
t-Test für abhängige Stichproben in SYSTAT Um einen t- Test bei abhängige Stichproben zu berechnen, wählt man im SYSTAT Menü .Analyze > Hypothesis Testing > Mean > Paired t - Test". Sodann erscheint ein Dialogfenster, in dem die zu untersuchenden Variablen, die Art der Alternativhypothese und die Signifikanzschwelle ausgewählt werden können.
,
d.. Hypolnos" T..tin", M..,,,, P.,,.d ; . 1 ort Main
IRe" mplinQ I
Avoiloble vorioble(s)
Selecled vorioble(s)
KLiMABEWUSS • KLiMABEW1JSSC) ALTER SCHULE g u ,
' W
T Mittelwerte vergleichen > Mittelwerte.,," und dort in den Optionen angefordert werden. ZUsammenhangsmaBe Klimabewusstsein * Schulabschluss
Eta ,637
Em-Quadrat
,406
r Der Wert für Eta-Quad rat l~;ib t ~ie Varianzaufklärung
an, hier: 40,6%.
Mehrfaktorielle Varianzanalyse in SPSS Soll in SPSS eine mehrfaktorielle univariate Varianzanalyse, wie sie in Kapitel 8.4 gezeigt wurde, durchgeführt werden, so findet man diese unter "Allgemeines Lineares Modell> Univariat...". Die Faktoren, deren Einfluss getestet werden soll, müssen dort in das Feld "Feste Faktoren" gebracht werden. In den Optionen lassen sich zahlreiche Ausgaben anfordern, wie z.B. der Levene- Test oder Mittelwerttabellen.
Varianzanalys e: m eh r als zwe i Mitt elw erte v ergl eich en
Einfaktorielle und mehrfaktorielle Varianzanalyse in SYSTAT In SYSTAT findet sich die Varianzanalyse unter .Analyze > Analysis of Variance (ANOVA) > Estimate Model.;", Im ersten Reiter des Dialogfeldes werden d ie Variab len in die entsprechenden Felder auf der rechten Seite gebracht. Die abhängige Var iable kommt in das Feld .Dependentfs)'' und die u nab hängige Variable in das Feld .Factorfs)". Durch die Möglichkeit, hier gleich mehrere Faktoren zu definie ren, kann von hier aus also auch gleich eine mehrfakto rielle Varianzanalyse angefordertwerden. J:t:.. An,lyz'" AOlolly
I
SCHULB ILDUNG
,
I!'J Miss"" volues Covoriole(s)
[ '"I ~ ~
I