Nina Baur · Sabine Fromm (Hrsg.) Datenanalyse mit SPSS für Fortgeschrittene
Nina Baur · Sabine Fromm (Hrsg.)
Datenanalyse mit SPSS für Fortgeschrittene Ein Arbeitsbuch 2., überarbeitete und erweiterte Auflage
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
1. Auflage 2004 2. Auflage 2008 Alle Rechte vorbehalten © VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2008 Lektorat: Frank Engelhardt VS Verlag für Sozialwissenschaften ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.vs-verlag.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-531-34163-7
Inhalt
Vorwort:
Zur Benutzung dieses Buches
7
Nina Baur und Sabine Fromm
Einleitung: Die Rolle von SPSS im Forschungsprozess
13
Nina Baur und Sabine Fromm
Tell 1: Kapitel 1
SPSS und Statistik im Rahmen des Forschungsprozesses
17
Vom Fragebogen zum Datensatz
18
Detlev Luck und Nina Baur
Kapitel2
Zusammenfiihren von Datensatzen und Wechsel der Analyseebene .... 53 Detlev Luck
Kapitel 3
Mangel im Datensatz beseitigen
73
Detlev Luck
Kapitel4
Neue Variablen berechnen
88
Sabine Fromm
Kapitel 5
Tabellen und GrafIken mit SPSS fUr Windows gestalten
112
Simone Zdrojewski
Kapitel 6
Statistische Ergebnisse prasentieren
122
Jan D. Engelhardt
Kapitel 7
Arbeitserleichterungen fUr geubte Nutzer
130
Leila Akremi
Kapitel8
EinfUhrung in die Skriptprogrammierung fUr SPSS
142
Leila Akremi
Kapitel 9
Nutzliche Software und Fundorte rur Daten Nina Baur und Sabine Fromm
208
Teil2:
Umsetzung statistischer Konzepte in SPSS
Kapitel 10 Univariate Statistik
215
216
Nina Baur
Kapitel 11 Kreuztabellen und Kontingenzanalyse
239
Leila Akremi und Nina Baur
Kapitel 12 Das Ordinalskalenproblem
279
Nina Baur
Kapitel 13 Kontrolle von Drittvariablen fUr bivariate Beziehungen
291
Nina Baur
Kapitel 14 Faktorenanalyse
314
Sabine Fromm
Kapitel 15 Multiple lineare Regressionsanalyse
345
Sabine Fromm
Literaturverzeichnis
370
Stichwortverzeichnis
374
Autoren
...................................................................................................... 385
Vorwort: Zur Benutzung "dieses Buches Nina Baur und Sabine Fromm
In vielen sozialwissenschaftlichen Studiengangen erwerben Studierende in den ersten Studiensemestem jeweils gesondert Kenntnisse in Wissenschaftstheorie, Methoden der empirischen Sozialforschung, in Statistik, in soziologischer Theorie, in den speziellen Soziologien und im Umgang mit diversen Programmpaketen. Diese Wissensgebiete und Kenntnisse im Forschungsprozess zu integrieren, ist eine schwierige Aufgabe. In diesem Buch fokussieren wir den Bereich der quantitativen Datenanalyse, indem wir zeigen, wie sich konkrete empirische Fragestellungen in statistische Auswertungsstrategien urnsetzen lassen und diskutieren dabei typische Probleme, die in diesem Prozess auftreten. Wir wenden uns mit diesem Buch an fortgeschrittene Anfanger: Studierende, die bereits Kenntnisse in Statistik, Methodenlehre und Wissenschaftstheorie erarbeitet haben, erste Grundlagen im Umgang mit SPSS - oder einer anderen Statistiksoftware - erworben haben, aber noch kaurn Erfahrung mit der eigenstandigen Umsetzung von Forschungsfragen im Prozess der Datenanalyse besitzen. Am Ende des Vorworts nennen und kommentieren wir einige Titel, die geeignet sind, etwaige Lucken in den genannten Wissensbereichen zu schlieBen. Zudem schlagen wir in jedem Kapitel weiterfiihrende Literatur yore Diese Grundkenntnisse setzen wir in der Darstellung voraus und konzentrieren uns auf die Frage, wie sie im Forschungsprozess berucksichtigt und umgesetzt werden mussen. Dabei sol1ten die hier dargestellten Losungen nicht als einzig richtige, universell anwendbare Standardrezepte gesehen werden. Sich Losungsmuster anzueignen erleichtert zwar den Einstieg in die Auswertung, ersetzt aber nicht das eigene Denken. Ebenso wenig wie an Anfanger ohne Vorkenntnisse richtet sich dieses Lehrbuch an Profis mit langer Forschungserfahrung: Statt alle Auswertungsmoglichkeiten darzustellen, beschranken wir uns ZUllachst auf die leicht begreifbaren, urn Studierenden den Einstieg zu erleichtem. Nur Besonderheiten, die ublicherweise in der Methodenliteratur vemachlassigt werden, diskutieren wir ausfUhrlicher. Dieses Buch solI Soziologiestudierenden dabei helfen zu lemen, wie man mit realen Daten (also auch mit entsprechenden Mangeln) Schritt fUr Schritt eine Forschungsfrage beantwortet. Dabei werden die Studierenden bewusst mit den realen Problemen des
8
Nina Baur und Sabine Fromm
Forschungsprozesses von der Dateneingabe bis zum Verfassen eines Forschungsberichtes konfrontiert. Die Daten, auf die wir uns beziehen, haben - soweit in den einzelnen Kapiteln nicht ausdrticklich genannt - Studierende der Soziologie an der Otto-Friedrich-Universitat Bamberg im Rahmen des Soziologischen Forschungspraktikums erhoben, unter Leitung von Gerhard Schulze und Daniela Watzinger. Alle Datensatze finden sich auf der Webseite des VS-Verlags (www.vs-verlag.de; siehe auch die Dbersicht in Tabelle 1). Die Verwendung realer, nicht fUr didaktische Zwecke erhobener Daten bedeutet aber auch, dass haufig Kompromisse eingegangen werden mussen: Die Ergebnisse sind fast nie eindeutig, Anwendungsvoraussetzungen werden teilweise verletzt usw. Dies ist durchaus beabsichtigt: Solche Probleme treten in jedem realen Forschungsprozess aut: und es ist Aufgabe der Methodenausbildung, sie zu erkennen, zu benennen und Strategien im Umgang mit ihnen zu erlemen. Die kritische Auseinandersetzung mit den Daten zu uben, ist Teil des Arbeitsprogramms. Alle Operationen mit SPSS wurden per Syntax (und nicht uber das Menu) erstellt. Diese Vorgehensweise wollen wir dringend empfehlen: Einerseits entsteht so ein luckenlose Dokumentation des eigenen Vorgehens, was insbesondere in Hinblick auf Datentransformationen etc. unabdingbar ist. Andererseits ist die Arbeit mit der Syntax wesentlich effizienter. Haufig durchzufiihrende Operationen konnen so weitgehend automatisiert werden. Die Notation der Befehlssyntax folgt derjenigen des SPSS-Syiltax Guide: Feststehende Elemente eines Befehls werden in GROSSBUCHSTABEN dokumentiert, variable Bestandteile in kleinbuchstaben. Runde Klammem () kennzeichnen notwendige Elemente des Befehls, eckige Klammem [] zeigen optionale Befehlselemente an.
Tabelle 1: Ubersicht tiber die verwendeten Datensatze Name des Datensatzes
Erhebungszeitraum
Thema
Stichprobenumfang
leblauf.sav
FIiihjahr 1992
Lebenslaufe im Wandel. Vergleich dreier Geburtskohorten hinsichtlich Ausbildung, Familienverlaut: Freizeit, Einstellungen.
333
sozfoprakt2000.sav
Berufsausbildung und Arbeit bei FIiihjahr 2000 jungen Erwachsenen. LebensUiufe und Institutionen im Wandel.
161
Rohdaten_FoPra_2000-200 l.sav Datensatz_FoPra_2000-2001.sav
FIiihjahr 2001
Lebensraum Stadt und seine Gestaltung. Stadtevergleich Bamberg, Erlangen, Forchheim, Niimberg
493
Datensatz_FoPra_200 1-2002.sav
FIiihjahr 2002
Lebensraum Stadt und seine Gestaltung II in Bamberg
450
Vorwort: Zur Benutzung dieses Buches
9
Zwei Moglichkeiten bieten sich nun an, dieses Buch zu nutzen. Die erste ist die ,,herkommliche": Sie konnen die Kapitellesen, die Sie interessieren. In der Einleitung diskutieren wir einige Aspekte des Verhaltnisses von Soziologie und Statistik. Teil I befasst sich mit Problemen der Datensatzerstellung und Datenbereinigung, der Konstruktion neuer Variablen, der Gestaltung und Prasentation der Ergebnisse. AuBerdem geben wir Hinweise aufntitzliche Software und Datenquellen. Im zweiten Teil erlautem wir, wie spezifisch sozialwissenschaftliche Fragestellungen in statistische Auswertungskonzepte umgesetzt werden. Neben typischen Problemen der uni- und bivariaten Statistik diskutieren wir das in den Sozialwissenschaften bedeutsame Ordinalskalenproblem. Im nachsten Schritt erklaren wir den Umgang mit Drittvariablen, die Regressions- und Faktorenanalyse sowie die Dimensionsbildung. Wir empfehlen allerdings eine andere Vorgehensweise: Wir haben dieses Buch in Zusammenhang mit unserer Lehrtiitigkeit als einsemestrigen Kurs konzipiert und erprobt. Das Gemst dieses Kurses bildet eine Reihe von Aufgaben, die jeweils andere Analyseprobleme zum Inhalt haben. Fiir jede Woche des Semesters solI eine variierende Anzahl dieser Aufgaben unter Heranziehung der einschHigigen Kapitel des Buches und weiterfiihrender Literatur bearbeitet werden. Zu jeder Aufgabe existie- . ren ausftihrliche Musterlosungen. Somit eignet sich der Kurs sowohl zum Einsatz in der Lehre wie auch zum Selbststudium. Die Aufgaben sind ausgerichtet auf die inhaltlichen Themen "Mobilitat im stadtischen Raum" sowie "Soziales Engagement. Freiwillige Vereinigungen und Biirgerbeteiligung in Bamberg." Die Zusatzmaterialien auf der Webseite des VS-Verlags (www.vs-verlag.de) enthalten neben den Aufgaben und Musterlosungen auch einen Vorschlag fUr einen Arbeitsplan fUr einen Kurs im Umfang von 2 SWS bzw. 2 LP nach ECTS. Dieser sieht vor, dass die Studierenden bereits in der vorlesungsfreien Zeit die in den vorherigen Semestem erworbenen Statistikkenntnisse wiederholen und vertiefen, so class sofort in der ersten Vorlesungswoche neuer Stoff besprochen werden kann. Wahrend des Semesters treffen sich die Studierenden wochentlich fUr zwei Stunden mit dem Kursleiter in einem CIP-Pool. Der Arbeitsplan sieht vor, dass der Kursleiter zunachst in ein neues Thema einfiihrt, und die Studierenden dann die dazugehorenden Aufgaben selbstandig am PC losen. Altemativ lasst sich das Programm selbstverstandlich tiber zwei Semester strecken oder als Kompaktkurs von zwei bis vier Tagen durchftihren. Am Ende des Kurses sind Studierende in der Lage, eine lineare Regressionsanalyse durchzuftihren und ihre Ergebnisse zu prasentieren. Das Kursprogramm hat sich in den vergangenen sechs Jahren in Bamberg, Eichstatt und Berlin bewahrt - fUr Verbesserungshinweise sind wir dankbar. Berlin und Ntimberg, Marz 2008
Nina Baur, Sabine Fromm
10
Nina Baur und Sabine Fromm
Einfuhrungstexte: Wissenschaftstheorie Behnke und Behnke (2006) richten sich an Studienanfanger und andere Personen, die sich noch nie mit Wissenschaftstheorie beschaftigt haben. Chalmers (1992) bietet eine leicht verstandliche, dabei aber umfassende und systematische Einfiihrung in"die Wissenschaftstheorie. Sein Schwerpunkt liegt zwar auf der Wissenschaftstheorie der Naturwissenschaften, doch ist eine Auseinandersetzung mit diesen Positionen gerade auch fur Sozialwissenschaftler wichtig. Rezensenten beklagen allerdings die Mangel der deutschen Obersetzung. Eine sehr gute, kritische und leicht verstandliche Einfuhrung in zentrale Themen der sozialwissenschaftlichen Methodologie findet sich beiOpp (2002). Die mehrbandige Einfiihrung in die Wissenschaftstheorie von Seiffert (1969 ff.) ist nach Themen und Disziplinen gegliedert und behandelt u. a. Sprachanalyse, geisteswissenschaftliche Methoden, Handlungs- und Systemtheorie. Band 4 der Reihe ist ein Worterbuch der Wissenschaftstheorie. Eine sehr verbreitete und gute Einfiihrung in die Wissenschaftstheorie ist das relativ knappe Buch von Stroker (1992). Weiterfiihrende Darstellungen zum Verhaltnis von Wissenschaftstheorie und Soziologie, zur Soziologie der Forschung und zum Verhaltnis von Daten und Theorie sind auf Anfrage erhaltlich bei Schulze (www.gerhardschulze.de/). Behnke, Joachim / /Jehnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine Einfiihrung fiir Politikwissenschaftler. Wiesbaden: VS-Verlag Chalmers, Alan F. (2001): Wege der Wissenschaft. Einfiihrung in die Wissenschaftstheorie, 5. vollig uberarbeitet und erweiterte Auflage, Berlin u. Heidelberg: Springer Verlag Opp, Karl-Dieter (2002): Einfuhrung in die Methodologie der Sozialwissenschaften, 5. uberarbeitete Auflage, Wiesbaden: Westdeutscher Verlag Seiffert, Helmut (1969 ff.): Einfuhrung in die Wissenschaftstheorie. 4. Bde., Munchen: Beck (zahlreiche uberarbeitete u. erweiterte Auflagen) Stegmuller, Wolfgang (1973 if): Probleme und Resultate der Wissenschaftstheorie und analytischen Philosophie. Berlin u. a.: Springer Stroker, Elisabeth (1992): Einfiihrung in die Wissenschaftstheorie, 4. Auflage, Darmstadt: Wissenschaftliche Buchgesellschaft Einfuhrungstexte: Methoden der empirischen Sozialforschung Alemann (1984), Behnke et. al. (2006), Bortz und Doring (2006), Diekmann (2007), Friedrichs (2006), Komrey (2000), sowie Schnell et. al. (2004) bieten gut verstandliche Einfiihrungen in wichtige Themen der Methoden der empirischen Sozialforschung und Wissenschaftstheorie. Sie erortern ausfuhrlich die Phasen des Forschungsprozesses. Flick setzt sich mit dem Verfahren der Triangulation zur Validitatspriifung auseinander. Diekmann (Hg.) (2006) gibt einen Uberblick uber aktuelle Debatten in der deutschen quantitativ orientierten Methodenforschung. Alemann, Heine von (1984 2): Der Forschungsprozess. Einfiihrung in die Praxis der empirischen Sozialforschung. Studienskripten zur Soziologie, Bd. 30. Teubner Verlag: Stuttgart Bortz, Jurgen / Doring, Nicola (2006): Forschungsmethoden und Evaluation fiir Human- und Sozialwisse~schaftler. Berlin / Heidelberg: Springer Behnke, Joachim / Behnke, Nathalie / Baur, Nina (2006): Empirische Methoden der Politikwissenschaft. Paderborn: Ferdinand Schoningh Diekmann, Andreas (Hg.) (2006): Methoden der Sozialforschung. Sonderheft 44 der KZfSS. Wiesbaden: VS-Verlag Diekmann, Andreas (2007): Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt Flick, Uwe (2000): Triangulation in der qualitativen Forschung. In: Flick, Uwe / Kardoff, Ernst von/ Steinke, Ines (Hg.) (2000): Qualitative Sozialforschung. Ein Handbuch. Reinbek: Rowohlt. S. 209-331 Friedrichs, Jurgen (2006): Methoden empirischer Sozialforschung, Wiesbaden: VS-Verlag Kromrey, Helmut (2006): Empirische Sozialforschung. Stuttgart: UTB Schnell, Rainer / Hill, Paul B. / Esser, Elke (2004): Methoden der empirischen Sozialforschung. Munchen: Oldenbourg
Vorwort: Zur Benutzung. dieses Buches
11
Einfuhrungstexte: SPSS fur Windows Angele (2007) und Wittenberg / Cramer (2003) schreiben fUr Einsteiger, die noch nie mit StatistikProgrammpaketen zu tun hatten. Angele (2007) konzentriert sich auf die wichtigsten Konzepte und gibt einen schnellen Uberblick. Wittenberg / Cramer (2003) stellen einzelne Aspekte von SPSS ausfUhrlicher dar und gehen aufVieles ein, was in anderen Buchem nicht erkHtrt wird. Backhaus et. al. (2006) und Fromm (Hg.) (2007) geben einen Uberblick uber eine groBe Bandbreite multivariater Analyseverfahren mit SPSS. Sie beschranken sich dabei auf die SYlltax-Befehle. Jeder Autor erklart auf knapp 50 Seiten die Grundlagen eines statistischen Verfahrens und seine Umsetzung mit SPSS. Brosius (2006) ist dagegen fUr diejenigen geeignet, die das Menu bevorzugen. Den Syntax-Guide von SPSS finden Sie im Menu "Hilfe" von SPSS. Dort sind aIle Befehle, uber die SPSS verfiigt, aufgefUhrt und erklart. Angele, German (2007): SPSS 14 fUr Windows. Eine EinfUhrung. Bamberg: Schriftenreihe des Rechenzentrums der Otto-Friedrich-Universitat Bamberg. http://www.uni-bamberg.de/service_ einrichtungen/urz/netze/spss/ Backhaus, Klaus u. a. (Hg.) (2006): Multivariate Analysemethoden. Eine anwendungsorientierte EinfUhrung. Berlin / Heidelberg / New York u. a.: Springer Brosius, Felix (2006): SPSS 14. Bonn: MITP-Verlag Fromm, Sabine (Hg.) (2007): Datenanalyse mit SPSS fUr Fortgeschrittene: Multivariate Verfahren fUr Querschnittsdaten. Wiesbaden: VS-Verlag. 1m Erscheinen SPSS Inc. (2006): SPSS 15.0 Syntax Reference Guide for SPSS Base, SPSS Regression Models, SPSS Advanced Models Wittenberg, Reinhard / Cramer, Hans (2003): Datenanalyse mit SPSS fUr Windows. Stuttgart: Lucius & Lucius Einfuhrungstexte: Uni- und bivariate Statistik Aile fUnf genannten Titel legen den Schwerpunkt auf die Erklarung von Konzepten, die bei anderen Autoren bereits vorausgesetzt werden. Behnke, Joachim / Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine EinfUhrung fUr Politikwissenschaftler. Wiesbaden: VS-Verlag Benninghaus, Hans (2005): Deskriptive Statistik. Eine EinfUhrung fUr Sozialwissenschaftler. Wiesbaden: VS-Verlag Diaz-Bone, Rainer (2006): Statistik fUr Soziologen. Konstanz: UVK Jann, Benn (2002): EinfUhrung in die Statistik. Munchen / Wien: R. Oldenbourg Verlag. S. 1-98 Kuhnel, Steffen M. / Krebs, Dagmar (2006): Statistik fUr die Sozialwissenschaften. Grundlagen Methoden - Anwendungen. Reinbek: Rowohlt Einfuhrungstexte: SchliejJende Statistik Beck-Bornholdt und Dubben (1993a, 1993b) erlautem anhand alltaglicher Beispiele die Grundlagen der schlieBenden Statistik sowie typische Denkfehler im Umgang mit ihr. Behnke und Behnke (2006) erklaren, wie Signifikanztests konstruiert sind und wie man grundsatzlich beim Testen vorgehen sollte. Murphy und Myors (2004) zeigen, wie man Power-Analysen macht. In Kanji (2006) finden sich 100 verschiedene Tests. Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (1993a): Der Hund, der Eier legt. Erkennen von Fehlinformationen durch Querdenken. Reinbek: Rowohlt Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (2003b): Der Schein der Weisen. Irrtumer und Fehlurteile im taglichen Denken. Reinbek: Rowohlt Behnke, Joachim / Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine EinfUhrung fUr Politikwissenschaftler. Wiesbaden: VS-Verlag Kanji, Gopal K. (2006) 100 Statistical Tests. London et al.: Sage Murphy, Kevin R. / Myors, Brett (2004): Statistical Power Analysis: A Simple and General Model for Traditional and Modem Hypothesis Tests, Second Edition with CD. London: Erlbaum
Nina Baur und Sabine Fromm
12
Einfuhrungstexte: Ein/ache lineare Regressionsanalyse Als Einfuhrung eignet sich insbesondere Lewis-Beck (1980), die anderen Texte habenden Vorteil, in deutscher Sprache geschrieben zu sein.
Lewis-Beck, Michael S. (1980): Applied Regression. An Introduction. Reihe: Quantitative Applications in the Social Sciences. Band 22. London / Beverly Hills: Sage. S. 9-47
Bleymuller, Josef / Gehlert, Gunther / Gulicher, Herbert (1998): Statistik fur Wirtschaftswissenschaftler. 11. Auflage. Munchen: Verlag Franz Vahlen. S. 139-162
ClaufJ, Gunter / Ebner, Heinz (1982): Statistik. Fur Soziologen, Padagogen, Psychologen und Mediziner. Band 1: Grundlagen. 4. Auflage (Die spateren Auflagen sind nicht mehr so empfehlenswert.). Thun / Frankfurt am Main: HaITi Deutsch 1982. S. 99-114
Zusiitzliche Literatur Statistik Kramer (2001) schreibt fur diejenigen, die mit Mathematik und Statistik schon immer auf KriegsfuB standen. Er erklart die wichtigsten Konzepte der Statistik, damit weiterfiihrende Literatur nicht wie ein Buch mit sieben Siegeln erscheint. Bortz (2004) richtet sich an Sozialwissenschaftler und beschreibt Konzepte, die in den meisten weiterfiihrenden Statistikbuchern nicht erklart werden. Baur und Lamnek (2007) systematisieren multivariate Verfahren. Hartung et al. (2005) und Hartung / Elpelt (2006) decken fundiert die meisten statistischen Verfahren abo Die Bucher eignen sich also fur· diejenigen, die es gerne genauer wissen. Eine Alternative hierzu sind die Bucher aus der Reihe "Quantitative Applications in the Social Sciences", die im Sage-Verlag erscheint: Jedes Buch fuhrt in ein einziges statistisches Verfahren ein. Auf jeweils 80 bis 120 Seiten werden anschaulich, leicht verstandlich und mit vielen Beispielen Fragestellungen, Probleme und Konzepte des Verfahrens dargestellt. Einen Uberblick uber den State of the Art der statistischen Forschung bieten Salkind (Hg.) (2006) sowie Scott und Xie (Hg.) (2005). In den Wirtschaftswissenschaften wird "Statistik" oft unter dem Stichwort "Okonometrie" gehandelt. Eine Einfuhrung bietet z. B. Hackl (2004).
Baur, Nina / Lamnek, Siegfried (2007): Multivariate Analysis. In: Ritzer, George (Hg.) (2007): Encyclopedia of Sociology. Blackwell. S. 3120-3123
Bortz, Jurgen (2004): Statistik fur Human- und Sozialwissenschaftler. Berlin / Heidelberg: Springer Hackl, Peter (2004): Einfuhrung in die Okonometrie. Pearson Studium Hartung, Joachim / Elpelt, Barbel (2006): Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Munchen: Oldenbourg
Hartung, Joachim / Elpelt, Barbel/ K6sener, Karl-Heinz (2005): Grundkurs Statistik. Munchen: Oldenbourg
Kramer, Walter (2001): Statistik verstehen. Eine Gebrauchsanweisung. Munchen / Zurich: Piper Reihe: Quantitative Applications in the Social Sciences. Erschienen bei Sage. Verschiedene Herausgeber Salkind, Neil 1. (Hg.) (2006): Encyclopedia of Measurement and Statistics. London et al.: Sage Scott, J. / Xie, Y. (Hg.) (2005): Quantitative Social Science.. London et al.: Sage
Einleitung: Die RoUe von SPSS im Forschungsprozess Nina Baur und Sabine Fromm
In den folgenden Kapiteln fokussieren wir lediglich ein Teilgebiet der empirischen Sozialforschung - die quantitative Sozialforschung - und einen Ausschnitt innerhalb des Prozesses quantitativer Sozialforschung: die Datenautbereitung und -analyse. Wir wollen zeigen, wie sich konkrete empirische Fragestellungen in statistische Auswertungsstrategien umsetzen lassen und diskutieren dabei typische Probleme, die in diesem Prozess auftreten. Die Konzentration auf den Teilaspekt der quantitativen Datenanalyse ist keine Aussage uber seine Wichtigkeit. Jedes Forschungsvorhaben lauft in mehreren Phasen ab, deren Qualitat voneinander abhangt. Ein Beispiel fUr die Unterscheidung der verschiedenen Phasen gibt Grafik 1.1 (vgl. z. B. auch Alemann (1984), Behnke et. al. (2006), Diekmann (2007), Friedrichs (2006), Kromrey (2006) sowie Schnell et. al. (2004)). Der erste - oft unterschatzte - Schritt besteht darin, eine Frage zu formulieren. Haufig besteht zunachst nur eine sehr vage Vorstellung von dem interessierenden Problem. Auf der Basis des vorhandenen inhaltlichen Vorwissens zu diesem Gegenstand sowie allgemeiner theoretischer und methodologischer Zugange besteht eine nicht geringe Schwierigkeit darin, herauszufmden, was genau man denn eigentlich wissen mochte, welche Aspekte des Themas unterschieden und untersucht werden sollen. Dieser ersten Phase der Exploration und Eingrenzung des Themas, der sog. ,,Konzeptspezifikation", schlieBt sich das Aufstellen eines Forschungsdesigns an, die Planung und Abstimmung der einzelnen Forschungsphasen (Phase 2). AnschlieBend mussen Datentrager ausgewahlt, also eine Stichprobe gezogen (Phase 3), ein Erhebungsinstrument konstruiert, und die Daten erhoben (Phase 4) sowie autbereitet (Phase 6) werden. Verstreicht zwischen der Datenerhebung und -auswertung Zeit, z. B. bei den meisten Langsschnittsanalysen, muss man sich Gedanken machen, wie man die Daten in der Zwischenzeit autbewahrt (phase 5). Nach der Datenerhebung steht der Forscher i. d. R. vor einer unubersichtlichen Fulle von Material, weshalb man im Rahmen der Auswertung versucht, die in den Daten enthaltenen Informationen hinsichtlich (aus Sicht der Forschungsfrage) relevanter Kriterien zu ordnen und zusammenzufassen (Phase 7). So werden etwa nach einer standardisierten Befragung die Antworten aller Befragten in einer Haufigkeitstabelle zusammengefasst oder mit einem MaB der mittleren Tendenz be-
14
Nina Baur und Sabine Fromm
schrieben. 1m Rahmen der quantitativen Sozialforschung widmet sich die deskriptive Statistik (auch: beschreibende Statistik oder empirische Statistik) der Verdich-
Grafik 1.1: Phasen des Forschungsprozesses
Einleitung: Die Rolle von SPSS im Forschungsprozess
15
tungsproblematik. Man unterscheidet uni-, bi- und multivariate statistische Verfahren: Weiterhin kann man statistische Verfahren nach der Art der Beziehung zwischen den Variablen bzw. Fallen einteilen, die sie erkennen, so etwa in Verfahren zur Kausalanalyse, Langsschnittsanalyse, Dimensionsanalyse, Typenbildung, Netzwerkanalyse und Mehrebenenanalyse. Den Sozialwissenschaftler interessieren aber i. d. R. nie nur die Daten selbst, sondem er will die Ergebnisse aus den Daten Ubertragen - auf andere Personen, auf andere Situationen usw. (Phase 8). Die Verallgemeinerbarkeit der Forschungsergebnisse hangt dabei ganz wesentlich von der Auswahlstrategie abo Die meisten quantitativen Sozialforscher versuchen, mit Hilfe der induktiven Statistik (auch: schlieBende Statistik, folgemde Statistik, mathematische Statistik, statistische Inferenz oder Inferenzstatistik), mit den Daten auf eine verborgene Struktur der Grundgesamtheit zu schlieBen und so die Stichprobenergebnisse zu verallgemeinem. Voraussetzung ist dafiir allerdings eine (unverzerrte!) Zufallsstichprobe (vgl. hierzu ausfiihrlich Behnke et al. (2006». Am Ende der Auswertung geht es darum, die neu gewonnenen Erkenntnisse sowie den Forschungsprozess selbst in einem Abschlussbericht zu dokumentieren und sie damit anderen verfiigbar zu machen (Phase 9). Es kann sich hierbei urn eine Prasentation, eine Hausarbeit, eine Diplomarbeit, aber auch urn einen Artikel in einer Fachzeitschrift oder ein Buch handeln. Der Klarheit der Darstellung wegen stellen wir den Forschungsprozess linear dar. In den meisten Fallen - insbesondere bei qualitativer Sozialforschung - verlauft der Forschungsprozess aber eher spiralformig, d. h. man durchlauft die mittleren Phasen 3 bis 8 des dargestellten Prozess mehrfach (Creswell (1998); Flick (2002». Wichtig ist in jedem Fall, dass die Datenauswertung nicht mit der Berechnung statistischer MaBzahlen oder der Interpretation qualitativer Daten beendet ist. Inhaltlich bedeutsam werden die Ergebnisse erst, wenn sie systematisch auf die Forschungsfrage ruckbezogen werden. Dabei mUssen die Probleme der frUheren Phasen des Forschungsprozesses beachtet werden, Z. B. Stichprobenprobleme. FUr quantitative Forschungsstrategien bedeutet dies, dass man zwischen drei Auswertungsschritten unterscheiden muss: der statistischen Bearbeitung der Daten; der statistischen Interpretation der Daten und der soziologischen Interpretation der Daten. AIle diese Fragen werden in den im Vorwort genannten Einfiihrungen in die empirische Sozialforschung ausfiihrlich diskutiert. Deshalb werden wir sie zwar in den Aufgaben thematisieren, konzentrieren uns aber in den folgenden Kapiteln auf die ersten beiden Auswertungsschritte.
Teill: SPSS und Statistik im Rahmen des Forschungsprozesses
Kapitell Yom Fragebogen zum Datensatz Detlev Luckund Nina Baur
1
Wie kommen die Daten in den Datensatz? Arbeitsschritte vom Fragebogen zum fertigen Datensatz
Wie wir im vorherigen Kapitel gezeigt haben, benotigt man SPSS (oder andere Statistikpakete) nur in zwei Phasen des Forschungsprozesses und nur fUr einen bestimmten Typus empirischer Sozialforschung: in der Autbereitungs- und in der Auswertungsphase bei quantitativer Sozialforschung. Dieses Kapitel befasst sich mit der Aufbereitungsphase und geht zusatzlich auf die Verkno.pfung der Datenerhebungsphase mit der Datenautbereitungsphase ein. Anders formuliert, geht es urn die Frage: Wie kommt man zu einem fertigen Datensatz?l 1m Einzelnen mo.ssen bis zu diesem Punkt folgende Arbeiten durchgefiihrt werden: 1) 2) 3) 4) 5) 6) 7)
Erstellen des Fragebogens Erstellen des Codeplans Durchfiihren des Pre-Tests und Dberarbeitung von Fragebogen und Codeplan Durchfiihren der Haupterhebung Datenerfassung Nachkontrolle der Daten Datenautbereitung2
1m Regelfall kommt SPSS erst in Schritt 6 oder 7 zum Einsatz. Doch in jedem der sieben Arbeitsschritte werden Vorarbeiten geleistet, die sich auf die spatere Datenauswertung mit SPSS auswirken. Dnd in jedem der Arbeitsschritte sollten diese Auswirkungen mitbedacht werden, urn eine erfolgreiche Datenauswertung zu gewahrleisten. Am haufigsten verwenden quantitative Sozialforscher Daten, die aus standardisierten Befragungen entstanden sind. Dies muss aber nicht so sein. Beispielsweise konnen Datensatze auch mit Hilfe stark strukturierter Beobachtungen oder mit Hilfe prozessgenerierter Daten gewonnen werden. Naheres hierzu sowie zu den einzelnen Phasen des Forschungsprozesses finden Sie in Behnke et. al. (2006). Diese Liste gilt, streng genommen, nur fUr die Paper & Pencil-Technik, bei der die Angaben der Befragten mit Stift auf einem gedruckten Fragebogen notiert werden. Auf die Variationen, die modemere Techniken mit sich bringen, geht vor allen der Abschnitt 4 em.
Kapitel 1: Vom Fragebogen zumDatensatz
2
19
Schritt 1: Erstellen des Fragebogens
Der erste Schritl yom Fragebogen zum Datensatz ist die Erstellung des Fragebogens selbst. Zwar sind bei der Gestaltung des Fragebogens vor allem inhaltliche und optische Gesichtspunkte zu beachten (vgl. hierzu z. B. Schulze (2002a) oder Behnke et. al. (2006)). Gleichzeitig verweist der Fragebogen aber schon auf die Datenerfassung, -autbereitung und -auswertung. Man erspart sich viel Arbeit, wenn man sich schon bei der Fragebogengestaltung Gedanken dartiber macht, mit welchen Verfahren und mit welchem Programm man die Daten spater auswerten will. Manche Auswertungsverfahren sind sogar unmoglich, wenn der Fragebogen nicht ein bestimmtes Format aufweist. Vnter anderem ist zu beachten, dass bestimmte Verfahren der Datenanalyse ein bestimmtes Skalenniveau voraussetzen. Oft kann man die Frage so formulieren, dass das gewilnschte Skalenniveau erreicht wird, z. B.: - Frage: Lesen Sie Zeitung? Antwortmoglichkeiten: Ja / Nein. Skalenniveau: Nominalskala. - Frage: Wie oft lesen Sie Zeitung? Antwortmoglichkeiten: Nie / Sehr selten / Selten / Oft / Sehr oft. Skalenniveau: Ordinalskala. - Frage: Wie viele Stunden pro Tag lesen Sie Zeitung? Antwortmoglichkeiten: 0 bis 24 Stunden. Skalenniveau: Ratioskala. Viele multivariate Verfahren der Datenanalyse setzen voraus, dass im Datensatz viele Variablen desselben Skalenniveaus und mit gleich vielen Auspragungen existieren. Will man beispielsweise die untenstehenden Fragen einer Faktorenanalyse unterziehen (vgl. hierzu Kapitel 14), ist Option A gegenuber den Optionen B und C vorzuziehen. - Option A: Fragel: Wie oft lesen Sie Zeitung? Antwortmoglichkeiten: Nie / Sehr selten / Selten / Oft / Sehr oft. Frage2: Wie oft sehen Sie fern? Antwortmoglichkeiten: Nie / Sehr selten / Selten / Oft / Sehr oft. Skalenniveau: beide Ordinalskala. Zahl der Auspragungen: bei~e 5. - Option B: Fragel: Wie oft lesen Sie Zeitung? Antwortmoglichkeiten: Nie / Sehr selten / Selten / Oft / Selrr oft. Frage2: Wie oft sehen Sie fern? Antwortmoglichkeiten: Nie / Selten / Oft. Skalenniveau: beide Ordinalskala ·Zahl der Auspragungen: einmal5, einmal3. - Option C: Fragel: Wie viele Stunden pro Tag lesen Sie Zeitung? Antwortmoglichkeiten: 0 bis 24 Stunden. Frage2: Wie oft sehen Siefern? Antwortmoglichkeiten: Nie / Sehr selten / Selten / Oft / Sehr oft. Skalenniveau: einmal Ordinalskala, einmal Ratioskala. Zahl der Auspragungen: einmal25, einmal5.
20
Detlev LUck und Nina Baur
Programme zur Datenanalyse bieten auBerdem unterschiedliche Auswertungsmoglichkeiten. Mit SPSS z. B. kann man mit Hilfe des REcoDE-Befehls spater noch Variablenauspragungen andere Zahlen zuweisen. Gleichzeitig weist SPSS gegeniiber anderen Programmen spezifische Einschrankungen oder Besonderheiten auf. Beispielsweise sind in SPSS kaum Verfahren fiir ordinalskalierte Daten umgesetzt. Ebenso wenig kann SPSS mit der Mokken-Skalierung umgehen. 3 Deshalb sollte der Forscher das EDV-Programm, mit dem er spater auswerten will, schon vor der Auswertung genau kennen und bei der Erstellung des Codeplans seine Besonderheiten berucksichtigen. Eventuell muss er auf ein anderes Statistikprogramm zurtickgreifen. In Kapite19 fiihren wir eine Reihe altemativer Statistik-Programme an. Die Zusatzmaterialien auf der Verlagswebseite (www.vs-verlag.de) enthalten den Fragebogen des soziologischen Forschungspraktikums 2000/2001 an der OttoFriedrich-Universitat Bamberg sowie Hintergrundinfonnationen dazu. Eine Reihe der oben vorgestellten Grundsatze sind in der Gestaltung dieses Fragebogens aus didaktischen Grunden bewusst missachtet worden. Damit solI angeregt werden, den Forschungsprozess immer wieder zu iiberdenken: Was haben die Praktikumsteilnehmer gemacht? Warum haben sie dies gemacht? Ratte ich etwas anders gemacht? Warum? Welche Fehler haben sie gemacht? Wie hatte man diese Fehler vermeiden konnen? Welche Konsequenzen haben diese Fehler fiir die Analysen? Sind die Ergebnisse iiberhaupt noch giiltig? Wenn sie nur eingeschrankt giiltig sind - inwiefem sind sie giiltig, inwiefem nicht?
3
Schritt 2: Erstellen des Codeplans
Die Fragen im Fragebogen miissen als nachstes numerisch umgesetzt werden. Die Zahlen sollen dabei homomorph zu den Antwortkategorien sein. 4 Deshalb erstellt man einen Codeplan (fiir das Forschungspraktikum 2000/2001: siehe Zusatzmaterialien auf der Verlagswebseite). Dieser enthalt die Informationen, wie die Fragen bzw. deren Antwortvorgaben numerisch umgesetzt werden sollen. Der Codeplan richtet sich an zwei Zielgruppen: Die Personen, die die Daten in den Datensatz eingeben, entnehmen dem Codeplan, wie sie bestimmte Angaben in Zahlen umsetzen sollen. Die Personen, die die Daten auswerten, entnehmen dem Codeplan, wie bestimmte Zahlen im Datensatz zu interpretieren sind.
Die Begriffe "Ordinalskala" und ,,Mokken-Skalierung" werden z. B. in Akremi (2007) erUiutert. Der Begriff "Homomorphie" wird z. B. in Behnke et al. (2006) erlautert.
Kapitel 1: Vom Fragebogen zum Datensatz
21
Der Codeplan halt fest, ... ... welche Variablennamen welchen Fragen zugewiesen werden, z. B. v44 ftir die Frage "Sind Sie berufstatig oder in Ausbildung / in der Schule bzw. im Studiwn?" ... welche Zahlen welchen Antwortkategorien zugewiesen werden sol/en, z. B. ,,1" fUr "Nein" und ,,2" fUr "Ja". Man sollte die Zahlen so wahlen, dass man sie spater ohne viele Datentransformationen leicht auswerten kann (vgl. hierzu Kapitel3 und 4). ... wie fehlende Werte (= "missing values H) behandelt werden sollen, also wie Personen gehandhabt werden sollen, die nicht geantwortet haben, auf die eine Frage nicht zutraf: die mit "Weill nicht" geantwortet haben usw. SPSS bietet verschiedene Moglichkeiten, fehlende Wertezu behandeln. Diese verschiedenen Moglichkeiten haben wiederum unterschiedliche Vor- und Nachteile. Eine Moglichkeit ist, die Felder im Datensatz einfach leer zu lassen. Solche leeren Felder nennt man "system missing values" ("systembedingte fehlende Werte"). Der Vorteil systembedingter fehlender Werte ist, dass man sich meist keine Gedanken mehr daruber machen muss, wie diese Werte von SPSS behandelt werden - sie werden bei Statistiken immer automatisch aus statistischen Analysen ausgeschlossen. 5 1m Fall unser Beispieluntersuchung wurden Felder einfach leer gelassen, wenn der Befragte eine Angabe verweigert hatte, wenn er gesagt hatte, die Frage treffe nicht auf ibn zu, oder wenn er die Frage einfach nicht beantwortet hatte. Eine zweite Moglichkeit, mit fehlenden Werten umzugehen, ist, eine eigene Zahl ftir sie zu vergeben. Der Nachteil dieser Methode ist, dass man diese Werte spater mit" dem MISSING VALuEs-Befehl als "user missing values" (= "benutzerdefmierte fehlende Werte") defmieren muss. Man hat also mehr Arbeit und handelt sich nebenbei eine zusatzliche Fehlerquelle ein, denn ein fehlender Wert, von dem vergessen wird, ibn als solchen zu defmieren, wird in Berechnungen mit einbezogen und kann so die Analyseergebnisse grob verfalschen. Der Vorteil benutzerdefinierter fehlender Werte ist, dass man verschiedene Grunde fUr das Fehlen eines Wertes unterscheiden sowie diese Werte spater noch in die Analyse mit einbeziehen kann. Das ist nicht nur fUr methodische, sondem auch fUr viele inhalt1iche Fragen interessante Wenn beispielsweise auf die Frage nach dem Geburtsjahr des altesten Geschwisters viele Befragte mit "trim nicht zu" antworten, wei! sie keine Geschwister haben, ist das keine fehlende, sondem eine akkurate Information. Sie stellt die Analyseergebnisse in keiner Weise in Frage. Anders ware es, wenn auf die gleiche Frage viele BeDie Betonung liegt auf dem Wort "meist"! Bei multivariaten Verfahren muss man sich durchaus noch Gedanken dartiber machen, ob fehlende Werte paarweise oder listenweise ausgeschlossen oder durch Mittelwerte ersetzt werden sollen (vgl. hierzu Behnke et al. (2006)).
22
Detlev Luck und Nina Baur
fragte die Antwort verweigem wOrden oder sich nicht erinnem konnten. Wenn beispielsweise bei einer Frage soziale ErwUnschtheit eine groBe Rolle spielt (z. B. "Wie hoch ist Ihr Netto-Einkommen?" oder "Haben Sie schon einmal bei einer o190-,Sex-Hotline' angerufen?"), muss man annehmen, dass Antwortverweigerungen die Verteilung in Richtung der sozialen ErwUnschtheit verzerren (beschonigen). FUr technische Ausfalle ist das nicht der Fall. Urn Verwechslungen zu vermeiden, sollten fUr fehlende Werte eindeutig unrealistische Zahlen vergeben werden. Konvention in den Sozialwissenschaften ist, dass man negative Zahlen, die ZOOI ,,0" oder ZOOlen am oberen Ende der Skala (,,9", ,,99", ,,999" usw.) vergibt. 6 ... in welcher Reihenfolge die Variablen abgespeichert werden sol/en. VariabIen, die man spater zusammen analysieren will, sollten im Datensatz hintereinander stehen, well man sich so bei der Auswertung viel Arbeit ersparen kann. Der Befehl FREQUENCIES V02 TO V07. fordert z. B. die Haufigkeitsverteilungen aller Variablen an, die im Datensatz zwischen v02 und v07 stehen. Unten folgen drei fIktive Datensatze, in denen die Variablen in unterschiedlicher Reihenfolge hintereinander stehen. Damit wirkt der FREQUENCIEs-Befehl auch unterschiedlich: 1m ersten Beispieldatensatz folgen die Variablen v02, v03, v04, v05, v06, vO? und v08 im Datensatz aufeinander. FUhrt man den Befehl FREQUENCIES V02 TO V07. aus, werden die Haufigkeitsverteilungen der Variablen v02, v03, v04, v05, v06 und vO? ausgegeben:
DL (...)
!~"f
IJ
I
I
v04
v05
v06
v07
v08
a Then startpunkt = startpunkt + 1 End If Next zeilenindex gueltigeFaelle (spaltenindex) = startpunkt Next spaltenindex
Diese Vorgehensweise, die in Tabelle 13 als Programmcode aufgelistet ist wird nun schrittweise erkHirt: -
FaelleGesamt
=
objDataDoc.GetNumberOfCases
Aus dem Datendokument Hisst sich uber die Funktion GetNumberOfCases die Anzahl der FaIle aus dem geoffneten Datensatz herauslesen und in die Variable FaelleGesamt ubertragen. -
ReDim gueltigeFaelle (UBound (varGewaehlt)) As Integer
Genauso wie bei den Wertelabels mussen fUr die Berechnung der relativen Haufigkeiten die einzelnen fehlenden Werte herausgerechnet werden, urn mit den gultigen Fallen die richtige Basis fUr die relativen Haufigkeiten der Auspragungen zu erhalten. 1m Array guel tigeFaelle solI fUr jede ausgewahlte Variable notiert werden, wie viele gultige FaIle sie besitzt. Deshalb richtet sich die GroBe des Arrays nach der Anzahl der ausgewahlten Variablen (UBound (varGewaehl t) ). -
ReDim wertematrix (FaelleGesamt - 1, UBound (varGewaehlt))
In der wertematrix sollen die Werte der einzelnen Befragten bei allen Analysevariablen als zweidimensionale Matrix gespeichert werden: Da der Aufbau an das Datenblatt in SPSS angelehnt ist, stehen in den ZeBen die FaIle (mit dem maximalen Index "FaelleGesamt - 1") und in den Spalten die Variablen (mit genauso vielen Elementen wie ausgewahlte Variablen). -
ReDim Entropie (UBound (varGewaehlt)) As Double
Kapitel 8: EinfUhrung in die Skriptprogrammierung fUr SPSS
197
ReDim RelativeEntropie (UBound (varGewaehlt)) As Double Die Array~ Entropie und RelativeEntropie erhalten so viele Werte, wie Variablen fur die Analyse ausgewahlt wurden. -
For spaltenindex = 0 To UBound (varGewaehlt) SpssTextData = objDataDoc.GetTextData (varGewaehlt(spaltenindex), varGewaehlt(spaltenindex), 1, FaelleGesamt) startpunkt = 0 For zeilenindex = a To FaelleGesamt - 1 wertematrix (zeilenindex, spaltenindex) CInt(SpssTextData (0, zeilenindex)) If wertematrix (zeilenindex, spaltenindex) > a Then startpunkt = startpunkt + 1 End If Next zeilenindex gueltigeFaelle (spaltenindex) = startpunkt Next spaltenindex Urn ein zweidimensionales Array iterativ aufzufUllen, werden zwei Schleifen benotigt. Zuerst werden die Spalten durchlaufen, es wird also bei der ersten Variablen angefangen, dann geht es zeilenweise weiter. FUr jede ausgewahlte Variable werden zunachst die Werte aus dem Datensatz mit der Funktion GetTextData in die Variable SpssTextData geschrieben. Die Funktion GetTextDa ta benotigt vier Parameter. Der erste enthalt den Namen der ersten Variablen (varGewaehlt (spaltenindex)), von der die Auspragungen der einzelnen Falle aus dem SPSS-Datensatz Ubemommen werden sollen. Der zweite (varGewaehlt (spaltenindex)) enthalt den der letzten ausgewahlten Variablen. Diese Funktion ist demnach dazu da, die Auspragungen mehrerer Variablen in der Reihenfolge wie sie im Datensatz stehen auf einmal in das Skript zu holen. Dies ist zu vergleichen mit dem SchlUsselwort "TO" beim FREQUENCIEs-Befehl. Da nicht davon ausgegangen werden kann, dass sich alle vom Benutzer ausgewahlten Variablen im Datensatz untereinander befmden, werden die Variablenwerte fur jede Variable einzeln Ubertragen, weshalb die beiden ersten Parameter identisch sein mUssen. Die letzten zwei Parameter geben an, fur welche Falle Werte eingelesen werden sollen. Es werden alle Falle von der ersten Zeile (,,1") bis zur Maximalzahl (FaelleGesamt) benotigt. SpssTextData ist nun ein zweidimensionales Variant-Array. Die erste Dimension ist fur die einzelnen Variablen reserviert, die zweite fur die Variablenwerte. Dies wirkt zunachst so, als ob die Zeilen und Spalten des SPSS-
198
Leila Akremi
Datenblattes in SpssTextData vertauscht wurden. Es ist jedoch nur eine Konvention, die erste Dimension als Zeilen und die zweite als Spalten zu definieren. FUr das Programm spielt das keine Rolle, solange durch die Indizes klar wird, welche Dimension gemeint ist. Mit der zweiten Schleife werden als Erstes die Variablenwerte von SpssTextData in das Array wertematrix tibertragen. Da die Variablen mithilfe der ersten Schleife einzeln aufgenommen werden, besitzt die erste Dimension von SpssTextdata immer nur ein Element mit dem Index ,,0". In der zweiten Dimension sind die Auspragungen der FaIle bei der jeweiligen Variablen (zeilenindex) aufgelistet. Gleichzeitig werden beim Obertragen der Auspragungen fUr jede einzelne Analysevariable die gtiltigen Werte gezahlt: Immer wenn aus dem SPSS-Datensatz ein Wert tibertragen wurde, der groBer als Null ist, dann wird die Variable startpunkt urn eins groBer. Bevor ein neuer Spaltendurchlauf beginnt (neue Analysevariable wird tibertragen), wird der Wert von startpunkt in dem Array gueltigeFaelle abgespeichert. Vor dem nachsten Zeilendurchlaufmuss man die Variable startpunkt wieder auf ,,0" setzen, damit nicht die gtiltigen FaIle der Vorvariablen mitgezahlt werden. Zusammenfassend sind bis zu diesem Zeitpunkt folgende vier Arrays mit Werten belegt: - Anzahl an gUltigen Auspragungen der Analysevariablen (AnzahlGuel tig) - Auspragungen aller FaIle bei den Analysevariablen (wertematrix) - Anzahl gtiltiger FaIle fUr jede Analysevariable (guel tigeFaelle) - maximale Entropie fUr jede Analysevariable (maximaleEntropie) In weiteren ineinander eingebetteten Schleifen, werden aIle restlichen Informationen, die zur Berechnung der Entropie erforderlich sind, eingeholt und gleich verarbeitet. Dazu sind vier ineinander verschachtelte Schleifen erforderlich (siehe Tabelle 14 auf der nachsten Seite). In der innersten der vier Schleifen (Schleife A), werden bei jeder einzelnen Variablen die Auspragungen, von der ersten beginnend bis zur letzten, durchlaufen. Genauso wie beim Auszahlen der gtiltigen FaIle wird eine Hilfsvariable wertedurchlauf weitergezahlt, wenn ein Fall mit der gesuchten Auspragung gefunden wurde. 1m ersten Durchlauf werden aIle FaIle gezahlt, die eine 1 als Wert bei der betreffenden Variable besitzen, im zweiten eine 2 usw. Sind nun beispielsweise aIle Auspragungen mit dem Wert 1 bei der ersten Variablen gezahlt, dann wird die innerste Schleife verlassen, und die Zeilen, die mit "B" gekennzeichnet sind, ausgefUhrt. Wir befmden uns damit in der zweiten Schleife "For auspraegungsindex ... Next auspraegungsindex". Diese ist fUr den Durchlauf aller Auspragungen einer Variablen zustandig und beginnt deshalb, anders als die anderen
Kapite18: EinfUhrung in die Skriptprogrammierung fUr SPSS
199
Schleifen, bei 1 und nicht bei O. Die Anzahl der gefundenen Falle fUr die erste Auspragung (wertedurchlauf) wird nun durch die gUltigen Falle (guel tigeFaelle) der jeweiligen Variablen (gekennzeichnet durch spaltenindex) dividiert. Dies ergibt die relativen Haufigkeiten, welche gar nicht extra abgespeichert werden, sondem in die Formel fUr die Entropie eingesetzt werden. Dadurch erhalt die hilfsvariablel die Entropiekomponente fUr die jeweilige Auspragung der einzelnen Analysevariablen. Dieser Wert wird an die hilfsvariable2 Ubertragen, die bei jedem Auspragungsdurchlauf die Entropiekomponenten aufaddiert. Wenn alle Entropiekomponenten fUr die erste Variable addiert wurclen, springt das Programm zurUck in die Ubergeordnete Schleife For variablenindex ... Next variablenindex in Zeile 214. Dort wird die Anzahl der Durchlaufe pro Variablen festgelegt, die sich nach der Anzahl der gUltigen Auspragungen (AnzahlGueltig) richtet. Der Wert von hilfsvariable2 fUr die entsprechende Analysevariable wird an das Array Entropie Ubergeben. Bevor die Werte fUr die nachste Variable berechnet werden, wird die hilfsvariable2 wieder auf Null gesetzt (Zeile 202). Die oberste Schleife sorgt dafUr, dass die Entropie fUr jede ausgewahlte Variable berechnet wird. Mit einer letzten Schleife kommt man sehr einfach zur relativen Entropie (siehe Tabelle 15).
Tabelle 14: 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218
Berechnung der Entropie
For spaltenindex = 0 To UBound (varGewaehlt) For variablenindex = 0 To UBound (AnzahlGueltig) hilfsvariable2 = 0 For auspraegungsindex = 1 To AnzahlGueltig (spaltenindex) Wertedurchlauf = 0 hilfsvariablel = 0 For zeilenindex = 0 To FaelleGesamt - 1 If wertematrix (zeilenindex, spaltenindex) auspraegungsindex Then A wertedurchlauf = wertedurchlauf + 1 { End If Next zeilenindex hilfsvariablel = -((wertedurchlauf/gueltigeFaelle B (spaltenindex)) * Log(wertedurchlauf/gueltigeFaelle { (spaltenindex)) / Log (2)) hilfsvariable2 = hilfsvariable2 + hilfsvariablel Next auspraegungsindex Entropie (spaltenindex) hilfsvariable2 Next variablenindex Next spaltenindex
200
Leila Akremi
Tabelle 15: Berechnung der relativen Entropie 219
220 221
= 0 To UBound (Entropie) RelativeEntropie (RelEntIndex) = Entropie (RelEntIndex) / maximaleEntropie (RelEntIndex) Next RelEntIndex For RelEntIndex
Die Entropiewerte mussen jeweils durch die maximale Entropie geteilt und in das Array Rela ti veEntropie geschrieben werden. Jetzt sind aIle Ergebnisse berechnet und mussen nur noch in eine Ausgabetabelle ubertragen werden.
6
Erzeugung des Outputs
Die errechneten Ergebnisse sollen wie bei anderen SPSS-Prozeduren als TabeIle im Ausgabefenster angegeben werden. Darur benotigt man ein Ausgabedokument (ISpssOutputDoc) und eine Pivottabelle (PivotTable). Ausgabedokumente sind der Objektklasse ISpssDocuments untergeordnet, welche schon bei der Entropieberechnung verwendet wurde und deshalb nicht mehr neu deklariert werden muss. Anders ist es bei der PivottabeIle. Hier sind mehrere Hierarchiestufen zu durchlaufen (vgl. Abbildung 11 auf S. 179). AIle der PivottabeIle ubergeordneten Objektklassen mussen (einzeln) deklariert und initialisiert werden, bevor die berechneten Ergebnisse in die TabeIle ubertragen werden konnen. Urn die Vorgehensweise bei der Programmierung des Outputs gut nachvoIlziehen zu konnen, ist in Abbildung 12 auf der nachsten Seite eine Beispielausgabe dargesteIl~. Wie bisher auch werden vor der Wertezuweisung aIle benotigten Variablen und Objekte deklariert (siehe Zeilen 222 - 232 im Skript auf der Webseite des Verlags). In Tabelle 16 (ebenfalls auf der nachsten Seite sind aIle Befehle aufgelistet, die zur ErsteIlung des Ausgabefensters und der Bereitstellung der Pivottabelle notwendig sind. 1m Anschluss daran, werden diese naher beschrieben. -
Set Ausgabedokument = obj SpssApp. NewOutputDoc Ausgabedokument.Visible = True
Es sollen keine Schwierigkeiten in der Zuweisung des Outputfensters und der angezeigteh Elemente entstehen. Deshalb ist in der Programmierung festgelegt, dass ein neues Ausgabedokument geoffnet wird, egal ob schon Fenster offen sind oder nicht. Darur besitzt die Objektklasse ob j Sps sApp die Funktion NewOutputDoc. Die Objektvariable Ausgabedokument erhalt das Outputfenster zugewiesen. In Zeile 234 wird festgelegt, dass das Ausgabefenster sichtbar sein solI.
Kapitel 8: Einfiihrung in die Skriptprogrammierung fiirSPSS
Abb. 12:
201
Ausgabe fur die Konfession in den alten und neuen Bundesliindern
Berechnung des EntropiemaBes fur nominale Merkmale Tabelle 1
I
~I Entropiewerte
+ v667alt v667neu
Entropie 1,9157
Relative Entropie }411
maximale Entropie 2,5850
1,1089
,4290
2,5850
Label fUr Pivottabelle = Item ,,2"
Tabelle 16: 233 234 235 236
237 238 239
Erstellen des Ausgabefensters
Set Ausgabedokument = objSpssApp.NewOutputDoc Ausgabedokument.Visible = True Ausgabedokument. InsertTi tle ("Entropie", "Berechnung des EntropiemaBes fur nominale Merkmale") tabelle = Ausgabedokument.InsertTable ("Entropiewerte fur die ausgewahlten Merkmale", UBound(varGewaehlt)+ 1, 3, 1) Set objltems = Ausgabedokument.Items Set objltem = objltems.GetItem (objltems.Count - 1) Set Pivottabelle = oblltem.Activate
Ausgabedokument. InsertTi tle ("Entropie", EntropiemaBes fur nominale Merkmale")
"Berechnung des
Mit Hilfe dieser Funktion der Objektkiasse der Ausgabedokumente Uisst sich die Uberschrift "Berechnung des EntropiemaBes flir nominale MerkmaIe" einfligen. In der Gliederungsieiste (= Output-Navigator) links yom Ausgabefeid erscheint der Unterpunkt "Entropie" (vg1. Abbildung 12). Das ist der Name des "Titel-Iems". Anders ais bei den vorangegangenen Funktionen, wird hier keine zusatzliche Objektvariable benotigt. tabelle = Ausgabedokument.InsertTable ("Entropiewerte fur die ausgewahlten Merkmale", UBound(varGewaehlt)+ 1, 3, 1)
In das Ausgabefenster wird eine Pivottabelle eingefligt, weiche in SPSS grundsatzlich aus drei Dimensionen besteht: Zeilen, Spalten und Schichten.
202
Leila Akremi
Sie hat so viele Zeilen wie Variablen vorhanden sind (UBound (varGewaehl t) + 1 )), drei Spalten fUr die drei MaBe (absolute, relative und maximale Entropie) und nur eine Schicht. 39 Set objItems = Ausgabedokument.Items Set objItem = objItems.GetItem (objItems.Count - 1) Set Pivottabelle = objItem.Activate Pivottabelle.UpdateScreen = False
Bisher kann die Tabelle noch nicht mit Werten gefiillt werden. Dies ist erst maglich, wenn die Objektklassen ISpssItems und ISpssItem initialisiert werden und die Tabelle als einzelnes Objekt aktiviert wird. ISpssItems ist die Sammlung der Ausgabeobjekte. Ober die Objektklasse ISpssItem lassen sich die einzelnen Objekte des Ausgabefensters identifizieren. Zur Identifizierung der Pivottabelle wird die Objektfunktion GetItem verwendet. In Klammem steht der Index des jeweiligen Items, das verwendet werden solI. Das neue Ausgabefenster besitzt drei Items. Das erste ist fUr die Ausgabe selbst reserviert und erhalt den Index ,,0". Die Oberschrift ist das zweite Item mit Index ,,1" und das dritte ist die Pivottabelle mit Index ,,2". Da die Pivottabelle als letztes Item eingefiigt wurde, kann die Funktion "obj Iterns. Count - 1" zur Auffmdung der Tabelle genutzt werden. Man hatte allerdings in diesem Fall auch "obj Items. GetItem (2)" schreiben kannen, da der Indexwert der Tabelle bekannt ist. Urn die Tabelle endgultig verwenden zu kannen, muss sie noch mit dem Befehl "Set Pivottabelle = obj Item. Acti va te" aktiviert werden. Mit der letzten Zeile wird verhindert, dass die Pivottabelle bei jeder Veranderung aktualisiert wird. Es ist ausreichend, wenn die Aktualisierung erst am Ende erfolgt, damit kein Flimmem auf dem Bildschirm entsteht. Nun muss die Tabelle beschriftet und mit Werten gefiillt werden. Aus Tabelle 17 lasst sich ablesen, welche Zelle mit welcher der in Tabelle 18 aufgelisteten Befehlszeilen gefiillt wird. Beide Tabellen fmden sich auf der nachsten Seite. -
Set Zeilenbeschriftung = Pivottabelle.RowLabelArray For zeilenindex = 0 To UBound (varGewaehlt) Zeilenbeschriftung.ValueAt (zeilenindex, 1) =
39
Mehrere Schichten werden nur benotigt, wenn man mehrere Informationen parallel ablegen will. Man konnte etwa in einer Schicht die absoluten Haufigkeiten einer Kreuztabelle ablegen und in einer anderen die relativen (wie beim Befehl CROSSTABS). Oder bei Korrelationstabellen in einer Schicht die Korrelationskoeffizienten und in der anderen die Signifikanzniveaus (wie beim Befehl CORRELAT ION S). Dann kann man zwischen den Schichten hin- und herschalten. Diese Funktion wird hier nicht benoti~, so dass die Schichten unberiicksichtigt bleiben.
Kapitel 8: EinfUhrung in die Skriptprogrammierung fUr SPSS
203
Tabelle 17: Identifizierung der Zellen der Pivottabelle fur die Programmierung Schichtendimension.DimensionName Spaltenbeschriftung.ValueAt (0,0)
Zeilen · ValueAt
(0,0)
Spalten · ValueAt
Zeilen · ValueAt
Datenzellen
(0,1)
Zeilen · ValueAt
Tabelle 18: 241 242 243
244 245 245 246 247 248
249 250 251 252 253 254
255 256
257 258 259
260 261 262
263 264
(1,0)
· ValueAt
(0,0)
Datenzellen
(1,1)
· ValueAt
(1,0)
Spalten · ValueAt
(1,1)
Datenzellen
Spalten · ValueAt
Datenzellen (0,2)
(0,1)
· ValueAt
Datenzellen (1,1)
· ValueAt
· ValueAt
· ValueAt
(1,2)
Datenzellen (1,2)
Erstellen der Outputtabelle
Set Zeilenbeschriftung = Pivottabelle.RowLabelArray For zeilenindex = a To UBound (varGewaehlt) Zeilenbeschriftung.ValueAt (zeilenindex, 1) = varGewaehlt (zeilenindex) Next zeilenindex Set Spaltenbeschriftung = Pivottabelle.ColumnLabelArray Spaltenbeschriftung. ValueAt (0, 0) = "Entropiewerte" Spaltenbeschriftung. ValueAt (1, 0) = "Entropie" Spaltenbeschriftung. ValueAt (1,1) = "Relative Entropie" Spaltenbeschriftung. ValueAt (1,2) = "maximale Entropie" Set PivManager = Pivottabelle.PivotManager Set Schichtendimension = PivManager.LayerDimension(O) Schichtendimension.DimensionName = "Tabelle 1" Set Datenzellen = Pivottabelle.DataCellArray For zeilenindex = a To UBound (varGewaehlt) Datenzellen. ValueAt (zeilenindex, 0) = CStr (Entropie (zeilenindex)) Datenzellen.HDecDigitsAt (zeilenindex, 0) = 4 Datenzellen. ValueAt (zeilenindex, 1) = CStr (RelativeEntropie (zeilenindex)) Datenzellen.HDecDigitsAt (zeilenindex, 1) = 4 Datenzellen. ValueAt (zeilenindex, 2) = CStr (maximaleEntropie (zeilenindex)) Da tenzellen. HDecDigi tsAt (zeilenindex, 2) = 4 Next zeilenindex Pivottabelle.Autofit Pivottabelle.UpdateScreen True objltem.Deactivate End Sub
Leila Akremi
204
varGewaehlt (zeilenindex) Next zeilenindex
Urn die Zeilen beschriften zu kannen, erhalt die Objektvariable Zeilenbeschriftung die dafUr notwendigenEigenschaften und Funktionen zugewiesen. DafUr sorgt die Objektfunktion RowLabelArray. Die Zeilenbeschriftung richtet sich nach den einzelnen Variablen. Mit der Funktion Va 1 ueA t kannen dem Objekt Zeilenbeschriftung die Variablennamen in einer Schleife zugewiesen werden. Dazu mtissen die einzelnen Zellen der Pivottabelle tiber Indizes identifiziert werden. Diese Indizes sind fUr Pivottabellen vordefmiert und kannen nicht geandert werden. Wie in Tabelle 17 aufgelistet, erhalt z. B. die erste Zelle einer Pivottabelle links oben die Indizes (0,0). Alle anderen Zeilen der ersten Spalte sind fUr die Variablenbeschriftung vorges~hen, so dass der Variablenname fUr die erste Variable in der Zelle (0,1) angezeigt wird. Mit dem ersten der beiden Indizes werden fUr jede Variable die Zeilen weitergezahlt (zeilenindex), der zweite Wert bleibt bei ,,1 ", da sich alle Variablennamen in derselben Spalte befmden. -
Set Spaltenbeschriftung = Pivottabelle.ColumnLabelArray Spaltenbeschriftung.ValueAt (0,0) "Entropiewerte" Spaltenbeschriftung.ValueAt (1,0) "Entropie" Spaltenbeschriftung.ValueAt (1,1) "Relative Entropie" Spaltenbeschriftung.ValueAt (1,2) "maximale Entropie"
Dasselbe gilt entsprechend fUr die Spaltenbeschriftungen. Die erste Spaltenbeschriftung lautet "Entropie", die zweite "Relative Entropie" und die dritte "maximale Entropie". Da es sich urn Stringwerte handelt, mtissen diese in Anfiihrungszeichen zugewiesen werden. -
Set PivManager = Pivottabelle.PivotManager Set Schichtendimension = PivManager.LayerDimension(O) Schichtendimension.DimensionName = "Tabelle 1"
Auch wenn nur eine Schicht verwendet wird, mtissen die Informationen dazu gemacht werden. DafUr muss der Pivot-Manager deklariert und initialisiert werden (vgl. Abbildung 11 auf S. 179). Danach kann in der Objektvariablen Schichtendimension festgehalten werden, dass nur eine Dimension verwendet wird. Der Dimensionsname lautet "Tabelle 1". ' -
Set Datenzellen = Pivottabelle.DataCellArray For zeilenindex = a To UBound (varGewaehlt) Datenzellen.ValueAt (zeilenindex, 0) = CStr (zeilenindex) ) Datenzellen.HDecDigitsAt (zeilenindex, 0) = 4
(Entropie
Kapitel 8: EinfUhrung in die Skriptprogrammierung fUr SPSS
205
Datenzellen.ValueAt (zeilenindex, 1) = CStr (RelativeEntropie (zeilenindex)) Datenzellen.HDecDigitsAt (zeilenindex, 1) 4 Datenzellen.ValueAt (zeilenindex, 2) = CStr (maximaleEntropie (zeilenindex)) Datenzellen.HDecDigitsAt (zeilenindex, 2) = 4 Next zeilenindex Pivottabellen enthalten fUr die Ergebnisse die Unterklasse Da taCellArray.
Nach der Deklaration und Initialisierung der entsprechenden Objektvariablen Datenzellen konnen letztlich in einer Schleife die Werte fUr die absolute, relative und maximale Entropie in die Tabelle geschrieben werden. Da es sich bei den Datenzellen urn ein String-Array handelt, erfolgt eine Konvertierung der Ergebniswerte. Mit der Zeile "Datenzellen. HDecDigi tsAt (zeilenindex, 0) = 4" wird bestimmt, dass jede Zahl in den Datenzellen nur mit vier Dezimalstellen angezeigt wird. -
Pivottabelle.Autofit Pivottabelle.UpdateScreen=True objItem.Deactivate End Sub
Damit man sich keine Gedanken urn die MaBe der Tabelle machen muss, konnen die einzelnen Zeilen und Spalten mit Autofi t automatisch an die GroBe der Eintrage angepasst werden. Nachdem aIle Werte festgelegt wurden, kann nun die Pivottabelle aktualisiert werden, und obj Item wird deaktiviert. Das Skript ist fertig und kann mit einem Klick auf den grlinen Pfeil im Skripteditor getestet werden. Wenn keine Fehlermeldungen auftreten und es funktioniert, kann das Entropieskript fest in SPSS integriert werden.
7
Einbinden des Entropieskripts in SPSS
Es gibt drei Moglichkeiten, das Entropieskript in SPSS zu verwenden: 1) Man kann im Dateneditor unter Extras auf "Skript ausfiihren" gehen und die entsprechende Datei auf dem PC suchen. 2) Man kann einen Eintrag in der Menuleiste erzeugen. Dazu muss unter Extras der Menu-Editor aufgerufen werden. In der Liste des Menus werden z. B. die deskriptiven Statistiken gesucht und Haufigkeiten markiert. Dann geht man auf "Eintrag einfiigen" und kann den Namen fiir die Prozedur festlegen. Hier
206
Leila Akremi
wurde der Name "Entropie" vergeben. Jetzt mUssen noch der Dateipfad und -name eingerugt werden. Dazu kann die Festplatte durchsucht werden. AbschlieBend wird alles mit "Ok" bestatigt, und das Entropieskript erscheint im SPSS-MenU. 3) Aufbauend auf der zweiten Moglichkeit, kann man ein Icon in der Symbolleiste ablegen. Dies kann im Daten-, Syntaxeditor oder im SPSS-Viewer oder in allen dreien geschehen. Dazu muss unter "Ansicht" auf "Symbolleisten" gedrUckt werden. Jetzt kann man auswahlen, wo man das Icon haben mochte. 1m Beispiel wurde der Dateneditor ausgesucht. Wenn man weiter auf "Anpassen" klickt, erscheint das Fenster in Abbildung 13. Abb.13:
Erstellen eines Iconsfur das Entropieskript
Unter Kategorien wird bis zu "Benutzerdefiniert" gescrollt. 1m rechten Fenster erscheint nun das Entropieskript. Per Doppelklick oder durch Ziehen mit der Maus gelangt es in die Symbolleiste. Es wird alles mit "Ok" bestatigt und das Skript kann nun verwendet werden. Abb.14:
Skript-Icon in der Symbolleiste
Kapitel 8: EinfUhrung in die Skriptprogrammierung fUr SPSS
207
We iterfuhrende Literatur: Vogel (1997) beschreibt das EntropiemaB und seine Eigenschaften. Kowalk (1996) eignet sich als Nachschlagewerk flir die Grundkonzepte des Programmierens. Zur Skriptprogrammierung in SPSS gibt es leider auBer dem Sax Basic Guide von Polar Engineering and Consulting, in dem aIle Befehle mit Beispielen aufgelistet sind, keine Literatur. Deshalb solI wenigstens der Verweis auf zwei Intemetseiten erfolgen. Arosio hat auf seiner SPSS-Seite eine kurze Einflihrung in die Skriptsprache verfasst und eigene Skripte zum Herunterladen zur Verfiigung gestellt. Levesque hat eine sehr umfassende Sammlung an SPSS-Tools. Darunter finden sich auch Erlauterungen zur Makroprogrammierung und etliche Makros und Skripte zum Herunterladen. Arosio, Fabrizio (2008): Spss Scripts Site. http://web.tiscali.it/fabriweb/spss-scripts/index.html Kowalk, Wolfgang P. (1996): System. Modell. Programm. Yom Goto zur objektorientierten Programmierung. Heidelberg, Berlin, Oxford: Spektrum Akademischer Verlag Levesque, Raynald (2008): Raynald's SPSS Tools. http://www.spsstools.net/ Polar Engineering and Consulting (2001): Sax Basic Language. http://ftgsoftware.com/manuals/basic32.pdf Vogel, Friedrich (1997): Beschreibende und schlieBende Statistik. Formeln, Definitionen, Erlauterungen, Stichworter und Tabellen. 10., vollstandig ub.erarbeitete und erweiterte Auflage. Munchen: Oldenbourg.
Kapitel9 Niitzliche Software uDd Fundorte rur Daten Nina Baur und Sabine Fromm
Die statistischen Analysen in diesem Lehrbuch werden mit dem Programm SPSS durchgefiihrt, der wohl am weitesten verbreiteten Statistiksoftware in der sozialwissenschaftlichen Methodenausbildung und Forschungspraxis. Obwohl SPSS fUr viele Auswertungsprobleme sehr gut geeignet ist, birgt der Einsatz nur eines Programms stets die Gefahr, die eigene Arbeit durch die Auswertungsmoglichkeiten dieses Programms zu standardisieren und tiber Alternativen nicht mehr nachzudenken. Wir wollen in diesem Kapitel deshalb auf andere Statistiksoftware hinweisen, die zum Teil als Alternative, zum Teil alsErgfulzung zum Einsatz von SPSS gesehen werden kann. Weiterhin verweisen wir auf Data Mining-Tools sowie auf Programme zur qualitativen Analyse. FUr einige der genannten Programme sind Demoversionen als Freeware verfiigbar undo konnen von der jeweiligen Website herunter geladen werden. Ein weiteres Problem, das sich gerade Forschungsanfangern haufig stellt, ist die Frage, woher Daten fUr eine Sekundaranalyse bezogen werden konnen, da eine eigene Erhebung haufig aus Zeit- und Kostengrtinden nicht moglich ist. Der zweite Teil dieses Kapitels umfasst deshalb eine Zusammenstellung wichtiger Fundorte fUr Daten.
1
NOtzliche Programme
Wir setzen an dieser Stelle die gangigen Programme fUr Textverarbeitung, Tabellenkalkulation, GrafIkbearbeitung, Prasentation usw. als bekannt voraus und beschranken uns auf Software fUr die eigentliche Auswertungsarbeit. Zu den bekanntesten Statistikprogrammpaketen, d. h. Statistiksoftware, die eine Vielzahl von Auswertungsmoglichkeiten bietet, gehoren neben SPSS (www.spss.de) Stata (www.stata.com), R (http://cran.r-project.orgl) und SAS (www.sas.de). Auch fUr spezifischere Auswertungsprobleme existiert eine Vielzahl unterschiedlicher Programme, u.a.:
Kapitel 9: Niitzliche Software und Fundorte fUr Daten
Verfahren Clusteranalyse Dimensionsanalyse mit Mokkenskalierung Kausalanalyse; Strukturgleichungsmodelle Ereignisanalyse; Sequenzanalyse Sequenzanalyse; Optimal Matching Analyse Strukturelle Netzwerkanalyse
209
Homepage Programm www.clustan.com Clustan SPSS-Makro von Erhaltlich auf Anfrage bei:
[email protected] Leila Akremi Lisrel TDA Optimize Ucinet
www.ssicentral.com http://steinhaus.stat. ruhr-uni-bochum.de http://home.uchicago.edu/ ,....,aabbott/ www.analytictech.com/ ucinet/ucinet.htm
GleichermaBen machtig wie Statistik-Programme sind in ihren Auswertungsmoglichkeiten und der Bewaltigung sehr groBer Datenmengen auf relationalen Datenbanken die groBen Data Mining-Tools wie Clementine (von SPSS: www.spss.com/clementine/). die SAS-Produkte zur Marketing Automation oder zum Webmining (www.sas.de) oder der IBM Intelligent Miner (www-306.ibm.com/software/data/iminer/). Software fUr Text Mining erlaubt die Verarbeitung von Texten in Datenbanken. Ein Beispiel ist Lexiquest, ebenfalls ein SPSS-Produkt (www.spss.com/predictive_text_ analytics/). Eine Vielzahl kleiner Data Mining-Tools ist z. B. auf folgenden Websites zusammengefasst: www.kdnuggets.com/index.html und www.the-data-mine.com/. Viele dieser Tools konnen von dort als Freeware herunter geladen werden. Grundsatzlich 1000t auch die Nachfrage bei Lehrstiihlen fUr Statistik, Data Mining, Methoden der empirischen Sozialforschung u. a.; haufig sind hier selbst programmierte Auswertungstools, meist fUr einzelne Auswertungsverfahren, verfiigbar. Eine wesentliche Arbeitserleichterung konnen Tools zum automatisierten Einlesen von Fragebogen erbringen (vgl. hierzu auch Kapitell). Hierzu benotigt man allerdings fUr jedes Programm ein spezifisches Fragebogenformat - welches, sollte man deshalb unbedingt vor der Untersuchung klaren. Gibt man die Daten per Hand ein, konnen Programme zur Fragebogengestaltung und Eingabehilfen niitzlich sell, z. B. SPSS Data Ently (www.spss.de). Zur Durchfiihrung von computergesmtzen Umfragen eignet sich z. B. WinCati (www.sawtooth.com). zur Durchfiihrung von Online-Erhebungen Unipark (www.unipark.de) oder Der Befrager (www.befrager.de). Verwendet man geographische Daten (z. B. die Arbeitslosenquote nach Bundeslandem) und will diese grafisch darstellen, sollte man iiberlegen, ob man eine Software fUr Geoinformationssysteme (GIS) verwendet. Das bekannteste Beispiel ist Google Earth (http://earth.google.de/), eine Liste freier GIS-Programme fm-
210
Nina Baur und Sabine Fromm
det sich unter www.freegis.org/. Das SPSS-Zusatzprogramm SPSS Maps erlaubt ebenfalls die Verarbeitung geographischer Daten (www.spss.de). Auch zur Analyse qualitativer Daten existiert eine Vielzahl von Programmen, die unter dem Oberbegriff QDA-Software ("Qualitative Data Analysis Software"; auch: CAQDAS - "Computer Aided Qualitative Data Analysis Software") zusammengefasst werden. Dazu miissen die Daten allerdings in digitaler Form vorliegen, Interviews also z. B. transkribiert oder Texte bzw. Bilder gescannt werden. Zeitungen und Zeitschriften etc. liegen heute vielfach als CDRom-Ausgaben vor, viele Texte unterschiedlichster Organisationen sind auf Intemet-Servem abgelegt. In diesen Fallen ist die computergestiitzte Analyse besonders lohnend. Grundkonzept der Analyse ist stets das Kodieren relevanter Textpassagen, sowie die kombinierte Suche iiber diese Codes einerseits bzw. der Aufbau semantischer Netzwerke aus den Codes andererseits. Zu den bekanntesten und besten QDA-Programmen gehoren MAXqda (www.maxqda.de) und Atlas/ti (www.atlasti.de).Beide Programme erlauben das Einlesen von Text-, Bild- und Tondateien. MAXqda ermoglicht zusatzlich, Dokumente zu klassifizieren und aus den KlassifIkationen einen Datensatz fUr die quantitative Analyse mit Statistik-Programmen zu erzeugen. Ein weiterer Vorteil von MAXqda ist, dass es schneller zu lemen ist.
2
Fundorte fOr DatensAtze
In der Forschung werden haufig Daten verwendet, die in anderen Kontexten entstanden sind. Dabei ist zu unterscheiden zwischen individuellen und Aggregatdaten (= MaBzahlen und Indikatoren), die explizit zu Forschungszwecken erhoben wurden, und zwischen prozessgenerierten Daten, also Daten, die nicht fUr Forschungszwecke entstanden sind. Sekundaranalysen ersparen den Aufwand der Datenerhebung, nicht aber die Verantwortung zu iiberpriifen, ob die Daten giiltig und verallgemeinerbar sind. Insbesondere folgende Fragen miissen deshalb. beantwortet werden: Wer hat die Studie durchgefiihrt, wer hat die Daten erhoben? FUr wen wurde die Studie durchgefiihrt? Was war die urspriingliche Forschungsfrage? Mit welchem Erhebungsverfahren wurden die Daten erhoben? Wie wurde die Stichprobe gezogen? 1st die Stichprobe systematisch verzerrt? Wenn ja, welche Verzerrungen sind fUr die Daten im konkreten Fall zu erwarten? Gab es Probleme bei der Erhebung? Wenn ja, welche? Wie sah der ursprtingliche Fragebogen aus? Welche Mangel hat er? Traten Probleme bei der Datenerhebung und -aufbereitung auf? Inwiefem verschlechtem diese Mangel die Aussagekraft der Daten fUr die Forschungsfrage?
211
Kapitel 9: Nlitzliche Software und Fundorte fUr Daten
Oft liefem die Primarforscher mit den Daten den ursprtinglichen Datensatz und einen ausfiihrlichen Bericht, in dem diese Fragen beantwortet sind. Jeder Forschungsbericht sollte grundsatzlich auf Stichprobenprobleme und Schwachen der Daten hinweisen sowie erortem, ob und wie sich dies auf die konkrete Untersuchung auswirkt. Zusatzlich sollte auf Literatur verwiesen werden, die diese Fragen diskutiert. Fehlen diese Angaben, kann daraus nicht geschlossen werden, dass es keine Probleme gab - im Gegenteil: Es ist wahrscheinlicher, dass sie im ursprtinglichen Auswertungsprozess nicht beachtet wurden. In diesem Fall ist es wichtig, diese Informationen nachtraglich einzuholen. Beispielsweise geben Markt- und Meinungsforschungsinstitute fast immer an, ihre Daten basierten auf einer "reprasentativen" Stichprobe der deutschen Bevolkerung. Das bedeutet jedoch in aller Regel nicht, dass - wie man annehmen konnte - eine Zufallsauswahl erfolgte. Meist stellt sich heraus, dass vielmehr eine Quotenstichprobe gezogen wurde. Wie kommt man an Daten fUr Sekundaranalysen heran? Eine Moglichkeit besteht darin, die Primarforscher direkt anzuschreiben - in vielen Fallen sind sie die Einzigen, die Zugriff auf die Daten haben. Dies gilt insbesondere fUr Daten, die mit Hilfe offener Verfahren gewonnen wurden. Es gibt aber auch Institutionen, die Daten sammeln und fUr die Reanalyse bereitstellen. Die wichtigsten sozialwissenschaftlichen Datensatze fmdet man u. a. bei folgenden Instituten: Institut
Art der Datensltze
Zentralarchiv fur Empirische Sozialforschung an der Universitat zu Koln (ZA) Postfach 410960 • 50869 Koln • Tel.: 0221/47694-0 • www.gesis.org
Zahlreiche Studien zu den verschiedensten Themen, unter anderem: Historische Soziologie; DISI (Soziale Indikatoren); ALLBUS (Allgemeine Bevolkerungsumfrage der Sozialwissenschaften); GML (German Microdata Lab); ISSP (Intemational Social Survey Programme); EVS (European Values Study); Eurobarometer; Politbarometer; DJI Familiensurvey; IAB-Beschaftigtenstichprobe
International Federation ofData Organizationsfor the Social Science (IFDO) Kontaktadresse: ZA in Koln (siehe oben) • www.ifdo.org
Zusammenschluss intemationaler Archive (wie das ZA), die sozialwissenschaftliche Daten sammeln und fur die Forschung bereitstellen, mit der Unter':' organisation CESSDA (Council of European Social Science Data Archives).
Statistisches Bundesamt Statistischer Informationsservice. GustavStresemann - Ring 11 • 65189 Wiesbaden. Tel.: 0611/75-2405 • www.destatis.de
Verschiedene aggregierte statistische MaBzahlen fur Deutschland; Mikrozensus und andere Datenbanken wie Genesis Online und Statistik Regional; Links zu den Statistischen Landesamtem und den Statistischen Amtem anderer Lander
Nina Baur und Sabine Fromm
212
Institut
Art der Datensltze
Eurostat Statistisches Bundesamt (i-Punkt Berlin 1 Eurostat Data Shop) • Otto-Braun-StraBe 70/72 • 10178 Berlin. Tel.: 01888 1644-9427 • http://epp.eurostat.ec.europa.eu/
Verschiedene Datensatze, u. a. mehrere Datenbanken, die Langsschnittsanalysen europaischer Regionen zulassen, darunter New Cronos, Regio, Comext und Europroms
Bereitstellung von Mikrodaten (also nicht aggregierten Daten), v. a. aus der amtlichen Statistik Rat jur Sozial- und Wirtschaftdaten c/o DIW Berlin. Konigin-Luise-Str. 5 • 14195 und von offentlichen Einrichtungen, z. B. des Berlin. Tel.: 030/89789-463 • Statistischen Bundesamtes, der Statistischen Amter der Lander, der Bundesagentur fur Arbeit www.ratswd.de (BA) und der Gesetzlichen Rentenversicherung Max-Planck-Institut jur demografische Forschung Konrad-Zuse-StraBe 1 • 18057 Rostock • Tel: 038112081-0. http://www.demogr.mpg.de
Daten zur Bevolkerungsentwicklung (insbesondere Geburtenentwicklung und Sterbefalle)
Max-Planck-Institut jur Bildungsjorschung Lentzeallee 94 • 14195 Berlin. Tel.: 0301 82406-0. www.mpib-berlin.mpg.de
Zahlreiche Langsschnittsdatensatze zur Bildungssoziologie und Lebenslaufsforschung, z. B. GLHS (German Life History Study); PISA (Programme for International Student Assessment) und TIMSS (3 rd International Mathematics and Science Study)
European Social Survey, Central Coordinating Team Centre for Comparative Social Surveys, City University. Northampton Square. London ECIV OHB • GroBbritannien. Tel.: +44 (0) 20/7040-4901 • www.europeansocialsurvey.org
ESS (European Social Survey)
Deutsches Institut jur Wirtschaftsjorschung Berlin (DIW) SOEP (Das Sozio-oekonomische Panel) Postfach. 14191 Berlin. Tel.: 030-897-89-0 • www.diw.de HIS Hochschul-Informations-System GmbH Goseriede 9.30159 Hannover. Tel.: 05111 1220-0 • www.his.de
Daten zu Studierenden, Absolventen, Steuerung, Finanzierung und Evaluation im Hochschulwesen
Medienwissenschaftliches Lehr- und Forschungszentrum (MLFZ) Wirtschafts- und Sozialwissenschaftliche Fakultat • Universitat Koln • Lindenburger Allee 15 • 50931 Koln • Tel.: 02211470-3953 • www.mlfz.uni-koeln.de
Daten der MA (Media-Analyse) und LA (Leseranalyse), d. h. tiber Verbreitungsgrad und Zielpublikum verschiedener Medien sowie Mediennutzungsverhalten
Kapitel 9: Nutzliche Software und Fundorte fUr Daten
Institut Luxembourg Income Study 17, rue des Pommiers • 2343 Luxembourg. Tel: +35 122600 30 20 • www.lisproject.org
213
Art der Datensltze Luxembourg Income Study (LIS); Luxembourg Employment Study (LES); Luxembourg Wealth Study (LWS)
IdZA noch im Aufbau befindliche Sammlung (mogSchaumburg-Lippe-Strasse 5-9 • 53113 Bonn. lichst) aller deutscher (und intemationaler) Daten Tel.) 0228/3894-0 • zur Arbeitsmarkt- und Berufsforschung http://metadata.iza.org/ FDZ-RV (Forschungsdatenzentrum der Rentenversicherung) Deutsche Rentenversicherung Bund • Hallesche StraBe 1 • 10963 Berlin. Tel.: 030 I 865-89542 • http://forschung.deutscherentenversicherung.de
Mikrodatensatze aus dem Bestand prozessproduzierten Daten der Deutschen Rentenversicherung zum Thema Alterssicherung und Altersforschung
Bundesamt fur Justiz Adenauerallee 99 - 103 .53113 Bonn. Tel.: 0228/99410 - 40. www.bundesjustizamt.de
Daten zu Straftaten im deutschen Raum, gespeichert im: Bundeszentralregister; Gewerbezentralregister; Zentralen Staatsanwaltschaftlichen Verfahrensregister
Unternehmensregister Bundesanzeiger Verlagsgesellschaft mbH Postfach 10 05 34 • 50445 Koln • Tel: 02211 97668-0 • https:llwww.untemehmensregister.de
Daten tiber alle deutschen Untemehmen (aus dem Bundesanzeiger; dem elektronischen Handels-, Genossenschafts- und Partnerschaftsregister; dem Handels-, Genossenschafts- und Partnerschaftsregister sowie der Wertpapieremittenten), z.B. Fonds- und Kapitalmarktinformationen; Rechnungslegung I Finanzberichte; Gesellschaftsbekanntmachungen; Insolvenzen
Forschungszentrum der Deutschen Bundesbank Daten zu volkswirtschaftlichen Themenfelder, Wilhelm-Epstein-Strasse 14 • 60431 Frankfurt z: B. der Konjunkturanalyse, Bankenaufsicht und am Main. Tel.: 069/9566-1. Risikomodellierung http://www.bundesbank.de/vfz/vfz.php KjW Bankengruppe PalmengartenstraBe 5-9 • 60325 Frankfurt am Main. Tel: 069/7431-0 • www.kfw.de/kfw/DE_Home/Research/
Daten zur Griindungs- und Mittelstandsforschung, u. a. KfW-Mittelstandspanel und KfWGriindungsmonitor
DEeD OECD Biiro Berlin. Albrechtstrasse 9/10, 3. OG. 10117 Berlin-Mitte • Tel: (49-30) 288 8353 • email:
[email protected] • www.oecd.org/statsportal/
Weltweit vergleichend gesammelte okonomische Aggregatdaten
We/tbank Development Data Group. The World Bank. World Development Indicators; Landerspezifische 1818 H Street, N.W.• Washington, DC 20433 und globale Indikatoren • U.S.A.• Tel.: ++ 01 1202473 7824. www.worldbank.org
214
Nina Baur und Sabine Fromm
Institut
Art der Datensitze
Bundesamt fur Bauwesen und Raumordnung Referat I 6 (Raum- und Stadtbeobachtung) oder Referat I 4 (Regionale Strukturpolitik und SHidtebauforderung) • FasanenstraBe 87 • 10623 Berlin. Tel.: 0188/401-2258 oder -2320 • www.bbr.bund.de
Inkar und Inkar Pro (regionalstatistische Indikatoren fur Deutschland zu folgenden Themen: Demographie, Wirtschaftliche Entwicklung, Bildung, soziale und kulturelle Infrastruktur, Verkehr und Energie, Wohnstruktur)
gis-news. de Dr. Franz-Josef Behr .Im Brunnenfeld 20a • 76228 Karlsruhe www.gis-news.de/links/daten.htm
Ubersicht tiber frei verfugbare Geodaten
SchlieBlich lohnt es sich, haufig aktualisierte Link-Sammlungen im Internet zu . nutzen, wie z. B. "Data on the Net", eine Website der University of California (http://3stages.org/idata/) oder "Inter-U~iversity Consortium for Political and Social Research (ICPSR)" (www.icpsr.umich.edu/org/index.html). Weiterfuhrende Literatur Behnke et. al. (2006) erHiutem, wie man mit Sekundardaten (insbesondere Aggregatdaten und prozessgenerierten Daten) umgehen sollte. Sie geben auBerdem Hinweise, wie man Sekundardaten fur die qualitative Datenanalyse findet. Kuckartz (2007) erlautert Schritt fur Schritt, wie man eine qualitative Datenanalyse mit Hilfe eines QDA-Programms durchfuhrt. 1m Anhang vergleicht er verschiedene QDA-Programme. Ramez und Navathe (2006) erlautem die Grundlagen von Datenbanksystemen, die u. a. fur Data Mining und GIS erforderlich sind. Han und Kamber (2006), Kumar et al. (2005) sowie Witten und Frank (2005) fuhren ebenfalls in Data Mining ein. Behnke, Joachim 1 Behnke, Nathalie 1 Baur, Nina (2006): Empirische Methoden der Politikwissenschaft. Paderbom: Ferdinand Schoningh Han, Jiawei 1 Kamber, Micheline (2006): Data Mining. Concepts and Techniques. Morgan Kaufmann Publishers Kuckartz, Udo (2007): Einfuhrung in die computergesttitzte Analyse qualitativer Daten. Wiesbaden: VS-Verlag Kumar, Vipin 1 Steinbach, Michaell Tan, Pang-Nin (2005): Introduction to Data Mining. London: Addison Wesley Publishing Company Ramez Elmasri 1Navathe, Shamkant B. (2006): Fundamentals of Database Systems. Addison Wesley Witten, Ian H. 1 Frank, Eibe (2005): Data Mining. Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers
TeiI2: Umsetzung statistischer Konzepte in SPSS
KapitellO Univariate Statistik Nina Baur
1
..
Ziele
Wenn Sie Datensatze analysieren, sollten Sie als erstes die eindimensionalen Haufigkeitsverteilungen untersuchen, d. h. Sie sollten jede Variable zunachst fUr sich analysieren. Insbesondere die Verteilung, Lage, Streuung und Schiefe jeder Variablen mtissen untersucht werden. Die Ziele hierbei sind: 1) Man bekommt ein Geftihl fUr die Daten. Dadurch kann man spater leichter abschatzen, ob bestimmte Ergebnisse tiberhaupt richtig sein konnen. Wenn man z. B. den Datensatz einer Untersuchung analysiert, in der Jugendliche befragt wurden, kann es nachher nicht sein, dass eine Person bei der Variable "Alter" den Wert ,,89 Jahre" aufweist oder dass der Mittelwert der Variable "Alter" bei ,,40 Jahren" liegt. Solche Ergebnisse sind Hinweise aufFehler im Datensatz oder falsche Syntaxen. 2) Die Untersuchung der eindimensionalen Haufigkeitsverteilungen ergibt erste Hinweise, ob die Fragebogen richtig ausgefiillt wurden oder ob bei der Eingabe in den PC Fehler gemacht wurden. Ein typischer Fehler ist z. B., dass fehlende Werte nicht als solche defmiert wurden. Auch kann es z. B. nicht sein, dass jemand ein negatives Alter hat usw. (siehe auch Kapitel 3 in diesem Band). 3) Wenn Variablen zu schief verteilt sind, sind sie oft fUr die weitere Analyse wertlos. Beispiel: Man mochte den Unterschied zwischen Mannemund Frauen untersuchen. Man hat einen Datensatz mit 100 Fallen. Von diesen 100 Befragten waren 98 mannlich, 2 weiblich. Die Verteilung ist also extrem schief. Durch diese Schiefe kann man die Unterschiede zwischen Mannem und Frauen nicht sinnvoll untersuchen. Es macht beispielsweise nicht viel Sinn, bei zwei Frauen das durchschnittliche Alter zu untersuchen. 4) Man pruft die Voraussetzungen (sofem diese existieren) fUr die Verfahren, die man spater anwenden will. Z. B. verlangen viele Verfahren zur Verarbeitung metrischer Variablen eine (approximative) Normalverteilung (vgl. hierzu Behnke und Behnke (2006), Benninghaus (2005), Jann (2002) oder Vogel (2000)). Wenn diese Voraussetzungen nicht erfiillt sind, darf man das entsprechende Verfahren nicht anwenden. Tut man es doch, besteht die Gefahr, dass man Datenartefakte
Kapitel10: Univariate Statistik
217
produziert. Man kann sich nun Wichtig: uberlegen, wie man damit umAn dieser Stelle mochte ich noch emmal. geht: Entweder man wendet ein auf eine Bemerkung in der Einleitung hinanderes Verfahren an, oder man weisen: Ich stelle in diesem und dem foltransfonniert die Daten (vgl. genden Kapitel mogliche Umsetztingen hierzu Vogel (2000)). In manchen statistischer Verfahren in SPSS mogFallen ist die Anwendung eines lichst breit dar. Auf keinen FaU soUten Verfahrens unter EinscluiinkunSie diese Verfahren mechanisch anwengen auch dann moglich, wenn den. Dberlegen Sie immer, ob ein Verfahbestimmte Voraussetzungen nicht ren oder MaB im konkreten Fall Sinn macht erfiillt sind. Dies erfordert dann und Sie nicht mit anderen Verfahren oder aber eine vorsichtige InterpretaMaBe Ihrem Forschungsinteresse naher tion. Naheres hierzu fmden Sie kommen. Welche negativen Folgen der me- am Beispiel der Ordinalskalen chanische Umgang mit Statistik haben in Kapite1 12. kann, erlautert Gigerenzer (1999) anhand 5) SchlieBlich kann man aIle absolut von Beispielen. interpretierbaren Variablen mit Hilfe der eindimensionalen Haufigkeitsverteilungen interpretieren und so erste wertvolle Informationen erhalten. 40
2
Eindimensionale HAufigkeitsverteilung nominalskalierter Merkmale
2.1
Analysebereiche
Die univariate Statistik lasst sich grob in drei Analysebereiche unterteilen: Haufigkeitsverteilungen, die Charakterisierung der Verteilung mit Hilfe von Lage-, Streuungs- und SchiefemaBen sowie grafischen Darstellungen. Wie man sie berechnet und interpretiert, ist in jedem Statistikbuch erklart, weshalb ich sie hier nm kurz nenne. 2.1.1
Verteilung der Werte: Haufigkeitstabelle
Die Haufigkeitstabelle bietet die Moglichkeit, alle Werte in ubersichtlicher Form darzustellen. Damit wird insbesondere bei nominalen Daten die Haufigkeitsverteilung ersichtlich. Grundsatzlich sollte man sich beijeder Variable - unabhangig yom Skalenniveau - vor der Analyse zunachst die Haufigkeitsverteilung ansehen.
40
Den Unterschied zwischen absolut und relational interpretierbaren Variablen erlautem z. B. Baur und Lamnek (2007).
Nina Baur
218
2.1.2 Lage-, Streuungs- und SchiefemaBe fUr nominalskalierte Daten Lage-, Streuungs- und SchiefemaBe fassen die Charakteristika einer Haufigkeitsverteilung unter einem bestimmten Aspekt zusammen. LagemaBe unterstreichen bestimmte Charakteristika der Haufigkeitstabelle, z. B. die mittlere Tendenz oder besonders haufig vorkommende Werte. Ein LagemaB fUr nominalskalierte Variablen ist der Modus. StreuungsmaBe analysieren die Variablen in ihrer Breiteo Siebetonen die Streuung und Unterschiedlichkeit der Werte. Ein StreuungsmaB fUr nominalskalierte Variablen ist die Entropie. SchlieBlich kann man untersuchen, wie schief eine Verteilung ist, d. h. wie gleichmaBig die Werte fiber den Wertebereich verteilt sind. 2.1.3 Grafische Darstellung Wenn man will, kann man sich zusatzlich die Haufigkeitsverteilung grafisch darstellen lassen. Zwei wichtige Darstellungsformen fUr nominalskalierte Variablen sind das Kreisdiagramm und das Balkendiagramm.
2.2
SPSS-Befehl
Eindimensionale Haufigkeitsverteilungen konnen in SPSS tiber die Prozedur FREQUENCIES angefordert werden. Der Syntax dieser Prozedur selbst sieht folgendermaBen aus: FREQUENCIES VARIABLES = variablenliste [/BARCHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ (n)} {PERCENT (n)}]] [/PIECHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ}] [{MISSING}] ] {PERCENT} {NOMISSING} [/STATISTICS= MODE] .
2.2.1 Befehlszeile FREQUENCIES Der Hauptbefehl FREQUENCIES fordert eine Haufigkeitstabelle an. 2.2.2 Unterbefehl BARCHART Der Unterbefehl BARCHART produziert ein Balkendiagramm. Das Diagramm wird mit den Wertenamen beschriftet. Mit den Befehlen MINIMUM (n) bzw. MAXIMUM (n) kann man die untersten bzw. obersten Werte angeben, die gerade noch abgebildet werden. Den entsprechenden Wert tragt man an die Stelle von "n" ein. Gibt man FREQ (n) an, werden auf der vertikalen Achse absolute Haufigkeiten abge-
Kapitel 10: Univariate Statistik
219
tragen, wobei "n" das Maximum ist. Lasst man den Unterbefehl FREQ weg, gibt man nichts an oder ist "n" zu klein, wahlt das Programm die Haufigkeitsskala mit dem Maximalwert 5, 10,20,50, 100,200,500, 1000,2000 usw. (abhangig davon, was die maximale absolute Haufigkeit im Datensatz ist). Gibt man PERCENT (n) an, werden auf der vertikalen Achse relative Haufigkeiten abgetragen, wobei "n" das Maximum ist. Gibt man nichts an oder ist "n" zu klein, wahlt das Programm den Maximalwert 5 %, 10 %, 25 %, 50 % oder 100 % (abhangig davon, was die maximale absolute Haufigkeit im Datensatz ist). 2.2.3 Unterbefehl PIECHART Der UnterbefeW PIECHART produziert ein Kreisdiagramm. Das Diagramm wird mit den Wertenamen beschriftet. Mit den Befehlen MINIMUM (n) bzw. MAXIMUM (n) kann man die untersten bzw. obersten Werte angeben, die gerade noch abgebildet werden. Den entsprechenden Wert tragt man an die Stelle von "n". Gibt man FREQ an (oder lasst diesen Unterbefehl weg), basiert das Diagramm auf absoluten Haufigkeiten. Gibt man PERCENT an, basiert das Diagramm auf relativen Haufigkeiten. Gibt man MISSING an (oder lasst diesen UnterbefeW weg), werden user-missing und system-missing values in derselben Kategorie abgebildet. Gibt man NOMISSING an, werden fehlende Werte nicht abgebildet. 2.2.4 Unterbefehl STATISTICS Mit dem Unterbefehl STATISTICS kann man Lage- und StreuungsmaBe fUr die Variable anfordem. Das MaB fUr nominalskalierte Merkmale, das SPSS berechnen kann, ist der Modus, also der am haufigsten vorkommende Wert.
2.3
Beispiel
Die Variable v44 im Datensatz des Soziologischen Forschungspraktikums 2000/ 2001 enthalt die Information, ob der Befragte berufstatig, in Ausbildung, Student oder Schiller ist. Die Antwortkategorien sind"1" ("Nein") und ,,2" ("Ja"). Mit folgender Syntax fordert man die Haufigkeitstabelle, den Modus, ein Balkendiagramm und ein Kreisdiagramm fUr v44 an: FREQUENCIES
VARIABLES = v44 /STATISTICS=MODE /BARCHART PERCENT /PIECHART PERCENT.
220
Nina Baur
2.3.1 Haufigkeitstabelle Die SPSS-Ausgabe liefert folgende Haufigkeitstabelle: Berufstiltigkeit I Ausbildung ISchule I Studium?
GO/tig
Feh/end
Haufigkeit
Prozent
Nein
173
Ja Gesamt
316
35,1 64,1
489
99,2
System
4
,8 100,0
Gesamt
493
GO/tige Prozente
Kumulierte Prozente
35,4 64,6 100,0
35,4 100,0
Diese ist folgendermaBen zu interpretieren: In der ersten Spalte ("Haufigkeit") sind die absoluten Haufigkeiten abgetragen. 173 Befragte sind also nicht berufstatig, in Ausbildung, Student oder SchUler, 316 sind es. Zusammen haben 489 Personen geantwortet. 4 Personen haben die Frage nicht beantwortet. Insgesamt enthalt der Datensatz 493 FaIle. In der zweiten und dritten Spalte ("Prozent" und "GUltige Prozente") sind die relativen Haufigkeiten abgetragen. Bei der zweiten Spalte werden die fehlenden Werte in die Berechnung der Anteilswerte mit einbezogen: 35,1 % der Befragten sind nicht berufstatig, in Ausbildung, Student oder SchUler, 64,1 % sind es. 0,8 % der Befragten haben nicht geantwortet, macht zusammen 100 %. In der dritten Spalte werden nur die gUltigen Werte in die Berechnung der Anteilswerte mit einbezogen: 35,4 % der Befragten sind nicht berufstatig, in Ausbildung, Student oder SchUler, 64,6 % sind es. Welche der beiden Spalten Sie fUr den Forschungsbericht verwenden,hangt yom Forschungsinteresse abo In der vierten Spalte ("Kumulierte Prozente") werden die Haufigkeiten Uber die gUltigen Werte zusammengezahlt. Bei nominalskalierten Variablen kann diese Spalte nicht sinnvoll interpretiert werden. Diese Spalte sollten Sie also fUr den Forschungsbericht aufjeden FaIlloschen. 2.3.2 Lage- und StreuungsmaBe: Modus Fordert man fUr die Variable v44 mit dem Unterbefehl an, erhalt ma~ folgende Tabelle:
STATISTICS
Statistiken Berufstatigkeit / Ausbildung / Schule / Studium? N GO/fig 489 Feh/end 4 ~odus
2
den Modus
Kapitel 10: Univariate Statistik
221
Diese ist folgendermaBen zu interpretieren: 489 Befragte beantworteten die Frage, 4 nicht. Der am haufigsten vorkommende Wert (= Modus) ist die ,,2", d. h. die meisten Befragten sind berufstatig, in Ausbildung, Student oder Schuler. 2.3.3
Schiefe der Verteilung
Bei nominalskalierten Merkmalen ist die Schiefe der Verteilung aus der Haufigkeitstabelle ersichtlich. lIn Fall der Variablen v44 ist die Verteilung relativ schief (1/3 der Befragten hat mit "Nein" geantwortet, 2/3 haben mit "Ja" geantwortet). Diese Verteilung beeintrachtigt aber weitere Analysen nicht. 2.3.4 Balkendiagramm (Barchart) und Kreisdiagramm (Piechart) FUr die Variable v44 gibt SPSS ein Balkendiagramm (links) und ein Kreisdiagramm (rechts) aus: ~erufstatigkeit
I Ausbildung I Schule I
Berufstatigkeit I Ausbildung I Schule I Studium? Fehlend
Nein 30
~N
10
?f.
0
Ja
o
Berufstatigkeit I Ausbildung I Schule I FallegewichtelnachV04N
Fc;jlle gewichtet nach V04N
3
Exkurs: Gewichtung
3.1
Verzerrungen durch unterschiedliche HaushaltsgrofJe (v04N)
Bei der StraBenbefragung war die Erhebungseinheit die einzelne Person, bei der Telefonurnfrage der Haushalt (weil j a meistens die Mitglieder eines Haushaltes gemeinsam einen einzigen Festnetzanschluss haben). Dadurch entstehen Diskrepanzen zwischen den beiden Stichproben:· Bei groBen Haushalten ist die Wahrscheinlichkeit, dass ein bestimmtes Haushaltsmitglied telefonisch befragt wird, kleiner als bei kleinen Haushalten - befragt wird die Person, die zuHillig ans Telefon geht. v04N ist eine Gewichtungsvariable. Ziel dieser Variable ist es, den Stichprobenfehler, der durch diese Verzerrung entsteht, auszugleichen. Jeder Befragte der Stra-
222
Nina Baur
Benbefragung wurde dabei mit ,,1" gewichtet. Bei der Telefonbefragung wurde die HaushaltsgroBe ermittelt. Das Gewicht entspricht der Zahl der Personen, die im Haushalt wohnen. Gewichtet man den Datensatz mit v04N, bekommen Personen aus groBen Haushalten ein entsprechend groBeres Gewicht bei allen Analysen. SPSS gewichtet so, dass es einfach die Zahl der FaIle im Datensatz entsprechend dem Gewicht erhoht. Gewichtet man mit v04N, erhoht sich die Zahl der FaIle im Datensatz von N = 493 aufN = 588. Mit anderen Worten: Personen, aus groBen Haushalten zahlen mehrfach. 41 An diesem Beispiel wird auch die Problematik der Gewichtung deutlich: Fehlen Informationen im Datensatz, andert die Gewichtung auch nichts daran. Systematische Fehler im Datensatz konnen durch Gewichtung nicht behoben werden. Bevor Sie einen Datensatz gewichten, sollten Sie sich also uberlegen, ob die Gewichtung uberhaupt Sinn macht. Oft ist dies nicht der Fall. Auch in diesem Dbungsbeispiel ist es fragwtirdig, ob eine Gewichtung Sinn macht. In den Dbungsaufgaben wird von Ihnen vor allem zu Dbungszwecken verlangt, die Daten immer wieder zu gewichten. Dberlegen Sie genau, ob dies im Einzelfall Sinn macht. Naheres zur Stichproben- und Gewichtungsproblematik fmden Sie in Behnke et. al. (2006).
3.2
SPSS-Syntax
Mit folgender Syntax gewichtet man den Datensatz mit v04N: WEIGHT BY v04N. EXECUTE.
Will man die Gewichtung wieder ausschalten, verwendet man folgende Syntax: WEIGHT OFF. EXECUTE.
4
Eindimensionale HAufigkeitsverteilung ordinalskalierter Merkmale
4.1
Analysebereiche
4.1.1 Verteilung der Werte: Haufigkeitstabelle Auch bei ordinalskalierten Merkmalen ist die Haufigkeitstabelle ein wichtiges Mittel, aIle Werte in ubersichtlicher Form darzustellen.
41
Andere Programme, z. B. Stata, bieten mehr Gewichtungsmoglichkeiten und sind deshalb vorzuziehen, wenn mit komplexen Gewichten gearbeitet werden solI.
Kapitel 10: Univariate Statistik
223
4.1.2 Lage- und StreuungsmaBe fUr ordinalskalierte Daten Die Ordinalskala ist ein hoheres Skalenniveau als die Nominalskala. Deshalb kann man die Haufigkeitsverteilung von ordinalskalierten Merkmalen mit allen Lageund StreuungsmaBen fUr nominalskalierte Merkmale charakterisieren. Man darf also z. B. auch fUr ordinalskalierte Variablen den Modus berechnen. Allerdings schopft man dabei nicht aIle Informationen aus. Genauer gesagt wird dabei die Ranginformation nicht ausgeschopft. Deshalb gibt es einige Lage- und StreuungsmaBe speziell fUr ordinalskalierte Merkmale. Folgende MaBe fUr ordinalskalierte Variablen kann man auch mit Hilfe von SPSS berechnen: Median; Quantile und Quartile (Das Quantil zur Ordnung p = 0,5 (= 5. Perzentil) entspricht dem Median.); Quartilsabstand; kleinster vorkommender Wert; groBter vorkommender Wert. 4.1.3
Schiefe der Verteilung
Erste Informationen tiber die Schiefe der Verteilung erhalt man durch einen Blick auf die Haufigkeitsverteilung. Die oben genannten Lage- und StreuungsmaBe geben ebenfalls wichtige Informationen tiber die Schiefe der Verteilung. 4.1.4 Grafische Darstellung Auch ordinalskalierte Variablen lassen sich gut im Kreis- oder Balkendiagramm darstellen.
4.2
SPSS-Befehl
FUr ordinalskalierte Merkmale kann die Syntax der Prozedur FREQUENCIES folgendermaBen erweitert werden: FREQUENCIES VARIABLES = variablenliste [/BARCHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ (n)} {PERCENT (n)}]] [/PIECHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ}] [{MISSING}] ] {PERCENT} {NOMISSING} [/PERCENTILES = zahl, zahl, zahl, zahl] [/STATISTICS= MODE MEDIAN MINIMUM MAXIMUM] .
4.2.1 Unterbefehl PERCENTILES Mit dem Unterbefehl PERCENTILES kann man Quantile berechnen lassen. Man gibt nach dem Gleichheitszeichen die Quantile an, die berechnet werden sollen.
Nina Baur
224
4.2.2 Unterbefehl STATISTICS Mit dem Unterbefehl STATISTICS kann man Lage- und StreuungsmaBe fUr die Variable anfordem, namlichfiir ordinalskalierte Variablen den Modus (MODE), den Median (MEDIAN), den kleinst.en vorkommenden Wert (MINIMUM) und den groBten vorkommenden Wert (MAXIMUM).
4.3
Beispiel
Die Variable v30 enthalt die Information, wie wichtig den Befragten im allgemeinen Kontakte zu Bewohnem ihres Stadtviertels sind. Die Antwortkategorien sind ,,1" ("sehr wichtig"), ,,2" ("wichtig"), ,,3" ("einigermaBen wichtig"), ,,4" ("unwichtig"). und ,,5" ("ganz unwichtig"). Mit folgender Syntax fordert man die Haufigkeitstabelle, den Modus, den Median, den groBten und den kleinsten vorkommenden Wert fUr v30 an: FREQUENCIES VARIABLES =v30 /PERCENTILES= 5 10 25 50 75 90 95 /STATISTICS=MODE MEDIAN MINIMUM MAXIMUM /BARCHART PERCENT /PIECHART PERCENT.
4.3.1 Haufigkeitstabelle SPSS liefert folgende Haufigkeitstabelle (bei gewichtetem Datensatz): Wichtigkeit der allgemeinen Kontakte zu den Bewohnern des Stadtviertels Haufigkeit GO/tig
sehr wichtig wichtigeinigermaf3en wichtig unwichtig ganz unwichtig Gesamt
Feh/end Gesamt
System
90 193 186 97 15 581 7 588
Prozent
15,3 32,8 31,6 16,5 2,6 98,8 1,2 100,0
GO/tige Prozente 15,5
Kumulierte Prozente 15,5
33,2 32,0 16,7 2,6 100,0
48,7 80,7 97,4 100,0
Diese ist folgendermaBen zu interpretieren: 42 In der ersten Spalte ("Haufigkeit") sind die absoluten Haufigkeiten abgetragen. Insgesamt bezieht sich die Analyse auf 42
Wichtig: Die Variable ist fur sich genornrnen inhaltlich nicht sinnvoll interpretierbar, weil es sich urn eine relational interpretierbare Variable handelt. Deshalb dient die Betrachtung der univariaten Statistiken lediglich zur statistischen Charakterisierung der Variablen, urn ihre Eigenheiten in spateren Analysen zu kennen. Den Unterschied zwischen absoluter und relationaler Interpretierbarkeit der Daten erlautert z. B. Baur und Lamnek (2007).
Kapitel10: Univariate Statistik
225
588 Personen. 43 Von diesen haben 7 nicht geantwortet. Es bleiben also 581 ubrig. 90 Personen haben die Frage mit "sehr wichtig" (" 1"), 193 mit "wichtig" (,,2"), 186 mit "einigermaBen wichtig" (,,3"), 97 mit "unwichtig" (,,4") und 15 mit "ganz unwichtig" (,,5") beantwortet. In der zweiten und dritten Spalte ("Prozent" und "Gultige Prozente") sind die relativen Haufigkeiten abgetragen. Bei der zweiten Spalte werden die fehlenden Werte mit in die Berechnung der Anteilswerte mit einbezogen: 1,2 % der Befragten haben nicht geantwortet, 98,8 % der Befragten haben die Frage beantwortet. 15,3 % der Befragten haben die Frage mit "sehr wichtig" (,,1") beantwortet, 32,8 % mit "wichtig" (,,2") usw. In der dritten Spalte werden nur die gtiltigen Werte in die Berechnung der Anteilswerte mit einbezogen: 15,5 % der Befragten haben die Frage mit "sehr wichtig" (,,1 "), 33,2 % mit "wichtig" (,,2") usw. beantwortet. Welche der beiden Spalten Sie im Forschungsbericht verwenden, hangt yom Forschungsinteresse ab. In der vierten Spalte ("Kumulierte Prozente") werden die Haufigkeiten uber die gtiltigen Werte zusammengezahlt. Dies Spalte ist folgendermaBen zu interpretieren: 15,5 % der Befragten haben die Frage mit" 1" ("sehr wichtig") beantwortet, 100 % - 15,5 % = 84,5 % haben mit ,,2" ("wichtig") oder einem hoheren Wert (in diesem Fall ,,3", ,,4" oder ,,5") geantwortet. 48,7 % der Befragten haben die Frage mit ,,2" ("wichtig") oder einem niedrigeren Wert (in diesem Fall"1") beantwortet, 100 % 48,7 % = 51,3 % der Befragten haben mit ,,3" ("einigermaBen wichtig") oder einem hoheren Wert (in diesem Fall ,,4" oder ,,5") geantwortet usw. 44 4.3.2 Lage- und StreuungsmaBe: Fordert man fUr die Variable v40 mit dem Unterbefehl STATISTICS den Modus, den Median sowie den kleinsten und groBten vorkommenden Wert an, erhalt man folgende Tabelle:
43
44
Der ungewichtete Datensatz enthalt 493 FaIle, der gewichtete Datensatz 588. Hat man sich vor der Analyse mit den Daten vertraut gemacht, fallt also bereits beim Blick auf die FaIlzahl auf, ob der Datensatz gewichtet ist oder nicht. Ich habe hier den Datensatz gewichtet, urn genau dies erlautem zu konnen. Wiirde aber die Gewichtung auch Sinn machen, wenn Sie mit Hilfe der Daten ein soziologisches Argument unterstreichen wollten? Uberlegen Sie bzw. diskutieren Sie dies mit Ihren Kommilitonen. Uberlegen Sie auch bei allen iibrigen Beispielen in diesem Buch, ob die Ausgaben rur einen gewichteten oder ungewichteten Datensatz erstellt wurden und ob dies Sinn macht. Urn generelle Zweifel auszuraumen: teils ja, teils nein. Wie gesagt, wir haben dies bewusst gemacht, urn Ihnen das "Selbstdenken nicht zu ersparen". Wie bereits erwahnt, ist diese Spalte bei nominalskalierten Daten nicht interpretierbar und sollte deshalb bei diesem Skalenniveau fur den Endbericht geloscht werden. Bei ordinalskalierten und metrischen Daten kann sie dagegen beibehalten werden.
226
Nina Baur
Statistiken
N
GO/fig Fehlend
Median Modus Minimum Maximum
Perzentile
581 7 3,00 2
1 5 5
1,00
10
1,00
25
2,00
50
3,00
75
3,00
90
4,00
95
4,00
Das Quantil zur Ordnung p=0,5 (p=50%) entspricht dem Median.
Diese ist folgendennaBen zu interpretieren: Sieben Befragte beantworteten die Frage nicht. Der am haufigsten vorkommende Wert (= Modus) ist die ,;2", d. h. die meisten Befragten haben mit "wichtig" geantwortet. Der kleinste vorkommende Wert (= Minimum) ist die ,,1", der groBte vorkommende Wert (= Maximum) ist die ,,5", d. h. die Werteskala wurde voll ausgeschopft. Die Quantile sind in dieser Ausgabe folgendennaBen zu interpretieren: Mindestens 5 % der Befragten haben "sehr wichtig" ("1") angegeben. Mindestens 10 % der Befragten haben "sehr wichtig" (,,1") angegeben. Mindestens 25 % der Befragten haben "wichtig" (,;2") oder eine groBere Wichtigkeit (,,1") angegeben und mindestens 75 % der Befragten haben "wichtig" (,,2") oder eine geringere Wichtigkeit (,,3", ,,4" oder ,,5") angegeben usw. Der Median entspricht dem 5. Perzentil. Er liegt bei ,,3", d. h. mindestens 50 % der Befragten haben "einigennaBen wichtig" (,,3") oder eine groBere Wichtigkeit (" 1" oder ,;2") angegeben und mindestens 50 % der Befragten haben "einigennaBen wichtig" (,,3") oder eine geringere Wichtigkeit (,,4" oder ,,5") angegeben. Der Quartilsabstand Hisst sich aus den oben stehenden Infonnationen berechnen. Er ist das Intervall, in dem die mittleren 50 % der Befragten geantwortet haben und berechnet sich folgendermaBen: Quartilsabstand = (Quantil zur Ordnung p = 0,75) - (Quantil zur Ordnung p = 0,25)
1m Beispiel ist das obere Ende des Wertebereichs der Wert ,,3", der untere Wert des Wertebereichs der Wert ,,2". Mindestens 50 % der Werte liegen im Intervall [2;3]. Mindestens 50 % der Befragten haben also mit "wichtig" oder "einigermaBen wichtig" geantwortet.
Kapitel 10: Univariate Statistik
227
4.3.3 Schiefe der Verteilung
Aus den oben angeftihrten MaBen werden Infonnationen zur Schiefe der Verteilung ersichtlich: Es wurden alle moglichen Werte ausgeschopft, allerdings nicht gleichmaBig: Die mittleren Werte der Skala (,,2" und ,,3") sind gegenuber den Extremwerten ("1" und ,,5") deutlich uberreprasentiert. Die Befragten haben insbesondere eher mit niedrigen Werten geantwortet (,,1" bis ,,3"). Nur ein sehr geringer Teil der Befragten hat mit ,,5" geantwortet. Die Verteilung ist nicht so schie£: dass die Variable in dieser Fonn fUr die weitere Analyse wertlos ware. Man konnte sich aber Gedanken daruber machen, ob man die Kategorien ,,4" und ,,5" Zllsammenfasst, damit die Werte gleichmaBiger verteilt sind. Ob man dies will, hangt yom Erkenntnisinteresse ab: Bei manchen Analysen ist eine Gleichverteilung sinnvoll, bei anderen interessieren gerade diese extremen Werte.
5
Eindimensionale HAufigkeitsverteilung metrischer Merkmale
5.1
Analyseziele
5.1.1 Verteilung der Werte: Haufigkeitstabelle Bei den meisten metrischen Merkmalen ist die Haufigkeitstabelle aufgrund der zahlreichen Auspragungen unubersichtlich, weshalb man Charakteristika der Verteilung oft nicht sofort erkennt. Man sollte sich trotzdem auch bei metrischen Variablen zunachst die Haufigkeitsverteilung anschauen, weil sie wichtige Anhaltspunkte fUr Fehler gibt. Beispielsweise darf bei einer Variable "Lebensalter in Jahren" nicht der Wert ,,-33" in der Haufigkeitstabelle vorkommen. 5.1.2 Lage- und StreuungsmaBe fUr metrische Variablen Intervall- und Ratioskala sind hohere Skalenniveaus als die Nominal- und Ordinalskala. Deshalb kann man die Haufigkeitsverteilung von metrischen Merkmalen mit allen Lage- und StreuungsmaBen fUr nominal- und ordinalskalierte Merkmale charakterisieren. Allerdings schopft man dabei nicht alle Infonnationen aus. Die Abstandsinfonnation geht verloren, bei Ratioskalen Zllsatzlich die Infonnation, dass ein defmierter Nullpunkt existiert. Deshalb gibt es einige Lage- und StreuungsmaBe speziell fUr metrische Merkmale. Hier werden nur die MaBe genannt, die man mit Hilfe von SPSS auch berechnen kann: arithmetisches Mittel (= Mittelwert, Durchschnitt); Spannweite (= Differenz zwischen dem kleinsten und dem groBten vorkommenden Wert); Varianz (= mittlere quadratische Abweichung yom Mittelwert); Standardabweichung und Schiefe.
228
Nina Baur
5.1.3 Schiefe der Verteilung Informationen tiber die Schiefe der Verteilung erhalt man insbesondere tiber die oben genannten Lage- und StreuungsmaBe. AuBerdem kann man sich von SPSS die extremsten Werte einer Verteilung tabellarisch zusammenstellen lassen. Ziel ist es, AusreiBer zu identifizieren. AusreiBer sind vereinzelte extreme Werte, die die statistische Analyse verzerren. Wenn diese extremen Werte nicht nur sehr weit vom Mittelwert, sondem auch sehr weit von der Mehrzahl der tibrigen Werte entfemt sind, muss man sich tiberlegen, ob man diese Werte aus dem Datensatz entfemt oder sie beibehalt (dies hangt vom Forschungsziel und vom angewandten Verfahren ab). Die AusreiBer stellen dabei ein Dilemma dar: Die extremen Werte konnen untypisch, also AusreiBer sein, d. h. man hat zufallig eine Person befragt, die extreme Werte aufweist. Hat man beispielsweise Bill Gates befragt, verzerrt dieser natiirlich das aus dem Datensatz berechnete Durchschnittseinkommen. Es kann aber sein, dass diese extremen Werte der Realitat entsprechen und der Forscher selbst durch das Entfemen der Werte aus dem Datensatz die Stichprobe verzerrt. Fiihrt man z. B. eine Umfragetiber Rechtsextremismus durch, ist durchaus vorstellbar, dass in Deutschland der GroBteil der Bevolkerung eine gemaBigte Einstellung zu bestimmten Themen hat, aber wenige Einzelne sehr extreme Einstellungen haben. Wtirde man nun diese Personen aus dem Datensatz streichen, konnte man genau diese Extreme nicht mehr analysieren und wiirde so die Realitat verzerren. 5.1.4 Grafische Darstellung SPSS liefert eine ganze Reihe von GrafIken fliT metrische Merkmale, u. a. die folgenden drei: In einem Boxplot werden die Quartile sowie - in zwei Abstufungen - extreme Werte dargestellt. Das Histogramm fasst die Werte der Variablen zu Gruppen zusammen. Jede der sich ergebenden Gruppen wird dann in Form einer Saule dargestellt. In SPSS haben die Wertegruppen des Histogramms alle die gleiche Breite. Die Werte unter den Saulen geben den Gruppenmittelpunkt an. Das Stangel-Blatt-Diagramm (= Stem-and-Leaf-Diagramm) stellt die Werte von metrischen Variablen tibersichtlich dar, indem die Werte der Variablen zu Gruppen zusammengefasst und die Haufigkeiten der einzelnen Gruppen dargestellt werden. Die Haufigkeiten in den Gruppen werden durch Balken dargestellt, die aus den einzelnen Werten der Gruppen abgebildet sind. Mit einem Blick lasst sich so durch die Lange der Balken die grobe Verteilung der Werte erfassen, und bei einer genaueren Betrachtung ist es moglich, die ungefahren Werte innerhalb der Gruppe zu erkennen.
229
Kapitel 10: Univariate Statistik
5.2
SPSS-Befehll: Prozedur FREQUENCIES
FUr metrische Merkmale kann die Syntax der Prozedur FREQUENCIES abermals erweitert werden: FREQUENCIES VARIABLES = variablenliste [/BARCHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ (n)} {PERCENT (n)}]] [/PIECHART= [MINIMUM (n)] [MAXIMUM (n)] [{FREQ}] [{MISSING} ] {PERCENT} {NOMISSING} [/PERCENTILES zahl, zahl, zahl, zahl] [/STATISTICS= MODE MEDIAN MINIMUM MAXIMUM MEAN RANGE VARIANCE STDDEV SKEWNESS] .
5.2.1 Unterbefehl STATISTICS Mit dem Unterbefehl STATISTICS kann man fUr metrische Merkmale folgende Lage- und StreuungsmaBe anfordem: den Modus (MODE), den Median (MEDIAN), den kleinsten vorkommenden Wert (MINIMUM), den groBten vorkommenden Wert (MAXIMUM), das arithmetische Mittel (MEAN), die Spannweite (RANGE), die Varianz (VARIANCE), die Standardabweichung (STDDEV) und die Schiefe (SKEWNESS).
5.3
SPSS-BefehI2: Prozedur EXAMINE
Manche der oben beschriebenen Statistiken und GrafIken werden nicht tiber FREQUENCIES angefordert, sondem tiber die Prozedur EXAMINE: EXAMINE VARIABLES =
variablenliste [BY variablenliste] [/STATISTICS = EXTREME (10)] [/PLOT = BOXLPOT HISTOGRAM STEMLEAF] .
5.3.1 Unterbefehl BY VARIABLENLISTE Man kann durch den Zusatz BY VARIABLENLISTE die GrafIken und Statistiken fiir Subgruppen betrachten. Die abhangige Variable (also die, die betrachtet wird) steht dabei vor dem BY, die unabhangige Variable (also die, nach der aufgeteilt wird) nach dem BY. 5.3.2 Unterbefehl STATISTICS = EXTREME
(n)
Mit dem Unterbefehl STATISTICS = EXTREME (n) fordert man eine Tabelle der groBten und der kleinsten vorkommenden Werte an. Unter "n" gibt man die Zahl der Extremwerte an, die an jedem Ende der Verteilung angezeigt werden
230
Nina Baur
sollen. Gibt man beispielsweise ,,10" an, werden die zehn groBten und die zehn kleinsten Werte angezeigt. 5.3.3 Unterbefehl PLOT Mit dem Dnterbefehl PLOT fordert man verschiedene Graftken an. Dnter anderem kann man Boxplot-Diagramme (BOXPLOT), Histogramme (HISTOGRAM) und Stangel-Blatt-Diagramme (STEMLEAF) anfordem.
5.4
Beispiel
Die Variable v04 enthalt die Information,wie viele Erwachsene im Haushalt der befragten Person wohnen. Mit folgender Syntax fordert man die Haufigkeitstabelle, den Modus, den Median, den Mittelwert, den groBten und den kleinsten vorkommenden Wert, die Spannweite, die Varianz, die Standardabweichung, die Schiefe, die Quantile zur Ordnung 0,333 und 0,666, eine AusreiBerstatistik sowie ein Histogramm, ein Boxplot- und ein Stangel-Blatt-Diagramm fUr v04 an. 45 FREQUENCIES VARIABLES=v04 /PERCENTILES= 33.3, 66.6 /STATISTICS= MODE MEDIAN MINIMUM MAXIMUM MEAN RANGE VARIANCE STDDEV SKEWNESS. EXAMINE VARIABLES = v04 /STATISTICS = EXTREME (5) /PLOT = BOXLPOT HISTOGRAM STEMLEAF.
5.4.1 Haufigkeitstabelle SPSS liefert die Haufigkeitstabelle auf der folgenden Seite. Die Spalten sind genauso zu interpretieren, wie bei ordinalskalierten Variablen. Von 493 Befragten46 haben our 82 eine Antwort gegeben (dies liegt daran, dass die Frage nach der HaushaltsgroBe nur bei der Telefonumfrage gestellt wurde). Etwa die Halfte der Befragten wohnt mit einer anderen Person zusammen. Etwa ein Ftinftel der Befragten wohnt alleine, etwa ein Zehntel in einem Drei-Personenhaushalt usw.
45
46
Es steckt kein "hoherer Sinn" dahinter, warum gerade diese Diagramme angefordert wurden. Ob bestimmte Tabellen, Grafiken und MaBzahlen zweckmaBig sind, muss der Forscher von Fall zu Fall und in Abhangigkeit von seinem Erkenntnisinteresse entscheiden. Wurde der Datensatz gewichtet? 1st die gewahlte Vorgehensweise sinnvoll? Warum?
Kapitel 10: Univariate Statistik
231
Haushaltsgr6Be (zahl der Personen ab 18)
GOltig
Fehlend Gesamt
1 2 3 4 5 6 Gesamt System
Haufigkeit 18 47 8 5 3 1 82 411 493
Prozent 3,7 9,5 1,6 1,0 ,6 ,2 16,6 83,4 100,0
GOltige Prozente 22,0 57,3 9,8 6,1 3,7 1,2 100,0
Kumulierte Prozente 22,0 79,3 89,0 95,1 98,8 100,0
5.4.2 Lage- und StreuungsmaBe: Fordert man fUr die Variable v04 mit dem Unterbefehl STATISTICS der Prozedur FREQUENCIES, den Modus, den Median, den Mittelwert, den groBten und den kleinsten vorkommenden Wert, die Spannweite, die Varianz, die Standardabweichung, die Schiefe sowie die Quantile zur Ordnung 0,33 und 0,66 an, erhalt man folgende Tabelle: Statistiken
HaushaltsgroBe (Zahl der Personen ab 18) N GOltig Fehlend Mittelwert Median Modus Standardabweichung Varianz Schiefe Spannweite Minimum Maximum Perzentile 33,3 66,6
82 411 2,16 2,00 2 1,04 1,07 1,517 5 1 6 2,00 2,00
Diese ist folgendermaBen zu interpretieren: 82 Befragte beantworteten die Frage, 411 nicht (zum groBen Teil, wei! sie ihnen gar nicht gestellt wurde).Das arithmetische Mittel (Mittelwert) liegt bei 2,16 Personen, d. h. im Durchschnitt leben zwischen zwei und drei Personen zusammen. Der Median liegt bei 2, d. h. mindestens 50 % der Befragten wohnen mit hochstens einer anderen Person zusammen und mindestens 50 % der Befragten wohnen mit mindestens einer anderen Person zusammen. Auch der Modus liegt bei 2, d. h. am haufigsten kommen Zwei-Personenhaushalte vor.
232
Nina Baur
Der kleinste in der Befragung vorkommende Haushalt (Minimum) bestand nur aus einer Person --: dem Befragten. Der groBte in der Befragung vorkommende Haushalt (Maximum) bestand aus 6 Personen. Die Spannweite betragt als 5 Personen. Mindestens ein Drittel der Befragten (perzentil zur Ordnung 0,33) wohnt mit hochstens einer anderen Person zusammen und mindestens zwei Drittel der Befragten wohnen mit mindestens einer anderen Person zusammen. Mindestens zwei Drittel der Befragten (perzentil zur Ordnung 0,66) wohnen mit hochstens zwei anderen Personen zusammen und mindestens ein Drittel der Befragten wohnen mit mindestens zwei anderen Personen zusammen. Die Varianz liegt bei 1,07, die Standardabweichung bei 1,04, die Streuung ist also relativ gering. 1m Mittel weicht die HaushaltsgroBe von der durchschnittlichen HaushaltsgroBe um eine Person abo Die Schiefe der Verteilung liegt bei + 1,517. Wenn die Haufigkeitsverteilung symmetrisch ist, ist die Schiefe 0. Wenn die Schiefe (wie in diesem Beispiel) groBer als ist, ist die Verteilung rechtsschief: d. h. die einzelnen Werte, die hoher als der Mittelwert sind, kommen seltener vor, als die, die niedriger sind als der Mittelwert. Dies bedeutet, dass 1- und 2-Personenhaushalte (= Werte kleiner als der Mittelwert) jeweils haufiger sind als Haushalte, die mehr als 2 Personen umfassen (= Werte groBer als der Mittelwert). Gleichzeitig bedeutet dies, dass es weniger Werte gibt, die kleiner sind als der Mittelwert, als es Werte gibt, die groBer sind als der Mittelwert. D. h. unterhalb des Mittelwertes gibt es in diesem Beispiel nur 1- und 2-Personenhaushalte, oberhalb des Mittelwertes gibt es 3-, 4-, 5- und 6-Personenhaushalte.
°
5.4.3 Schiefe der Verteilung Aus den oben angefiihrten MaBen werden Informationen zur Schiefe der Verteilung ersichtlich: Es wurden nicht aIle moglichen Werte ausgeschopft: HaushaltsgroBen von mehr als 6 Personen sind durchaus denkbar. AuBerdem ist die Verteilung schief (siehe oben). Die Verteilung ist nicht so schief, dass die Variable in dieser Form fUr die weitere Analyse wertlos ware. Man konnte sich aber Gedanken daruber machen, ob man die Kategorien ,,5" und ,,6" zusammenfasst, damit diese Kategorie auch etwas starker besetit ist. Man konnte auch kleine Haushalte (1- und 2-Personenhaushalte) und groBere Haushalte (mehr als 2 Personen) zusammenfassen. Wie bereits erwahnt, hangt dies jedoch yom Erkenntnisinteresse ab: Bei manchen "Analysen ist eine gleichmaBige Verteilung sinnvoll, bei anderen interessieren gerade diese extremen Werte. 5.4.4 Statistiken und GrafIken, die tiber EXAMINE angefordert wurden FUr aIle Statistiken und GrafIken, die tiber die Prozedur EXAMINE angefordert wurden, gibt SPSS zunachst einmal eine Oberblicks-Statistik aus:
233
Kapitel 10: Univariate Statistik
Verarbeitete FIlie
N HaushaltsgroBe (Zahl der Personen ab 18)
Faile Fehlend N Prozent
GGltig Prozent
I
82
I
I
16,6%
411
I
83,4%
N
Gesamt Prozent
I
I
49.3
100,00/0
Dies ist folgendennaBen zu interpretieren: Von 493 Befragten beantworteten 17 % (82 Befragte) die Frage. Den ubrigen 83 % (411 Befragte) wurde die Frage entweder nicht gestellt, oder sie beantworteten sie nicht. 5.4.5 Extremwerte Angefordert wm;den die fiinf groBten und die fiinf kleinsten Werte. SPSS gibt folgende Tabelle aus: In dieser Spalte stehen die FaIle, die die groBten und kleinsten Auspragungen im Datensatz aufweisen.
I
In dieser Spalte stehen die Ausprllgungen dieser extremen FaIle.
Enre~ HaushaltsgraBe (Zahl der Personen ab 18)
GraBte Werte
Kleinste Werte
1 2 3 4 5 1 2 3 4 5
Fallnummer 190 145 370 318 187 67 342 209 344 353
I
j Wert 6 5 5 5 a
1 1 1 1 b
a. Nur eine partielle Liste von Fallen mit dem Wert 4 wird in der Tabelle der oberen Extremwerte angezeigt. b. Nur eine partielle Liste von Fallen mit dem Wert 1 wird in der Tabelle der unteren Extremwerte angezeigt.
Diese ist folgendennaBen zu interpretieren: Nur eine einzige Person lebt in einem 6-Personen-Haushalt. Dies ist der Befragte, der an der 190. Stelle. im Datensatz steht. 47 In einem solchen Fall- wenn der Extremwert nur ein einziges Mal vor47
Vorsicht! Dies ist nicht der 190. Befragte! Wenn man in die 190. Zeile im Datensatz geht, stellt man fest, dass dies der Befragte mit der Fragebogen-Nr. 142 war.
234
Nina Baur
kommt - kann man sich uberlegen, ob es sinnvoll ist, den Fall fUr aIle Analysen bemglich dieser einen Variablen zu streichen. In diesem spezifischen Fall, also , bei der Variable HaushaltsgroBe, scheint dies jedoch nicht sinnvoll: 6-PersonenHaushalte sind nicht nur vorstellbar, sondem es ist sogar anzunehmen, dass es weitaus groBere Haushalte gibt, diese jedoch nicht befragt wurden. AuBerdem kommen eine ganze Reihe yon 1- und 4-Personen-Haushalte yore Wie den FuBnoten a. und b. zu entnehmen ist, kommen im Datensatz aber mehr als der eine angezeigte 4-Personen-Haushalt und mehr als die fiinf angezeigten 1-Personen-Haushalte yore 5.4.6 Histogramm Man sieht sofort, dass bei weitem die meisten Befragten in 2-PersonenHaushalten leben.
AufderyAchse sind die absoluten Haufigkeiten abgetragen, d. h. die Zahl der Befragten, die in einem Haushalt dieser GroBe wohnen.
Histogramm
,'1
50,.---------~~~-,,.J ••••••• Die Verteilung ist extrem schief: Ein einziger Wert kommt 40 sehr oft vor (2Personen-Haushalte). AuBerdem kommen 30 kleine HaushaltsgroBen sehr viel ofters vor als groBe.
20
~
10
Std.abw. = 1,04
0>
~
Mittel =2,2 \
::::s
:(tJ
:r:
~~m:::::l'l4ZE:zj N
0 1,0
2,0
3,0
4,0
5,0
~ ~ HaushaltsgroBe (Zahl der Personen ab SPSS teilt die Werte in gleich groBe Gruppen (= Klassen) ein (in diesem Fall besteht jede Gruppe aus einem Wert). Auf der x-Achse sind die Klassenmitten abgetragen.
=82,00
6,0
18)
r---D-i-e-G-ra-fi-Ik-b-e-zi-eh-t-s-ic-h-a-uf---' die Antworten von N = 82 Befragten. Der Mittelwert liegt bei 2,2, die Standardabweichung bei 1,04.
Kapitel 10: Univariate Statistik
235
5.4.7 Boxplot (bei gewichtetem Datensatz) Die dunnen Querstriche ober- und unterhalb der Boxen geben den groBten bzw. kleinsten Gruppenwert an, der nicht als AusreiBer oder extremer Wert bezeichnet wird. AusreiBer bzw. extreme Werte sind dadurch gekennzeichnet, dass sie urn mehr als die 1,5fache Lange der grauen Box (mit den mittleren 50 % der Werten) uber- oder unterhalb der Box liegen. Unterschieden wird dabei noch zwischen "AusreiBern" und "extremen Werten". Vorsicht! Hier wird nach rein formalen Kriterien bestimmt, welche Falle als AusreiBer gekennzeichnet sind. Dies hat nichts damit zu tun, ob es sich inhaltlich tatsachlich urn AusreiBer handelt - dies zu entscheiden. ist Auf!!abe des Forschers.
Auf der y-Achse sind die einzelnen Werte abgetragen, die bei der Variable im Datensatz vorkommen
Die Grafik bezieht sich auf N= 177 Falle.
Der Datensatz ist gewichtet.
2
Haushaltsarol1e
"Extreme Werte" liegen urn mehr als 3 BoxenHingen tiber dem 75 %-Perzentil bzw. unter dem 25 %Perzentil. Sie werden in der Grafik durch ein Stemchen gekennzeichnet. Sofem dies platztechnisch moglich ist, wird neben dem Stemchen die Fallnummer angegeben. In diesem Beispiel gibt es einen extremen Wert: Der Befragte, der an 190. Stelle im Datensatz steht, wohnt in einem 6-PersonenHaushalt.
,,AusreiBer" liegen zwischen 1,5 und 3 Boxenlangen tiber dem 75 %-Perzentil bzw. unter dem 25 %Perzentil. Sie werden in der Grafik durch einen kleinen Kreis dargestellt. Sofem dies platztechnisch moglich ist, wird neben dem Kreis die Fallnummer angegeben. Da es in diesem Beispiel mehrere Befragte gibt, die in 5-Personenhaushalten wohnen, wurden die Fallnummem in der Grafik tibereinander geschrieben, sodass man sie leider nicht lesen kann.
Die obere Grenze des eingefarbten Kastens kennzeichnet das 75 %-Perzentil, die untere Grenze das 25 %-Perzentil. Innerhalb des durch den grauen Kasten gekennzeichneten Wertebereichs liegen also 50 % der Werte. In diesem Fall wohnen also mindestens 50 % der Befragten in einem 2- oder 3-Personenhaushalt. Der Median liegt zwischen 2 und 3 - bei einem groBeren Wertebereich wird er durch eine schwarze Linie gekennzeichnet.
236
Nina Baur
5.4.8 SUingel-Blatt-Diagramm (bei gewichtetem Datensatz) In der ersten Spalte ("Frequency") werden die absoluten Haufigkeiten der Gruppen angegeben. 18 FaIle haben einen Wert von 1 bis unter 2 - 94 FaIle haben einen Wert von 2 bis unter 3 - 24 FaIle haben einen Wert von 3 bis unter 4 - 20 FaIle haben einen Wert von 4 bis unter 5 - 21 FaIle haben ,,Extremwerte", d. h. Werte von 5 oder mehr ~
Die zweite Spalte (= "Stangel" / "Stamm" / "Stem") und die dritte Spalte (= "Blatt" / "Leaf') des Diagramms geben zusammen die Werte innerhalb der einzelnen Gruooen wieder. Der Stangel (2. Spalte) gibt den ganzzahligen Wert der Zahl wieder. In den Zeilen mit dem Stangel 1 werden also z. B. die Werte von 1,0 bis 1,9 wiedergegeben (bei der HaushaltsgroBe konnen natilrlich nur ganze Zahlen vorkommen, aber bei anderen Variablen ist das nicht unbedinQ:t so). ~
~
'HaUShaltSgrOBe (Zahl Frequency
Stem
18,00 1 ,00 1 ,00 1 ,00 1 ,00 1 94,00 2 ,00 2 ,00 2 ,00 2 ,00 2 24,00 3 ,00 3 ,00 3 ,00 3 ,00 3 20,00 4 21,00 Extremes
&
der~8) Stem-and-Leaf Leaf 000000000
Plot
Das Blatt (3. Spalte) gibt die DezimalsteIlen dieser Werte ' " wieder. Ftir den Wert ,,1,0" wird also in der 2. Spalte der Stangel ,,1" und in der 3. Spalte die Ziffer ,,0" eingefiigt.
00000000000000000000000000000000000000000000000
000000000000
Unten wird die Zahl der extremen Werte angegeben: In diesem Beispiel gibt es 21 extreme Werte, die aIle einen Wert tiber 4 Personen oro Haushalt einnehmen.
0000000000 (>=5,0)
Stem width: 1 Each l e a ~ 2 case(s) Jeder der Werte in der 3. Spalte reprasentiert dabei nicht nur einen, sondem mehrere Werte. Wie viele dies genau sind, wird unter dem Diagramm mit dem Hinweis: ,,Each Leaf: n cases" angegeben. In diesem Fall reprasentiert also jeder Wert im Blatt zwei FaIle im Datensatz. Der Wert ,,1,0" kommt also z. B. 9 x 2 = 18 Mal vor. Blatter, die weniQ:erFalle reorasentieren. werden durch folQ:endes Zeichen markiert: &
Der Faktor, mit dem die Werte des Diagramms multipliziert werden miissen, urn die Variablenwerte zu "erhalten, wird unter dem Diagramm mit dem Kommentar "Stem width" angegeben. Wenn man also in diesem Beispiel den Wert ,,1,0" mit 1 multipliziert, erhaIt man den Wert, den ,,1,0" im Datensatz reprasentiert, namIich eine HaushaltsgroBe von 1 Person.
Kapitel 10: Univariate Statistik
237
Weiterfuhrende Literatur Behnke et. al. (2006) erlautem die Begriffe "Homomorphie". Baur und Lamnek (2007) erlautem die Unterschiede zwischen verschiedenen Variablentypen und die Bedeutung dieser Unterscheidungskriterien fUr die Auswertung. Gigerenzer (1999) beschreibt, was passiert, wenn man mechanisch mit Statistik umgeht, ohne sie wirklich verstanden zu haben. Wie man die im Text genannten MaBzahlen berechnet und interpretiert, wird in jeder Statistik-EinfUhrungerlautert, z. B. in Behnke und Behnke (2006), Benninghaus (2005), Jann (2002). Angele (2007) sowie Wittenberg und Cramer (2003) geben zusatzliche Hinweise zu den Syntax-Befehlen. Jacoby (1998) und Kramer (2001) beschreiben verschiedene Moglichkeiten der grafischen Darstellung von Daten. Die Kapitel 6 und 7 beschreiben, worauf man hierbei achten muss. Wie man gute Grafiken und Tabellen erstellt, beschreiben Haalandu. a. (1996) sowie Tufte (1990, 2000). Angele, German (2007): SPSS 14 fUr Windows. Eine EinfUhrung. Bamberg: Schriftenreihe des Rechenzentrums der Otto-Friedrich-Universitat Bamberg. http://www.uni-bamberg.de/service_ einrichtungen/urzJnetze/spss/. Kapitel "Prozeduren in SPSS - Teil I" sowie "Grafik in SPSS fUr Windows" Baur, Nina / Lamnek, Siegfried (2007): Variables. In: Ritzer, George (Hg.): The Blackwell Encyclopedia of Sociology. Blackwell Publishing Ltd. S. 3120-3123 Behnke, Joachim / Behnke, Nathalie / Baur, Nina (2006): Empirische Methoden der Politikwissenschaft. Paderbom: Ferdinand Schoningh Behnke, Joachim / Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine EinfUhrung fUr Politikwissenschaftler. Wiesbaden: VS-Verlag Benninghaus, Hans (2005): Deskriptive Statistik. Eine EinfUhrung fUr Sozialwissenschaftler. Wiesbaden: VS-Verlag. S. 29-65 Gigerenzer, Gerd (1999): Uber den mechanischen Umgang mit statistischen Methoden. In: Roth, Erwin / Holling, Heinz (Hg.) (1999): Sozialwissenschaftliche Methoden. Lehr- und Handbuch fUr Forschung und Praxis. 5.Auflage. Munchen / Wien: R. Oldenbourg. S. 607-618 Haaland, Jan-Aage / Jorner, Ulf / Persson, Rolf / Wallgren, Anders / Wallgren, Anders (1996): Graphing Statistics & Data. Creating Better Charts. Thousand Oaks / London / New Delhi: Sage Kramer, Walter (2001): Statistik verstehen. Eine Gebrauchsanweisung. Munchen / Zurich: Piper Jacoby, William G. (1998): Statistical Graphics fpr Visualizing Univariate and Bivariate Data. Thousand Oaks / London / New Delhi: Sage Jann, Ben (2002): EinfUhrung in die Statistik. Munchen / Wien: Oldenbourg 19-58 Schulze, Gerhard (2002a): EinfUhrung in die Methoden der empirischen Sozialforschung. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 1. Kapitel "Univariate Verteilungen" Tufte, Edward R. (1990): Envisioning Information. Cheshire (CT): Graphics Press Tufte, Edward R. (2001): The Visual Display ofQuantitative Information. Cheshire (CT): Graphics Press Wittenberg / Cramer (2003): Datenanalyse mit SPSS fUr Windows. Stuttgart: Lucius & Lucius. (Insbesondere folgende Kapitel: Datenprufung und Datenbereinigung: DESCRI PTIVES, FREQUENCIES, LIST; Univariate deskriptive und konfirmatorische Datenanalyse: FREQUENCIES, DESCRIPTIVES)
Kapitelll KreuztabeUen ond Kontingenzanalyse Leila Akremi und Nina Baur
1
Ziel des Verfahrens
Ziel der Kreuztabellierung und Kontingenzanalyse ist es, Zusammenhange zwischen zwei nominalen Variablen zu entdecken. Des Weiteren konnen Zusammenhange zwischen ordinalskalierten und metrischen Variablen oder zwischen Variablen mit verschiedenen Skalenniveaus untersucht werden. Voraussetzung ist, dass die Zahl der Auspragungen nicht zu groB ist. Die Kreuztabellierung dient dazu, Ergebnisse einer Erhebung tabellarisch darzustellen und auf diese Art und Weise einen moglichen Zusammenhang zwischen Variablen zu erkennen. Das Erkenntnisinteresse bei der Analyse von Kreuztabellen ist fast immer kausalanalytisch.
2
Voraussetzungen
Kontingenzanalysen haben den Vorteil, relativ voraussetzungsarm zu sein: Sie lassen sich fUr Variablen aller Skalenniveaus durchfiihren. Diese miissen allerdings iiberschaubar viele Auspragungen aufweisen. 48 FUr einzelne statistische MaBzahlen kommen zusatzliche Anwendungsvoraussetzungen hinzu. Die Variablen miissen nach inhaltlichen Gesichtspunkten ausgewahlt werdensonst entdeckt man vielleicht Zusammenhange, die keinen Sinn machen. Auch die Auspragungen der Variablen miissen nach inhaltlichen Gesichtspunkten ausgewahlt werden, da die meisten ZusammenhangsmaBe auf die ZOOI der Auspragungen reagieren: Man kann also die Starke von ZusammenhangsmaBen verandem, indem man die Zahl der Auspragungen z. B. durch Zusammenfassen verandert. Man sollte deshalb nicht Gruppen zu einer neuen Gruppe zusammenfassen, nur damit man die Anwendungsvoraussetzungen fUr eine statistische MaBzahl erfiilIt. 48
Insbesondere metrische Merkmale haben haufig so viele Auspragungen, dass die Kreuztabelle unubersichtlich wilrde. Aus diesem Grund wendet man Kontingenzanalysen meist nur bei nominal- und ordinalskalierten Variablen an. Fur metrische Variablen dagegen ist die Regressionsanalyse meist besser geeignet (vgl. Kapitel 15 in diesem Band), da bei der Klassierung ZusammenhangsmaBe durch die Wahl der Klassengrenzen manipuliert werden konnen.
240
3
Leila Akremi unct Nina Baur
Grundsatzliches Vorgehen
Grob Hisst sich die Kontingenzanalyse in sechs Arbeitsschritte unterteilen, tiber die wir im Folgenden einen kurten Oberblick geben und dann im Einzelnen am Beispiel des Datensatzes des soziologischen Forschungspraktikums 2000/2001 beschreiben: 4) Explorative Vorarbeiten 5) Berechnung und Analyse der Kreuztabelle 6) Verdichtung der Kreuztabelle auf ZusammenhangsmaBe 7) Verallgemeinerung auf die Grundgesamtheit 8) Kontrolle von Drittvariablen 9) Einbettung der Ergebnisse in den theoretischen Zusammenhang
3.1
Explorative Vorarbeiten
Zunachst bereinigt man die Daten (vgl. KapiteI 1 bis 3) und untersucht die Haufigkeitsverteilung der einzelnen Variablen auf Auffalligkeiten (vgl. Kapitel1). Eventuell klassiert ,man die Variablen bzw. fasst einzelne Auspragungen zu Klassen zusammen (vgl. KapiteI 4).
3.2
Berechnung und Analyse der Kreuztabelle
Der erste Schritt der Kontingenzanalyse besteht immer darin, die Kreuztabelle zu berechnen und zu analysieren, d. h. man schaut sich die Werte in der Kreuztabelle an und sucht nach auffalligen Mustem. Fragen, die man dabei stellt, sind beispielsweise: Sind Zusammenhange zu erkennen? Welcher Art sind die Zusammenhange? Wie stark sind die Zusammenhange? Wie sind die Zusammenhange zu interpretieren? Vermutet man einen kausalanalytischen, einen dimensionsanalytischen, einen typologischen Zusammengang?49 Wie man hierbei vorgeht, beschreiben wir in Abschnitt 4 naber.
3.3
Verdichtung der Kreuztabelle auJZusammenhangsmaj3e
Glaubt man eine bestimmte Form des Zusammenhangs in der Kreuztabelle zu entdecken, stellt sich die Frage, wie stark der Zusammenhang dann ist und in welche Richtung er geht. Urn diesen Zusammenhang dazustellen, werden statistische MaBzahlen verwendet, die die in der Kreuztabelle enthaltenen Informationen zusammenfassen. Wie man diese MaBzahlen berechnet und interpretiert, behandeln wir in Abschnitt 5. 49
Zu den verschiedenen Fonnen des Zusammenhangs vgl. z. B. Schulze (2002a).
Kapitel 11: Kreuztabellen und Kontingenzanalyse
3.4
241
Verallgemeinerung aufdie Grundgesamtheit
Bislang hat man nur die Zusammenhange der Variablen im Datensatz - also in der Stichprobe - untersucht. 1m nachsten Schritt will man wiss~n, ob die Ergebnisse auch fUr die Grundgesamtheit gelten. Liegt eine Zufallsstichprobe vor, kann man hierzu auf die Inferenzstatistik zuruckgreifen. Diese thematisieren wir in Abschnitt 6.
3.5
Kontrolle von Drittvariablen
Liegen Zusammenhange zwischen zwei Variablen vor, sollte man Uberlegen, ob diese moglicherweise durch weitere Variablen verursacht werden, so genannte Drittvariablen. Wie man die Auswirkung von Drittvariablen abschatzt und kontrolliert, bespricht Nina Baur in Kapitel 13 dieses Buches~
3.6
Einbettung der Ergebnisse in den theoretischen Zusammenhang
Die letzten Fragen konnen nur theoretisch beantwortet werden (vgl. merzu auch die Bemerkungen in der Einleitung dieses Buches): 1st dieses Ergebnis Uberhaupt interessant fiir mein Forschungsprojekt? 1st es plausibel? Bestatigt es meine Erwartungen? Widerspricht es ihnen? Welche SchlUsse lassen sich aus diesem Ergebnis ziehen?
4
Schritt 1: Explorative Vorarbeiten (Berechnung und Analyse von Kreuztabellen)
4.1
Typen von Kreuztabellen
In Kreuztabellen wird optisch dargestellt, welche Antwortkombinationen Befragte gegeben haben. Welche Informationen eine Kreuztabelle enthalten sollte, stellt die Grafik auf der nachsten Seite dar (siehe hierzu auch Kapitel5 in diesem Band).50 4.1.1 Assoziationstabelle / Kontingenztabelle mit absoluten Haufigkeiten Diese Tabelle ist eine Kontingenztabelle mit absoluten Haufigkeiten. Injede Zelle wird geschrieben, wie viele der Befragten eine bestimmte Antwortkombination gegeben haben. Beispiel: Man untersucht den Zusammenhang zwischen der Hau-
50
Der Datensatz ist rur aIle Beispiele in diesem Kapitel gewichtet. In Kapitel 10 hat Nina Baur die Gewichtungsproblematik angesprochen. 1m Anschluss an diese Uberlegungen soUte man an dieser Stelle iiberlegen, ob eine Gewichtung in den einzelnen Beispielen in diesem Kapitel Sinn macht.
242
Leila Akremi und Nina Baur
figkeit der Benutzung des Autos und der Haufigkeit der Benutzung offentlicher Verkehrsmittel. Wie viele Befragte fahren gleichzeitig oft mit dem Auto und oft mit offentlichen Verkehrmitteln? Oberschrijt: Welche Variablen wurden untersucht?
Art der Kreuztabelle: Es gibt verschiedene Arten von KreuztabeIlen, die sich darin unterscheiden, welche Informationen in die Zellen geschrieben werden (s. u.). In diesem Fall handelt es sich urn absolute Haufigkeiten, d. h. die Anzahl der Befragten, die eine bestimmte Antwort gegeben haben.
\
Zeilen- und Spalteniiberschriften.
Zusammenhang zwischen der Hlufigkeit der Benutzung des Autos und der Hlufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln Anzahl
Haufigkeit der Benutzung des Autos Gesamt
Beschriftung der der Variablen
Zellenbesetzung: In den mittleren Zellen steht, wie oft einzelne Auspragungskombinationen vorkommen. Z. B. fahren 144 Befragte "oft" mit dem Auto und "selten" mit offentlichen Verkehrsmitteln.
Haufigkeit der Benutzung von offentlichen Verkehrsmitteln oft gelegentlich selten / nie 12 84 144 52 18 24 125 56 64 189 158 232
240
94 245
579
Fallzahl: Auf wie viele FaIle bezieht sich die Tabelle? Der Datensatz ist gewichtet- macht dies in diesem Fall Sinn?
Randverteilungen: In der untersten Zeile steht die Haufigkeitsverteilung der Spaltenvariable, d. h. in diesem Fall die Haufigkeitsverteilung der Variablen ,,Haufigkeit der Benutzung offentlicher Verkehrsmittel". 189 Befragte benutzen diese oft, 158 gelegentlich und 232 nie. In der rechten Spalte steht die Haufigkeitsverteilung der Zeilenvariable, d. h.. in diesem Fall die Haufigkeitsverteilung der Variablen "Haufigkeit der Benutzung des Autos". Diese Informationen wiirden Sie auch erhalten, wenn Sie mit "FREQUENCIES" die Haufigkeitsverteilung der beiden Variablen anfordem wiirden.
4.1.2 Assoziationstabelle / Kontingenztabelle mit relativen Haufigkeiten Neben dieser Form der Assoziationstabelle existieren noch weitere Arten von Kreuztabellen, z. B. die Kontingenztabelle mit relativen Haufigkeiten. Hier ~ird in jede Zelle geschrieben, welcher Anteil der Befragten eine bestimmte Antwortkombination gegeben haben. Beispiel: Wie viel Prozent der Befragten fahren gleichzeitig oft mit dem Auto und oft mit.offentlichen Verkehrmitteln?
Kapitel 11: Kreuztabellen und Kontingenzanalyse
243
4.1.3 Assoziationstabelle / Kontingenztabelle mit bedingten relativen Haufigkeiten der Spaltenvariable bemglich der Zeilenvariable Man geht davon aus, dass die Zeilenvariable die unabhangige Variable ist und die Spaltenvariable die abhangige Variable. Man teilt also die Befragten in Untergruppen gemaB der Antwort, die diese auf die Zeilenvariable gegeben haben und untersucht, welche Antworten innerhalb dieser Untergruppen auf die Spaltenvariable gegeben wurden. Die Zahl der FaIle in jeder Zelle wird deshalb ausgedrtickt als Anteil an allen Fallen der jeweiligen Zeile. Beispiel: Zeilenvariable ist die Haufigkeit der Benutzung des Autos, Spaltenvariable die Haufigkeit der Benutzung offentlicher Verkehrsmittel. Man unterteilt die Befragten in drei Gruppen: diejenigen, die oft Auto fahren; diejenigen, die gelegentlich Auto fahren; und diejenigen, die selten oder nie Auto fahreno Welcher Anteil der Befragten, die oft Auto fahren, fcihrt wie oft mit offentlichen Verkehrsmitteln? Unterscheidet sich diese Verteilung von den gelegentlichen oder seltenen Autofahrem? 4.1.4 Assoziationstabelle / Kontingenztabelle mit bedingten relativen Haufigkeiten der Zeilenvariable bemglich der Spaltenvariable Man geht davon aus, dass die Spaltenvariable die unabhangige Variable ist und die Zeilenvariable die abhangige Variable. Die Zahl der FaIle in jeder Zelle wird deshalb ausgedrUckt als Anteil an allen Fallen der jeweiligen Spalte. Beispiel: Zeilenvariable ist die Haufigkeit der Benutzung des Autos. Spaltenvariable ist die Haufigkeit der Benutzung offentlicher Verkehrsmittel. Man unterteilt die Befragten in drei Gruppen: diej enigen, die oft mit offentlichen Verkehrsmitteln fahren; diejenigen, die gelegentlich mit offentlichen Verkehrsmitteln fahren; und diejenigen, die selten oder nie mit offentlichen Verkehrsmitteln fahren. Welcher Anteil der Befragten, die oft mit offentlichen Verkehrsmitteln fahren, fcihrt wie oft mit dem Auto?Unterscheidet sich diese Verteilung von den gelegentlichen oder seltenen Benutzem offentlicher Verkehrsmittel? 4.1.5 Vergleich erwarteter und tatsachlicher Werte Man tragt injede Zelle der Tabelle die erwarteten Werte ein, d. h. man tragt ein, wie haufig diese Antwortkategorie vorkommen mllsste, wenn kein Zusammenhang zwischen den beiden Variablen besmnde. Die erwarteten Werte in jeder Zelle hangen von der Randverteilung und der Gesamtzahl der Faile abo FUr das Beispiel oben wnrde der erwartete Wert fUr die erste Zelle (Personen, die beide Verkehrsmittel oft benutzen) folgendermaBen berechnet werden:
244
Leila Akremi und Nina Baur
n
(Zahl der Be(Zahl der Befragten, die fragten, die oft * oft offentliche Ver240 *189 Autofahren) kehrsmittel benutzen) 579 (Gesamtzahl der Befragten)
= 78 3
Tragt man diese Informationen in eine Kreuztabelle ein, erhalt man die Unabhangigkeitstabelle (= Indifferenztabelle, Indifferenzmatrix). Sie enthalt diejenige theoretische zweidimensionale Haufigkeitsverteilung, die vorlage, wenn die Variablen nicht zusammeTIhangen. Diese kann man nun mit der empirischen zweidimensionalen Haufigkeitsverteilung vergleichen - also mit den Werten, die im Datensatz tatsachlich auftreten. Man tragt als nachstes in jede Zelle die im Datensatz tatsachlich vorkommenden Werte ein, also die absoluten Haufigkeiten. 1m Beispiel ist der tatsachlich vorkommende Wert die 12. Man berechnet schlieBlich die Residuen, also die Differenz zwischen erwarteten und tatsachlich vorkommenden Werten. Beispiel: Residuum = tatsachlich vorkommender Wert - erwarteter Wert = 12 - 78,3 = -66,3, d. h. Es haben 66,3 Befragte weniger diese Antwort gegeben als erwartet wurde. Die Analyse der Residuen gibt Anhaltspunkte, ob ein statistischer Zusammenhang besteht und welcher Art dieser ist. Je groBer die Residuen im Verhaltnis zur Gesamtzahl der Befragten sind, desto groBer ist der Zusammenhang. Manchmal ist eine Abweichung nur in einzelnen Zellen besonders groB, manchmal sind diese Abweichungen in der gesamten Tabelle sehr groB. Man muss dabei beachten, dass die tatsachlich vorkommenden Haufigkeiten in Stichproben fast immer von den erwarteten Haufigkeiten abweichen, auch wenn die Variablen statistisch unabhangig sind. Das liegt daran, dass die Stichprobenverteilung durch zufallige Einfltisse fast immer von der theoretischen Verteilung abweicht. Man geht erst davon aus, dass ein Zusammenhang zwischen den Variablen besteht, wenn die Abweichungen von der Unabhangigkeitstabelle sehr groB sind. 51 Nehmen die Abweichungen von der Unabhangigkeitstabelle ein bestimmtes AusmaB an, nimmt man an, dass sie nicht mehr auf zufallige Schwankungen zurtickzufiihren sind - wobei man sich bei dieser Annahme auch irren kann. Mit welcher Wahr51
Was aber ist eine "groBe" Abweichung? Hier zeigt sich ein typisches Problem quantitativer Sozialforschung: Was als "groBe" Abweichung zu bezeichnen ist, liegt ein Stack weit im Ermessen des Forschers. Das heiBt aber nicht, dass die Interpretation von ZusammenhangsmaBen vollig willkurlich ist: 1m Laufe'der Jahre sammelt man Erfahrungswerte, was in einem bestimmten Bereich eine groBe Abweichung ist. Aus diesen Erfahrungswerten haben sich haufig Konventionen herausgebildet, d. h. bestimmte Abweichungen gelten in der Wissensgemeinschaft als akzeptiert. Damit ist das Problem aber nur yom Einzelnen auf die Wissenschaftsgemeinschaft verlagert. Deshalb ist es auch Aufgabe jedes Einzelnen, immer wieder zu hinterfragen, ob diese Konventionen im konkreten Fall (noch) Sinn machen.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
245
scheinlichkeit man sich in so einem Fall irrt, Hisst sich mit Hilfe der schlieBenden Statistik berechnen (vgl. Abschnitt 6).
4.2
SPSS-Befehlfur Kreuztabellen
Kreuztabellen werden in SPSS tiber die Prozedur CROSSTABS angefordert.. Die Syntax dieser Prozedur sieht folgendermaBen aus: CROSSTABS
variablenliste BY variablenliste [/variablenliste BY variablenliste] [/variable {TO variable} BY variable {TO variable}] [/MISSING= {TABLE} {INCLUDE}] [/CELLS= {COUNT} {ROW} {COLUM} {TOTAL} {EXPECTED} {RESID} {ALL}] [/BARCHART] .
4.2.1 Allgemeines zur Syntax Man muss mindestens zwei Variablen kreuzen. Vermutet man einen einseitigen Kausalzusammenhang, d. h. sieht man eine Variable als abhangige, die andere als unabhangige Variable, steht die abhangige Variable vor dem BY, die unabhangige dahinter. 52 Man kann aber auch ganze Listen von Variablen kreuzen, indem man sie jeweils durch ein BY aneinanderhangt. SchlieBlich kann man diese Befehle beliebig kombinieren und mehrere Befehle in einem CROSSTABSBefehl verbinden. 4.2.2 Unterbefehl MISSING: Mit dem Unterbefehl MISSING kann defmiert werden, wie Falle mit fehlenden Werten in die Analyse mit einbezogen werden sollen: TABLE: Dies ist die Einstellung, die verwendet wird, wenn man diesen UnterbefeW weglasst. Wenn mehrere Tabellen gleichzeitig untersucht werden, werden in jeder Tabelle die Falle weggelassen; die bei den in der Tabelle betrachteten Variablen fehlende Werte aufweisen. INCLUDE: FaIle mit fehlenden Werten werden auch in die Analyse mit einbezogen und in einer gesonderten Spalte bzw. Zeile der Tabelle aufgelistet.
52
Man kann die Variablen auch vertauschen. Wir schlagen diese Reihenfolge von abhangiger und unabhangiger Variablen vor, weil sie es erleichtert, die Ubersicht zu bewahren.
246
Leila Akremi und Nina Baur
4.2.3 Unterbefehl
CELLS:
Mit dem Unterbefehl CELLS kann man bestimmen, wie die Falle in SPSS angegeben werden. Moglich sind u. a. folgende Angaben: Mit COUNT fordert man erne Assoziations- bzw. Kontingenztabelle mit absoluten Haufigkeiten an. SPSS berechnet diese auch, wenn man den Unterbefehl CELLS weglasst. - Mit TOTAL fordert man eine Assoziations- bzw. Kontingenztabelle mit relativen Haufigkeiten an. - Mit ROW fordert man "Zeilenprozente" an, also die bedingten relativen Haufigkeiten der Spaltenvariable bezUglich der Zeilenvariable. Mit COLUMN fordert man "Spaltenprozente" an, also die bedingten relativen Haufigkeiten der Zeilenvariable bezliglich der Spaltenvariable: Die ZOOI der Falle in jeder Zelle wird ausgedrtickt als Anteil an allen Fallen der jeweiligen Spalte. Mit EXPECTED fordert man die erwarteten Haufigkeiten an, also die Zahl der Falle, die in einer Zelle zu erwarten waren, wenn die beiden Variablen unabhangig voneinander waren. Mit REsrD fordert man die Residuen an - also die Differenz zwischen erwarteten und absoluten Haufigkeiten. Mit ALL fordert man alle oben aufgelisteten Zellenformate an. 4.2.4 Unterbefehl
BARCHART:
Der Unterbefehl BARCHART produziert ein Balkendiagramm, in dem die Antworten der abhangigen Variable nach den Antwortkategorien der unabhangigen Variable unterteilt sind.
4.3
Beispiel
Die Variable v39 enthalt die Information, wie oft die Befragten mit dem Auto fahren. Die VariHlufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln able v40 enthalt die Information, wie haufig die Befragten offentliehe Verkehrsmittel benutzen. Beide Variablen haben die Aus-
oft gelegentlich selten/nie Gesamtzahl der Befragten mit gilltigen Angaben keine Angabe Gesamt
Absolute Haufigkeiten 190 158 232
Relative Haufigkeiten in % 32,8 27,2 40,0
580
100,0
8 588
247
Kapitel 11: Kreuztabellen und Kontingenzanalyse
pragungen ,,1" ("oft"), ,,2" ("gelegentlich") und ,,3" ("selten / nie"). Der Datensatz wurde nach der HaushaltsgroBe bei der Telefonumfrage gewichtet (Gewichtungsvariable: v04N). Betrachtet man die Haufigkeitsverteilungen der beiden Variablen, fallt aut: dass -sich die Befragten sehr stark hinsichtlich ihres Autofahrverhaltens unterscheiden: Jeweils etwa 40 % der Befragten fahren oft bzw. selten oder nie mit dem Auto. Etwa 16 % der Befragten fahren gelegentlich mit dem Auto. Beziiglich der Benutzung offentlicher Verkehrsmittel sind diejenigen Befragten, die selten oder nie offentliche VerHlufigkeit der Benutzung des Autos Re/ative Abso/ute kehrsmittel benutHaufigkeiten Haufigkeiten in % zen, die groBte oft 243 41,8 Gruppe (ca. 40 %). ge/egentlich 16,2 94 se/ten /nie 245 42,1 Jeweils etwa 30 % Gesamtzah/ der Befragten der Befragten be582 100,0 mit gO/tigen Angaben nutzen offentliche keine Angabe 6 Verkehrsmittel oft Gesamt 588 bzw. gelegentlich. FUr die Frage nach der Haufigkeit der Benutzung des Autos liegen fUr 6 Befragte keine Antworten vor, fUr die Frage nach der Haufigkeit der Benutzung offentlicher Verkehrsmittel fUr 8 Befragte. Die Zahl der fehlenden Werte ist also vemachlassigbar klein. 1m folgenden soll nun der Zusammenhang zwischen den beiden Variablen mit Hilfe von Kreuztabellen untersucht werden.
4.3.1 Assoziationstabelle / Kontingenztabelle mit absoluten Haufigkeiten Zunachst wird die Assoziationstabelle mit absoluten Haufigkeiten betrachtet. Die Syntax hierfUr lautet: CROSSTABS
v39 BY v40 /CELLS = COUNT.
SPSS liefert zu allen Kreuztabellen zunachst Informationen fiber die verarbeiteten Variablen: Verarbeitete Fille Faile GO/tig
N Haufigkeit der Benutzung des Autos * Haufigkeit der Benutzung von offentlichen Verkehrsmitte/n
Prozent
579
98,5%
Feh/end Prozent N
9
1,50/0
N
Gesamt Prozent
588
100,0%
248
Leila Akrerni und Nina Baur
Bei 9 Befragten liegen fUr eine der beiden Variablen oder fUr beide Variablen keine Antworten vor. Sie werden deshalb im folgenden aus der Analyse ausgeschlossen. Damit beziehen sich die folgenden Tabellen auf 98,5 % der Befragten. Das sind N = 579 Personen. Weiterhin liefert SPSS die Assoziationstabelle mit absoluten Haufigkeiten: . Zusammenhang zwischen der Hlufigkeit der Beriutzung des Autos und der Hlufigkeit der Benutzung von offentlichen Verkehrsmitteln Anzahl
Haufigkeit der Benutzung von offentlichen Verkehrsmitteln gelegentlich selten /nie oft Haufigkeit der Benutzung des Autos
oft gelegentlich selten /nie
Gesamt
12 52 125 189
84 18 56 158
144 24 64 232
Gesamt
240
94 245 579
Unten rechts in der Tabelle steht die Zahl N der Befragten, auf die sich die Tabelle bezieht. Es haben also insgesamt 579 Befragte aufbeide Fragen geantwortet. In der untersten Zeile steht, wie haufig die Befragten offentliche Verkehrsmittel benutzen: 189 Befragte benutzen offentliche Verkehrsmittel oft, 158 Befragte gelegentlich und 232 Befragte selten oder nie. Zusammen ergibt dies 579. In der rechten Spalte steht, wie haufig die Befragten das Auto benutzen: 240 Befragte fahren oft mit dem Auto, 94 Befragte gelegentlich usw. In den mittleren Zellen der Tabelle steht, wie viele Befragte eine bestimmte Kombination aus Autofahren und Benutzen offentlicher Verkehrsmittel aufweisen: 12 Befragte fahren oft mit beiden Verkehrsmitteln, 84 Befragte fahren oft mit dem Auto, aber nur gelegentlich mit offentlichen Verkehrsmitteln. 144 Befragte fahren oft mit dem Auto, aber nur selten oder nie mit offentlichen Verkehrsmitteln, 52 fahren oft mit offentlichen Verkehrsmitteln, aber nur selten mit dem Auto usw. Addiert man diese Zahlen, erhalt man wieder 579. 4.3.2 Assoziationstabelle / Kontingenztabelle mit relativen Haufigkeiten Will man nun die Assoziationstabelle mit relativen Haufigkeiten betrachten, lautet die Syntax hierfiir: CROSSTABS
v39 BY v40 /CELLS = TOTAL.
SPSS liefert dann folgende Tabelle:
249
Kapitel 11: Kreuztabellen und Kontingenzanalyse
Hlufigkeit der Benutzung des Autos * Hlufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln Kreuztabelle 0/0 der Gesamtzahl Haufigkeit der Benutzung von offentlichen Verkehrsmitteln oft Haufigkeit der Benutzung des Autos
oft gelegentlich selten /nie
Gesamt
2,1% 9,0% 21,6% 32,6%
gelegentlich
14,50/0 3,10/0 9,7% 27,3%
selten /nie 24,9%
4,10/0 11,1% 40,1%
Gesamt 41,5% 16,2% 42,3% 100,0%
Diese Tabelle ist folgendermaBen zu interpretieren: Unten rechts steht der Anteil der 579 Befragten, auf die sich die Tabelle bezieht: 579 Befragte von 579 Befragten ergibt 100%. In der untersten Zeile steht, welcher Anteil der Befragten offentliche Verkehrsmittel benutzt: 32,6 % der Befragten benutzen offentliche Verkehrsmittel oft, 27,3 % gelegentlich und 40,1 % selten oder nie, macht zusammen 100 %. In der rechten Spalte steht, welcher Anteil der Befragten das Auto benutzt: 41,5 % der Befragten fahren oft mit dem Auto, 16,2 % gelegentlich usw. In den mittleren Zellen der Tabelle steht, welcher Anteil der Befragten eine bestimmte Kombination aus Autofahren und Benutzen offentlicher Verkehrsmittel aufweist: 2,1 % der Befragten fahren oft mit beiden Verkehrsmitteln, 14,5 % der Befragten fahren oft mit dem Auto, aber nur gelegentlich mit offentlichen Verkehrsmitteln, 24,9 % der Befragten fahren oft mit dem Auto, aber nur selten oder nie mit offentlichen Verkehrsmitteln usw. In der Swnme erhalt man wieder lOO %. 4.3.3 Assoziationstabelle / Kontingenztabelle mit bedingten relativen Haufigkeiten der Spaltenvariable beziiglich der Zeilenvariable Eine Alternative ist, die Befragten in verschiedene Gruppen nach der Haufigkeit der Benutzungdes Autos aufzuteilen - also in die "Vielfahrer", "gelegentlichen Autofahrer" und "seltenen Autofahrer": CROSSTABS
v39 BY v40 /CELLS = ROW.
SPSS Hefert dann folgende Tabelle:
250
Leila Akremi und Nina Baur
Haufigkeit der Benutzung des Autos * Haufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln Kreuztabelle % von Haufigkeit der Benutzung des Autos Haufigkeit der Benutzung von offentlichen Verkehrsmitteln gelegentlich seltenlnie oft Haufigkeit der Benutzung des Autos Gesamt
oft gelegentlich selten Inie
5,0%
35,0%
60,0 %
55,3°10 51,0°10
19,1°/0 22,9°10
25,5°10 26,10/0
32,6%
27,3%
40,1%
Gesamt 100,0% 100,0% 100,0% 100,0%
Unten rechts steht der Anteil der 579 Befragten, auf die sich die Tabelle bezieht: 579 Befragte von 579 Befragten macht 100 %. In der untersten Zeile steht, welcher Anteil von allen Befragten offentliche Verkehrsmittel benutzt: 32,6 % der Befragten benutzt offentliche Verkehrsmittel oft, 27,3 % gelegentlich und 40,1 % selten oder nie. Dies ergibt zusammen 100 %. Die Befragten wurden nun in drei Gruppen aufgeteilt: diejenigen, d.ie oft mit dem Auto fahren; diejenigen, die gelegentlich mit dem Auto fahren; und diejenigen, die selten oder nie mit dem Auto fahren. Die erste Zeile bezieht sich jetzt auf die Gruppe derjenigen, die oft Autofahren: Von denen, die oft Auto fahren, fahren 5,0 % oft mit offentlichen Verkehrsmitteln, 35,0 % gelegentlich mit offentlichen Verkehrsmitteln und 60 % selten oder nie mit offentlichen Verkehrsmitteln. Dies macht zusammen 100 %. Die zweite bzw. dritte Zeile beziehen sich auf die Gruppe derjenigen, die gelegentlich bzw. selten Autofahren. Sie sind analog zur ersten Zeile zu interpretieren. Man kann nun zwei interessante Vergleiche anstellen: 1) Vergleich der Untergruppen mit der Gesamtverteilung: Es wird sehr deutlich, dass sich die einzelnen Untergruppen stark von der Gesamtheit der Befragten unterscheiden. Wahrend bei der Gesamtheit der Befragten die Haufigkeit der Benutzung offentlicher Verkehrsmittel relativ gleich verteilt ist, tendieren die Untergruppen stark in die eine oder andere Richtung. 2) Vergleich der einzelnen Untergruppen untereinander: Es wirddeutlich, dass sich die Gruppen voneinander unterscheiden. Insbesondere unterscheiden sich die Viel-Autofahrer von den beiden anderen Gruppen: Die VielAutofahrer fahren mehrheitlich selten oder nie mit offentlichen Verkehrsmitteln. Bei den beiden anderen Gruppen ist es genau umgekehrt - sie fahren mehrheitlich oft mit offentlichen Verkehrsmitteln. Dies ist ein Beispiel dafUr, wie man relational interpretierbare Daten sinnvoll interpretieren kann: Durch die Aufteilung in verschiedene Gruppen zeigen sich
Kapitel 11: Kreuztabellen und Kontingenzanalyse
251
Gemeinsamkeiten und Unterschiede zwischen Befragten, und bestimmte Muster werden erkennbar. 53 4.3.4 Assoziationstabelle I Kontingenztabelle mit bedingten relativen Haufigkeiten der Zeilenvariable bezliglich der Spaltenvariable Dieselbe Gruppenaufteilung (Autofahrer) wie eben lasst sich mit untenstehender Syntax erreichen (Zeilen- und Spaltenvariable wurden vertauscht). Der Vorteil dieser Darsteliungsweise besteht darin, dass man zusatzlich eine GrafIk anfordemkann. CROSSTABS v40 BY v39 /CELLS = COLUMN /BARCHART.
SPSS liefert dann folgende Tabelle: Hlufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln * Hlufigkeit der Benutzung des Autos Kreuztabelle % von Haufigkeit der Benutzung des Autos Hliufigkeit der Benutzung des Autos gelegentlich selten /nie oft Hliufigkeit der oft 5,00/0 55,30/0 51,0% Benutzung von gelegentlich 19,1% 35,0°,10 22,90/0 6ffentlichen selten /nie Verkehrsmitteln 26,1% 60,00/0 25,50/0 Gesamt
100,0%
100,0%
100,0%
Gesamt
32,6% 27,3% 40,1%
100,0%
In dieser Tabelle stehen die identischen Informationen wie in der vorhergehenden Tabelle, nur dass jetzt Zeilen und Spalten vertauscht sind: Unten rechts steht der Anteil der 579 Befragten, auf die sich die Tabelle bezieht: 100 %, also aIle Befragten. In der rechten Spalte steht, welcher Anteil von allen Befragten offentliche Verkehrsmittel benutzt: 32,6 % aller Befragten benutzt offentliche Verkehrsmittel oft, 27,3 % gelegentlich usw. Die erste Spalte bezieht sich jetzt auf die Gruppe deIjenigen, die oft Autofahren: Von denen, die oft Auto fahren, fahren 5,0 % oft mit offentlichen Verkehrsmitteln, 35,0 % gelegentlich mit offentlichen Verkehrsmitteln und 60 % selten oder nie mit offentlichen Verkehrsmitteln. Dies ergibt zusammen 100 %. Die zweite bzw. dritte Spalte pezieht sich jetzt auf die Gruppe derjenigen, die gelegentlich bzw. selten Autofahren und ist analog zur ersten Spalte zu interpretieren. Diese Ergebnisse werden in der folgenden GrafIk optisch dargestellt:
53
Zur absoluten und relationalen Interpretierbarkeit von Daten vgl. z. B. Schulze (2002a): 50-64.
252
Leila Akremi und Nina Baur
Haufigkeit der Benutzung offentlicher Verkehrsmittel nach Haufigkeit der Benutzung des Autos N = 493, gewichtet nach HaushaltsgroBe
160,-------------------. 140+-----------120+----100+----80+-----
Benutzung Auto
60+-----, 40
L:
co
20
~
0
N
Bgelegentlich .selten I nie oft
gelegentlich
selten I nie
Haufigkeit der Benutzung von offentlichen Verkehrsmitteln
Will man dagegen die Befragten nach der Haufigkeit der Benutzung offentlicher Verkehrsmittel in Gruppen aufteilen, konnte die Syntax folgendermaBen lauten: CROSSTABS
v39 BY v40 /CELLS = COLUMN /BARCHART.
SPSS liefert dann folgende TabelIe: Hlufigkeit der Benutzung des Autos * Hlufigkeit der Benutzung von offentlichen Verkehrsmitteln Kreuztabelle 0/0 von Haufigkeit der Benutzung von offentlichen Verkehrsmitteln Haufigkeit der Benutzung von offentlichen Verkehrsmitteln gelegentlich selten/nie oft Haufigkeit der 53,2% oft 62,10/0 6,30/0 Benutzung des 10,3% gelegentlich 27,50/0 11,40/0 Autos selten/nie 27,60/0 66,1 % 35,40/0 Gesamt 100,0% 100,0% 100,0%
Gesamt 41,5% 16,2% 42,3%
100,0%
Diese Tabelle ist analog zur vorherigen Tabelle zu interpretieren: 41,5 % aller Befragten benutzt das·Auto oft, 16,2 % gelegentlich und 42,3 % selten oder nie, macht zusammen 100 %. Die Befragten wurden wieder in drei Gruppen aufgeteilt, aber dieses Mal nach der Haufigkeit der Benutzung offentlicher Verkehrsmittel.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
253
Die erste Spalte bezieht sich j etzt auf die Gruppe derj enigen, die oft offentliche Verkehrsmittel benutzen: Von denen, die oft offentliche Verkehrsmittel benutzen, fahren 6,3 % oft mit dem Auto, 27,5 % gelegentlich mit dem Auto und 66,1 % selten oder nie mit dem Auto. Dies macht zusammen 100 %. Die zweite bzw. dritte Spalte bezieht sich jetzt auf die Gruppe derjenigen, die gelegentlich bzw. selten offentliche Verkehrsmittel benutzen und sind analog zur ersten Spalte zu interpretieren. Diese Ergebnisse werden in der GrafIk optisch dargestellt: Haufigkeit der Benutzung des Autos nach Haufigkeit der Benutzung offentlicher Verkehrsmittel N = 579, gewichtet nach HaushaltsgroBe
160 140 120 100 80
Offtl. Verkehrsmitt.
60 40
:cro N
c
«
.gelegentlich
20 0
_selten I nie oft
gelegentlich
selten I nie
Haufigkeit der Benutzung des Autos
4.3.5 Vergleich erwarteter und tatsachlicher Werte Will man erwartete und tatsachliche Werte vergleichen, lautet die Syntax folgendermaBen: CROSSTABS
v39 BY v40 /CELLS = COUNT EXPECTED RESID.
SPSS liefert dann die Tabelle auf der folgenden Seite. In den Zeilen, die mit "Anzahl" beschriftet sind, fmdet man die Informationen, die in der ersten in diesem Beispiel aufgefUhrten Kreuztabelle enthalten sind, also die absoluten Haufigkeiten: 12 Befragte fahren oft mit beiden VerkehrsmitteIn, 18 Befragte fahren gelegentlich mit beiden Verkehrsmitteln, 64 Befragte fahren selten mit beiden Verkehrsmitteln usw.
254
Leila Akremi und Nina Baur
Hlufigkeit der Benutzung des Autos * Hlufigkeit der Benutzung von 6ffentlichen Verkehrsmitteln Kreuztabelle Haufigkeit der Benutzung von offentlichen Verkehrsmitteln oft Haufigkeit der Benutzung des Autos
oft
gelegentlich
selten /nie
Gesamt
Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl
12 78,3 -66,3 52 30,7 21,3 125 80,0 45,0
Gesamt
gelegentlich 84 65,5 18,5 18 25,7 -7,7 56
selten /nie 144 96,2 47,8 24 37,7 -13,7 64
66,9 -10,9
98,2 -34,2
240 240,0
94 94,0
245 245,0
189
158
232
579
189,0
158,0
232,0
579,0
In den Zeilen, die mit "Erwartete Anzah!" beschriftet sind, steht, wie viele Befragte eine bestimmte Antwortkombination hatten geben mUssen, wenn die beiden Variablen voneinander statistisch unabhangig waren. Ware dies der Fall, mUssten 78,3 Befragte oft mit beiden Verkehrsmitteln fahren, 65,5 Befragte oft mit dem Auto, aber nur gelegentlich mit offentlichen Verkehrsmitteln fahren, 96,2 Befragte oft mit dem Auto, aber nur selten oder nie mit offentlichen Verkehrsmitteln fahren usw. In den Zeilen, die mit ,,Residuen" beschriftet sind, stehen die Residuen. Beispiel: Waren die Variablen statistisch unabhangig, mUssten 78,3 Befragte oft mit beiden Verkehrsmitteln fahren. Tatsachlich fahren,aber nur 12 Befragte oft mit beiden Verkehrsmitteln. Das Residuum betragt also 12 -78,3 = -66,3, d. h. es haben 66,3 Befragte weniger diese Antwortkombination gegeben als erwartet. Betrachtet man die Ubrigen Zellen, sind die Abweichungen ahnlich groB. Manche Antwortkombinationen wurden haufiger gegeben als erwartet, andere seltener. Gemessen an der Gesamtzahl von 579 Befragten ist dies eine relativ starke Abweichung von der Indifferenzmatrix. Dies deutet auf einen relativ starken Zusammenhang zwischen der Haufigkeit der Benutzung des Autos und der Haufigkeit der Benutzung offentlicher Verkehrsmittehi hin. Schaut man sich die Tabelle an, bekommt man sogar Anhaltspunkte dafiir, welcher Art dieser Zusammenhang sein konnte: Die Kombinationen selten Autofahren / oft ofJentliche Verkehrsmittel benutzen und oft Autofahren / selten ofJentliche Verkehrsmittel benutzen wurden deutlich haufiger als erwartet gegeben. Die Kombinationen selten Autofahren / selten ofJentliche Verkehrsmittel benutzen und oft Autofahren;- oft ofJentliche Verkehrsmittel benutzenwurden dagegen deutlich seltener als erwartet gegeben. Es sieht dennoch so aus, als ob die Befragten umso ofters Autofahren,je weniger sie offentliche Verkehrsmittel benutzen und umgekehrt.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
255
4.3.6 AIle Statistiken in einer Tabelle SchlieBlieh kann man aueh alle diese Informationen in einer Tabelle anfordem: CROSSTABS
v39 BY v40 /CELLS = COUNT EXPECTED RESID TOTAL COLUMN ROW.
SPSS liefert dann die Tabelle auf der folgenden Seite, die so zu interpretieren ist: In der Zeile ,,Anzahl" stehen die absoluten Haufigkeiten, also die Zahl der Befragten, die diese Antwortkombination gegeben hat. In der Zeile ,,% der Gesamtzahl" stehen die relativen Haufigkeiten bezogen auf alle Befragten, also der Anteil der Befragten an allen Befragten, der diese Antwortkombination gegeben hat. In der Zeile ,,% von Haufigkeit der Benutzung des Autos" stehen die bedingten relativen Haufigkeiten der Spaltenvariable bezUglich der Zeilenvariable. Die Befragten wurden also unterteilt in die Gruppen derj enigen, die oft das Auto benutzen; derjenigen, die gelegentlich das Auto benutzen; und derjenigen, die selten oder nie das Auto benutzen. Dann wird in jeder Zeile angegeben, welcher Anteil derBefragten in der entsprechenden Untergruppe wie oft offentliehe Verkehrsmittel benutzt. In der Zeile ,,% von Haufigkeit der Benutzung von offentlichen Verkehrsmitteln" stehen die bedingten relativen Haufigkeiten der Zeilenvariable bezUglieh der Spaltenvariable. Die Befragten wurden also unterteilt in die Gruppe derjenigen, die oft offentliche Verkehrsmittel benutzen; derjenigen, die gelegentlich offentliche Verkehrsmittel benutzen; und derjenigen, die selten oder nie offentliehe Verkehrsmittel benutzen. Dann wird in jeder Spalte angegeben, welcher Anteil der Befragten in der entsprechenden Untergruppe wie oft das Auto benutzt. In der Zeile "Erwartete Anzahl" stehen die bei statistischer Unabhangigkeit erwarteten Werte. IJ? der Zeile "Residuen" stehen die Residuen.
5
Schritt 2: ZusammenhangsmaOe ffir nominal- und ordinalskalierte Variablen in Kreuztabellen
5.1
Grundsatzliches Vorgehen
1m gerade diskutierten Beispiel hat die Analyse der Kreuztabellen zu der Vermutung gefiihrt, dass moglicherweise die Haufigkeit der Benutzung offentlicher Verkehrsmittel und die Haufigkeit des Autofahrens zusammenhangen. Die Vermutung, dass ein Zusammenhang zwisehen.zwei Variablen besteht, ist ein haufiges Ergebnis der Analyse von Kreuztabellen. Nun stellt sich die Frage, wie stark der Zusammenhang ist und in welche Riehtung er weist. Mit Hilfe statistischer MaBzahlen kann man die Informationen in Kreuztabellen verdichten, mit anderen
256
Leila Akremi und Nina Baur
HAuflgkeit der Benutzung des Autos * HAuflgkeit der Benutzung von Offentlichen Verkehrsmitteln Kreuztabelle
Haufigkeit der Benutzung des Autos
oft
gelegentlich
selten/nie
Gesamt
Kreuztabellen yergleichbar machen und SO Hinweise auf AusmaB und Art des Zusammenhangs gewinnen. Beachtet werden muss dabei unter anderem Folgendes: Einige statistische MaBzahlen berechnen den wechselseitigen Zusammenhang (= symmetrische MaBe) zwischen den Variablen. Andere berechnen den einseitigen Zusammenhang (= asymmetrische MaBe) zwischen den Variablen. Man sollte sich yorher liberlegen, welche Art yon Zusammenhang man zwischen den Variablen
Kapitel 11: Kreuztabellen und Kontingenzanalyse
257
vermutet, wie er sich im Datensatz niederscWagen musste und ob er eher durch ein asymmetrisches oder durch ein symmetrisches ZusammenhangsmaB erfasst wird. Wahlt man ein asymmetrisches MaB, so ist es Konvention, die abhangige Variable als Zeilenvariable zu betrachten, die unabhangige als Spaltenvariable. Zur Interpretation der MaBe ist zu beachten, welchen Maximal- bzw. Minimalwert sie haben und welche Art der Verteilung sie abbilden. Nimmt das AssoziationsmaB den Wert ,,0" an, bedeutet dies nicht notwendigerweise, dass die Variabien statistisch unabhangig sind. Manche MaBe konnen Ihren Maximalwert nur unter bestimmten Umstanden erreichen. Am schwierigsten ist die Interpretation der Werte zwischen den Extremwerten, die das MaB annehmen kann. Hierzu gibt es keine allgemeing1iltigen Regeln. In der Forschungspraxis haben sich Erfahrungswerte und Daumenregeln 54 herausgebildet. Meist ist eine grobe Einteilung am sinnvollsten: kein Zusammenhangschwacher Zusammenhang - mittlerer Zusammenhang - starker Zusammenhang. Fast alle AssoziationsmaBe werden von Faktoren beeinflusst, die nichts mit dem MaB zu tun haben. Chi-Quadrat wird von der StichprobengroBe beeinflusst die meisten anderen MaBe schalten den Effekt der Stichprobe aus. Die beiden haufigsten Probleme, die die Ergebnisse beeinflussen, sind dagegen ungleiche Randverteilungen und ungleiche Zeilen- und Spaltenzahl. Nicht jedes MaB ist also fUr jeden Datentyp und jedes Erkenntnisinteresse geeignet. Sie sollten deshalb vor jeder (bivariaten) Datenanalyse uberlegen, welches Ziel Sie mit der Datenanalyse verfolgen, welche Art von Zusammenhangen Sie vermuten und welche MaBe zur Erfassung dieser Daten geeignet sind. Ebenso sollten Sie uberlegen, welche MaBe Sie fUr Ihre Daten berechnen dUrfen. Urn diese Fragen beantworten und die Ergebnisse beurteilen zu konnen, mussen Sie die Eigenschaften der MaBe, die Sie verwenden wollen, genau kennen. 5.1.1 ZusammenhangsmaBe fUr nominale Variablen ZusammenhangsmaBe fUr nominale Variablen lassen sich in drei Hauptgruppen einteilen: 55 MaBe, die. relative Risiken fUr den Eintritt eines Ereignisses berechnen (OddsRatio). Diese werden im folgenden nicht weiter besprochen. MaBe, die auf Chi-Quadrat basieren, z. B. Chi-Quadrat X2 selbst (symmetrisch), Kontingenzkoeffizient nach Pearson C (symmetrisch); Phi (symmetrisch); Cramers V (symmetrisch). 54 55
Diese sind aber, wie wir bereits erwahnt haben, nicht bindend und sollten auch nicht blind iibernommen werden. Diese MaBe werden hier als bekannt vorausgesetzt. Jann (2000: 66-79) beschreibt sehr detailliert, wie man PRE-MaBe und MaBe auf Basis von Chi-Quadrat berechnet. Reynolds (1989) erklart ausfiihrlich die Logik der Odds-Ratio.
258
-
Leila Akremi und Nina Baur
PRE-MaBe (pRE = Proportional Reduction of Error), z. B. Guttman's Lambda A (symmetrische und asymmetrische Version); Goodman und Kruskal's tau 't (symmetrisch), Unsicherheitskoeffizient C(A,B IA) (nonnierte Transinformation) (asymmetrisch).
5.1.2 ZusammenhangsmaBe fUr ordinale Variablen FUr ordinale Variablen bieten sich folgende MaBe an: Kendalls tau b 't (symb metrisch) und Goodman und Kruskal's Gamma y (symmetrisch).56 5.1.3 ZusammenhangsmaBe fUrmetrische Variablen Das wichtigste MaB fUr metrische Variablen ist der Korrelationskoeffizient r. Diesen besprechen wir in diesem Kapitel nicht weiter, weil er in Kapitel 15 im Zusammenhang mit der Berechnung von Regressionsgeraden naher thematisiert wird.
5.2
SPSS-Syntax
CROSSTABS
variablenliste BY variablenliste [/MISSING={TABLE} {INCLUDE}] [/CELLS= {COUNT} {ROW} {COLUM} {TOTAL} {EXPECTED} {RESID} {ALL} {NONE} ] [/STATISTICS= {CHISQ} {PHI} {CC} {LAMBDA} {UC} {BTAU} {GAMMA}] [/BARCHART] .
5.2.1 Erlauterungen: Zusatzlich zu den Unterbefehlen fUr Kreuztabellen, die Sie bereits kennen, konnen mit dem Unterbefehl STATISTICS folgende statistische MaBzahlen angefordert werden: Chi-Quadrat (CHISQ), Phi und Cramers V (PHI), der Kontingenzkoeffizient nach Pearson C (cc), Lambda sowie Goodman und Kruskals Tau (LAMBDA), die normierte Transinformation (uc), Kendalls tau b (BTAU) sowie Gamma (GAMMA).
5.3 Beispiel Greifen wir auf den Zusammenhang zwischen Autofahren (v39) und Benutzung offentlicher Verkehrsmittel (v40) zurtick (Gewichtungsvariable: v04N.). Nachdem wir bereits die Kreuztabellen untersucht und dabei festgestellt haben, dass sich bestimmte Muster in der Tabelle ergeben, wollen wir diese Informationen nun mit statistischen MaBen zusammenfassen. Beide Variablen sind ordinalskaliert. Wir dUrfen also MaBe fUr nominal- und fUr ordinalskalierte Variablen berechnen. 56
Zur Beschreibung der Malle siehe: Jann (2000): 80-83.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
259
5.3.1 Chi-Quadrat (X 2 ) Die Assoziationstabelle haben wir bereits im letzten Kapitel betrachtet. Deshalb unterdriicken wir sie jetzt mit Hilfe des Unterbefehls CELLS = NONE. Stattdessen wollen wir zunachst die Chi-Quadrat-Statistik betrachten. Die Syntax hierfiir lautet: CROSSTABS
v39 BY v40 /CELLS = NONE /STATISTICS = CHISQ.
Chi-Quadrat (X 2 ) nimmt den Wert 146,258 an.
SPSS liefert dann folgende Tabelle: Chl-Quadrat·Tests
V
Chl-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gOltigen Faile
/'
Wert J df 146,2588 170,584 106,668 579 .....
4 4 1
Asymptotische Signifikanz (2-seitig) ,000 ,000 ,000
a. 0 Zellen (,0%) haben eine erwartete Haufigkeit kleiner 5. Di~rwartete Haufigkeit
~~~I Insgesamt wurden die MaBzahlen mit Hilfe von n=579 Fallen berechnet.
~ II
MaBe auf der Basis von Chi-Quadrat (X2) basieren auf der Logik, dass das MaB zwischen einem Minimal- und einen Maximalwert streuen kann. Man vergleicht den empirischen Wert mit den theoretischen Grenzen des MaBes. Ie naher der empirische Wert an 0 liegt, desto geringer ist der Zusammenhang. Ie naher der empirische Wert am Maximalwert liegt, desto starker ist der Zusammenhang Chi-Quadrat (X 2 ) nimmt in diesem Beispiel den Wert 146,258 an. X2 kann Werte zwischen 0 und Fallzahl*(kleinere Zahl der Auspragungen der Variablen - 1) annehmen (Vogel (2000): 60). In diesem Beispiel gibt es 579 gtiltige FaIle. Beide Variablen hatten drei Auspragungen. DeroMaximalwert von X2 ist also: 579*(3-1) = 1158. Einerseits existiert also ein Zusammenhang zwischen Autofahrverhalten und der Benutzung offentlicher Verkehrsmittel: X2 weicht von 0 abo Andererseits scheint dieser Zusammenhang nur maBig zu sein, weil der Wert X2 = 146,258 weit geringer als der mogliche Maximalwert von 1158 ist. 5.3.2 Phi (
Unslcherheltskoefflzlent
Symmetrlsch Hluflgkelt der Benutzung des Autos abhlnglg Hluflgkelt der Benutzung von 6ffentllchen Verkehrsmltteln abhlnglg
Asymptotische~
,140
Standardfehler ,018
,144 ,136
Naherungsweises r
b
Naherungsweise Signifikanz
7,840
,OOOc
,019
7,840
,OOOc
,017
7,840
,OOOc
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Chi-Quadrat-Wahrscheinlichkeit fur Likelihood-Quotienten.
In diesem Beispiel verbessert sich die Vorhersagegenauigkeit nur maBig, unabhangig davon, welche Variable man als abhangige und welche man als unabhangige wahlt. 5.3.6 Kendalls tau b
Ctb )
Bislang wurden nur MaBe fUr nominale Merkmale besprochen. Kendalls tau b (~b) und Goodman und Kruskal's Gamma (y) sind MaBe fUr ordinale Merkmale. Urn Kendalls tau b (~b) anzufordem,lautet die Syntax: CROSSTABS
v39 BY v40 /CELLS = NONE /STATISTICS = BTAD.
Kendalls tau b (~h) nimmt den Wert-O,381 cln. ----.J
"""....-----l.-
SPSS liefert dann folgende Tabelle:
Symmetrische MaBe Naherungsweises T
Wert Ordinal- bzgl. OrdinalmaB
Kendall-Tau-b
Anzah/ der gO/tigen Faile
-,381
,032
b
-12.086
Naherungsweise Signifikanz
.000
579
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Kendalls tau b (~ ).nimmt in diesem Be~spiel den Wert -0,381 an~ ~b kann zwischen -1 und + Pschwanken. -1 bedeutet, dass ein negativer strikt monotoner Zusammenhang existiert, +1 bedeutet, dass ein positiver strikt monotoner Zusammenhang existiert, und 0 bedeutet, dass kein strikt monotoner Zusammenhang existiert. Damit liegt in diesem Beispiel em maBiger negativer strikt monotoner
267
Kapitel 11: Kreuztabellen und Kontingenzanalyse
Zusammenhang vor: Je haufiger Personen Auto fahren, desto seltener benutzen sie tendenziell offentliche Verkehrsmittel. 5.3.7 Goodman und Kruskal's Gamma (y) Goodman und Kruskal's Gamma (y) kann man mit folgender Syntax anfordem: CROSSTABS
v39 BY v40 /CELLS = NONE /STATISTICS = GAMMA.
SPSS liefert da~ folgende Tabelle:
Ordinal- bzgl. OrdinalmaB
Goodman und ~skal's Gamma (y) nimmt den Wert -O.550an.
Gamma
-12,086
Naherungsweise Signifikanz ,000
Anzahl der aft; en Faile
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Goodman und Kruskal's Gamma (y) nimmt in diesem Beispiel den Wert -0,550 an. y kann zwischen -1 und + 1 schwanken. -1 bedeutet, dass ein negativer schwach monotoner Zusammenhang existiert, +1 bedeutet, dass ein positiver schwach monotoner Zusammenhang existiert, und 0 bedeutet, dass kein schwach monotoner Zusammenhang existiert. Damit liegt in diesem Beispiel ein maBiger negativer schwach monotoner Zusammenhang vor: Je haufiger Leute Auto fahren, desto seltener benutzen sie tendenziell offentliche Verkehrsmittel. 5.3.8 Alle bisherigen MaBe Urn alle bisherigen MaBe zusammen anzufordem, lautet die Syntax: CROSSTABS
v39 BY v40 /CELLS = NONE /STATISTICS = CHISQ PHI CC LAMBDA UC BTAU GAMMA.
Chi-Quadrat (X 2 ) wird nach wie vor in einer eigenen Tabelle geliefert. Vergleicht man die Tabelle mit der Tabelle oben, erkennt man, dass sich nichts geandert hat:
268
Leila Akremiund Nina Baur
Chi-Quadrat·Tests
Chi-Quadrat nach Pearson Likelihood-Quotient Zusammenhang linear-mit-linear Anzahl der gOltigen Faile
Asymptotische Signifikanz (2-seitig) ,000 ,000
df
Wert 146,258a 170,584 106,668 579
4 4 1
,ODD
a. 0 Zellen (,0%) haben eine erwartete Haufigkeit kleiner 5. Die minimale erwartete Haufigkeit ist 25,65.
Anders verhalt es sich mit den iibrigen MaBen: SPSS liefert aIle PREinterpretierbaren MaBe fUr nominalskalierte Variablen in einer einzigen Tabelle: Rlchtungsmale Asymptotische~
,289
Standardfehler ,035
7,588
Naherungsweise Signifikanz ,000
,323
,046
5,965
,000
,256
,040
5,614
Wert Nominalbzgl. NominalmaB
Lambda
Goodman- undKruskal- Tau
Unsicherheitskoeffizient
Symmetrisch Haufigkeit der Benutzung des Autos abhangig Haufigkeit der Benutzung von Offentlichen Verkehrsmitteln abhangig Haufigkeit der Benutzung des Autos abhangig Haufigkeit der Benutzung von Offentlichen Verkehrsmitteln abhangig Symmetrisch Haufigkeit der Benutzung des Autos abhangig Haufigkeit der Benutzung von Offentlichen Verkehrsmitteln abhangig
Naherun.jWweises
,000
,154
,019
,oooc
,132
,017
,000c
,140
,018
7,840
,144
,019
7,840
,000
,136
,017
7,840
,OOOd
,000d d
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Basierend auf Chi-Quadrat-Naherung d. Chi-Quadrat-Wahrscheinlichkeit fOr Likelihood-Quotienten.
Die MaBe rurordinalskalierte Variablen werden schlieBlich zusammen mit Phi und Cramers V gemeinsam in einer weiteren Tabelle darstellt: Symmetrische Male Wert Nominal- bzgl. NominalmaB Ordinal- bzgl. OrdinalmaB
Phi Cramer-V Kontingenzkoeffizient Kendall-Tau-b Gamma
Anzahl der gilltigen Faile
Asymptotische~
Standardfehler
f
Naherungsweise Signifikanz
·12,086 ·12,086
,000 ,000 ,000 ,000 ,000
Naherungsweises
,503 ,355 ,449
·,381 ·,550
,032 ,041
579
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
5.4
269
Zusammenfassende Interpretation
Bislang wurden alle MaBe einzeln analysiert. Dies ist auch ein typisches Vorgehen in Forschungsprojekten: Man untersucht alle MaBe, die in Frage kommen, und iiberlegt dabei, welche MaBe aus statistischen und inhaltlichen Gesichtspunkten besonders geeignet sind, urn den Sachverhalt zu beschreiben. Wenn die MaBe widerspruchliche Informationen liefem, sollte man sich nicht etwa das MaB aussuchen, das einem am besten in den Kram passt (auch wenn Forscher dies in der Praxis leider sehr haufig tun). Vielmehr sollte man iiberlegen und iiberprufen, woran dies liegen kann. In diesem Fall ergibt sich ein einheitliches Bild: Offensichtlich hangt das Autofahrverhalten mit der Benutzung offentlicher Verkehrsmittel zusammen: Je hautiger jemand offentliche Verkehrsmittel benutzt, desto seltener fahrt er mit dem Auto - und umgekehrt. Damit sind einige wichtige Fragenjedoch noch ungeklart.
6
Schritt 3: VeraUgemeinerung auf die Grundgesamtheit
6.1
Grundsatzliches Vorgehen
Hat man interessante Ergebnisse in der Stichprobe gefunden, stellt sich die Frage, ob man diese auf die Grundgesamtheit verallgemeinem darf. Liegt eine Zufallsstichprobe vor (und nur dann!),57 kann man auf die schlieBende Statistik zurUckgreifen. Ausgehend von einem bestimmten Wert in der Stichprobe (z. B. einer bestimmten MaBzahl, einer bestimmten relativen Haufigkeit usw.) versucht man, Hinweise auf den entsprechenden Wert in der Grundgesamtheit zu gewinnen. Grundsatzlich existieren vier Logiken, mit deren Hilfe man Ergebnisse der deskriptiven Statistik verallgemeinem kann: 58 1) Bei Konjidenzintervallen (= Sicherheitsbereich) gibt man einen Wertebereich an, in dem sich der Wert in der Grundgesamtheit mit sehr hoher Wahrscheinlichkeit befmdet. Diese Wahrscheinlichkeit lasst sich berechnen: das so genannte Kontidenzniveau 1 - a (= Sicherheitsgrad). 57
58
Dies bedeutet, dass die Auswahl- und Zielgesamtheit fibereinstimmen mfissen und dass die Stichprobe nicht verzerrt ist, also keine (verzerrenden) Ausfalle vorliegen. Es sei an dieser Stelle ausdrucklich auf einen haufigen Irrtum hingewiesen: Manche Veroffentlichungen suggerieren, dass Ausschopfungsquoten fiber 80 % "gute" Ausschopfungsquoten seien. Aus Sicht der induktiven Statistik sind die einzigen "guten" Ausschopfungsquoten Ausschopfungsquoten von 100 %, da nur sie eine echte ZufaIlsstichprobe garantieren und da in der Regel die FaIle nicht "zufallig" ausfaIlen, sondem der Nonresponse-Mechanismus selbst sozialer Selektivitat unterworfen ist. Ausfiihrliche Informationen hierzu finden sie in Behnke et. al. (2006). Ausfiihrlich beschrieben werden diese Logiken in Behnke et. al. (2006) und in Beck-Bornholdt und Dubben (2006).
270
Leila Akremi und Nina Baur
2) Bei Fisher-Tests stellt man eine Nullhypothese (HO) auf Man berechnet nun, wie wahrscheinlich das Stichprobenergebnis ist, wenn die Nullhypothese wahr ist. Diese Wahrscheinlichkeit nennt man das Signifikanzniveau u. 1st das Stichprobenergebnis sehr unwahrscheinlich, verwirft man die Nullhypothese. Mit anderen Worten: Das Stichprobenergebnis ist so unwahrscheinJich, dass die NUllhypothese wahrscheinlich falsch ist. Wahrscheinlich falsch, aber nicht sicher falsch. Man konnte sich zwar irren, und man kann auch angeben, wie haufig man sich irrt: Betragt u = 0,05, bedeutet dies, dass u * 100 % = 5 % aller Stichproben Ergebnisse liefem, auf deren Basis man die Nullhypothese verwirft, obwohl sie richtig ist. 59 Verwirft man bei Fisher-Tests die Nullhypothese, weill man relativ sicher, dass die Nullhypothese falsch ist - man weill aber noch nicht, welche Hypothese richtig ist. Verwirft man die Nullhypothese nicht, darf man aber im Umkehrschluss nicht schlieBen, dass sie richtig ist. Man weill also gar nichts. 3) Bei Neyman-Pearson-Tests stellt man deshalb mindestens zwei priizise Hypothesen auf: eine Nullhypothese (H ) und eine Altemativhypothese (H bzw. O A HI)' Man wagt nun ab, welche aieser beiden Hypothesen wahrschemlicher ist. Dabei kann man zweierlei Irrtiimer begehen: Man kann falschlicherweise die Nullhypothese verwerfen (u-Fehler), und man kann falschlicherweise die Nullhypot~ese beibehalten (p-Fehler). Bei ZusammenhangsmaBen bezeichnet ~ die Wahrscheinlichkeit, dass man real existierende Zusammenhange iibersieht. Urn die Nullhypothese gegen die Altemativhypothese abzuwagen, berechnet man - basierend auf den theoretischen Verteilungen beider Hypothesen zunachst die Power der Priifverteilung (l-~), d. h. die Wahrscheinlichkeit, dass man real existierende Zusammenhange auch entdeckt. Man soUte mit dem Test nur fortfahren, wenn die Power groB ist. Das weitere Vorgehen entspricht dem von Fisher-Tests: Man berechnet das SignifIkanzniveau u. 1st u sehr klein, verwirft man die Nullhypothese. Ne)rman-PearsonTests sind aussagekraftiger als Fisher-Tests: Verwirft man die Nullhypothese, bedeutet dies bei Neyman-Pearson-Tests, dass man die Altemativhypothese fUr wahrscheinlicher als die Nullhypothese halt. Die Wahrscheinlichkeit, dass man' die Nullhypothese falschlicherweise verwirft, betragt u. Behalt man die Nullhypothese bei, nimmt man an, dass diese wahrscheinlicher als die 59
Das mag nicht viel klingen. Wenn Sie aber in einem Datensatz nur 11 Variablen haben, fur jedes Variablenpaar ein einziges ZusammenhangsmaB berechnen und danach inferenzstatistisch uberprtifen wollen, ob sich dieses Ergebnis verallgemeinem Uisst, fuhren Sie 11 *10 = 110 Tests durch. Bei a = 0,05 sind - rein statistisch - 6 Testergebnisse falsch, bei a = 0,01 ist es immer noch eines. In der Regel berechnet man in den Sozialwissenschaften wesentlich mehr ZusammenhangsmaBe fur wesentlich mehr Variablen. Zudem existieren mittlerweile eine Vielzahl von Datensatzen.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
271
Altemativhypothese ist. Die Wahrscheinlichkeit, dass man die Nullhypothese falschlicherweise beibehalt, betragt ~. 4) Wenn man (bei Neyman-Pearson-Tests) sowohl die Wahrscheinlichkeit eines a-, als auch ~-Fehler berechnet, kennt man immer noch nicht die Gesamtirrtumswahrscheinlichkeit. Hierzu muss man zusatzlich wissen, wie wahrscheinlich die Null- gegentiber der Altemativhypothese ist. Diese dritte Wahrscheinlichkeit wird bei Bayes-Tests berucksichtigt, und nur mit ihrer Hilfe kann man auch eine Gesamtirrtumswahrscheinlichkeit berechnen, und letztere ist es j a auch, was den Forscher i. d. R. interessiert. Ein gutes Beispiel dafiir, warum man die Gesamtirrtumswahrscheinlichkeit berechnen sollte, ist der Verdacht eines Arztes, dass eine Patientin Brustkrebs hat. Der.Arzt fiihrt in diesem Fall einen Test durch. Hierbei sind zweierlei Fehler denkbar: Der Test kann anschlagen, obwohl die Frau gar keinen Brustkrebs hat (a-Fehler), er kann aber auch negativ ausfallen, obwohl die Frau Brustkrebs hat (~-Fehler). Der Arzt mochte selbstverstandlich beide Fehler minimieren, denn er will verhindem, dass eine Frau an Brustkrebs stirbt, aber auch, dass einer Frau unnotig die Brust amputiert wird. Urn die Gesamtirrtumswahrscheinlichkeit zu minimieren, muss er deshalb zusatzlich wissen, wie haufig Brustkrebs bei Frauen vorkommt. So ist die Wahrscheinlichkeit, an Brustkrebs zu erkranken, bei alteren Frauen z. B. hoher als bei j-ungeren und bei solchen Frauen hoher, bei denen in der Vergangenheit eine Verwandte an Brustkrebs erkrankt ist, weil dies auf eine genetische Veranlagung zum Brustkrebs hindeutet. Dieses Beispiel verdeutlicht aber auch, warum Bayes-Tests in den Sozialwissenschaften nur selten anwendbar sind: Man benotigt hierzu Informationen tiber die Verteilung von Wahrscheinlichkeiten in einer Gesamtheit. In den Sozialwissenschaften versucht man aber i. d. R. gerade von Individualdaten auf diese Gesamtheit zu schlieBen, oder man testet empirische Daten gegen eine Theone. In beiden Fallen fehlt also die benotigte dritte Information (Auftretenswahrscheinlichkeit eines Phanomens).
6.2
Vorgehen in SPSS
Die Ergebnisse der induktiven Statistik muss (und kann) man in SPSS nicht gesondert anfordem. Vielmehr liefert SPSS zu bestimmten MaBzahlen standardmaBig auch die Ergebnisse mit. Dies ist einerseits praktisch, stellt andererseits aber auch ein Problem dar: Man kann sichnamlich nicht selbst entscheiden, welche der vier oben genannten Moglichkeiten man bevorzugt. Bei manchen Befehlen berechnet SPSS Konfidenzintervalle zum Konfidenzniveau 1 - a = 0,95. Bei den meisten Befehlen liefert SPSS die Ergebnisse von Fisher-Tests. Neyman-Pearson-
272
Leila Akremi und Nina Baur
und Bayes-Tests sind standardmaBig mit SPSS nicht moglich, was insofem problematisch ist, weil diese in der Regel am aussagekraftigsten sind. StandardmaBig fiihrt SPSS fUr aIle MaBzahlen einen Fisher-Test durch. Die Nullhypothese lautet in der Regel, dass das ZusammenhangsmaB den Wert Null annimmt. Sie kann aber in Einzelfallen anders formuliert sein - wie sie jeweils aufgebaut ist, steht im SPSS-Handbuch. In der Ausgabe gibt SPSS an, auf welchern SignifIkanzniveau a die Nullhypothese verworfen werden kann. Nehmen wir z. B. die letzte besprochene SPSS-Ausgabe: Symmetrische Male Wert Nominal- bzgl. Nominalma~
Ordinal- bzgl.
Ordinalma~
Phi Cramer-V Kontingenzkoeffizient Kendall-Tau-b Gamma
Anzah/ der gO/tigen Faile
,503 ,355 ,449 -,381 -,550 579
Asymptotische~
Standardfehler
Naherungsweises
,032 ,041
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
r"
Naherungsweise Signifikanz
-12,086 -12,086
/'
/
,DOD ,ODD ,ODD ,ODD ,ODD
Fur aIle Malle kann die Nullhypothese auf dem Signifikanzniveau von a < 0,001 verworfen werden.
Liegt eine Zufallsstichprobe vor, kann in diesem Fall die Nullhypothese "FUr die Grundgesamtheit ist der Wert des ZusammenhangsmaBes Null" auf einem SignifIkanzniveau von a = 0,000 verworfen werden. Damit kann die Nullhypothese auch fUr aIle hoheren SignifIkanzniveaus verworfen werden, also z. B. a = 0,01 oder a = 0,05. 60
7
ErsteUung von Kreuzt8beUen aus Aggregatdaten
Bislang haben wir uns mit Individualdaten befasst. Es konnen aber auch Aggregatdaten von Interesse sein, etwa·die Polizeiliche Kriminalstatistik 200461 • Eine mogliche Fragestellung kann lauten, ob. es einen Zusammenhang zwischen be60
61
In der SPSS-Ausgabe steht zwar ,,0,000", aber das Signifikanzniveau kann fUr die meisten Tests nie die Werte 0 oder 1 annehmen, sondem ihnen hochstens sehr nahe kommen. Dies ist auch hier der Fall: Das Signifikanmiveau ist so klein, dass SPSS die hinteren Kommastellen in der Darstellung abschneidet. Klickt man in der Pivot-Tabelle der SPSS-Ausgabe auf das Signifikanzniveau, so erscheint der tatsachliche Wert mit allen Nachkommastellen. Taucht in einer SPSS-Ausgabe beim Signifikanzniveau der Wert ,,0,000" auf, sollte man deshalb niemals schreiben: EX: - 0,000, sondem: a < 0,001. Die Polizeiliche Kriminalstatistik 2004 ist als Excel-Tabelle unter folgendem Link erhaltlich: http://www.bka.de/pks/pks2004/index2.html
273
Kapitel 11: Kreuztabellen und Kontingenzanalyse
stimmten Straftaten und der Altersklasse gibt. Die Straftaten sind nominalskaliert, d. h. als ZusammenhangsmaB konnte z. B. Cramers V berechnet werden. Alter (klassiert) Straftat
junge Tater (bis 20)
Totungsdelikte
Tater mittleren Alters (21 bis49)
altere Tater (ab 50)
512
2.796
821
7.773
26.234
5.751
Korperverletzung StraBe
33.870
26.622
2.784
Diebstahl von Fahrzeugen
38.019
20.714
1.629
Sexualdelikte
Diebstahl Ee
3.760
5.578
453
Diebstahl aus Wohnungen
19.130
26.168
3.499
Waren- und Kreditbetrug
12.980
86.570
13.391
Hausfriedensbruch
18.604
32.399
7.885
9.527
17.345
1.777
Hehlerei Beleidigung
28.193
91.746
32.839
Beschadigung Kfz
20.247
21.135
3.871
Beschadigung StraBe
21.387
7.014
802
Wie der Tabelle zu entnehmen ist, liegen zwei Variablen vor: Die Zeilenvariable beinhaltet die Straftaten, die Spaltenvariable die Altersklassen. Urn diese Tabelle in SPSS weiterverarbeiten zu konnen, mtissen die Variablenauspragungen erst numerisch kodiert werden, z. B. folgendermaBen:
16
Straftaten (straftat) Totungsdelikte Sexualdelikte Korperverletzung StraBe ... Beschadigung StraBe
1 2 3
Alter der Straftiter (alter) junge Tater (bis 20) Tater im mittleren Alter (21 bis 49) altere Tater (ab 50)
1 2 3
...
Legt man diese Kodierung zugrunde, wird deutlich, dass die Zellen der Kreuztabelle jeweils eine Auspragungskombination reprasentieren. So stehen in der 1. Zelle aIle FaIle, die die Auspragungskombination al ter = 1 und strafta t = 1 aufweisen. Dies sind n = 512. Die Gesamtzahl der FaIle ist - wie man
274
Leila Akremi und Nina Baur
von Hand berechnen kann - tiber 600.000. Insgesamt gibt es 36 mogliche Auspragungskombinationen. Jede Zelle dieser Tabelle wird nun in einem neuen SPSS-Datensatz in einen separaten Fall umgewandelt, d. h. injeder Zelle ist eine Auspragungskombination zu tinden, und diese Auspragungskombinationen konnen als FaIle betrachtet werden. Da es bei insgesamt tiber 600.000 Fallen sehr aufwendig ware, diese einzeln einzugeben, wendet man Kunstgriff an: Neben den Variablen al ter und strafta t definiert man eine Hilfsvariable gewicht. Letztere enthalt die Hautigkeiten der jeweiligen Auspragungskombinationen. Mit Hilfe dieser Variablen wird dem jeweiligen Tabellenfeld sein Gewicht im Rahmen der Gesamttabelle zugewiesen. 62 Auf Basis dieser drei Variablen wird dann der folgende Datensatz in SPSS eingegeben:
Danach muss der Datensatz fUr aIle weiteren Analysen mit folgender Syntax gewichtet werden: WEIGHT BY gewicht.
Nur so wird sichergestellt, dass die empirische Information der Ursprungsdatei erhalten bleibt. Durch einen CROSSTABs-Befehl kann nun die ursprtingliche Kontingenztabelle wieder erzeugt und auf Richtigkeit tiberprtift werden. AuBerdem konnen die Variablen wie andere auch rekodiert werden. Es konnen z. B. Kategorien zusammengefasst werden. Danach konnen Cramers V und andere MaBe berechnet werden. Cramers V betragt fUr das Beispiel 0,301. Es besteht 62
1m Gegensatz zur der weiter vome dargestellten Gewichtung handelt es sich hier nicht urn eine kiinstliche Veranderung der Daten. Somit taucht die Frage nach der Sinnhaftigkeit von Gewichtungen in diesem Zusammenhang nicht auf.
Kapitel 11: Kreuztabellen und Kontingenzanalyse
275
also ein maBiger Zusammenhang zwischen Straftaten und der Altersklasse. Welche Zellen besonders groBe Abweichungen hervorrufen, lieBe sich nun anhand der Zeilen und Spaltenprozente uberprufen und z. B. mittels einer Korrespondenzanalyse auch grafisch visualisieren (vgl. Fromm 2008).
8
Prisentation der Analyseergebnisse: Benutzerdefinierte DarsteUung von KreuztabeUen
Am Ende von vielen Analysen gilt es in den meisten Fallen, einen Bericht oder zumindest eine Prasentation der Ergebnisse zu erstellen. Deshalb gehen wir abschlieBend auf eine besondere Moglichkeit der Darstellung von Kreuztabellen in SPSS ein. Ais Datenbeispiel dienen dieses Mal vier Variablen aus dem ALLBUS-Compact 2004. 63 Ziel ist, die Einstellung zum Sozialstaat bei Befragten aus den alten und neuen Bundeslandem (v3) zu vergleichen. Die Originalstatements aus dem Fragebogen lauten dazu: Variablenname v141 v142 v143
Statement Der Staat muss dafUr sorgen, dass jeder Arbeit hat und die Preise stabil bleiben, auch wenn deswegen die Freiheiten der Untemehmer eingeschrankt werden mfissen. Der Staat muss dafUr sorgen, dass man auch bei Krankheit, Not, Arbeitslosigkeit und im Alter ein gutes Auskommen hat. Wenn die Leistungen der sozialen Sicherung, wie Lohnfortzahlungen im Krankheitsfall, Arbeitslosenunterstfitzung und Fruhrenten, so hoch sind wie jetzt, fUhrt dies nur dazu, dass die Leute nicht mehr arbeiten wollen.
Mit CROSSTABS waren hierzu drei Kreuztabellen notwendig, die man erst einmal getrennt voneinander betrachten wiirde. Zusammenstellungen wie in der nachsten Tabelle lassen sich nur mit den Befehlen TABLES oder CTABLES erzeugen, wobei hier nur der Befehl TABLES erlautert wird. 64 Ein weiteres Bespiel findet sich bei Fromm (2005).
63
64
Auf der Intemetseite http://www.gesis.org/Datenservice/ALLBUS/index.htm konnen registrierte Nutzer den Datensatz fUr wissenschaftliche Forschung und Lehre heruntergeladen. Registrierung und Download sind kostenlos. Weitere Informationen zur Registrierung finden sich ebenfalls auf dieser Seite. Es wird nur auf die in diesem Beispiel benotigten Unterbefehle eingegangen. Sobald das Schlfisselwort TABLE S eingegeben ist, lasst sich mit einem Klick auf das Symbol B:~ die vollstandige Syntax anzeigen. Da der TABLES-Befehl nicht im Syntax-Guide dokumentiert ist, konnen nur einzelne Unterbefehle in den AusfUhrungen zum Befehl CT A~LE S (siehe Syntax-Guide S. 424-452) nachgeschlagen werden.
276
Leila Akremi und Nina Baur
Hluflgkeltsvertellungen und Spaltenprozente far v141, v142, v143 nach Erhebungsgeblet ERHEBUNGSGEBIET: WEST - OST
STAAT: FUER ARBEIT+STABllE PREISE SORGEN
Gesamt STAAT: BEl NOT+ARBEITSlOSIGK. VERSORGEN
STIMME VOll ZU STIMME EHER ZU
Haufigkeiten 362
Spaltenpr ozente 38,5%
741
38,7%
365
38,8%
529
27,6%
169
18,0%
STIMME GAR NICHT ZU
155
8,1%
44
4,7%
1915
940
STIMME VOll ZU
796
100,0% 40,7%
533
100,0% 55,6%
STIMME EHER ZU
822
42,0%
350
36,5%
STIMME EHER NICHT ZU
298 40
15,2% 2,0%
68 7
7,1% ,7%
Gesamt
Gesamt
NEUE BUNDESLAENDER
STIMME EHER NICHT ZU
STIMME GAR NICHT ZU STAAT: SOZ.SICH. REDUZIERT ARBEITSWlllEN
AlTE BUNDESLAENDER Spaltenpr Haufigkeiten ozente 490 25,6%
1956
100,0%
958
100,0%
STIMME VOll ZU
386
20,3%
99
STIMME EHER ZU
36,4%
225
10,6% 24,1%
STIMME EHER NICHT ZU
692 581
30,5%
STIMME GAR NICHT ZU
243
12,8% 100,0%
337 272
1902
933
36,1% 29,2% 100,0%
QueUe: ALLBUS-Compact 2004
Die Gruppen, die verglichen werden sol1en, sind Befragte aus den alten und neuen BundesHindem. Diese Variable befmdet sich in den Spalten. Die Variablen, die zum Vergleich verwendet werden, sind in den Zeilen positioniert. Die Syntax zur dargestellten Kreuztabelle lautet: TABLES /FTOTAL summe 'Gesamt' /TABLES . (v141+ summe + v142 + summe + v143 + summe) BY (v3> (STATISTICS)) /STATISTICS COUNT ((F5.0) 'Haufigkeiten') CPCT ((PCT4.1) 'Spaltenprozente': v3) /TITLE = 'Haufigkeitsverteilungen und Spaltenprozente fur v141, v142, v143 nach Erhebungsgebiet'.
Das Befehlswort ist TABLES und besteht aus folgenden Unterbefehlen: FTOTAL: Darnit der Oberblick erhalten bleibt, solI nach jeder Variablen, die aufgelistet ist auch die Gesamtzahl alIer gtiltigen FalIe vermerkt seine Urn die Positionierung dieser Information in der Tabelle festzulegen, erhalt sie den Namen "summe". Der Name ist frei wahlbar. Mit Apostrophen wird angegeben, welche Bezeichnung fUr diese Werte in der TabelIe erscheinen solI, in diesern Beispiel also "Gesamt".
Kapitel 11: Kreuztabellen und Kontingenzanalyse
277
TABLES: 1m Unterbefehl /TABLES werden die verwendeten Variablen aufgelistet. Vor dem Schlusselwort BY stehen die Zeilenvariablen und dahinter die Spaltenvariablen. Der Zusatz,,> (STATISTICS)" ist optional und bedeutet, dass fUr v3 Statistiken angefordert werden, und zwar getrennt fUr alte und neue BundesHinder. Wenn man ihn wegHisst, dann werden nur die Spalten mit den absoluten Haufigkeiten ausgegeben (/TABLES (v141+ summe + v142 + summe + v143 + summe) BY v3).
Der Unterbefehl /STATISTICS legt fest, welche Statistiken in den Zellen benotigt werden. Je nach Datensituation gibt es sehr viele Moglichkeiten. Neben den absoluten und relativen Haufigkeiten konnen etwa auch MaBe wie Modus, Median, arithmetisches Mittel, Standardabweichung und Varianz angefordert werden (vgl. Syntax Guide S. 435£). So fordert hier COUNT die absoluten Haufigkeiten an und versieht sie mit der Oberschrift "Haufigkeiten". Ober F5. 0 wird das Format fUr die Haufigkeiten in der Tabelle festgelegt. Es kann an die jeweilige Datensituation angepasst werden und bedeutet fUr das Beispiel, dass maximal fiinfstellige Zahlen (F5) ohne Dezimalstellen (.0) angezeigt werden. 65 Mittels CPCT werden die Spaltenprozente angefordert. Bei dieser Prozedur muss die Variable genannt werden, von welcher Spaltenprozente berechnet werden sollen, deshalb folgt hier der Ausdruck ,,: v3". Auch hier kann wieder das Format fUr die Prozentanzeige angegeben werden. PCT4 .1 besagt, dass die Prozentzahlen hochstens aus vier Ziffem bestehen (PCT4), wobei eine Dezimalstelle (.1) vorhanden ist. TITLE legt eine Oberschrift fUr die Tabelle fest. STATISTICS:
We iterfuhrende Literatur: Behnke et. al. (2006) erlautem die grundsatzliche Logik der schlieBenden Statistik. Dort und bei Jann (2002) wird beschrieben, wie man die im Text besprochenen MaBe berechnet. Beck-Bornholdt und Dubben (2003b; 2006) gehen spezifisch auf Bayes-Tests ein. Murphy und Myors (2004) zeigen, wie man Power-Analysen macht. In Kanji (2006) finden sich 100 verschiedene Tests. AngeIe (2007) sowie Wittenberg und Cramer (2003) etlautem, wie man MaBe fur bivariate Zusammenhange mit SPSS berechnet und interpretiert. Erklarungen und Anwendungen zum Befehl TABLE S liefem Wittenberg und Cramer (2003) und zu CTABLES Sarstedt und Schutz (2006). Angele, German (2007): SPSS 14 fur Windows. Eine Einfuhrung. Bamberg: Schriftenreihe des Rechenzentrums der Otto-Friedrich-Universitat Bamberg. http://www.uni-bamberg.de/service_ einrichtungen/urz/netze/spss/ (Kapitel "Kreuztabellen") Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (2003b): Der Schein der Weisen. Irrtiimer und Fehlurteile im taglichen Denken. Reinbek: Rowohlt Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (2006): Die Bedeutung der statistischen Signifikanz. In: Diekmann, Andreas (Hg.) (2006): Methoden der Sozialforschung. Wiesbaden: VS-Verlag. S. 61-74
65
Diese Einstellung betrifft nur die Anzeige in der Tabelle und nicht die Berechnungen selbst.
278
Leila Akremi und Nina Baur
Behnke, Joachim / Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine EinfUhrung fUr Politikwissenschaftler. Wiesbaden: VS-Verlag
Behnke, Joachim / Behnke, Nathalie / Baur, Nina (2006): Empirische Methoden der Politikwissenschaft. Paderbom: Ferdinand Schoningh
Jann, Ben (2002): EinfUhrung in die Statistik. Mtinchen / Wien: Oldenbourg. 59-84 Kanji, Gopal K. (2006) 100 Statistical Tests. London et al.: Sage Murphy, Kevin R. / Myors, Brett (2004): Statistical Power Analysis: A Simple and General Model for Traditional and Modem Hypothesis Tests, Second Edition with CD. London:' Erlbaum Sarstedt, Marko / Schutz, Tobias (2006): SPSS Syntax. Eine anwendungsorientierte EinfUhrung. Mtinchen: Vahlen Wittenberg, Reinhard / Cramer, Hans (2003): Datenanalyse mit SPSS fUr Windows. Stuttgart: Lucius & Lucius (insbesondere folgende Kapitel: Variablenzusammenhange: CROSSTABS, REGRESSION, CORRELATIONS, NON-PAR CORR; Multivariate deskriptive und konfirmative Analyse: CROSSTABS, PARTIAL CORR)
Kapitel12 nas Ordinalskalenproblem Nina Baur
1
Problemstellung
Jedes statistische Verfahren setzt ein Mindestskalenniveau voraus. Ein Verfahren fUr nominale Daten kann also auch fUr hohere Skalenniveaus angewandt werden. Allerdings gehen dabei Informationen verloren. Bei nominalen und metrischen Variablen ist dies kein Problem: Fur beide Skalenniveaus existieren zahlreiche leistungsfahige Verfahren. Das Problem stellen Daten auf ordinalem Skalenniveau dar - obwohl sie in den Sozialwissenschaften ein sehr haufiger Datentyp sind, existieren hierfUr fast keine Verfahren. Zahlreiche soziale Phanomene sind theoretisch intervallskaliert, beispielsweise die Haufigkeit des Einkaufs in der Innenstadt. In der sozialen Wirklichkeit gibt es zwischen den beiden Extremen "Person X kauft immer Lebensmittel in der Innenstadt ein" und "Person X kauft nie Lebensmittel in der Innenstadt ein" unendlich viele Abstufungen - die Variable ist ein latentes Kontinuum:
Einkaufvon Lebensmitteln in der Innenstadt
sozia/e Rea/itlt Immer
Nie
Wenn das Einkaufsverhalten in der Innenstadt durch eine Frage im Fragebogen gemessen wird, muss man dieses Kontinuum in Bereiche unterteilen. Oft gelingt es, durch entsprechende Fragebogenformulierung dieses Kontinuum exakt zu unterteilen. Beispielsweise konnte man fragen: "An wie vielen Tagen kaufen Sie jede Woche in der Nachbarschaft ein?" Leider ist dies nicht immer moglich, zumindest wenn man die Frage verstandlich halten will. Auch verwendet man oft Sekundardaten und muss deshalb
280
Nina Baur
die Frage so Ubemehmen, wie sie die Primarforscher formuliert haben. Beispielsweise wurde im Fragebogen des soziologischen Forschungspraktikums 2000/200 1 die Frage gestellt: "Wie oft kaufen Sie Lebensmittel fUr den taglichen Bedarf in Geschaften oder Kaufhausem in der Innenstadt ein?" (v21). Das Antwortspektrum zwischen "immer" und "nie" wurde in drei Bereiche eingeteilt: (1) Oft - (2) Gelegentlich - (3) Selten 1 Nie. Die Befragten mUssen nun ihr reales intervallskaliertes - Einkaufsverhalten irgendwie in die drei Kategorien einordnen. Dabei stellt sich das Problem, dass man nicht weill, wie durch diese Antwortmoglichkeiten das theoretische Kontinuum unterteilt wird. Es gibt unendlich viele Moglichkeiten, es zu unterteilen. Moglich waren beispielsweise. folgende FaIle:
Einkauf von Lebensmitteln in der Innenstadt sozia/e Rea/itat Immer
Nie
Manifestation im Fragebogen Moglichkeit 1: GleichmaBige Verteilung aber das Antwortspektrum Oft
Gelegentlich
Selten I Nie
Gelegentlich
Selten I Nie
Gelegentlich
Selten I Nie
Gelegentlich
Selten I Nie
Moglichkeit 2: Oft
Moglichkeit 3: Oft
Moglichkeit n: Oft
Kapitel 12: Das Ordinalskalenproblem
281
Jeder Befragte unterteilt also dieses Kontinuum gedanklich in drei Bereiche und ordnet sich dann selbst ein. Hierbei treten zwei grundsatzliche Probleme auf:
1) Problem der absoluten versus relationalen Interpretierbarkeit von Daten: Unterteilen aIle Befragten das Kontinuum auf die gleiche Art und Weise? Wenn die Befragten das Kontinuum nicht gleich aufteilen, kann es sein, dass Befragte dieselbe reale Auspragung haben, sich aber unterschiedlich einordnen. Deshalb kann man solche Variablen nicht absolut, sondem nur relational interpretieren. Dieses Problem lost sich auf, wenn man nicht die Individuen sondem Kollektive betrachtet, wenn man also ZusammenhangsmaBe berechnet. Naheres hierzu fmden Sie bei Schulze (2002a): 50-64. 2) Skalenproblem: Unabhangig davon, wie sich einzelne Befragte zueinander verhalten, also unabhangig davon, ob Variablen absolut oder relational interpretierbar sind, stellt sich ein zweites Problem: Wie unterteilen die Befragten allgemein das Kontinuum, in das sie sich einordnen? Dieses Problem ist Thema der folgenden Ausfiihrungen. Wie die Zeichnung auf der vorigen Seite verdeutlicht, ist es durchaus moglich, dass sich die Befragten so einordnen, dass das reale Einkaufsverhalten so in die drei Kategorien eingeteilt wird, dass die Abstande zwischen den Kategorien gleich groB sind (Moglichkeit 1 in der GrafIk). Die Variable im Fragebogen ware damit wie die Variable in der sozialen Realitat intervallskaliert. Leider weill man dies nicht - es kann ebenfalls sein, dass die Kategorien das mogliche Antwortspektrum sehr unterschiedlich erfassen (Moglichkeiten 2 bis n in der GrafIk). Es gibt hierbei zwei Moglichkeiten, mit diesem Problem umzugehen: 1) Man nimmt an, dass die Variable im Fragebogen ordinalskaliert ist. 2) Man nimmt an, dass die Variable im Fragebogen intervallskaliert ist. FUr welche der beiden Optionen man sich entscheidet, hangt von der wissenschaftstheoretischen Grundposition abo Beide Moglichkeiten haben bestimmte Vor- und Nachteile, die ich im folgenden diskutiere. Grob lasst sich sagen, dass Statistiker im Allgemeinen fordem, solche Variablen als ordinalskaliert zu interpretieren, wahrend zahlreiche empirische Sozialforscher eher der Ansicht sind, dass man solche Variablen unter Vorbehalt als intervallskaliert interpretieren darf. Welche der beiden Positionen er vorzieht, muss jeder Forscher letztlich selbst entscheiden - und sich dabei bewusst sein, dass er sich damit fUr die Vertreter der anderen Option angreifbar macht.
282
2
Nina Baur
Problem 1: Falsche Interpretation der Daten
Wer ordinalskalierte Variablen behandelt wie intervallskalierte Variablen und entsprechende MaBe berechnet (z. B. Mittelwert, Varianz, Korrelation usw.), fii.hrt Rechenoperationen mit den Variablen durch, die nicht erlaubt sind. Diese Rechenoperationen setzen voraus, dass die Abstande zwischen den Variablen gleich groB sind - ob dies der Fall ist, weill man bei ordinalskalierten Variablen nicht. Es kann deshalb passieren, dass man Muster in den Daten berechnet, die in der Realitat nicht da sind: Man fmdet Zusammenhange, wo tatsachlich keine sind. An anderer Stelle werden real existierende Zusammenhange nicht erkannt einfach, weil man das falsche MaB verwendet. Wenn man Variablen wie die Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (v21) als ordinalskaliert interpretiert, besteht diese Fehlergefahr nicht. Simulationsstudien zeigen allerdings, dass diese Fehlergefahr extrem gering ist. Normalerweise unterschatzt man die Starke des Zusammenhangs, wenn man ordinalskalierte Variablen als intervallskaliert interpretiert (Schulze (2000)). Dies zeigt sich an folgendem Beispiel: 1m Fragebogen des soziologischen Forschungspraktikums 2000/2001 messen vier Variablen das Einkaufsverhalten am Stadtrand bzw. in der Innenstadt (v21, v22, v24 und v25). Urn den Fehler ungefahr abzuschatzen, den man begehen wUrde, wenn man die Variablen als intervallskaliert interpretiert, kann man folgendermaBen vorgehen: 1) Die Variablen werden entlang des Medians binarisiert. 2) Man berechnet die Korrelationsmatrix der neuen binarisierten Variablen. 3) Man berechnet die Korrelationsmatrix der Variablen mit ihren urspriinglichen Auspragungen. 4) Man vergleicht die beiden Korrelationsmatrizen. Die Zusammenhfinge der Variablen sind·meistens nicht fundamental verschieden. In den Korrel~tionsmatrizen weiter unten sieht man beispielsweise, dass zwar einzelne Korrelationen etwas starker oder schwacher sind - an der grundsatzlichen Struktur der Daten andert sich nichts: Alle Variablen korrelieren maBig bis stark miteinander. Beispielsweise ist der Zusammenhang zwischen dem Einkauf von Lebensmitteln in der Innenstadt und am Stadtrand in beiden Fallen negativ, der zwischen dem Einkauf von Lebensmitteln und anderen Artikeln des taglichen Bedarfs in der Innenstadt beides mal positive Exakt gleichen sich die Werte allerdings nicht.
Kapitel 12: Das Ordinalskalenproblem
283
Korrelationsmatrix bei binarisierten Variablen
Kauf Lebensmittellnnenstadt Kauf Lebensmittel Stadtrand Kauf and. Artikellnnenstadt Kauf and. Artikel Stadtrand
Korrelationsmatrix (Annahme des Intervallskalenniveaus fOr ordinalskalierte Variablen)
Kauf Lebensmittellnnenstadt Kauf Lebensmittel Stadtrand Kauf and. Artikellnnenstadt Kauf and. Artikel Stadtrand
3
Problem 2: Nichtausschfipfen des Informationspotentials von Daten
Sozialwissenschaftler sind nicht nur an bivariaten sondem auch an multivariaten Analysen interessiert, die es erlauben, komplexe Strukturen in. den Daten zu erkennen und zu analysieren. Diesbeziiglich gibt es folgende Probleme: 1) Nach wie vor gibt es kaum MaBe fUr ordinalskalierte Merkmale. Eine der wenigen Ausnahmen ist das MaB auf der Basis der Entropie, das von Vogel (2000) entwickelt wurde. 2) Statistiker haben noch weniger multivariate Analyseverfahren fUr ordinalskalierte Merkmale entwickelt. Zu den Ausnahmen gehort das Verfahren zur Clusteranalyse von Friedrich Vogel, das das MaB auf der Basis der Entropie verwendet. Andere Beispiele sind Ordered Probit-Modelle und die Dimensionsbildung mit Hilfe der Mokken-Skalierung. 3) Multivariate Analyseverfahren fUr ordinalskalierte Merkmale sind oft gar nicht in Datenanalyseprogramme umgesetzt. Gerade die groBen Programmpakete wie SPSS verrugen fiber keinerlei Prozeduren fUr diese Programme. Dies bedeutet, dass man die Daten oft mUhsam von SPSS in ein anderes Programm exportieren muss, dort die Analyse macht, und dann die Ergebnisse wieder in SPSS re-importieren muss. Dies gilt beispielsweise fUr das Pro-
284
Nina Baur
gramm, mit dem man das oben angefiihrte Clusterverfahren durchfiihren kann. Ein anderes Beispiel ist das von Leila Akremi entwickelte SPSSMakrq, mit dem auch mit SPSS Dimensionen auf Basis der MokkenSkalierung gebildet werden konnen (naheres hierzu siehe Kapitel 9 in diesem Band). Immer noch kann es vorkommen, dass groBe Datensatze die Rechenkapazitat sprengen. Dieses Problem wird im Laufe der nachsten Jahre jedoch immer unbedeutender werden bzw. eher eine Frage der Kosten als eine Frage der grundsatzlichen Moglichkeiten werden. Programme sind aber auf die begrenzte Rechnerkapazitat ausgerichtet. Sie wahlen haufig nicht den optimaIe Losungsweg sondem arbeiten mit Annaherungsalgorithmen. Ein Beispiel hierfUr sind die Verfahren der Clusteranalyse. In dieser Hinsicht sind Programme wie Stata und SAS flexibler als SPSS. Bei ordinalskalierten Variablen bleiben also oft nur folgende Moglichkeiten:
3.1
Option 1: Verwendung von Verfahren fur nominalskalierte Variablen
FUr Kausalanalysen existieren eine Reihe multivariater Verfahren, z. B. die Varianzanalyse, die logistische Regressionsanalyse und die Diskriminanzanalyse. FUr typologische Erkenntnisinteressen und die Bildung von Dimensionen ist die Auswahl der zur VerfUgung stehenden multivariaten Verfahren fast genauso gering wie fUr ordinalskalierte Variablen. Hinzu kommt, dass man die Ordnungsinformation verschenkt, wenn man fUr ordinalskalierte Variablen nur MaBe fUr nominalskalierte Verfahren anwendet.
3.2
Option 2: Binarisierung
Bei vielen Verfahren darf man sowohl mit intervallskalierten als auch mit binaren Variablen rechnen. Es gibt verschiedene Moglichkeiten zu binarisieren. Die beiden gelaufigsten sind: 3.2.1 Bildung von k-1 binaren Variablen (= Dummy-Variablen) Wenn man drei Auspragungen hat (" 0 ft", "gelegentlich" und "selten / nie") erstellt man mit Hilfe des REcoDE-Befehls in SPSS zwei neue Variablen nach dem folgenden Prinzip: - Variable 1: Die Information, die bei der ordinalen Variable mit der Auspragung "oft" gemessen wurde, wird in einer neuen, eigenstandigen Variable abgelegt. Diese nimmt den Wert ,,1" an, wenn der Befragte bei der ordinalen Variable den Wert "oft" aufweist. Falls er dies nicht tut, nimmt die Variablen den Wert ,,0" an. - Variable 2: Die Information, die bei der ordinalen Variablen mit der Auspragung "gelegentlich" gemessen wurde, wird in einer neuen, eigenstandigen Variablen
Kapitel12: Das Ordinalskalenproblem
-
285
abgelegt. Diese nimmt den Wert ,,1" an, wenn der Befragte bei der ordinalen Variable den Wert "gelegentlich" aufweist. Falls er dies nicht tut, nimmt die Variablen den Wert ,,0" an. Wenn ein Befragter bei Variable 1 und bei Variable 2 jeweils eine ,,0" aufweist, hat er weder die Auspragungen "oft" noch "gelegentlich". Da es nur drei mogliche Auspragungen gibt, muss dieser Befragter also die Auspragung "selten / nie" aufweisen. Diese letzte Auspragung muss deshalb nicht durch eine eigene Variable gemessen werden. Man nennt diese Auspragung "Referenzkategorie". Die Ordnungsinformation einer ordinalen Variable wird mit k = 3 Auspragungen durch die Bildung von k-l = 3 - 1 = 2 binaren Variablen voll erfasst.
Auf diese Weise bekommt man zwei binare Variablen und erhalt die Ordnungsinformation. Probleme bei dieser Vorgehensweise entstehen, wennman mehrere Variablen gleichzeitig betrachtet. Erstens kann man durch die Binarisierung leicht so viele Variablen bekommen, dass man den Oberblick verliert. Zusammenhange sind dann nur noch schwer zu erkennen. Zweitens taucht bei der Verwendung gemischter Variablen das Problem der Gewichtung auf: Wenn man z. B. die obige ordinale Variable zusammen mit einer metrischen Variable (z. B. "Alter") in der Regressionsanalyse verwendet und zu diesem Zweck die ordinale Variable binarisiert, rugt man in das Modell ja zweimal die ordinale Variable ein (einmal als binare Variable 1 und einmal als binare Variable 2), die Variable "Alter" aber nur einmal. Die ordinale Variable zahlt also implizit doppelt soviel wie die metrische Variable. Man kann die Variablen gewichten, aber die Frage ist, wie. Hinzu kommt, dass die Streuung binarer Variablen zwangslaufig geringer ist (weil sie nur zwischen ,,0" und ,,1" schwankt) als die Streuung vieler metrischer Variablen (z. B. dem Einkommen). Dies wirkt bei manchen Verfahren wie eine starkere Gewichtung der Variablen mit der groBeren Spannweite. Hier stellt sich die Frage, ob man standardisieren solI, und wennja; wie. 3.2.2 Binarisierung entlang des Medians Man binarisiert die Variable entlang des Medians: Wenn also 25 % der Befragten die Antwort "oft" ("1") gegeben haben, 25 % der Befragten die Antwort "gelegentlich" (,,2") gegeben haben und 50 % der Befragten mit "selten / nie" (,,3") geantwortet haben, bildet man eine neue Variable "Kauft in der Innenstadt ein", die die Auspragungen ,,1" ("Ja") und ,,0" ("Nein") hat. Die alten Kategorien ,,1" und ,,2" fasst man mit Hilfe des REcoDE-Befehls zur neuen Kategorie ,,1" zusammen, die alte Kategorie ,,3" wird zur neuen Kategorie ,,0". 50 % der Befragten haben bei der neuen Variablen die Auspragung ,,1", kaufen also in der Innenstadt ein, 50 % der Befragten haben die Auspragung ,,0", kaufen also nicht oder
286
Nina Baur
hur selten in der Innenstadt ein. Die neue Variable ist damit auch gleichzeitig standardisiert, was sich bei manchen Analyseverfahren glinstig auswirkt. In der Praxis kann man die Grenze fast nie genau am Median ziehen. Beispielsweise kann es sein, dass 10 % der Befragten mit "oft" ("1"), 50 % der Befragten mit "gelegentlich" (,,2") und 40 % der Befragten mit "selten / nie" (,,3") geantwortet haben. In solchen Fallen versucht man, moglichst gleich groBe Gruppen zu bilden. Man wiirde also die. Auspragungen ,,1" und ,,2" zusammenfassen. 60 % der Befragten hatten dann bei der neuen Variablen die Auspragung ,,1",40 % die Auspragung ,,0". An diesem Beispiel deuten sich auch schon die Probleme dieses Verfahrens der Binarisierung an: Oft verzerrt man durch die Binarisierung die Variable sehr stark. Ein Beispiel hierfilr ist die Variable v29 ("Zufriedenheit mit dem Kontakt mit den Nachbam"): Die Zufriedenen sind die weitaus starkste Gruppe (85 % der Befragten). Wenn man binarisiert, muss man diese Kategorie entweder mit denen zusammenfiigen, die mehr Kontakt mit den Nachbam wollen, oder mit denen, die weniger Kontakt mit den Nachbam wollen. Beide Kategorien ("mehr Kontakt gewiinscht" und "weniger Kontakt gewiinscht") sind inhaltlich etwas vollig anderes als die mittlere Kategorie ("zufrieden - Kontakt wie bisher gewiinscht"). Gleichzeitig ist die Gruppe der Zufriedenen so groB, dass sie praktisch allein entscheidend ist, wenn man ZusammenhangsmaBe berechnet - die Unzufriedenen, die mit in dieselbe Kategorie gefasst wurden, fallen praktisch gar nicht mehr ins Gewicht. Wenn man Variablen wie die Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (v21) als ordinalskaliert interpretiert, kann es also sein, dass man das Informationspotential, das in einer Untersuchung angelegt ist, nicht ausschopft.
4
EinschAtzung des Fehlerrisikos
Wie hoch ware nun das Fehlerrisiko, wenn man Variablen wie die Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (v21) als intervallskaliert interpretiert? Urn dies einzuschatzen, gibt es nur Anhaltspunkte (Schulze (2000)). Diese Moglichkeiten der Einschatzung des Fehlerrisikos bespreche ich im Folgenden.
4.1
Analyse der Zahl der Auspragungen
Das Fehlerrisiko, das man eingeht, wenn man Variablen wie die Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (v21) als intervallskaliert interpretiert, ist umso geringer, je groBer die Zahl der Auspragungen der Variablen im Frage-
287
Kapitel 12: Das Ordinalskalenproblem
bogen ist. Diesbezliglich ist der Fragebogen des soziologischen Forschungspraktikums 2000/2001 eher problematisch - fast aIle fraglichen Variablen haben nur drei Auspragungen ("oft" / "gelegentlich" / "selten (nie)" oder "stimmt" / "stimmt teilweise" / "stimmt nicht"). Wfulschenswert waren mindestens fiinf Auspragungen. Hier stellt sich ein Dilemma beim Fragebogendesign: Auswertungstechnisch wlinschenswert sind moglichst viele Auspragungen. Diese tiberfordem aber die meisten Befragten, so dass es erhebungstechnisch i. d. R. sinnvoller ist, sich aufwenige Antwortmoglichkeiten zu beschrfulken.
4.2
Analyse der Haufigkeitsverteilung
Das Fehlerrisiko, das man eingeht, wenn man Variablen wie die Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (v21) als intervallskaliert interpretiert, ist relativ gering, wenn die Antworten ungefahr gleichverteilt sind. Relativ unproblematisch ist deshalb die Behandlung folgender Variable als intervallskaliert: Haufigkeit des Einkaufs von Lebensmitteln in der Innenstadt (n = 588) 100 90 80 70
Pr
oz ent
60 50 40 30 20 10 0 oft
gelegentlich
selten I nie
Teilgruppe Telefonbefragung gewichtet nach HaushaltsgroBe
Jeweils etwa ein Drittel der Befragten hat mit "oft", mit "gelegentlich" und mit "selten (nie)" geantwortet. Die Haufigkeitsverteilung folgender Variable ist dagegen wesentlich schiefer und entsprechend problematischer:
288
Nina Baur
Haufigkeit der Begegnung mit den den Nachbarn / des GrOBens der Nachbarn (n = 588) 100 90 80 70
Pr oz ent
60 50 40 30 20 10 0 oft
gelegentlich
selten I nie
Teilgruppe Telefonbefragung gewichtet nach HaushaltsgroBe
Die Verteilung der Variablen ist extrem schief Fast zwei Drittel der Befragten haben mit "oft" geantwortet, wahrend nur etwa 10 % der Befragten mit "selten (nie)" geantwortet haben. Bei dieser Variablen existiert also ein relativ hohes Fehlerrisiko.
4.3
Vorsichtige Interpretation der Ergebnisse
SchlieBlich sollte man auch bei Annahme von Intervallskalen die allgemeinen Regeln beachten, die fUr den Forschungsprozess gelten. Die in diesem Zusammenhang wichtigsten Punkte sind: Liefert die Datenanalyse ein Ergebnis, das im deutlichen Widerspruch zum vorhandenen Wissen tiber den Gegenstandsbereich steht, sollte man kritisch tiberprufen, ob moglicherweise das falsche Skalenniveau angesetzt oder ein anderer Fehler im Datenerhebungs- oder-analyseprozess begangen wurde. Die Ergebnisse sollten vorsichtig interpretiert werden. Insbesondere sollte man vermeiden, eine in der Realitat nicht vorhandene Exaktheit vorzutauschen. Statt von einer "Korrelation von 0,689" ist es beispielsweise besser, von einem "recht starken Zusammenhang" zu reden.
5
Zum Umgang mit Ordinalskalen in diesem Buch
In den Kapiteln 1, 10 und 11 habe ich Variablen wie das Einkaufsverhalten in der Nachbarschaft - statistisch korrekt - als ordinalskaliert interpretiert. In den
Kapitel12: Das Ordinalskalenproblem
289
iibrigen Kapiteln dieses Buches behandeln wir solche Variablen als intervallskaHert. Dies bedeutet nicht, dass wir fUr die eine oder andere Fonn der Losung dieses Problems pHidieren - diesbeziiglich miissen Sie Ihre eigene Haltung fmden. Wichtig ist, die Entscheidung fUr eine der beiden Vorgehensweisen begriindet zu treffen und sich jedes Mal zu iiberlegen, welche Fehler dadurch im konkreten Fall auftreten konnen. Der Grund, warum wir im Folgenden solche Variablen als intervallskaliert interpretieren, ist didaktischer Natur: Fast alle sozialwissenschaftlichen Variablen sind empirisch ordinalskaliert. Dies gilt auch fUr die meisten Variablen in unserem Beispieldatensatz. Gleichzeitig gehoren Kenntnisse zahlreicher statistischer Verfahren heute zu den BasisqualifIkationen von Sozialwissenschaftlem. Viele dieser Verfahren setzen ein metrisches Skalenniveau voraus. Verfahren fUr nominale und ordinaleDaten bauen meist auf Verfahren fUr metrische Daten aut: d. h. es ist sinnvoll, erst die Verfahren zur Analyse metrischer Daten zu erlemen, wei! es dann leichter fallt, die anderen Verfahren zu verstehen. Der sinnvollste Weg, diese Verfahren (und insbesondere ihre Schwachen) kennen zu lemen, ist, sie praktisch zu iiben. Hierzu benotigt man aber Datensatze - die meist hauptsachlich ordinalskalierte Daten enthalten. Zu Obungszwecken behandeln wir deshalb im Folgenden ordinale Variablen meist als intervallskaliert. Damit wir uns auf das Wesentliche - die Erlauterung der statistischen Verfahren konzentrieren konnen, ruhren wir nicht jedes Mal aufs Neue Oberlegungen fiber das Fehlerrisiko aus. In der Forschungspraxis sollte man jedoch - soweit moglich - Verfahren rur ordinale Variablen vorziehen. Weiterfiihrende Literatur: Baur und Lamnek (2007) sowie Schulze (2002a) erHiutem den Unterschied zwischen relationaler und absoluter Interpretierbarkeit von Daten, Schulze (2000) geht genauer auf das Ordinalskalenproblem ein. Baur,Nina / Lamnek, Siegfried (2007): Variables. In: Ritzer, George (Hg.): The Blackwell Encyclopedia of Sociology. Blackwell Publishing Ltd. S. 3120-3123 Schulze, Gerhard (2000): Die Interpretation von Ordinalskalen. Paper 2 zum HS "Forschung und soziologische Theorie II". SS 2000. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper. Erhaltlich bei Gerhard Schulze (gerhard.schulze@sowLuni-bamberg,de) Schulze, Gerhard (2002a): Einruhrung in die Methoden der empirischen Sozialforschung. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 1. Bamberg. 50-64 (Elementarsatzinterpretation und Messung) und 256-258 (Messung)
Kapitel13 KontroUe von Drittvariablen rdr bivariate Beziehungen Nina Baur
1
Verschiedene Arten von Kausalmodellen
Existiert ein statistischer Zusammenhang zwischen zwei Variablen X (z. B. "Bildungsgrad") und Y ("Wahrscheinlichkeit der Nichtwahl"), muss sichergestellt werden, dass keine dritte Variable Z (z. B. "Geschlecht") die bivariate Beziehung verursacht, also ein Effekt einer dritten Variablen vorliegt. Drittvariablenkontrollen fiihrt man durch, urn ... - ... Starke und Richtung einer gemessenen bivariaten Beziehung zwischen X und Y korrekt einzuschatzen. - ... Aufschluss fiber die kausale Anordnung der miteinander in Beziehung gesetzten Variablen zu erhalten. Dabei sind u. a. folgende'Moglichkeiten der kausalen Strukturierung denkbar (vgl. hierzu auch Schulze (2002a): 260-298): (A) Modell additiver Multikausalitat
(C) Modell der gemeinsamen Ursache
(B) Interaktionsmodell
(D)Interventionsmodell
292
2
Nina Baur
Grundsatzliche Vorgehensweise
Dreiecksbeziehungen der oben vorgestellten Art konnen mit Hilfe der Technik des Konstanthaltens von Drittvariablen uberpriift werden. Hierbei geht man in mehreren Schritten vor:
2.1
Messung des Gesamtgruppenzusammenhangs zwischen Y undX bzw. Z
Man misst zunachst die Starke, Richtung und SignifIkanz zwischen einer abhangigen'Variablen Y und zwei unabhangigen Variablen X und Z. Bei drei nominalen bzw. drei ordinalen Variablen entspricht dies drei Kontingenzanalysen wie sie in Kapitel 11 dieses Buches beschrieben wurden (SPSS-Befehl: CROSSTABS). Bei drei metrischen Variablen ist dies mit Hilfe des Korrelationskoeffizienten moglich (SPSS-Befehl: CORRELATIONS; vgl. Angele (2007) und Kapitel 15). Sind aIle Zusammenhange hoch, stellt sich die Frage nach deren Ursachen. Jeweils zwei Variablen konnen zusammenhangen, die Variablen konnen eine gemeinsame Dimension bilden, weitere, nicht beriicksichtigte Variablen konnen den Zusammenhang verursachen usw. Es ist aber auch moglich, dass eines der oben genannten Kausalmodelle vorliegt. Vermutet man letzteres, kann man mit dem im folgenden beschriebenen Vorgehen diese Modelle uberpriifen.
2.2
Aufstellung aller moglichen Kausalmodelle
Vermutet man, dass ein Dreivariablen-Kausalmodell vorliegt, sollte man sich zunachst theoretisch uberlegen, welche Kausalmodelle inhaltlich Sinn machen wiirden. Man zeichnet hierzu diese Kausalmodelle auf. Auch wenn man ein bestimmtes Kausalmodell vermutet, sollte man aile Kausalmodelle aufstellen, die man auch nur fUr entfemt plausibel halt. Dies ist eine falsifikatorische Forschungsstrategie (Schulze (2002a): 90-96): Man wagt aIle anderen moglichen Kausalmodelle gegen das Modell ab, das man aus theoretischen GrUnden fUr am wahrscheinlichsten halt. Die Folge kann sein, dass die Daten daraufhindeuten, dass eines der anderen Modelle besser zu den Daten passt, man also sein "Lieblingsmodell" verwirft. Es kann aber auch sein, dass sich das yom Forscher bevorzugte Modell gegenuber den anderen Modellen durchsetzt. In diesem Fall gilt es als besonders" gut bestatigt. Wiirde man dagegen eine konfrrmatorische Forschungsstrategie wahlen, also nur das eine Modell uberpriifen, das einem am plausibelsten erscheint, kann es sein, dass einem tatsachliche Zusammenhange entgehen.
293
Kapitel13: Kontrolle von Drittvariablen
2.3
Unterteilung des Datensatzes in Teilgruppen
Nachdem die Kausalmodelle aufgestellt wurden, unterteilt man den Datensatz in Teilgruppen. Jede Auspragung der Variablen Z bildet eine Teilgruppe. FUr jede Teilgruppe berechnet man den Zusammenhang zwischen den Variablen X und Y. Hierzu verwendet man folgende SPSS-Befehle: Bei drei nominalen Variablen den SPSS-Befehl CROSSTABS: y BY x BY z CROSSTABS /CELLS = NONE /STATISTICS = LAMBDA.
Wenn die drei Variablen ordinalskaliert sind beispielsweise: CROSSTABS y BY x BY z /CELLS = NONE /STATISTICS = GAMMA.
Bei drei metrischen Variablen gibt es zwei Optionen: Lasst man das Interaktionsmodell auBer acht, kann man den partiellen Korrelationskoeffizienten verwenden (SPSS-Befehl PARTIAL CORR), also in diesem Beispiel: PARTIAL CORR Y x BY z.
Kommt dagegen auch ein Interaktionsmodell in Betracht, muss man die Kontrollvariable so klassieren, dass aus iiberschaubar vielen Auspragungen besteht:
** NACH DER KLASSIERUNG BZW. BINARISIERUNG DER ** KONTROLLVARIABLEN z IN DIE NEUE VARIABLE z klass: SORT CASES BY z klass. SPLIT FILE BY z klass. CORRELATIONS y x. SPLIT FILE OFF.
2.4
Vergleich der Teilgruppen- und Gesamtgruppenzusammenhange
In den Untergruppen von Z wird emeut die bivariate Beziehung zwischen X und Y untersucht und mit dem Ergebnis in der Gesamtheit verglichen. Dabei bestehen folgende Moglichkeiten: Statistisches Ergebnis Die Zusammenhange in den Teilgruppen unterscheiden sich nicht wesentlich vom Zusammenhang in der Gesamtheit. Die Zusammenhange in den Teilgruppen unterscheiden sich deutlich. Der Zusammenhang existiert nur in der Gesamtheit. In den Teilgruppen istder Zusammenhang (tendenziell) nicht existent.
M6gliche inhaltliche Interpretation Additives Modell (A) Interaktionsmodell (B) Modell der gemeinsamen Ursache(C) oder Interventionsmodell (D)
294
2.5
Nina Baur
Vergleich der Daten mit dem aufgestellten theoretischen Modell
Nun gleicht man die empirischen Ergebnisse aus (4) mit den theoretischen Modellen aus (2) abo Man entscheidet sich fUr das Modell, das am besten zu den Daten passt. Scheint keines der Modelle geeignet, muss man das theoretische Modell modifizieren. Das Problem bei empirischen Daten ist, dass die Ergebnisse in der Regel nie eindeutig in das obige Schema eingeordnet werden konnen. Man muss also interpretieren.
2.6
Inhaltliche Interpretation des Modells
In den Forschungsbericht iibemimmt man natiirlich nicht das formale Modell sondem formuliert aus, was es - auf den konkreten Sachverhalt bezogen - bedeutet.
3
Beispielfragestellung und Daten
Ein Forscher vermutet, dass sich die Wohndichte - sowohl innerhalb einer Familie als auch innerhalb eines Hauses - auf die Starke der Probleme mit den Nachbam auswirkt. 1m Datensatz des soziologischen Forschungspraktikums 2000/ 200 I fmdet er Variablen, die ihm zur Dberprufung dieser Hypothese geeignet erscheinen: Haufigkeit der Probleme mit den Nachbam (vIO) Art des Wohngebaudes (v03) als Indikator fUr die Wohndichte innerhalb eines Hauses HaushaltsgroBe (v04) als Indikator fUr die Wohndichte innerhalb einer Familie66 Die Variablen haben unterschiedliche Skalenniveaus und unterschiedlich viele Auspragungen. Urn die prinzipielle Vorgehensweise der Drittvariablenkontrolle zu illustrieren, werden sie zunachst als nominale, dann als ordinale und schlieBlich als metrische Variablen behandeIt. 67
66
Hinweis: Diese Variablen erfassen nicht genau, was erforscht werden solI: Zunachst erfasst die
67
HaushaltsgroBe im Fragebogen nur die Zahl der Haushaltsmitglieder tiber 18 Jahre - Kinder bleiben also unberucksichtigt. Hinzu kommt, dass die Zahl der Haushaltsmitglieder bzw. die Zahl der Parteien in einem Haus nicht unbedingt darauf hinweisen muss, dass die Wohndichte groB ist - wenn die Quadratmeterzahl groB ist, kann die Wohndichte auch bei vielen Personen gering sein. Dies ist bei der Interpretation und Weiterverwendung der Daten zu berucksichtigen. zum Ordinalskalenproblem vgl. Kapitel12
Kapitel13: Kontrolle von Drittvariablen
4
295
Allgemeine Vorarbeiten
Die Frage v04 wurde nur an Befragte der Telefonumfrage gesteIlt. Deshalb miissen vorab aIle anderen FaIle aus dem Datensatz entfemt werden. AuBerdem miissen die fehlenden Werte defmiert werden. Die Variable vl0 wird so rekodiert, dass sie inhaltlich leichter zu interpretieren ist: Hohere Werte entsprechen nach der Rekodierung mehr Problemen mit den Nachbam.
4.1
SPSS-Syntax
SELECT IF (sit=I). SAVE OUTFILE = 'A:\Datensatz nur Telefon.sav' /COMPRESSED. MISSING VALUES v03 (7). RECODE vl0 (1=3) (2=2) (3=1) INTO problem. EXECUTE. VARIABLE LABELS problem 'Probleme mit den Nachbarn'. VALUE LABELS problem 1 'keine Probleme' 2 'teilweise Probleme' 3 'Probleme'. FREQUENCIES v03 v04 problem /STATISTICS = NONE.
4.2
SPSS-Ausgabe
V04 Haushaltsgr6Be (zahl der Personen ab 18) Anteil in 0/0
Nach der Selektion befinden sich GOItig 1 22,2 noch 81 FaIle im Datensatz. Auf 2 56,8 3 9,9 die Frage v03 haben zwei, auf die 4 6,2 Frage vI 0 clrei Personen nicht 5 3,7 geantwortet. 6 1,2 Betrachtet man die HaufigGesamt 1000 keitsverteilungen, so fallt einerseits auf, dass V03 Art von Wohngeblude manche Kategonen extrem stark besetzt sind (alGOltig 1 alleinstehendes Einfamilienhaus 2 Doppelhaus lein stehendes 3 Reihenhaus Einfamilienhaus 4 Mehrparteienhaus bis 6 Whg. und Mehrpartei5 Wohnblock mit mehreren Eingangen enhaus bei der 6 Hochhaus mit mehr als 6 Stockwerken Variable v03; Gesamt
Anteil in 0/0 29,1 3,8 13,9 34,216,5 2,5 1000
Nina Baur
296
Zwei-Personen-Haushalt bei VariPROBLEM Probleme mit den Nachbarn able v04; keine Probleme mit den Nachbarn bei Variable problem). Anteil in 0/0 Umgekehrt sind manche KaGOltig 1 keine Probleme 82,1 2 teilweise Probleme 11,5 tegorien sehr schwach besetzt. Es 3 Probleme 6,4 kann unter Umstanden passieGesamt 1000 ren, dass spater beim Berechnen der ZusammenhangsmaBe einzelne Felder so schwach besetzt sind, dass dieMaBe nicht berechnet werden konnen. In diesem Fall miissten nachtraglich die Variablen noch klassiert werden. Dies wird sich im Lauf der Analyse zeigen.
5
Schritt 1: Gesamtzusammenhang
1m ersten Analyseschritt wird untersucht, ob iiberhaupt ein Zusammenhang zwi-
schen den drei Variablen besteht. Inhaltlich ist dies durchaus plausibel. Abhangige Variable ist problem, unabhangige Variablen sind die Variablen v03 und v04. 5.1
SPSS-Syntax bei Interpretation der Variablen als nominalskaliert
CROSSTABS v03 v04 BY problem /CELLS = ROW /STATISTICS = LAMBDA.
5.2 SPSS-Ausgabe bei Interpretation der Variablen als nominalskaliert Betrachtet man die Kreuztabelle, so scheint es durchaus Zusammenhange zwischen v03 bzw. v04 einerseits und problem andererseits zu geben: Kreuztabelle % von V03 Art von Wohngebaude PROBLEM Probleme mit den Nachbarn 1 keine Probleme V03 Art von Wohngebaude
1 alleinstehendes Einfamilienhaus 2 Doppelhaus 3 Reihenhaus 4 Mehrparteienhaus bis 6 Whg. 5 Wohnblock mit mehreren Eingangen
86,40/0
81,50/0
3 Probleme
14,80/0
91,7 %
20,00/0
100,00/0 100,0%
3,70/0
100,0%
8,30/0
100,00/0
53 %
1000%
100,00/0
100,00/0 8290/0
11 8%
Gesamt 100,00/0
13,60/0
100,0°,fo 80,00/0
6 Hochhaus mit mehr als 6 Stockwerken Gesamt
2 teilweise Probleme
Kapitel13: Kontrolle von Drittvariablen
297
Kreuztabelle 0/0 von V04 HaushaltsgroBe (Zahl der Personen ab 18) PROBLEM Probleme mit den Nachbarn 1 keine . 2 teilweise Probleme Probleme 3 Probleme V04 HaushaltsgroBe 72,2% 16,7% 11,1% 1 (Zahl der Personen 2 8,9% 4,40/0 86,70/0 ab 18) 28,6% 3 71,40/0 4 100,00/0 5 100,00/0 6 100,00/0 Gesamt 82,1% 11,50/0 6,40/0
Gesamt 100,00/0 100,00/0 100,00/0 100,00/0 100,00/0 100,0% 100,0%
Dies spiegelt sich auch in den ZusammenhangsmaBen wider: Die Prognose, ob jemand Probleme mit den Nachbam hat, verbessert sich urn etwa 15 %, wenn man weill, in welcher Art von Wohngebaude die Person wohnt. RichtungsmaBe
Nom ina1- bzgl. NominalmaB
Lambda
Goodman-und -Kruskal-Tau
Symmetrisch V03 Art von Wohngebaude abhangig PROBLEM Probleme mit den Nachbarn abhangig V03 Art von Wohngebaude abhangig PROBLEM Probleme mit den Nachbarn abhangig
Wert ,048
Asymptoti scher Standardf ehle~ ,034
Naherungs b weises T 1,358
Naherungs weise Si nifikanz ,175
,020
,035
,579
,563
,100
1,433
,152
,015
,260
,031
,004
c
c
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Basierend auf Chi-Quadrat-Naherung
Auch der Zusammenhang zwischen HaushaltsgroBe und den Problemen mit den Nachbarn ist positiv - allerdings nicht so stark. Theoretisch ware ein groBerer Zusammenhang zu erwarten gewesen - vielleicht ist er deshalb so gering, wei! die ZOOI der Kinder im Haushalt nicht erfasst wurde. Allerdings sind die Zellen in diesem Beispiel sehr gering besetzt - manche sind sogar leer. Dadurch kann das Ergebnis feWerhaft seine Wollte man diese Ergebnisse fUr einen Forschungsbericht verwenden, miisste man auf einen groBeren Datensatz zuriickgreifen oder die Variablen klassieren. 68 68
Zu den mit der Klassierung verbundenen Problemen siehe Kapitel 10 und 11 in diesem Buch.
298
Nina Baur
RichtungsmaBe Asymptoti scher Standardf Nominal- bzgl. NominalmaB
Lambda
Goodman-und -Kruskal-Tau
Symmetrisch V04 HaushaltsgroBe (Zahl der Personen ab 18) abhangig PROBLEM Probleme mit den Nachbarn abhangig V04 HaushaltsgroBe (Zahl der Personen ab 18) abhangig PROBLEM Probleme mit den Nachbarn abhan i
Wert ,021
,047
Naherungs b weises T ,448
Naherungs weise Si nifikanz ,654
,061
,000
1,000
,069
1,006
,314
ehle~
,000
,024
,036
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Basierend auf Chi-Quadrat-Naherung
5.3
SPSS-Syntax bei Interpretation der Variablen als ordinalskaliert
CROSSTABS v03 v04 BY problem /CELLS = ROW /STATISTICS = GAMMA.
5.4
SPSS-Ausgabe bei Interpretation der Variablen als ordinalskaliert
Je mehr Parteien in einem Haus wohnen, desto mehr Probleme gibt es tendenziell mit den Nachbam - dies entspricht durchaus unseren Erwartungen: Symmetrlsche MaRe Asymptoti scher Standardf Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile
Gamma
Wert ,181 76
ehle~
,206
Naherungs b weises T ,855
Naherungs weise Signifikanz ,393
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet.
Der Zusammenhang zwischen HaushaltsgroBe und den Problemen mit den Nachbarn ist dagegen ganz anders als erwartet: Je mehr Personen in einem Haushalt wohnen, desto.weniger Probleme gibt es mit den Nachbarn. Woran dies liegt, kann man nur vermuten. Vielleicht sind diese Personen geselliger? Vielleicht wohnen sie auch nicht mit Kindem zusammen, wahrend 1- und 2-Personen-Haushalte eher mit
299
Kapitel13: Kontrolle von Drittvariablen
Kindem zusammenwohnen und Kinder eine Hauptursache fUr Probleme mit den Nachbam sind? Diese Fragen konnen nicht mit dem Datensatz beantwortet werden. Symmetrische Male
Ordinal- bzgl. OrdinalmaB Anzahl der gultigen Faile
Wert -,155
Gamma
Asymptoti scher Standardf ehle,s ,253
Naherungs weises T b -,613
Naherungs weise Signifikanz ,540
78
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese ~ird der asymptotische Standardfehler verwendet.
5.5
SPSS-Syntax bei Interpretation der Variablen als metrisch
CORRELATIONS problem v03 v04e
5.6
SPSS-Ausgabe bei Interpretation der Variablen als metrisch
Vergleicht man die Ergebnisse der Kreuztabellen mit den Korrelationskoeffizienten, wird ·das Skalenproblem deutlich: Der Zusammenhang zwischen HaushaltsgroBe und den Problemen mit den Nachbam erscheint negativ, wenn man die Variablen v04 und problem als ordinalskaliert interpretiert. Dagegen erscheint er als fast Null, allerdings leicht positiv, wenn man die Variablen als metrisch interpretiert. Der Hauptgrund hierfiir sind sicherlich die extrem schiefen Verteilungen. Dies ist ein Beispiel dafiir, wie wichtig es ist, das richtige ZusammenhangsmaB zu wahlen: In diesem Fall erfasst das MaB nicht die real existierenden Zusammenhange. Der Zusammenhang zwischen HaushaltsgroBe und den Problemen mit den Nachbam ist in diesem Beispiel fast Null - normalerweise wiirde man in diesem Fall schlieBen, dass kein Zusammenhang zwischen den beiden Variablen existiert. Urn die Drittvariablenkontrolle bei metrischen Variablen im Vergleich zu nominalen und ordinalen Variablen zu illustrieren, werden diese beiden Einwande im Folgenden aus didaktischen Grunden ignoriert. Korrelationen
PROBLEM Probleme mit den Nachbarn PROBLEM Probleme mit den Nachbarn V03 Art von Wohngebaude V04 HaushaltsaroBe
V04 HaushaltsgroBe (Zahl der Personen ab 18)
V03 Art von Wohnaebaude
1,000
,125
,013
,125 013
1,000 -147
-,147 1000
300
6
Nina Baur
Schritt 2: M6gliche KausalmodeUe
Bislang haben wir die Gesamtzusammenhange untersucht. Ais nachstes muss inhaltlich uberlegt werden, welche Kausalmodelle plausibel erscheinen. Diese werden einfach aufgelistet. Man stellt dabei aile moglichen Kausalmodelle aut: urn die Wahrscheinlichkeit zu verringem, dass die eigene Perspektive die Forschungsergebnisse verzerrt. Welches der Modelle zutriffi, entscheidet man nicht aufgrund theoretischer Oberlegungen. Entscheidungsgrundlage sind vielmehr die Daten, die wir erst in spateren Schritten analysieren. Genau dies istja gerade der Sinn empirischer Sozialforschung: theoretische Modelle an der Wirklichkeit zu uberprufen. Beispielsweise lassen sich fUr das hier behandelte Beispiel die folgenden theoretischen Modelle vorstellen:
1) Multikausalitat (Modell A): Steigende HaushaltsgroBe und steigende Zahl der Parteien fiihren unabhangig voneinander auch zu mehr Problemen mit den Nachbam: Je mehr Personen in einem Haushalt wohnen, desto groBer ist die Larmbelastigung fUr die Nachbam. In Mehrparteienhausem wohnt man dichter zusammen und kann sich deshalb nicht so gut aus.dem Weg gehen (Hier wurden also zwei weitere Variablen - Lfumbelastigung und Sich-Meiden-Konnen - eingefiihrt, die aber nicht direkt gemessen wurden). Formal sahe diese Beziehung so aus:
2) Interaktion (Modell B): Je mehr Personen zusammen in einer Wohnung leben, desto mehr Probleme gibt es auch mit den Nachbarn, wei! die Larmbelastigung groBer ist. Das gilt aber nur, wenn viele andere Parteien im selben Haus wohnen. In Ein-Parteienhausem bekommen die Nachbam dagegen den Larm nicht mit und fiihlen sich auch nicht gestort (Wieder eine Reihe von intervenierenden Variablen, die nicht gemessen wurden.). Formal ausgedrlickt:
Kapitel13: Kontrolle von Drittvariablen
301
3) Interaktion (Modell B): Ie mehr Parteien in einem Haus wohnen, desto mehr Probleme gibt es mit den Nachbam. Dies gilt aber nur, wenn in einem Haushalt viele Personen wohnen. Ein moglicher Grund hierfiir ist, dass groBe Haushalte oft WGs sind, die Partys feiem wollen und nicht bereit sind, darauf zu verzichten. Umgekehrt gehen Alleinlebende oft aus und bekommen nicht viel von ihren Nachbam mit. Formal ausgedrtickt:
4) Gemeinsame Ursache (Modell C): Wenn viele Personen eine Familie bilden, haben sie einerseits ein geringes Einkommen und mussen deshalb auch in Hauser ziehen, wo noch andere Leute wohnen. Andererseits haben sie auch mehr Probleme mit ihren Nachbam: Wenn sich einer mit den Nachbam streitet, zeigen sich die anderen solidarisch und halten zusammen. Da es sich urn mehrere Personen handelt, ist aber auch die Wahrscheinlichkeit hoher, dass sie sich mit den Nachbam streiten. Formal ausgedrtickt:
302
Nina Baur
5) Intervention (Modell D): Personen, die in groBen Haushalten wohnen, haben auch ein geringeres Einkommen pro Person. Deshalb konnen sie auch nur in Hauser ziehen, in denen viele Parteien wohnen, wei! dort der Wohnraurn im allgemeinen billiger ist. Je mehr Parteien in einem Haus wohnen, desto mehr Probleme mit den Nachbam gibt es auch. Formal ausgedrtickt:
Bei allen diesen Modellen handelt es sich urn theoretische Modelle, die dem Forscher (in diesem Fall also mir) plausibel erscheinen. Andere Modelle sind denkbarWelches dieser Modelle erfasst nun am besten die Wirklichkeit? Genau das zu uberprufen, ist das Ziel der Drittvariablenkontrolle, d. h. man versucht jetzt, mit Hilfe der Daten Hinweise zu gewinnen, welches Modell tatsachlich zutrifft. Hierzu muss man zunachst defmieren, welche Variable die Kontrollvariable Z ist. Dies hangt vomjeweiligen KausaImodell ab: Bei der Interpretation (1) (Multikausalitat) kann man sich aussuchen, welche Variable zur Kontrollvariable werden solI: Gleichgiiltig, wie man aufteilt, miissen die Zusammenhange in den Teilgesamtheiten immer denen der Gesamtheit ahneln. Bei den Interpretationen (2) (Interaktion) und (5) (Intervention) muss v03 die TestvariabIe sein. Bei den Interpretationen (3) (Interaktion) und (4) (Gemeinsame Ursache) muss dagegen v04 Testvariable sein. Dies bedeutet, dass wir den Datensatz zweimal aufteilen: Einmal unterteilen wir ihn nach Variable v03, untersuchen dann die Zusammenhange zwischen den Variablen v04 und problem und uberprufen so die Modelle (1), (2) und (5). Das andere Mal unterteilen wir ihn nach Variable v04, untersuchen dann die Zusammenhange zwischen den Variablen v03 und problem und uberprufen so die Modelle (1), (3) und (4).
Kapitel13: Kontrolle von Drittvariablen
303
7
Schritte 3 bis 5: -oberprilfen der Kausalmodelle
7.1
Interpretation der Variablen als nominalskaliert
7.1.1 SPSS-Syntax
* v03 ALS TESTVARIABLE (MODELLE 1,2 UND 5) * CROSSTABS problem BY v04 BY v03 /CELLS = NONE /STATISTICS = LAMBDA. * v04 ALS TESTVARIABLE (MODELLE 1,3 UND 4) * CROSSTABS problem BY v03 BY v04 /CELLS = NONE /STATISTICS = LAMBDA. 7.1.2 SPSS-Ausgabe Teilgruppe 1 (l-Personen-Haushalte): Wenn eine Person im Haushalt wohnt, betragt A, zwischen der Art des Wohngebaudes und den Problemen mit den Nachbam 0,25. Wenn man weiB, in welcher Art von Wohngebaude ein Ein-Personen-Haushalt wohnt, verbessert sich also die Vorhersagegenauigkeit urn 25 %.
Teilgruppe 2 (2-Personen-Haushalte): Wenn eine Personen im Haushalt wohnen, betragt A, zwischen der Art des Wohngebaudes und den Problemen mit den Nachbam 0,0. Wohnen zwei Erwachsene im Haushalt, verbessert sich also die Vorhersagegenauigkeit nicht, wenn man weiB, in welcher Art von Wohngebaude sie wohnen ....
~.~
',N
~ V04 HaushaltsgroBe (Zahl der Personen ab 18) 1
2
Lambda
Lambda
~
RichtungsmaBe
~ ..
PROBLEM Probleme mit den Nachbarn abhangig PROBLEM Probleme mit den Nachbarn abhangig PROBLEM Probleme mit den Nachbarn abhangig
3
Lambda
4
Lambda
5
Lambda
e
6
Lambda
f
Asymptoti scher Standardf a ehler
Naherungs b weises T
Naherungs weise Signifikanz
,25~
,217
1,031
,303
,000
,000
,500
,354
1,080
,280
Wert
e
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. e. Es werden keine Statistiken berechnet, da PROBLEM Probleme mit den Nachbarn eine Konstante ist f. Es werden keine Statistiken berechnet, da PROBLEM Probleme mit den Nachbarn und V03 Art von Wohngebaude Konstanten sind. .
304
Nina Baur
SPSS berechnet nun fUr jede Teilgruppe ein eigenes ZusammenhangsmaB: In 1Personen-Haushalten steigt die Wahrscheinlichkeit, dass man richtig prognostiziert, ob jemand Probleme mit den Nachbam hat, urn 25 %, wenn man weill, wie viele Parteien noch im Haus wohnen. Bei 2-Personen-Haushalten verbessert sie sich nicht, wahrend sie sich bei 3-Personen-Haushalten urn 50 % verbessert. In diesem Beispiel fallt jedoch aut: dass SPSS fUr einige HaushaltsgroBen keinen Wert berechnet hat. Das liegt daran, dass wegen der geringen Fallzahl und der Schiefe der Verteilung einige Felder nicht besetzt sind und folglich auch kein Wert berechnet werden kann. Die Ergebnisse sind also nur bedingt interpretierbar - Stichprobenfehler sind sehr wahrscheinlich. Man konnte fiberlegen, ob man die Variablen klassiert. Altemativ mfisste man mehr Leute befragen. Was sagen uns - trotz aller Mangel- die Daten fiber unsere Kausalmodelle? Urn dies beurteilen zu konnen, muss man zunachst die Ergebnisse der Gesamtheit (siehe oben) mit den Ergebnissen der Teilgesamtheiten vergleichen. Betrachten wir zunachst die obere Tabelle: In dieser ist v04 Testvariable. Die Lambda-Werte zeigen den Einfluss von v03 in den Teilgesamtheiten aufv04 an: Bei I-Personen-Haushalten betragt A = 0,25, bei 2-Personen-Haushalten ist A = 0, bei 3-Personen-Haushalten ist A = 0,5. Der Gesamtzusammenhang ist A = 0,15 (vgl. SPSS-Ausgabe S. 297 oben). Die Zusammenhange in den Teilgesamtheiten und in der Gesamtheit sind also sehr unterschiedlich. Dies entsprache einem Interaktionsmodell folgender Art (Modell (3)):
Bevor wir aber ein Urteil.fallen, schauen wir uns erst emmal die Ergebnisse an, wenn v03 Testvariable ist. Auch in diesem Fall bleiben einige Kategorien mangels Fallzahlleer. Lambda betragt in Wohnblocken mit mehreren Eingangen 1. In allen fibrigen Fallen ist A= 0. In der Gesamtheit ist A= 0,07, also ebenfalls sehr gering:
305
Kapitel13: Kontrolle von Drittvariablen
Rlchtungsmale
V03 Art von Wohngeb~ude
1 alleinstehendes Einfamilienhaus
Wert Lambda
PROBLEM Probleme mit den Nachbam
Asymptoti scher Standardf ehle,.a
,000
,000
,000
,000
,000
,000
1,000
,000
N~herungs N~herungs
b
weise Signifikanz
1,044
,296
weises T
abh~ngig
e
2 Doppelhaus
Lambda
3 Reihenhaus
Lambda
PROBLEM Probleme mit den Nachbam
4 Mehrparteienhaus bis6 Whg.
Lambda
PROBLEM Probleme mit den Nachbam
5 Wohnblock mit mehreren Eing~ngen
Lambda
abh~ngig
abh~ngig
PROBLEM Probleme mit den Nachbam abh~ngig
6 Hochhaus
Lambda
e
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. e. Es werden keine Statistiken berechnet, da PROBLEM Probleme mit den Nachbam eine Konstante ist
Wegen der geringen Fallzahl ist das Ergebnis schwer zu bewerten: Man konnte einerseits argwnentieren, dass die Zusammenhange in den Teilgesamtheiten sehr unterschiedlich sind und deshalb zwn Modell (2) passt, das wir oben aufgestellt haben:
Andererseits konnte man argwnentieren, dass A = 1 bei Wohnblocken aufgrund von AusreiBem zustande kommt und dass die Lambda-Werte deshalb aIle nahe bei Null sind - genauso wie in der Gesamtheit. Dies entsprache dem Modell (1):
306
Nina Baur
7.1.3 Zwischenfazit Das Beispiel verdeutlicht mehrerlei: 1) Wichtigkeit der Datenerhebung und -dokumentation: Zunachst wird noch einmal deutlich, wie wichtig es ist, dass man verlassliche Daten hat: Die Fragen miissen das erfassen, was man auch wissen will. Bei der Frageformulierung sollte man sich aber auch schon iiberlegen, wie man die Variable nachher auswerten will. Man darf keine systematischen Fehler in der Stichprobe haben. FUr die statistische Bearbeitung muss der Datensatz groB genug seine Bei der Datenerhebung sollen moglichst keine Fehler entstehen. AIle moglichen Drittvariablen miissen auch erfasst werden. Insgesamt weisen die hier untersuchten Variablen so viele Probleme auf, dass man das Ergebnis in einem Forschungsbericht nicht verwenden wiirde sondern nach einem anderen, groBeren Datensatz mit besser geeigneten Variablen suchen wiirde. 2) Unscharfe~· Vor der Analyse wurden einige mogliche Kausalmodelle aufgestellt. Die Datenanalyse gibt nun Anhaltspunkte dafUr, welche Kausalmodelle moglich sind: Wir haben die Zahl der moglichen Modelle von fUnf auf drei reduziert. Umgekehrt ist das Ergebnis selten eindeutig, so auch in diesem Fall. Das liegt einerseits daran, dass man in Stichproben fast immer Verzerrungen hat. Andererseits ist auch die Realitat oft unscharf. 3) Moglichkeit alternativer theoretischer Modelle: Selbst wenn dieses Beispiel eindeutige Ergebnisse geliefert hatte, ware damit noch kein bestimmtes Kausalmodell bewiesen. Neben Fehlern in den Daten sind auch alternative Erklarungen fUr die Zusammenhange moglich, insbesondere dimensionale Strukturen und nicht berucksichtigte Drittvariablen. Dies unterstreicht nochmals, wie wichtig eine falsifIkatorische Forschungsstrategie ist - sonst iibersieht man moglicherweise relevante Muster in den Daten. 4) Wechsel von deduktivem und induktivem Vorgehen: Nicht nur bei qualitativer, auch bei der quantitativen Datenanalyse wechseln sich deduktives und induktive~ Vorgehen abe In diesem Fall wurden erst theoretische Modelle
Kapitel13: Kontrolle von Drittvariablen
307
aufgestellt. Die Daten ergaben teilweise ein anderes Bild als erwartet. Also liberlegt man, woran dies liegen konnte und analysiert weiter - gegebenenfalls mit anderen Daten oder anderen Variablen.
7.2
Interpretation der Variablen als ordinalskaliert
7.2.1
SPSS-Syntax
* v03 ALS TESTVARIABLE (MODELLE 1,2 UND 5) * CROSSTABS problem BY v04 BY v03 /CELLS = NONE /STATISTICS = GAMMA. * v04 ALS TESTVARIABLE (MODELLE 1,3 UND 4) * CROSSTABS problem BY v03 BY v04 /CELLS = NONE /STATISTICS = GAMMA. 7.2.2 SPSS-Ausgabe Auch in diesem Fall existiert das Problem, dass manche Zellen so schwach besetzt sind, dass kein ZusammenhangsmaB berechnet werden kann. Die Einschrankungen, die unter der Rubrik "Zwischenfazit" gemacht wurden, gelten auch :fiir diesen Fall. Die ZUSammenhange in den Teilgesamtheiten sind sehr unterschiedlich und auch sehr von denen der Grundgesamtheit verschieden, unabhangig davon ob man v03 als auch wenn man v04 als Testvariable. verwendet. Die Daten wlirden also die Modelle (2) oder (3) stlitzen - welches Modell das gliltige ist, Hisst sich nicht genau sagen. In beiden Fallen mlissten die theoretischen Modelle allerdings leicht modifiziert werden: Bei Modell (2) konnte die Interpretation lauten: Wie groB ein Haushalt ist, wirkt sich darauf aus, ob jemand Probleme mit seinen Nachbarn hat. Wie sich dies auswirkt, hangt davon ab, wie viele Parteien sonst noch im Haus wohnen: In Einfamilienhausem haben groBere Haushalte eher mehr Probleme mit ihren Nachbarn. In Hausem, in denen mehrere Parteien wohnen, haben groBere Haushalte eher wenige Probleme mit den Nachbarn. Moglicherweise hangt dies yom Typ der Nachbarschaft und dem Haushaltstyp ab: In Gegenden, in denen Einfamilienhauser stehen, leben vor allem Haushalte mit hoherem Einkommen, die Wert auf Ruhe und Privatsphare legen. GroBe Erwachsenen-Haushalte sind vor allem StudentenWGs, die Unruhe in die "Idylle bringen. In Mehrfamilienhausem wohnen vor allem Haushalte mit niedrigeren Einkommen. Sie sind mehr Unruhe gewohnt. Zudem wohnen hier auch Eltem mit ihren erwachsenen Kindem in einer Wohnung zusammen, also eher ruhige Haushalte, die seit Jahren in der Umgebung wohnen.
308
Nina Baur
All dies sind Hypothesen, die nicht mit den vorhandenen Daten uberpruft werden konnen - sie konnen lediglich Anhaltspunkte fUr weitere Untersuchungen bilden. Symmetrische Male
V03 Art von Wohngebaude 1 alleinstehendes Einfamilienhaus 2 Doppelhaus 3 Reihenhaus 4 Mehrparteienhaus bis 6 Whg. 5 Wohnblock mit mehreren Eingangen 6 Hochhaus mit mehr als 6 Stockwerken
Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile
Gamma
Wert .355 22
Gamma Gamma
Naherungs weises b .752
Naherungs weise Signifikanz .452
,000
-1,690
,091
,247
-1,637
,102
,000
1,149
.251
r
c
Gamma Gamma
Asymptoti scher Standardf ehle,a ,377
3 -1,000 10 -,701 27 1.000 12 c
Gamma
2
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Es werden keine Statistiken berechnet, da PROBLEM Probleme mit den Nachbam eine Konstante ist
Symmetrische Male V04 HaushaltsgroBe (Zahl der Personen ab 18) 1 2 3 4 5 6
Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile Ordinal- bzgl. OrdinalmaB Anzahl der gOltigen Faile
Gamma Gamma Gamma
Wert .158 17 -,218 44 .250 7
Asymptoti scher Standardf ehlefl .380
Naherungs b weises r ,400
Naherungs weise Signifikanz .690
,241
-.859
.390
,685
,344
.731
c
Gamma 4
c
Gamma 3 Gamma
d
1
a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. c. Es werden keine Statistiken berechnet, da PROBLEM Probleme mit den Nachbam eine Konstante ist d. Es werden keine Statistiken berechnet. da PROBLEM Probleme mit den Nachbam und V03 Art von Wohngebaude Konstanten sind.
Modell (3) konnte folgendermaBen modifiziert werden: Wie viele Parteien in einem Haus wohnen, wirkt sich darauf aus, ob jemand Probleme mit seinen Nachbam hat. Wie sich dies auswirkt, hangt davon ab, wie viele Erwachsene in einem Haushalt wohnen: Ein- und Mehr-Familienhaushalte haben umso mehr Probleme mit ihren Nachbam, je mehr Parteien sonst noch im Haus wohnen. Dagegen haben Zwei-Personen-Haushalte in Hochhausem weniger Probleme mit den Nachbarn als in Einfamilienhausem. Woran liegt das? Auf diese Frage konnen
309
Kapitel13: Kontrolle von Drittvariablen
auch hier weiterftihrende Oberlegungen angestellt werden, die als Ausgangspunkt fUr weitere Analysen dienen konnen.
7.3
Interpretation der Variablen als metrisch (Option A: Ohne Interaktionsmodell)
Lasst man das Interaktionsmodell auBer acht, kann man bei metrischen Variablen die Drittvariablenkontrolle mit Hilfe des partiellen Korrelationskoeffizienten durchfiihren. Der partielle KorrelationskoefflZient entfemt den Einfluss der Drittvariablen aus dem Korrelationskoeffizienten. Die Drittvariable wird "herauspartialisiert". Den partiellen Korrelationskoeffizient berechnet man nach folgender Formel (vgl. Hartung / Elpelt / Klosener (2002): 561-564):
rxy - rxzryz
Partieller Korrelationskoeffizient zwischen X und Y
Korrelations-
Korrelationskoeffizient
koeffizient zwi": schen X und Y
Korrelationskoeffizient
*
zwischen X und Z
zwischen Y und Z Quadrierter Korrelati-
Quadrierter KorrelatiWurzel aus:
[(1-
onskoeffizient zwi-
)*(1-
onskoeffizient zwi-
)]
schen Yund Z
schen X und Z
7.3.1 SPSS-Syntax * v03 ALS TESTVARIABLE (MaDELLE 1,2 UND 5) * PARTIAL caRR problem v04 BY v03.
* v04 ALS TESTVARIABLE (MaDELLE 1,3 UND 4) PARTIAL caRR problem v04 BY v03. 7.4
*
SPSS-Ausgabe
In unserem Beispiel gibt SPSS die Ausgaben auf der nachsten Seite aus. Die erste Liste stellt den partiellen Korrelationskoeffizienten zwischen HaushaltsgroBe und Problemen mit den Nachbam vor. Er betragt 0,08. In der Gesamtheit betragt der Korrelationskoeffizient 0,01. Der Unterschied ist nicht wesentlich. Dies spricht fUr ein additives Modell, also das Modell (1). Die zweite Liste gibt an, dass der partielle Korrelationskoeffizient zwischen Zahl der Parteien pro Haus und Problemen mit den Nachbam etwa 0,13 betragt. In der Gesamtheit betragt der Korrelationskoeffizient ebenfalls 0,13. Auch dieses Ergebnis spricht fUr das additive Modell, also ebenfalls Modell (1).
Nina Baur
310
-
-
-
PARTIAL
CORRELATION
Controlling for ..
PROBLEM
V04
-
-
-
-
-
V03
PROBLEM
V04
(
1,0000 0) P= ,
,0793 73) P= ,499
,0793 73) P= ,499
1,0000 0) P= ,
(
(
(Coefficient /
COEFFICIENTS
(D.F.)
(
/ 2-tailed Significance)
" , " is printed if a coefficient cannot be computed
-
-
-
PARTIAL
CORRELATION
Controlling for ..
PROBLEM
V03
V03
(
1,0000 0) P= ,
,1345 73) P= ,250
,1345 73) P= ,250
1,0000 0) P= ,
(Coefficient /
-
V04
PROBLEM
(
COEFFICIENTS
(
(
(D.F. ) / 2-tailed Significance)
" , " i-s printed if a coefficient cannot be computed Hatte es sich urn ein Interventionsmodell oder urn das Modell der gemeinsamen Ursache gehandelt, ware der partielle Korrelationskoeffizient tendenziell Null, wahrend in der Gesamtheit ein Zusammenhang existiert.
Kapitel13: Kontrolle von Drittvariablen
7.5
311
Interpretation der Variablen als metrisch (Option B: Auch Interaktionsmodell)
Der partielle Korrelationskoeffizient kann nicht erfassen, ob es sich nicht doch urn ein Interaktionsmodell handelt - je nachdem, welche Gruppen sich wie auswirken, nimmt er positive Werte, negative Werte oder den Wert Null an. Da wir in unseren Vortiberlegungen fUr dieses Beispiel auch das Interaktionsmodell in Betracht gezogen haben, ist der partielle Korrelationskoeffizient nicht geeignet, urn zu einer eindeutigen Entscheidung zu gelangen. HierfUr benotigen wir Option B. 7.5.1
SPSS-Syntax
** KEINE KLASSIERUNG; WElL DIE AUSPRAGUNGEN NOCH ** UBERSCHAUBAR SIND. * v03 ALS TESTVARIABLE (MODELLE 1,2 UND 5) SORT CASES BY v03. SPLIT FILE BY v03. CORRELATIONS problem v04. SPLIT FILE OFF.
*
* v04 ALS TESTVARIABLE (MODELLE 1,3 UND 4) SORT CASES. BY v04. SPLIT FILE· BY v04. CORRELATIONS problem v03. SPLIT FILE OFF.
*
7.5.2 SPSS-Ausgabe Korrelationen V03 Art von Wohngebaude 1 Einfamilienhaus 2 Doppelhaus 3 Reihenhaus 4 Mehrparteienhaus 5 Wohnblock mit 6 Hochhaus mit mehr 7 Sonstiges
V04 V04 V04 V04 V04 V04 V04
HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl HaushaltsgroBe (Zahl
der Personen der Personen der Personen der Personen der Personen der Personen der Personen
ab ab ab ab ab ab ab
18) 18) 18) 18) 18) 18) 18)
PROBLEM Probleme mit den Nachbarn ,078 -,369 -,351 ,820 -1 000
Nina Baur
312
Korrelationen V04 HaushaltsgroBe (Zahl der Personen ab 1 2 3 4 5 6
V03 V03 V03 V03 V03 V03
Art Art Art Art Art Art
von von von von von von
Wohngebaude Wohngebaude Wohngebaude Wohngebaude Wohngebaude Wohngebaude
PROBLEM Probleme mit den Nachbarn ,184 -,046 ,225
Wieder sind einige Tabellenfelder nicht besetzt, weil die Fallzahlen zu klein sind. Auch hier deuten die Zahlen eher auf eines der beiden Interaktionsmodelle hin. Wieder muss man allerdings das Interaktionsmodell modifizieren.
8
Fazit
In diesem Kapitel wurde gezeigt, wie man Drittvariablen abhangig vom Skalenniveau kontrollieren kann. Es gibt weitere Moglichkeiten - dies sind allerdings die wichtigsten. Mehrere Punkte sollten auBerdem deutlich geworden sein: Die Giite der Daten beeinflussen wesentlich die Ergebnisse. Bei einem Datensatz von unter 100 Fallen konnen bereits massive Stichprobenprobleme auftreten (wie dies bei diesem Beispiel der Fall ist). Die Wahl des Skalenniveaus kann das Ergebnis wesentlich beeinflussen. Statistik kann nur ein Hilfsmittel zur Interpretation sein, diese aber nie ersetzen. Oft liefert sie kein eindeutiges Ergebnis. Auch bei scheinbar eindeutigen Ergebnissen soUte man immer alternative ErkUirungsmoglichkeiten in Betracht ziehen. Weiterfiihrende Literatur: Asher (1983) definiert den Begriff der Kausalitat. Davis (1985) beschreibt das Verhaltnis von Kausalitat und Wirklichkeit, verschiedene Typen von Kausalbeziehungen sowie wie man sie modelliert. Asher (1983) beschreibt, wie man rekursive und nicht rekursive Kausalbeziehungen in statistische Modelle umsetzt und iiberpriift. Aufbauend auf diesen fiiihen Uberlegungen zur Kausalitat geht die Forschung heute in zwei Richtungen, urn Kausalbeziehungen zu analysieren: Mit Hilfe multivariater Verfahren zur Kausalanalyse wird erstens iiberpriift, ob und wie viele verschiedene Variablen eine einzelne beeinflussen. Eines unter vielen dieser Verfahren ist die multiple lineare Regressionsanalyse, die Sabine Fromm im folgenden Kapitel erlautert und auf dem die meisten anderen Verfahren aufbauen. Zweitens werden mit dem LISREL-Ansatz komplexe Kausalmodelle iiberpriift (vgl. hierzu Backhaus et. al. (Hg.) (2006)). In beiden Fallen ist eines der Hauptprobleme der Umgang mit der Zeit (siehe hierzu Blossfeld und Rohwer (1996); Steinhage und Blossfeld (1999)). Asher, Herbert B. (1983): Causal Modeling. Beverly Hills / London /New Delhi: Sage Backhaus, Klaus / Erichson, Bernd / Plinke, Wulff / Weiber, Rolf (Hg.) (2006): Multivariate Analy-
Kapitel13: Kontrolle von Drittvariablen
313
semethoden. Eine anwendungsorientierte Einfuhrung. Berlin / Heidelberg / New York u. a.: Springer. Kapitel 8: Der LISREL-Ansatz der Kausalanalyse Blossfeld, Hans-Peter / Rohwer, Gotz (1996): Causal Inference, Time and Observation Plans in the Social Sciences. Reihe: Sonderforschungsbereich 186 der Universitat Bremen: Statuspassagen und Risikolagen im Lebensverlauf. Arbeitspapier Nr. 36. Bremen Davis, James A. (1985): The Logic of Causal Order. Beverly Hills / London /New Delhi: Sage Steinhage, Nikolei / Blossfeld, Hans-Peter (1999): Zur Problematik von Querschnittsdaten. Methodischstatistische Beschrankungen bei der empirischen Uberprufung von Theorien. Reihe: Globalife Working Paper Nr. 2/ 1999. Fakultat fur Sozi~logie an der Universitat Bielefeld. Bielefeld
Kapitel14 Faktorenanalyse Sabine Fromm
1
Dispositioneo uod ihre Messung
Wenn wir jemanden als "leistungsorientiert" bezeichnen, als "politisch interessiert", "auslanderfeindlich", "autoritiir", "risikofreudig" oder "angstlich", konstatieren wir das Vorliegen von Dispositionen: konsistenten, situationsUbergreifenden Reaktionstendenzen. Es geht also nicht urn ein singuUires Verhalten in einer einzigen Situation, sondem urn die Tendenz, auf ahnlich strukturierte Situationen in gleichformiger Weise zu reagieren. Beispielweise werden wir jemanden nicht bereits dann als "sozial unsicher" bezeichnen, wenn er in einer Situation schUchtem oder verlegen auftritt, sondem erst dann, wenn sich ein entsprechendes Verhaltensmuster in einer Vielzahl ahnlich gelagerter Situationen beob~chten lasst. Dabei mUssen die Verhaltensweisen nicht vollig identisch sein, es genUgt eine tendenzielIe Gleichgerichtetheit. Dispositionen lassen sich feststellen in Hinsicht auf: - Einstellungen (z. B. Auslanderfeindlichkeit, Rigiditat, Schulangst, politisches Interesse, allgemeines Umweltbewusstsein) Fahigkeiten (z. B. Belastbarkeit, mathematische Problemlosungskompetenz) - Verhalten (z. B. Durchsetzungsfahigkeit, Gewalttatigkeit) Dispositionen sind Variablen: Sie konnen mehr oder weniger stark ausgepragt seine In den Sozialwissenschaften spielen Dispositionen sowohl als abhangige als auch als unabhangige Variablen eine wichtige Rolle. So konnte z. B. einerseits untersucht werden, welchen Einfluss der Bildungsabschluss von Befragten auf das AusmaB an autoritaren Einstellungen hat. Umgekehrt ist es denkbar, dass die Variable "Autoritarismus" eine wichtige EinflussgroBe zur ErkUirung des Erziehungsverhaltens darstellt. Multivariate Datenanalyse mit dem Ziel der Erforschung von Dispositionen muss zwei Fragestellungen bearbeiten: - Welche statistischen Hinweise auf die Existenz von Dispositionen lassen sich fmden bzw. wie konnen diese inhaltlich interpretiert werden? - Wie kann die Auspragung der Dispositionen bei den einzelnen Merkmalstragem gemessen werden?
Kapitel14: Faktorenanalyse
315
Die erste Frage ist kollektivbezogen: Es geht urn das Vorliegen statistischer Zusammenhange, die eine bestimmte Struktur aufweisen. Das zweite Problem besteht darin, die Auspragung des interessierenden Verhaltensmusters bei den einzelnen Merkmalstragem moglichst fehlerfrei abzubilden. Die Vorgehensweise der Faktoren- bzw. Dimensionsanalyse kann wie folgt urnrissen werden: Zunachst werden sog. "Item-Batterien" formuliert. Das sind inhaltliche Statements, die bestimmte Situationen simulieren sollen. Interessiert also Z. B. das Muster von Einstellungen zur Berufsarbeit, so wird man fUr verschiedene Aspekte des Berufslebens jeweils mehrere Items formulieren, also etwa zur Zufriedenheit mit den Arbeitsinhalten, der Bedeutung von Karrierechancen, der Praferenz fUr selbstbestimmtes vs. angeleitetes Arbeiten usw. Diese Items, die man in ihrer Gesamtheit als "Skala" bezeichnet, werden den Befragten der Stichprobe mit der Bitte vorgelegt, Zustimmung oder Ablehnung auszudriicken (Bsp.: "Ein gutes Verhaltnis zu den Kollegen ist sehr wichtig fUr mich"; "Ich schatze geregelte Arbeitszeiten"; etc.). Zustimmung oder Ablehnung kann dabei zweiwertig gemessen werden (z. B. "stimme zu" / "stimme nicht zu") oder mit einer mehrstufigen Antwortskala (z. B. "vollig zutreffend", "eher zutreffend", "teils, teils", "eher nicht zutreffend", "vollig unzutreffend"). Dabei wird angenommen, dass Dispositionen als latente Hintergrundvariablen die Reaktionen auf die Items steuem. 1st es gerechtfertigt, das Vorliegen von Dispositionen anzunehmen, so bedeutet das, dass sich die untersuchten Merkmalstrager tendenziell gleichformig verhalten werden. Es wird also Merkmalstrager geben, die aufbestimmte Gruppen von Items tendenziell ablehnend reagieren, und andere, deren Reaktionen zustimmend sind. Derartige Antwortmuster auf der inhaltlichen Ebene schlagen sich statistisch als Muster in der Item-Item-Korrelationsmatrix nieder. Wenn Z. B. viele Befragte ein Item A befiirworten, ein Item Baber ablehnen, so zeigt sich das statistisch im Vorliegen einer negativen Korrelation zwischen den beiden Items, die urnso starker ist, je deutlicher das Antwortmuster ausgebildet ist, j e eindeutiger also das Befiirworten von ,,A" mit der Ablehnung von "B" einhergeht. Statistisches Ziel der Faktorenanalyse ist es nun, ausgehend von den Reaktionen der Befragten auf die Items, derartige Dispositionsvariable zu konstruieren. Dabei sind eindimensionale (ReliabiliUitsanalyse) und mehrdimensionale (Faktorenanalyse) Fragestellungen zu unterscheiden: Bei der Faktorenanalyse geht es zunachst urn die Frage, ob eine dimensionale Struktur tiberhaupt konstruiert werden kann und welche bzw. wie viele Dispositionen sich sinnvoll unterscheiden lassen. Die Reliabilitatsanalyse wird verwendet, urn zu tiberprufen, wie gut eine Skala geeignet ist, eine Disposition zu messen. Mit ihrer Hilfe wird eine Aussage tiber die Konsistenz der Skala gemacht: 1st es gerechtfertigt, die Items, aus denen die Skala besteht, als zusammengehorige Klasse von Situationen zu verstehen?
Sabine Fromm
316
Zeigen die Befragten konsistente Reaktionsmuster auf die vorgelegten Items? Typischerweise wird man also zunachst eine Faktorenanalyse durchfiihren, urn Aufschluss tiber die dimensionale Struktur der Daten zu gewinnen; in einem zweiten Schritt konnen die per Faktorenanalyse identifizierten Dispositionen mit einer Reihe von Dimensionsanalysen jeweils auf ihre Eindimensionalitat hin tiberpruft werden. 1m Folgenden stelle ich zunachst kurz das Konzept der Dimensionsanalyse bzw. die Likert-Skalierung als ein Modell der Dimensionsanalyse dar (Abschnitt 2). Danach wird das Konzept der Faktorenanalyse erlautert und ihre Berechnung mit SPSS an einem Beispiel ausfiihrlich demonstriert (Abschnitt 3). Die einzelnen Faktoren werden sodann wiederum dimensionsanalytisch tiberpruft (Abschnitt 4) und die Werte bei den Merkmalstragem bestimmt (Abschnitt 5). Einige Hinweise zur SPSS-Syntax fUr den Befehl "FACTOR" schlieBen den Beitrag ab (Abschnitt 6).
2
Das Konzept der Dimensionsanalyse
2.1
Ziele
Wie bereits ausgefiihrt, besteht das Ziel der Dimensionsanalyse in der Konstruktion geeigneter Skalen zur Messung von Dispositionen. Dazu existieren verschiedene Verfahren, die sich hinsichtlich ihrer Modellannahmen unterscheiden, vor allem beztiglich der vorgestellten Beziehung zwischen der Auspragung der Dimension und der Bejahungswahrscheinlichkeit der Items und hinsichtlich des angenommenen Zusammenhangs zwischen den Items. In jedem Modell urnfasst die Dimensionsanalyse drei Schritte: Dimensionsbestimmung: 1st es sinnvoll, von der Existenz einer Dimension (Disposition) auszugehen, und wie kann diese inhaltlich bestimmt werden? - Itemselektion: Welche der verwendeten Items eignen sich gut fUr die Messung der Dimension? Aufstellen einer Messvorschrift: Wie kann die Auspragung der Dimension bei den einzelnen Merkmalstragem gemessen werden? Die Beziehung zwischen Items und Dimension wird mit dem Konzept der "Traceline" ("Item-Charakteristik") beschrieben, die den Zusammenhang zwischen der Dimensionsauspragung und Bejahungswahrscheinlichkeit eines Items modelliert. Verfahren zur Konstruktion von Skalen unterscheiden sich u. a. hinsichtlich der angenommenen Item-Tracelines. Abbildung 1 zeigt einige Tracelines, die unterschiedlichen theoretischen Skalierungsmodellen entstammen:
317
Kapitel 14: Faktorenanalyse
Abbildung 1: Das Konzept der Item- Traceline Bejahungswahrscheinlichkeit 1.0
Item 2
0.0 Auspragung der Dimension
Item 1 hat eine monoton-positive, fast lineare Traceline: Hier wird angenommen, dass die Bejahungswahrscheinlichkeit des Items umso groBer ist, j e starker die Dimension beim Befragten ausgepragt ist. Die Traceline von Item 2 ist deterministisch: Bis zu einer bestimmten Auspragung der Dimension wird das Item abgelehnt, ab diesem Schwellwert befiirwortet. Der Zusammenhang von Dimensionsauspragung und Bejahungswahrscheinlichkeit bei Item 3 ist als logistische Funktion modelliert: Eine wachsende Auspragung der latenten Dimension fiihrt zunachst nur zu einer geringen Zunahme der Bejahungswahrscheinlichkeit, im mittleren Bereich der Dimensionsauspragung fiihrt jeder weitere Zuwachs zu einem starken Anwachsen der Bejahungswahrscheinlichkeit, bei sehr stark ausgepragter Dimension fiihren weitere Zuwachse wiederum nur zu geringfiigigen Veranderungen. 1m Folgenden gehe ich kurz auf die Modellannahmen der sog. Likert-Skalierung (Methode der summierten Ratings) ein, die der multidimensionalen Faktorenanalyse zugrund~ liegt.
2.2
Modellannahmen der Likert-Skalierung
2.2.1 Voraussetzungen Die Items mtissen mindestens Intervallskalenniveau aufweisen, d.h. die Antwortvorgaben mussen gleichabstandig kodiert werden69 •
69
Zum Problem der Unsicherheit hinsichtlich des angenommenen Skalenniveaus vgl. Kapitel 12 in diesem Band.
318
Sabine Fromm
2.2.2 Item-Traceline Die Tracelines der Items verlaufen monoton bzw. annahemd linear. Das bedeutet, es wird angenommen, dass die Bejahungswahrscheinlichkeit eines Items umso groBer ist, je starker die Dimension ausgepragt ist, und dass eine Zunahme der Dimensionsauspragung zu einer proportionalen Veranderung der Bejahungswahrscheinlichkeit fiihrt. Es wird keine Rangfolge der Items vorausgesetzt: AIle betrachteten Items sind prinzipiell gleich wichtig fUr die Messung der Disposition.
Abbildung 2: Item-Traceline der Likert-Skalierung
Bejahungswahrscheinlichkeit
Item 1 Item 2
1.0
Item 3
0.0 Auspragung der Dimension
Wie Abbildung 2 illustriert, gilt fUr jedes Item die Annahme, dass seine Bejahungswahrscheinlichkeit bei nicht vorhandener Dimensionsauspragung yom Mafie Null ist und mit wachsender Auspragung der Dimension ungefahr gleichmaBig zunimmt. Je starker zum Beispiel die Disposition "Priifungsangst" ausgepragt ist, desto groBer ist die Wahrscheinlichkeit, dass ein Item" Vor Prufungen kann ich oft tagelang kaum noch schlafen. bejaht wird. H
2.2.3 Dimensionsbestimmung und Zusammenhangskonzept Das Verfahren der Dimensionsanalyse stUtzt sich auf zusammenhangsanalytische Dberlegungen: Existiert eine Disposition, zeigen die untersuchten Merkmalstrager also konsistente Verhaltensmuster in Bezug auf die Items, so muss sich das statistisch niederschlagen: Die Items korrelieren untereinander (vgl. Abschnitt 1). Dabei werden zwei Formen des Zusammenhanges unterschieden: Der Zusammenhang zwischen jeweils zwei Items wird mit dem Korrelationskoeffizienten Pearson's r gemessen, d.h. es werden nur die linearen Anteile des Zusammen-
319
Kapitel 14: Faktorenanalyse
hangs erfasst. Daneben wird der Zusammenhang aller Items der Skala bestimmt. Das MaB fUr die Romogenitat der gesamten Skala ist Cronbach's Alpha. Je hoher der Wert von Alpha ist, desto besser erfassen die Items die Dimension:
O~a~l
mit: i
= Anzahl der Items
r = durchschnittliche
Korrelation der Items
Die durchschnittliche Korrelation zwischen den Items wird berechnet, indem man tiber die paarweisen Korrelationskoeffizienten summiert und diese Summe durch die Anzahl der Items dividiert. Alpha ist also nicht nur abhangig von der Starke der Korrelation zwischen den Items, sondem auch von der Anzahl der Items, aus denen die Skala besteht. Die Anzahl der Items tragt allerdings mit abnehmendem Grenznutzen zur Rohe des Alpha-Wertes bei; ab ca. 20 Items ist kein weitere Zuwachs mehr zu erwarten. Als wiinschenswert wird in der Literatur meist ein Alpha-Wert von mindestens 0.8 genannt (z. B. Schnell/Hill/Esser (1995: 143», was aber in der Praxis haufig nicht erreicht wird. 2.2.4 Itemselektion 70
Existieren deutlich von Null abweichende und positive Korrelationen , so wird man versuchen, im nachsten Schritt die Skala zu optimieren, indem man sie auf die besonders geeigneten Items reduziert. In der Regel sind nicht aIle Items, die ursprunglich zur Konstruktion einer Skala verwendet wurden, geeignet, die interessierende Disposition zu messen. FUr jedes Item muss entschieden werden, ob es Bestandteil der Skala bleiben soll oder nicht. Als MaB dafiir, wie gut ein Item die Dimension erfasst, wird meist der Trennscharfekoeffizient (SPSS: "item-total correlation") verwendet: die Korrelation des betrachteten Items mit dem Gesamtpunktwert aller anderen Items. Dazu wird fUr die Analyse jedes Items eine neue Variable gebildet, indem bei jedem Befragten die Antwortcodes aller Items auBer dem jeweils betrachteten aufaddiert werden. Das jeweils interessierende Item wird
70
Die Forderung nach positiven Korrelationen resultiert aus der Modellannahme positiver ItemTracelines. Existieren negative Zusammenhange, so miissen die entsprechenden Items semantisch "gedreht" werden (s. u. 2.2.5).
320
Sabine Fromm
dann mit dieser Variable korreliert. SPSS gibt zusatzlich fUr jedes Item den Wert aus, den Alpha annehmen wiirde, lieBe man das betreffende Item bei der Konstruktion der Skala unberucksichtigt (SPSS: "alpha if item deleted"). Wfirde sich der Wert von Alpha ohne dieses Item deutlich verschlechtem, ist das ein Hinweis auf die GlUe des Items. 2.2.5 Messvorschrift Zur Messung der Dimensionsauspragung bei jedem Merkmalstrager wird ein additiver Punktwert iiber alle Items gebildet. Dabei miissen sog. "negativ gepolte" Items berucksichtigt werden: Die Item-Traceline der Likert-Skala modelliert einen positiven Zusammenhang zwischen Bejahungswahrscheinlichkeit und Dimensionsauspragung. Haufig sind aber einzelne Items einer Skala so formuliert, dass ihre Ablehnung eine starkere Auspragung der Dimension zum Ausdruck bringt. Wird Z. B. die Disposition ,,Auslanderfeindlichkeit" gemessen, so konnte ein "negativ gepoltes" Item lauten: "Ich empjinde es als Bereicherung, in einer ethnisch gemischten Gesellschaft zu leben. " Befragte mit starker Auspragung der Disposition ,,Auslanderfeindlichkeit" werden dieses Item ablehnen, also bei einer z. B. fiinfstufigen Zustimmungsskala den Wert"1" ankreuzen. Das wiirde dazu fiihren, dass der Gesamtpunktwert des Befragten kleiner wird; demgegeniiber wiirde jemand mit nicht auslanderfeindlicher Gesinnung dem Item zustimmen (z. B. mit den Werten ,,4" oder ,,5"), erhielte also einen insgesamt hoheren Punktwert. Aus diesem Grund miissen derartige Items fUr die Dimensionsanalyse so rekodiert werden, dass die Reihenfolge der Auspragungen genau umgekehrt wird: Jemand der auf einer fiinfstufigen Antwortskala den Wert ,,5" hatte, erhalt nun den Wert ,,1", jemand der ,,4" hatte, erhalt den Wert ,,2" uSW. Diese Operation ist notwendig, damit die Summe der Antworten in konsistenter Weise interpretiert werden kann.
3
Das Konzept der Faktorenanalyse
3.1
Fragestellung
Die Faktorenanalyse stellt eine Verallgemeinerung der Dimensionsanalyse nach dem Modell der Likert-Skalierung dar: Es wird untersucht, obmehrere latente Dimensionen vorliegen und wie diese inhaltlich bestimmt werden konnen. So konnte mit einer Vielzahl von Items, die sich auf Einstellungen zur Erwerbsarbeit beziehen, untersucht werden, welche Grundorientierungen hier sinnvoll unterschieden werden konnen, Z. B. allgemeine Berufszufriedenheit, Karriereorientierung, Wichtigkeit von Zeitautonomie, Vereinbarkeit mit familiaren Verpflichtungen usw. 1st die
Kapitel14: Faktorenanalyse
321
Annahme mehrerer Dispositionen gereehtfertigt, werden sieh in den Reaktionsweisen der untersuehten Merkmalstrager mehrere Verhaltensmuster bzgl. der·Situationen zeigen. Statistiseh bedeutet das dann, dass die Items gruppenweise untereinander korrelieren: Items, die zu einer Dimension gehoren, korrelieren miteinander, nieht aber mit den Items, die zu einer anderen Dimension gehoren. Die Faktorenanalyse besteht also in der inhaltlieh und statistisch sinnvollen Konstruktion theoretischer Hintergrundvariablen (= Faktoren, Dimensionen, Dispositionen, Skalen), die das Zustandekommen von Korrelationen in Gruppen von Variablen erklaren. "Durch die Faktorenanalyse wird dem Variablengeflecht eine Ordnung unterlegt, aus der sich die angetroffene Konstellation der Variablen erklaren laBt. (...) Die eigentliche Aufgabe der Faktorenanalyse ist es, dasjenige Ordnungssystem herauszutinden, das mit den theoretischen Kontexten der untersuchten Variablen am besten zu vereinbaren ist." (Bortz (1989: 618))
Faktoren sind Konstrukte: Es "gibt" nieht eine bestimmte Anzahl von Faktoren in einem "dimensionalen Universum". Die Frage, welehe und wie viele Faktoren sinnvoll konstruiert und untersehieden werden sollen, muss stets aufgrund statistischer und inhaltlieher Dberlegungen beantwortet werden. Existieren also z. B. Hinweise auf die Existenz einer Disposition "Berufszufriedenheit", so muss entsehiede~ werden, ob diese Dimension in weitere Subdimensionen aufgespalten werden (z. B. Zufriedenheit mit den Arbeitsinhalten, den Formen der Kooperation, Akzeptanz betrieblieher Anreiz- und Kontrollsysteme u. a.), ob sie als eigensmndige Disposition behandelt werden, oder ob sie als Element einer ubergeordneten Dimension (z. B. allgemeine Lebenszufriedenheit) verstanden werden sollte. Welehe Entseheidung man triffi:, hangt immer vom Forsehungsinteresse und der theoretischen Perspektive ab und ist nieht aus den Daten "ableitbar". Sie ist aber auch nieht etwa willkiirlieh - man wird sieh dabei von inhaltliehen und statistisehen Dberlegungen leiten lassen. Wenn das Hauptziel der Faktorenanalyse auch die Entwieklung von Hypothesen tiber dimensionale Strukturen im Datensatz und die Konstruktion entspreehender Variablen ist, werden mit diesem Verfahren dartiber hinaus auch andere Zweeke erfiillt, z. B. eine Datenreduktion, da eine Vielzahl korrelierender Variablen dureh wenige ·Faktoren ersetzt wird (Vorteile: Interpretation, Handhabung). Weiterhin kann die Faktorenanalyse zur Dberpriifung der Dimensionalitat komplexer Merkmale eingesetzt werden.
3.2
Das Anwendungsbeispiel: Berufsmotivationen
Die naehstehenden Analysen beziehen sich auf eine Anzahl von Items, mit denen Berufsorientierungen bei jungen Erwaehsenen mit hohem Sehulabschluss ge-
322
Sabine Fromm
messen wurden (Datensatz "sozfoprakt2000.sav"; siehe Zusatzmaterialien auf der Verlagswebseite, www.vs-verlag.de). Dazu wurde folgende Frage gestellt, die anhand der als vI35 bis vI5I bezeichneten Items beantwortet werden sollte: "Wenn Sie ganz allgemein an Beruf bzw. an Berufstiitigkeit denken - auch wenn Sie zur Zeit nicht berufsUitig sind: Welche der folgenden Merkmale sind fUr Sie wichtig? Kreuzen Sie bitte auf der Skala den jeweils fUr Sie zutreffenden Wert zwischen sehr wicht~g (1) und ganz unwichtig (5) an."
Die einzelnen Items im Anwendungsbeispiel (Tabelle 1) sind so kodiert, dass die groBte Zustimmung mit dem kleinsten nwnerischen Wert kodiert wird. FUr die Faktorenanalyse spielt das zunachst keine Rolle. Hier geht es nur darum, dass die dimensionale Struktur - Korrelationen von Itemgruppen - erfasst wird. Die "anschlieBende eindimensionale Oberprufung muss jedoch die Modellannahme der Likert-Skalierung erfiillen, dass starkere Auspragung der Dimension in einer groBeren Zustimmung zu den Items zum Ausdruck kommt. Ich rekodiere daher die Items so, dass Merkmalstrager, die urspriinglich den Wert ,,1" aufwiesen, nun den Wert ,,5""erhalten usw. Die Struktur der Korrelationen bleibt dabei vollstiindig erhalten. AuBerdem zeigt die Analyse der eindimensionalen Haufigkeiten jedes Items (die hier nicht dokumen-
Tabelle 1: Items des Anwendungsbeispiels Berufsmotivationen sehr wichtig (1) Gutes Arbeitsklima Die Moglichkeit, den Bernf mit den eigenen Interessen zu verbinden Raufiges Reisen im Bernf Soziales Ansehen, Prestige Rohes MaB an Selbstandigkeit Abwechslungsreiche Tatigkeit Gute Aufstiegschancen Nahe des Arbeitsplatzes zur Wohnung Moglichkeit der Teilzeitarbeit Kurze Einarbeitungszeit Umgang mit anderen Menschen Rohes MaB an Eigenverantwortung Gesicherte Zukunft Viel Freizeit Selbstverwirklichung Gute Verdienstmoglichkeit Flexible Arbeitszeit
(2)
(3)
(4)
ganz unwichtig (5)
Item-Nr. (vI35) (vI36) tv137) (vI38) tv139) (vI40) (v141 ) (vI42) (vI43) (vI44) (vI45) (vI46) (vI47) (vI48) (vI49) (vI50) (vI51)
323
Kapitel 14: Faktorenanalyse
tiert wird), dass benutzerdefinierte fehlende Werte mit ,,99" kodiert, aber noch nicht als fehlend defmiert wurden. Sie mUssen also noch aus der Analyse ausgeschlossen werden. Dies kann in einem Arbeitsschritt mit der "Umpolung" der Items erfolgen: RECODE v135 to v151 (1=5) (2=4) (3=3) (4=2) EXECUTE.
3.3
(5=1)
(99 = sysmis).
Die Teilschritte der Faktorenanalyse
3.3.1 Oberblick und SPSS-Syntax Die Faktorenanalyse umfasst mehrere, aufeinander aufbauende Teilschritte: die Berechnung der Korrelationsmatrix die Extraktion und Rotation der Faktoren die Berechnung der Factorscores Mit der nachstehenden Syntax werden diese Berechnungen fUr das Anwendungsbeispiel angefordert. Nach jedem Unterbefehl folgt - in Klammem - eine kurze Erlauterung. Eine genaue Erklarung der Unterbefehle bzw. des mit ihnen angeforderten SPSS-Outputs gebe ich in den nachsten Abschnitten. ******Faktorenanalyse mit Eigenwertkriterium. FACTOR /VARIABLES v135 v136 v137 v138 v139 v140 v141 v142 v143 v144 v145 v146 v147 v148 v149 v150 v151 (Definition der Variablen, aufdie sich die Faktorenanalyse beziehen soil)
/MISSING listwise (fallweiser Ausschlussfehlender Werte)
/ANALYSIS v135 v136 v137 v138 v139 v140 v141 v142 v143 v144 v145 v146 v147 v148 v149 v150 v151 (An dieser Stelle konnte die Analyse aufeine Teilmenge der Variablen eingeschrankt werden; im Anwendungsbeispiel werdenjedoch aile Variablen verwendet.)
/PRINT UNIVARIATE INITIAL CORRELATION SIG KMO EXTRACTION ROTATION (Ausgabe: univariate Itemstatistiken, Korrelationsmatrix, Signifikanz der Korrelationen, KMOTest, Ausgabe der Informationen zur Extraktion und Rotation der Faktoren)
/FORMAT SORT BLANK(.30) (sortierte Darstellung der Faktorladungen und Ausschluss der Anzeige niedriger Faktorladungen « 0.30); damit wird eine iibersichtliche Zuordnung der Items zu den Faktoren erzeugt)
/PLOT ROTATION (Steuerung des graphischen Outputs)
/CRITERIA MINEIGEN(l)
ITERATE (25)
(Steuerung der Faktorenextraktion: Aile Faktoren mit einem Eigenwert ab 1.0 werden extrahiert. Erlauterung s. u.)
/EXTRACTION PC (Extraktion nach der Hauptkomponentenmethode)
Sabine Fromm
324 /CRITERIA ITERATE(25) (maximale Anzahl der Iterationen)
/ROTATION VARIMAX (orthogonale Rotation nach der.Varimax-Methode)
/SAVE REG (ALL) (Factorscores als neue Variablen speichern)
/METHOD=CORRELATION . (Basis der Extraktion: Korrelationsmatrix)
3.3.2 Berechnung und Inspektion der Korrelationsmatrix Grundlage der Faktorenanalyse ist die Berechnung der Korrelationen zwischen allen in die Faktor~nanalyse einbezogenen Items. Da in der Regel eine Vielzahl von Items verwendet wird, ist die Struktur ihrer Korrelationen meist nicht bereits aus der Korrelationsmatrix ersichtlich. Wenn allerdings alle· Korrelationen gegen Null gehen, kann nicht von einer dimensionalen Struktur ausgegangen werden.
Abbildung 3: Item-Item-Korrelationen und Signifikanzen Korrelatlonsmatrix Korrelation
V135 1,000
V136 ,274
V137 ,142
V138 -,079
1,000
,238
V13
,274 ,142
,238
1,000
,114 ,176
V13€
-,079
,114
,176
1,000
V13f
-,005
,098
,127
V14C
-,041
,184
,148
V141
-,111
-,043
-,006 ,005
,125
,059 ,083
,109
-,102
,051
V1J:: V13€
V14
,289
V14:l
,196
,217
,294 -,088 -,035
V144
,134
,057
,078
V145
,171
V140 -,041
V141 -,111
V142 ,289
V143 ,196
V144 ,134
V145 ,276
V146 ,001
V147 ,153
,203
V149 -,155
-,055
V151 ,015
-,043
,171
,217
,164
,257
-,047
-,008
,029
,263
,060
,328
,109
,122
-,001
,203
,327
,077
,134 ,091
1,000
,242
,078
,125
,012
-,190
,265
,186
1,000
,059
,083
-,102 ,051
,487
,242
,172 ,130
,089 ,233
-,065 ,085
,277
,091
-,035 ,005
,069
,134
-,088 -,006
,273 ,155
,089
,294
,057 ,078
,028
,127
,184 ,148
,328
,172
,130
1,000
-,164
-,336
,059
-,164
1,000
,500
-,336 ,059
,500
1,000
,175
,226
V139
-,005 ,098
,078
V148
V150
,202
,285
,149
-,053
-,145
,143
,102
,070
,089
,158
,296
-,144
,193
,553
,087
,101 ,198
-,087
,215
-,211
-,047
,226
-,065
,071
,225
-,109
-,193
,092 ,202
1,000
,201
-,116
,183
-,005
,067
,041
,175
,373
,276
,273
,155
,089
,285
,089
,101
,198
,201
1,000
,223
,004
,175
V146
,001
,028
,122
,487
,149
,158
-,087
-,065
-,116
-,176
,123
,218
,046 ,004
,153
,089
-,001
,012
-,053
,296
,215
,071
,202
,065
1,000
,251
,071
,367
-,031
,085
,223 ,044 ,004
1,000
V14
,069 ,029 -,065
,202 ,044 ,065
-,176
,251
V146
,203
,233
-,071
,000
-,190
-,145
-,144
V149
-,155
,257
,277
,203
,265
,143
,193
-,211
,225 -,109
-,005
,175
,123
,071
1,000 -,071
1,000
,333
,081 ,117
V15C
-,055
-,047
,327
,186
,102
,553
-,047
-,193
,067
,052
,218
,367
,000
,333
1,000
,193
V151
,015
-,008
,263 ,060
,202
,070
,087
,092
,202
,041
,046
,193
,160
,473
,306
,082
,000
,007
,000
,005
,025
,245
1,000 ,424
,001
,076
,110
,010
,293
,015
,003
,046 ,238
-,031 ,027
,117
,037
,000
,004 ,495 ,362
,081
,000
,131
,019
,001
,278
,013
,055 ,046
,031
,000
,134
,332
,163
,026
,195
,000
,000
,459 ,225
,000
,472
,475
,085
,133
,063
,359 ,496 ,440
,208
,127
,145
,005
,000
,167
Signifikanz (1-SE V135
,164
V136
,000
V137
,037
,001
V13S
,160
,076
V139
,077
,013
,110
,055
,046
V140
,306
,010
,001
,082
,293
,031 ,000
,127
V141
,000
,015
V14
,473
,001
,373
,015
,164
,059
,100
,002
,000
,009
,005
,231 ,019
,149
,261
,031
,253
,036
,101
,000
,231
,000 ,131
,008 ,034
,000
,051
,023
,000
,035
,008
,000
,189 ,137
,000
,014
,102
,139
,003
,000
,004
,277
,124
,002
,006 ,006
,209
,188
,002
,072
,005 ,293
,010
,087 ,474
,200
,005 ,302
,482
,014
,258
,281
,208
,013
,062
,003
,479
,188
,000
,349
,188
,498
,051
,134
,472
,164
,231
,019
V143
,007
,003
,332
,475
,059
V144
,046
,238
,085
,100
,149 ,261
,000 ,231
,000 ,014
V145
,090
,000
,163 ,026
,133
,002
,000
,131
,102
,000
V14€
,495
,015
,183
,052
,000
,031
,023
,139
,002 ,006 ,209
,440 ,008
,253
,000
,003
,188
,005
,293
,208
,145
,034
,000
,002
,010
,482
,013
,001
,000
,005
,000
,004
,087
,474
,000
,277
,007
,498
,000
,167
,189
,137
,124
,005
,200 ,302
,003
,225
,009 ,005
,188 ,000
,188
,000
,014 ,258
,062
,000
,036 ,101
,035 ,008
,281
,479
,349
,156
,071
,362
,195
V14
,027
,131
V14€
,005
,019
,359 ,208
V149
,025 ,245
,001
V15C
,278
V151
,424
,459
,063 ,496
,006 ,072
,002
,002
,001
,007
,000
,156 ,071 ,007
,007
Wie die Tabelle der Item-Item-Korrelationen zeigt (Abbildung 3), existieren im Anwendungsbeispiel zahlreiche, deutlich von Null abweichende, wenn auch nicht
Kapitel14: Faktorenanalyse
325
sehr hohe Korrelationen. Die untere Halfte der Matrix bringt die SignifIkanz dieser Korrelationen zum Ausdruck: So weisen etwa die Items v137 und v 141 mit einem Wert von r = 0.294 eine deutliche Korrelation aut: die, wie die Matrix der Signifikanzen zeigt, auch hochsignifikant ist. Dies bedeutet, es ist sehr unwahrscheinlich, dass die Korrelation in der Stichprobe nur zuHillig zustande gekommen ist, wenn in der Grundgesamtheit kein Zusammenhang besteht. Weitere Hinweise daraut: ob die Struktur der Korrelationen eine Faktorenanalyse sinnvoll erscheinen lasst, liefem der Bartlett-Test auf Spharizitat und der Kaiser-Meyer-Olkin-Test. Der Bartlett-Test prtift die Hypothese, dass in der Grundgesamtheit aIle Korrelationskoeffizienten den Wert Null haben. 1m Anwendungsbeispiel ist das Ergebnis des Bartlett-Tests signifIkant und erlaubt die Interpretation, dass in der Grundgesamtheit zumindest zwischen einigen Variablen Korrelationen bestehen; die Nullhypothese kann also zurtickgewiesen werden.
Abbildung 4: Kaiser-Meyer-Olkin- und Bartlett-Test KMO- und Bartlett-Test Ma~
der Stichprobeneignung nach Kaiser-Meyer-Olkin. ,637
Bartlett-Test auf Spharizitat
Ungefahres Chi-Quadrat df Signifikanz nach Bartlett
562,590 136 ,000
Der Kaiser-Meyer-Olkin-Test basiert auf den partiellen Korrelationen zwischen den Itempaaren, also den Korrelationen, aus denen die EinflUsse der anderen Items eliminiert wurden. Wird die gemeinsame Streuung von Items durch einen Faktor bestimmt, mUssten die partiellenKorrelationskoeffizienten deshalb klein seine Das Kaiser-Meyer-Olkin-MaB KMO nimmt Werte zwischen Null und Eins an, wobei der Wert umso groBer ist, je kleiner die partiellen Korrelationen sind. Nach der yon' Kaiser (1974) Yorgeschlagenen Testbewertung gilt ein KMO-MaB von 0.637 als "mittelmaBig". Insgesamt kommt man nach Inspektion der Korrelationsmatrix zu dem Schluss, dass die Items in mittlerem MaBe fUr eine Faktorenanalyse geeignet sind. 3.3.3 Die Extraktion und Rotation der Faktoren FUr die Ermittlung der Faktoren existieren verschiedene statistische Verfahren. 1m Folgenden wird ausschlieBlich die Hauptkomponentenmethode (HKM) oder auch
326
Sabine Fromm
Prinicipal Component Analysis (peA) berucksichtigt (Voreinstellung in SPSS). Bei diesern Verfahren wird angenornrnen, dass die gesarnte Varianz einer Variable irn Modell erkHirt werden kann. Die Projektionen der Messwerte auf die neuen Achsen lassen sich rnathernatisch als Linearkornbinationen der ursprunglichen Messwerte darstellen. Der Algorithrnus der Faktorenextraktion zielt auf die Konstruktion neuer Achsen, die rnoglichst viel Varianz irn statistischen Sinne erkHiren: Vor der Extraktion der Faktoren konnen die rn Items als m-dimensionales Koordinatensystem vorgestellt werden; dieser Raum solI nun in seiner Dimensionalitat reduziert werden. Dazu wird als erste Hauptkomponente (:=::; Faktor) diejenige extrahiert, die den groBten Teil der Gesamtvarianz aller Items im statistischen Sinn erkHirt; d.h., es wird eine neue Achse konstruiert, auf der die Merkmalswerte moglichst gut streuen. Ais nachstes wird eine weitere Hauptkomponente extrahiert, die einen maxirnalen Anteil der verbleibenden Gesamtvarianz erklart, usw. Grundsatzlich konnten so viele Faktoren extrahiert werden, wie es Items gibt, was natiirlich unsinnig ware, da es in der Faktorenanalyse ja darum geht, Komplexitat zu reduzieren.
Abbildung 5: Faktorenextraktion
Item 2
~2
(a)
Item 2
•••••••••••••••••
.:)itW.mtr[:~Fl
.... '~>:::J:! ~ ..•.....••.•• .......•••.•........ Item 1
Item 1 ,
.......
Abbildung 5 verdeutlicht die Logik des Extraktionsverfahrens am Beispiel der Situation mit zwei Items (Bortz (1989: 635)). Bei der Faktorenextraktion wird das urspriingliche Koordinatensystem (a) mit den Achsen Item 1 und Item 2 entgegen dem Uhrzeigersinn urn einen Winkel J.1 so rotiert (b), dass erstens die Merkmalswerte auf einer Achse maximal variieren (F1) und zweitens die Korrelation zwischen den beiden neuen Achsen gleich Null wird. Bei mehr als zwei Merkmalen (Achsen) werden nach Festlegung der beiden ersten Achsen die verbleibenden so rotiert, dass eine dritte, neue Achse einen maximalen Anteil der verbleibenden Varianz aufklart usw. Die letzte der p Achsen ist nach Festlegung
Kapitel 14: Faktorenanalyse
327
von p-l Achsen nicht mehr frei rotierbar, sie erkUirt daher nur einen minimalen Varianzanteil! Wie viele Achsen (=Hauptkomponenten) erforderlich sind, urn die korrelative Struktur der Daten abzubilden, hangt von der Starke und dem Muster der Korrelationen ab: . - Bei sehr hohen Korrelationen zwischen allen Items ist die Gesamtvarianz aller Merkmalswerte mit einer neuen Achse erfassbar; - gehen aIle Korrelationen gegen Null, sind zur statistischen Autklarung der Gesamtvarianz so viele Achsen erforderlich, wie es Items gibt; - bei hohen Korrelationen innerhalb von Item-Gruppen und niedrigen Korrelationen zwischen diesen Gruppen liegt die Zahl der zur AufkHirung eines moglichst groBen Varianzanteils erforderlichen Achsen zwischen eins und der ZOOI der Items.
Urn zu einer Entscheidung tiber die Zahl und die inhaltliche Interpretation der Dimensionen im Datensatz zu kommen, betrachtet man verschiedene Aspekte der Beziehungen zwischen Faktoren und Items: Faktorladungen (SPSS: Komponentenmatrix; rotierte Komponentenmatrix): Faktorladungen (Abbildung 6) geben Aufschluss tiber die Beziehungen zwischen den Items und den Faktoren. Urn einen Faktor inhaltlich zu interpretieren, betrachtet man die Items, die hoch auf ihn "laden" (sog. "Markierungsitems") und versucht, ihren gemeinsamen inhaltlichen Nenner zu bestimmen. Bei orthogonalen Faktoren sind die Faktorladungen gleich groB wie die Korrelationen zwischen einem Faktor und einer Variable; bei nicht-orthogonalen Faktoren konnen die Faktorladungen auch Werte > 1 annehmen. Die Faktoren (in SPSS als "Komponenten" bezeichnet) stehen in den Spalten der Tabelle, die Items in den Zeilen. Liest man die Tabelle spaltenweise, erhalt man die Information, durch welche Items der jeweilige Faktor bestimmt ist. AufFaktor 1 laden also z. B. vor allem die Items v150, v141, v149, v139, v137, v146 und v138 hoch, etwas schwacher die Items v145 und v140. Faktor 2 wird charakterisiert durch die Items v142, v143 usw. Beim zeilenweisen Lesen der Tabelle sieht man, auf welche Faktoren das jeweils betrachtete Item hoch ladt. Ideal ist die Situation der sog. Einfachstruktur (Thurstone (1945)): Es gibt nur hoch ladende Items, undjedes Item ladt nur auf einen Faktor hoch. Die Einfachstruktur ist Voraussetzung fUr eine sinnvolle Interpretation der Faktoren. Wie Abbildung 6 zeigt, ist dies hier jedoch nicht der Fall. Es zeichnet sich kein deutliches Ladungsmuster ab, und viele Items laden hoch auf mehrere Faktoren. Dies ist nicht tiberraschend: Da die Faktorenextraktion nach rein mathematischen Kriterien erfolgt, ist eine inhaltliche Interpretierbarkeit der Faktoren nicht gewahrleistet, ja nicht einmal wahrscheinlich. Die sukzessive Extraktion aus
Sabine Fromm
328
der jeweils verbleibenden Restvarianz fiihrt dazu, dass auf den ersten Faktor aus rein rechnerischen Grunden viele Items hoch laden. Durch diese Vorgehensweise wird Unabhangigkeit der Faktoren erzwungen. Das heillt: auch wenn zwischen den gemessenen Dispositionen in der Realitat Zusammenhange bestehen, konnen diese sich statistisch nicht niederschlagen (vgL Abschnitt 5 in diesem Beitrag).
Abbildung 6: Matrix der nicht rotierten Faktorladungen
Komponentenmatrix a Komponente 1
2
4
3
V150
,696
,448
V141
,675
,396
V149
,589
V139
,545
V137
,512
V146
,484
V138
,482
V143
,709
V135
,574 ,538
V136
,500
-,403 ,432
,435
-,335
,312
,567
,433 ,390
,345
-,481 -,417 ,426
V144
-,438
,318
V151 V140
,333
,345
V148
V147
,416 -,460
-,359 ,718
,379
6
,318 -,470
V142
V145
5
,538
,310
-,595
-,394
-,424
Extraktlonsmethode: Hauptkomponentenanalyse. a. 6 Komponenten extrahiert
Eine bessere Aufteilung der Faktorladungen auf die Faktoren, und damit eine bessere Interpretierbarkeit, kann mit einer Rotation der Faktoren erreicht werden. Grundlage fUr die Interpretation der Faktoren ist in der Praxis deshalb nicht die Komponentenmatrix, sondem die rotierte Komponentenmatrix (Abbildung 7). Bei der Rotation der Faktoren wird die Faktorladungsmatrix einer Transformation unterzogen, bei der die Achsen des Koordinatensystems (die Faktoren) so gedreht werden, dass die Position der Items zu den Achsen sich verandert (die Faktorladungen), die relationale Struktur der Items zueinander aber erhalten bleibt. Das bedeutet, dass die von den einzelnen Faktoren erklfirten Varianzanteile sich verandem, die insgesamt durch das Modell erklfirte Varianz bleibt aber gleich!
329
Kapitel 14: Faktorenanalyse
Abbildung 7: Matrix der rotierten Faktorladungen Rotierte Komponentenmatril Komponente 1
2
V142
,780
V143
,670
V148
,650
V135
,526
V150
5
6
·,307 -,300 -,464 ,774
,430
,654
·V146
,786 ,783
V139 V136
4
,794
V141 V147
3
,320
V149
,737 ,644
V137
,624
'V140
,660
V145
,625
V144 V151 V138
-,430
,564 ,710
,375
,396
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 9 Iterationen konvergiert.
Grundsatzlich sind orthogonale und schiefwinklige Rotation zu unterscheiden: bei der orthogonalen Rotation (z. B. /rotation varimax) bleiben die Achsen senkrecht aufeinander stehen, d.h. die Unabhangigkeit der Faktoren wird erhalten. Bei der schiefwinkligen Rotation wird diese Anforderung aufgegeben (z. B. /rotation oblimin). Betrachtet man die rotierte Komponentenmatrix (die Matrix der Faktorladungen nach ,der Rotation), so zeigt sich bei der sechsfaktoriellen Losung, dass auch mit der Rotation keine Einfachstruktur erreicht wurde. Viele Items laden weiterhin deutlich auf mehrere Faktoren, was deren Interpretation sehr erschwert. Wir werden noch sehen, dass das VarianzautkHirungspotenzial der Faktoren 4 bis 6 sehr gering ist (Abbildung 9). Deshalb wird eine zweite Faktorenanalyse mit einer benutzerdefmierten, geringeren Anzahl Faktoren berechnet (s. u.). Kommunalitaten: Kommunalitaten sind MessgroBen, die sich auf die einzelnen Items beziehen. Sie geben an, welcher Betrag der Streuung eines Items durch aile Faktoren gemeinsam erklart wird. Items mit niedriger Kommunalitat werden durch die Faktorenlosung schlecht erfasst. Rechnerisch ergibt sich die Kommunalitat einer Variable als Summe ihrer quadrierten Faktorladungen bei allen Faktoren. Dabei ist zu beachten, dass die Variablen bei der Faktorenanalyse zstandardisiert werden, so dass die Varianz jeder Variable gleich 1 ist.
330
Sabine Fromm
o:: ; L a 2 :::; 1 p
Kommunalitat eines Items iiber aile Faktoren
mit: 2 a = quadrierte Faktorladung des Items beimjeweiligen Faktor p = Zahl der Faktoren
Abbildung 8 zeigt die KommunaliUit der Items vor und nach der Extraktion der Faktoren gemaB dem voreingestellten Eigenwertkriterium. Mit" anfanglich" ist die Situation gemeint, in der ebenso viele Faktoren existieren wie Items. Hier hat jedes Item die Kommunalitat 1, da jedes Item eine Achse darstellt und sich somit selbst und vollstiindig erkUirt. Dies ist eine Modellannahme der Hauptkomponentenmethode und liefert keine Information fiber die Datenstruktur! Interessant fiir die Interpretation sind ausschlieBlich die Ergebnisse unter der Oberschrift "Extraktion ": Hier wird die Situation betrachtet, in der eine AnzOOI von Faktoren extrOOiert wurde, die ~leiner ist als die ZOOI der Items. FUr jedes Item wird angegeben, welchen Anteil seiner Varianz aile Faktoren zusammen erklaren. Es wird deutlich, dass die Items im Modell unterschiedlich gut erklart werden: So wird Item vI50 mit einer Kommunalitat von 0.728 relativ gut erklart, Item vI38 mit einem Wert von 0.396 eher schlecht.
Abbildung 8: Kommunalitaten Kommunalltlten V135 V136
AnfanQlich 1,000
Extraktion ,562
1,000
,696
V137 V138
1,000
,498 ,396
V139 V140 V141
1,000 1,000
,705
V142
1,000 1,000 1,000
,646 ,688 ,668
1,000
,596 ,679
V143 V144 V145 V146 V147 V148 V149 V150 V151
1,000 1,000
1,000
,729 ,524
1,000 1,000
,690
1,000
,599
1,000 1,000
,728 ,571
,602
Extraktionsmethode: Hauptkomponentenanalyse.
331
Kapitel14: Faktorenanalyse
Eigenwerte (SPSS: Erkliirte Gesamtvarianz): Eigenwerte beziehen sich auf die Faktoren und geben an, welcher Betrag der Gesamtstreuung aller Variablen durch einen Faktor erklart wird. Rechnerisch ist der Eigenwert eines Faktors die Summe tiber die quadrierten Faktorladungen bei einem Faktor (vgl. Abbildung 9). Abbildung 9: Erkliirte Gesamtvarianz vor und nach der Rotation der Faktoren Erklarte Gesamtvarianz
Komponente 1
AnfanQliche EiQenwerte %der Kum Gesamt Varian ulierte
Summen von quadrierten Faktorladungen fOr Extraktion %der Varianz 16,862
Rotierte Summe der quadrierten Ladungen
Kumuli erte% 16,862
Gesamt 2,350
%der Varianz 13,825
Kumuli erte% 13,825
2,867
16,862 16,862
Gesamt 2,867
2
2,500
14,708 ~1,570
2,500
14,708
31,570
2,141
12,596
26,421
3
1,716
10,093 ~1,663
1,716
10,093
41,663
1,694
9,967
36,388
4
1,296
7,624 49,287
1,296
7,624
49,287
1,647
9,686
46,074
5
1,177
6,925 56,212
1,177
6,925
56,212
1,454
8,555
54,629
6
1,021
6,008 62,220
1,021
6,008
62,220
1,291
7,591
62,220
7
,927
5,454 67,675
8
,869
5,113 ~2,788
9
,813
4;780 ~7,567
10
,710
4,179 81,747
11
,579
12
,539
13
,497
3,404 85,150 3,170 88,321 2,925 91,246
14
,478
2,811 94,057
15
,406
2,390 96,447
16
,321
1,888 98,336
17
,283
1,664
100,0
Extraktionsmethode: Hauptkomponentenanalyse.
Der Eigenwert bringt die Bedeutung eines Faktors zum Ausdruck und gibt einen Hinweis daraut: wie viele Faktoren in einem gegebenen Datensatz sinnvollerweise extrOOiert werden konnen: Da die Items fiir die Faktorenanalyse in SPSS automatisch z-standardisiert werden und somit jeweils eine Varianz von"1" haben, wiirde ein Faktor mit einem Eigenwert < 1 weniger Varianz erklaren als eine einzelne Variable. Dieses Kriterium verwendet SPSS per Voreinstellung fiir die ZOOI der zu extrOOierenden Faktoren: Der Prozess der Extraktion wird abgebrochen, wenn der Eigenwert des nachsten zu extrOOierenden Faktors kleiner als ,,1" ware. In der Tabelle "Erklarte Gesamtvarianz" (Abbildung 9) gibt SPSS die Eigenwerte vor und nach der Extraktion sowie nach der Rotation der Faktoren aus. Faktor 6 hat einen Eigenwert von 1.021; Faktor 7 ist mit einem Eigenwert von 0.927 kleiner als 1 und wird deshalb nicht mehr extrOOiert.
332
Sabine Fromm
Die Ergebnisse unter der Dberschrift " anfangliche Eigenwerte" geben die Situation wieder, wenn so viele Faktoren extrahiert werden wie Items in der Analyse sind. Die Hauptkomponentenmethode ist so konstruiert, dass die gesamte Varianz erkHirt wird; daher addieren sich die Varianzanteile der einzelnen Faktoren zu 100 Prozent. Es ist jedoch offensichtlich unsinnig, so viele Faktoren zu extrahieren, wie es Items gibt: Erstens solI ja die Information, die in der Korrelationsmatrix enthalten ist, verdichtet werden. Zweitens weist die Mehrzahl der Faktoren einen Eigenwert < 1 auf und erkUirt somit weniger Varianz als ein einzelnes Item (s.o.). Ziel der Faktorenanalyse ist es nun, die Zahl der Faktoren so zu reduzieren, dass einerseits moglichst viel Varianz erkUirt, andererseits aber die Zahl der Faktoren so weit wie moglich reduziert wird. Dabei werden statistische und inhaltliche Kriterien angewendet. Per Voreinstellung verwendet SPSS zur Extraktion der Faktoren das sog. "Eigenwertkriterium": Es werden aIle Faktoren extrahiert, die einen Eigenwert > 1 aufweisen. Die Ergebnisse dieser Extraktion stehen unter der Dberschrift "Summe von quadrierten Faktorladungen fur Extraktion ,,71: 1m Anwendungsbeispiel wurden sechs Faktoren extrahiert, die zusammen 62.2% der Varianz.im Modell erklareno Da die Faktorenjeweils regressionsanalytisch aus der verbleibenden Restvarianz geschatzt werden, ist ihr VarianzaufkUirlll1gspotenzial notwendig sehr unterschiedlich. "Rotierte Summe der quadrierten Ladungen": Nach der Rotation sind die Varianzanteile, die durch die einzelnen Faktoren erklart werden (Eigenwerte), etwas gleichmaBiger verteilt. Der Anteil der durch aIle Faktoren erklarten Varianz an der Gesamtvarianz bleibt gleich. Bevor ich im nachsten Schritt eine Faktorenanalyse mit benutzerdefmierter Zahl der Faktoren berechne, folgt zunachst eine Dbersicht fiber die verschiedenen Aspekte der Varianzerklarung und ihre Veranderung durch die Rotation der Faktoren.
71
Leider ist die Beschriftung des SPSS-Outputs hier nicht konsistent: in den ersten drei Spalten der Tabelle werden Eigenwerte als solche bezeichnet, in den Spalten unter "Summe von ...." stehen ebenfalls die Eigenwerte, die ja nichts anderes sind als die Summe der quadrierten Faktorladungen beim jeweiligen Faktor.
333
Kapitel14: Faktorenanalyse
Tabelle 2: Varianzanteile Bezeichnung
Welche Varianzanteile werden erkllrt?
Summe der Eigenwerte Eigenwert
durch alle Faktoren zusammen erkHirter Varianzanteil aller Items; durch einen Faktor erkHirter Varianzanteil aller Items; durch alle Faktoren zusammen erklarter Varianzanteil eines Items; in quadrierter Form (und nur bei orthogonalen Faktoren): durch einen Faktor erkHirter Varianzanteil eines Items.
Kommunalitat Faktorladung
Verlnderung des erkllrten Varianzanteils durch eine Rotation der Faktoren? nein ja nein ja
Nachdem die Faktorenanalyse mit dem Eigenwertkriterium (Voreinstellung in SPSS) nicht zu einer zufriedenstellenden Losung fiihrte, wird versucht, mit einer benutzerdefmierten Zahl von Faktoren eine Einfachstruktur zu erzielen. Wie kommt man zu einer benutzerdefmierten Losung? Am wichtigsten ist hier zunachst die Betrachtung der Eigenwerte. Wie Abbildung 9 zeigt ("erklarte Gesamtvarianz") haben nur drei Faktoren Eigenwerte, die deutlich groBer als ,,1" sind. Bei einer groBeren Zahl von Items ware es eventuell sinnvoll, auch eine vierfaktorielle Losung zu iiberprufen. Ich verzichte hier darauf, da sonst die Zahl der Markierungsitems zu klein wUrde. Einen weiteren Hinweis auf die sinnvoll zu extrahierende Zahl der Faktoren gibt der sog. "Screeplot", der die GroBe des Eigenwertes der einzelnen Faktoren graphisch darstellt (Abbildung 10).
Abbildung 10: Screeplot der Eigenwerte Screeplot 3,5 3,0 2,5 2,0 1,5 1,0 ~
(1)
~
~ iIi
,5 0,0 11 10
Faktor
13 12
15 14
17 16
334
Sabine Fromm
Man stellt fest, beim wievielten Faktor die Kurve sieh abflaeht und nimmt dies als Hinweis auf die Zahl der zu extrahierenden Faktoren. 1m Anwendungsbeispiel tritt eine deutliehe Abflaehung naeh dem vierten Faktor auf, aufgrund der geringen Zahl von Items soIl jedoeh, wie bereits erwahnt, eine dreifaktorielle Losung versueht werden. Diese muss dann darauf uberpruft werden, ob sie inhaltlieh sinnvoll interpretierbar ist und ob sie ausreiehende statistisehe Kennwerte aufweist. Naehstehend ist die SPSS-Syntax fUr eine dreifaktorielle Losung aufgefiihrt. Neben dem Unterbefehl /plot eigen, mit dem der Sereeplot angefordert wird, andert sieh lediglieh der Unterbefehl zur Anzahl der Faktoren: / cri teria factors (3) iterate (25). Wiehtig ist, dass der Unterbefehl /criteria vor dem Unterbefehl / extraction stehen muss! FACTOR /VARIABLES v135 v136 v137 v138 v139 v140 v141 v142 v143 v144 v145 v146 v147 v148 v149 v150 v151 /MISSING listwise /ANALYSIS v135 v136 v137 v138 v139 v140 v141 v142 v143 v144 v145 v146 v147 v148 v149 v150 v151 /PRINT UNIVARIATE INITIAL CORRELATION SIG KMO EXTRACTION ROTATION (1, 2) /FORMAT SORT BLANK(.30) /PLOT eigen ROTATION /CRITERIA factors (3) ITERATE (25) /EXTRACTION PC/ROTATION VARIMAX /SAVE REG (ALL) /METHOD=CORRELATION .
Die Item-Item-Korrelationsmatrix bleibt bei Besehrankung auf drei Faktoren natiirlieh gleieh; aIle statistischen KenngroBen verandem sieh. In der seehsfaktoriellen Losung wurden 62.2% der Varianz erklart, hier sind es nun nur noeh 41.7%. Die Besehrankung auf drei Faktoren muss also mit einem erheblichen Verzieht aufVarianzautklarung bezahlt werden. Naeh der Rotation verteilen sieh die Erklarungspotenziale relativ gleichmaBig auf die Faktoreno Faktor 1 erklart 14.5% der Varianz im GesamtmodeIl, Faktor 2 14.0% und Faktor 3 13.1%. Obwohl immer noeh einige Items auf mehrere Faktoren laden (Abbildung 12), ist die Struktur der Komponentenmatrix gegenuber der sechsfaktoriellen Losung nun wesentlich eindeutiger. Es geht nun darum, die inhaltliehe Interpretierbarkeit der Faktoren zu untersuehen und zu entscheiden, wie mit den niehteindeutigen Items umgegangen werden soIl.
335
Kapitel14: Faktorenanalyse
Abbildung 11: Erkliirte Gesamtvarianz in der dreifaktoriellen Losung Erkllrte Gesamtvarianz ummen von quadrierten Faktorladunge Anfanaliche Eigenwerte fOr Extraktion Iotierte Summe der quadrierten LadungE Komponente Gesamt Yo der Varianz Kumulierte % Gesamt Yo der Varianz Kumulierte % Gesamt Yo der Varianz Kumulierte% 1 2,867 16,862 16,862 16,862 2,474 14,550 14,550 2,867 16,862 2 2,500 14,708 31,570 2,500 14,708 2,389 14,052 28,602 31,570 3 1,716 10,093 41,663 10,093 41,663 1,716 41,663 2,220 13,061 4 1,296 49,287 7,624 5 1,177 6,925 56,212 6 1,021 6,008 62,220 7 ,927 5,454 67,675 8 ,869 5,113 72,788 9 ,813 4,780 77,567 10 ,710 4,179 81,747 11 ,579 85,150 3,404 12 ,539 3,170 88,321 13 ,497 2,925 91,246 14 ,478 2,811 94,057 15 ,406 2,390 96,447 16 ,321 98,336 1,888 17 ,283 100,000 1,664 Extraktionsmethode: Hauptkomponentenanalyse.
Abbildung 12: Faktorladungen nach der Rotation Rotierte Komponentenmatril Komponente 1
2
V142 V143 V148
,729 ,665 ,629
V135
,562 ,476 ,422
V144 V136 V150
-,319
,406 ,823
V141 V147
3
,781 ,389
,545
V138 V149
,492 ,412
,407
V137
,404
,325
V139 V145 V140 V146 V151
,317
,715 ,584 ,572 ,559
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a. Die Rotation ist in 6 Iterationen konvergiert.
336
Sabine Fromm
Zur inhaltlichen Interpretation der Faktoren gelangt man, indem man die ,,Markierungsitems" jedes Faktors betrachtet, also die Items, die besonders hoch auf diesen Faktor laden. FUr den Faktor 1 sind dies die Items vI42, vI43, vI48 (uneindeutig, Uidt auch auf Faktor 3), vI35, vI44 und vI36 (uneindeutig, Hidt auch auf Faktor 3). Items mit niedrigen Ladungen « 0.3) wurdenja bereits aus der Darstellung (nicht aus der Analyse!) ausgeschlossen. Was ist der gemeinsame inhaltliche Nenner der Items, die den Faktor 1 bilden? Es geht mer urn die Wichtigkeit der Nahe des Arbeitsplatzes zur Wohnung, urn kurze Einarbeitungszeiten, Moglichkeit der Teilzeitarbeit, Betriebsklima usw. - Weder inhaltliche Aspekte der Arbeit noch klassische Karriereorientierungen spielen mer eine Rolle, 'Yichtig ist die Vereinbarkeit von Berufstiitigkeit und Prlvatleben. Ich nenne diesen Faktor ,,Bedeutung der Vereinbarkeit von Berufund Prlvatleben". F aktor 2 beinhaltet Items, die die Bedeutung extemer Gratifikationen des Berufes widerspiegeln, wie Item vI38 (Soziales Ansehen, Prestige) oder vI50 (Verdienstmoglichkeiten). Ich bezeichne diesen Faktor als "extrinsische Berufsmotivation". F aktor 3 schlieBlich bringt die Wichtigkeit inhaltlicher Aspekte der Arbeit und vor allem der autonomen Gestaltung der Arbeit zum Ausdruck: selbsUindiges und abwechslungsreiches Arbeiten (vI39, vI40), Eigenverantwortung (vI46). Diesen Faktor bezeichne ich als "intrinsische Berufsmotivation". AIle drei Faktoren lassen sich gut inhaltlich interpretieren. Eine dreifaktorielle Losung kann also sowohl im Hinblick auf inhaltliche wie auch auf statistische Kriterien gerechtfertigt werden. Urn zu verdeutlichen, was es bedeutet, wenn Items eindeutig bzw. nicht eindeutig auf einen Faktor laden, habe ich mit dem Unterbefehl /PLOT ROTATION (1, 2) 72 eine GrafIk angefordert, die die Items in einem durch die ersten beiden Faktoren aufgespannten Koordinatensystem zeigt (Abbildung 13). Faktor 1 bildet die horizontale Achse. Die Items, welche hoch auf diesen Faktor laden, liegen nahe an dieser Achse und weit yom Ursprung entfemt. Umgekehrt liegen diejenigen Items, die hoch auf Faktor 2 laden, nahe an der vertikalen Achse, ebenfalls weit yom Ursprung entfemt. Zugleich ist zu erkennen, dass aIle Items positiv auf den jeweiligen Faktor laden. Uneindeutig in Bezug auf diese beiden Faktoren ladt Item vI47: Wie die Tabelle der rotierten Faktorladungen zeigte, ladt dieses Item mit 0.389 aufFaktor 1 und mit 0.542 auf Faktor 2. In der graphischen Darstellung liegt vI47 daher fast auf einer 45°-Linie zwischen den Achsen. Inhaltlich wtirde das Item vI47 ("Gesicherte Zukunft") zu beiden Faktoren passen, da eine gewisse Sicherheit der Lebensverhaltnisse einerseits die Vereinbarkeit von Bernf und privaten Interessen erleichtert und andererseits haufig als Ausdruck des Berufsprestiges gilt. Hier zeigt sich also reale Unscharfe.
72
Fordert man den Plot ohne Definition der Achsen an (/plot rotation), so werden die Items im Raum der ersten drei Faktoren dargestellt.
Kapitel14: Faktorenanalyse
337
Abbildung 13: Items im Raum der beiden ersten Faktoren Komponentendiagramm im rotierten Raum
1,0 v150
v141
,8
0
Cl
v147
,6 v149
0 t:l
0
,4
0
vv11~a,
v144 Cl
,2
v151
Komponente 2
v148 t:l
v136
0
0
0,0
~" Cl
v142
a
-,2
v143 0
-,4 -,4
-,2
0,0
,2
,4
,6
,8
Komponente 1
FUr die Interpretation der Ergebnisse ist es sehr wiehtig zu verstehen, dass diese , drei Faktoren keine Typen darstellen: Die Aussage, dass sieh im Kollektiv der Befragten drei versehiedene Typen naeh ihrer berufliehen Grundmotivation unterseheiden lieBen, ware falseh. Vielmehr haben wir drei Variablen konstruiert, die in untersehiedlieh starker Auspragung vorliegen konnen. Von Typen konnen wir dann spreehen, wenn sieh spezifisehe Muster der Kombination dieser Auspragungen fmden lassen. Typen waren in unserem Fall also Personen, fUr die z. B. nur eine der gefundenen Orientierungen wiehtig ist, oder aber zwei bzw. drei dieser Orientierungen. So konnte es z. B. durehaus sein, dass intrinsisehe und extrinsisehe Orientierungen vorliegen. 3.3.4 Bereehnung der Dimensionsauspragung bei den Merkmalstragem Naeh der Entseheidung fUr eine dreifaktorielle Losung geht es nun darum, die Auspragung der Faktoren bei den einzelnen Merkmalstragem zu messen. SPSS nimmt eine regressionsanalytisehe Sehatzung vor, urn die sog. "Faetorseores" zu sehatzen. Die Bereehnung dieser sog. "Faetorseores" wird durch den Unterbefehl / save reg (all) gesteuert. SPSS erzeugt nun 3 neue Variablen, die per Voreinstellung mit den Labels fae 1_1, fac2_1 und fae3_1 bezeichnet werden. Diese Variablen sind standardisiert auf einen Mittelwert von ,,0" und eine Varianz von" 1".
Sabine Fromm
338
Abbildung 14: Factorscores
Mit der regressionsanalytischen Schatzung wird allerdings U nabhangigkeit der Factorscores der einzelnen Faktoren erzwungen, was inhaltlich haufig nicht gerechtfertigt erscheint; auBerdem gehen auch die "schlechteren" Items in die Berechnung ein. Die alternative Berechnung von Summenscores (COMPUTE) ist deshalb haufig sinnvoller (Abschnitt 5). Zuvor sollen jedoch die einzelnen Faktoren dimensionsanalytisch UberprUft werden. Die Berechnung der Summenscores bezieht sich dann nur noch auf diejenigen Items, die in der Analyse bleiben.
4
Dimensionsanalytische UberprOfung der Faktoren mit der Prozedur "RELIABILITY"
4.1
Einfuhrung
FUr die UberprUfung der Eindimensionalitat der Faktoren wurden Items, die in der Faktorenanalyse nicht eindeutig auf einen Faktor luden, aus der Analyse ausgeschlossen. Es sind dies: v136, v145, v147, v149. Diese Items sind offenbar zu unspezifisch. V148 ladt relativ stark auf die Faktoren 1 und 3, allerdings mit unterschiedlichen Vorzeichen. Auch di~ses Item wird aus der Analyse ausgeschlossen. Existieren negativ gepolte Items, so mUssen diese vor der DurchfUhrung der eindimensionalen UberprUfung der Faktoren umgepolt werden (s. o. 2.2.5); im Beispiel gab es jedoch keine negativen Faktorladungen. Mittels der SPSS-Prozedur "RELIABILITY" wird fUr jeden der Faktoren nun eine entsprechende Analyse durchgefiihrt. Fehlende Werte werden bei dieser Prozedur fallweise ausgeschlossen (SPSS ermoglicht keinen paarweisen Ausschluss).
Kapitel14: Faktorenanalyse
4.2
339
Berechnung der Skalen
4.2.1 Faktor 1: Vereinbarkeit Beruf/Privatleben Syntax: RELIABILITY /VARIABLES=v135 v142 v143 v144 /FORMAT=NOLABELS /SCALE(vereinb)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR /SUMMARY=TOTAL.
Es wird folgender Output erzeugt: -
Univariate Statistiken fUr die Variablen in der Analyse:
R ELI A B I LIT Y
1.
2. 3. 4.
A N A L Y SIS Mean 4,7233 3,2453 3,0566 2,5472
V135 V142 V143 V144
(VEREINB)
S CAL E Std Dev ,5727 1,1785 1,3837 1,1567
Cases 159,0 159,0 159,0 159,0
Die Korrelationsmatrix der jeweiligen Variablen:
V135 V142 V143 V144
Correlation Matrix V135 V142 1,0000 ,2888 1,0000 ,1956 ,4999 ,1345 ,1749 N of Cases = 159,0
V143
V144
1,0000 ,2257
1,0000
Statistiken fUr die Skala: Statistics for Scale
Mean 13,5723
Variance 8,6767
Std Dev 2,9456
N of Variables
4
Hier werden Statistiken fUr die gesamte Skala, nicht fUr die einzelnen Items ausgegeben.
340
-
Sabine Fromm
Statistiken zur Beurteilung der einzelnen Items:
Item-total Statistics Scale Mean if Item Deleted V135 V142 V143 V144
8,8491 10,3270 10,5157 11,0252
Scale Variance if Item Deleted 7,4707 4,7911 4,0994 5,9614
Corrected ItemTotal Correlation ,2804 ,4840 ,4752 ,2439
Squared Multiple Correlation ,0928 ,2899 ,2713 ,0622
Alpha if Item Deleted ,5681 ,3790 ,3822 ,5863
Von Bedeutung sind hier insbesondere die Angaben zur "Corrected Item-TotalCorrelation" und zu "Alpha if Item Deleted": Die" Corrected Item-Total Correlation ", der sog. "Trennscharfekoeffizient", gibt an, wie stark das jeweilige Item mit einem Punktwert, der aus allen anderen Items gebildet wird, korreliert, wie gut es also zur Skala passt. Besonders gute Werte ergeben sich hier fUr die Items v142 und v143. "Alpha ifItem Deleted" zeigt, wie sich der Wert von Alpha verandem wlirde, lieBe man das betreffende Item bei der Analyse unberucksichtigt. Wenn der Wert von Alpha sich bei einer Berechnung der Skala ohne dieses Item verbessem wlirde, ist das ein Hinweis auf mangelnde Eignung des Items. 1m Anwendungsbeispiel trifft das auf Item v144 zu: der Alphawert wlirde ohne dieses Item von 0.5697 auf 0.5863 steigen. Da die Zahl der Items jedoch ohnehin schon gering ist, die Verbesserung nur marginal ware, und das Item v144 inhaltlich gut zur Skala passt, wird es im Weiteren nicht aus der Analyse ausgeschlossen. -
Alpha-Koeflizienten:
Reliability Coefficients 4 items Alpha = ,5697 Standardized item alpha =
,5756
SPSS gibt neben Alpha auch den Wert fUr "standardized item alpha" aus. Wie unterscheiden sich diese Werte? Cronbach's Alpha wird aus den Kovarianzen errechnet, wahrend, das standardisierte Alpha auf den Korrelationen der Items beruht. Anders als die Korrelationen werden Kovarianzen nicht urn die Standardabweichungen der Items korrigiert. Sind die Standardabweichungen der Items einer Skala gleich, so ergeben sich identische Werte fUr Cronbach's Alpha und standardized Alpha. Sind sie nicht gleich, nimmt Cronbach's Alpha einen kleineren Wert an (so wie im Anwendungsbeispiel). Bei identischen Antwortkodierungen fUr aIle Items werden die beiden Werte nur in sehr geringem MaBe voneinander abwei-
Kapitel 14: Faktorenanalyse
341
chen. Werden allerdings Items mit untersehiedliehen Antwortkodierungen verwendet, so mussen sie zunaehst standardisiert werden. In diesem Fall ist dann standardized alpha der geeignete Wert, sonst Cronbaeh's Alpha. Cronbaeh's Alpha fiir die Skala "Vereinbarkeit BerufIPrivatleben" betragt 0.5697, ein Wert mittlerer Gute. Die gleiehen Berechnungen werden nun aueh fUr die anderen beiden Faktoren durehgefiihrt. 1m Folgenden werden nur die jeweilige Befehlssyntax und die Werte fUr Alpha dokumentiert. 4.2.2 Faktor 2: Extrinsisehe Motivation RELIABILITY /VARIABLES=v138 v14I v150 /FORMAT=NOLABELS /SCALE(extrins)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE /SUMMARY=TOTAL .
I Alpha
=
o. 6502
4.2.3 Faktor 3: Intrinsisehe Motivation: RELIABILITY /VARIABLES=v139 v140 v145 v146 /FORMAT=NOLABELS /SCALE(intrins)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE /SUMMARY=TOTAL .
Bei diesem Faktor ergibt sieh ein Problem: Item v140 (abweehslungsreiehe Tatigkeit) hat sehleehte Werte sowohl beim Trennseharfekoeffizienten wie aueh bei ,,Alpha if Item deleted". Andererseits passt das Item aber inhaltlieh gut zur Skala, zudem wiirde diese bei Aussehluss des Items auf nur zwei Indikatoren reduziert. leh habe versuehsweise Item v145 hinzugenommen, das aueh - wenn aue~ nur sehwaeh - auf Faktor 1 ladt. Dadureh erhoht sieh die Homogenitat der Skala erheblieh, aueh Item v140 ist nun konsistent mit der Skala. Alpha weist den Wert 0.6029 auf.
5
Berechnung von Summenscores
Wie unter 3.3.3 ausgefiihrt, erzwingt· die regressionsanalytisehe Sehatzung der Faetorseores deren Unabhangigkeit. Dies kann problematiseh sein, da in der
342
Sabine Fromm
RealiHit haufig ein Zusammenhang zwischen verschiedenen Dispositionen gegeben ist. Eine gute Alternative zur Berechnung der Factorscores ist daher die Messung der Dimensionsauspragung durch Summenscores. Dabei werden einfach fUr jeden Merkmalstrager seine Werte bei allen Items einer Skala addiert. Voraussetzung ist, dass aIle Items gleich gepolt sind und dass aIle das gleiche Antwortspektrum besitzen (also z. B. eine fiinfstufige oder eine dreistufige Antwortskala). 1st das Antwortspektrum nicht identisch, muss es standardisiert werden. 1m Beispiel: COMPUTE vereinb COMPUTE extrins COMPUTE intrins
v142+v143+v135+v144. v150+v141+v138. v139+ v140+v145+v146.
Die Variable "vereinb" variiert dann zwischen dem Wert ,,4" (wenn jemand bei allen vier Items den niedrigsten Wert" 1" aufweist) und ,,20" (wenn jemand bei allen Items den hochsten Wert ,,5" aufweist). Abbildung 15 verdeutlicht die Unterschiede und Zusammenhange zwischen den verschiedenen Scores anhand ihrer Korrelationen: CORRELATIONS /VARIABLES=facl 1 fac2 1 fac3 1 job extrins intrins /PRINT=TWOTAIL NOSIG /MISSING=listwise.
Die regressionsanalytisch berechneten Factorscores konnen aufgrund ihres Konstruktionsprinzips nicht miteinander korrelieren, was durch die Korrelationsmatrix bestatigt wird. Sie weisen aber jeweils sehr hohe Korrelationen mit demjenigen Summenscore' aut: der ihnen inhaltlich entspricht: So korreliert Faktor 1 (facI_I) zu 0.9 mit "VEREINB". Beide Variablen bilden also offensichtlich - wie gewiinscht - die gleiche Information abo Innerhalb der Summenscores treten schwache Korrelationen aut: vor allem zwischen extrinsischer und intrinsischer Motivation. Das heiBt, dass es eine nicht unerhebliche ZOOI von Merkmalstragern gibt, bei denen beide Dispositionen gleichermaBen ausgepragt sind. Ein schwacher negativer Zusammenhang besteht zwischen der Bedeutung der Vereinbarkeit von Beruf und Privatleben und einer extrinsischen Motivation. Eine starke Auspragung der einen Disposition geht hier vielfach mit einer schwachen Auspragung der anderen einher. Dies verdeutlicht noch einmal, dass Dispositionen nicht als Typen (fehl-)interpretiert werden dUrfen. Mit der Berechnung der Dimensionsauspragung bei den einzelnen Merkmalstragern sind die typischen Teilschritte einer Faktorenanalyse abgeschlossen. Die neu gebildeten Variablen konnen nun fUr weitere Analysen verwendet werden.
343
Kapitel14: Faktorenanalyse
Abbildung 15: Korrelationen der Faktor- und Summenscores Korrelationelf REGR factor REGR factor REGR factor score 1 for score 2 for score 3 for analysis 1 analysis 1 analysis 1 VEREINB EXTRINS INTRINS REGR factor score Korrelation nach Pearso! ,ODD -,093 ,039 1 ,DOD ,900* 1 for analysis 1 Signifikanz (2-seitig) ,000 ,245 ,628 1,000 1,000 REGR factor score Korrelation nach Pearso! ,ODD -,104 ,128 ,889* ,ODD 1 2 for analysis 1 Signifikanz (2-seitig) ,192 ,000 ,107 1,000 1,000 REGR factor score Korrelation nach Pearso! 3 for analysis 1 Signifikanz (2-seitig) VEREINB Korrelation nach Pearso! Signifikanz (2-seitig) EXTRINS Korrelation nach Pearso! INTRINS
Signifikanz (2-seitig) Korrelation nach Pearso! Signifikanz (2-seitig)
,ODD
,ODD
1,000 ,900*
1,000 -,104 ,192 ,889*
,ODD -,093 ,245 ,039 ,628
1
,ODD
,091 ,251 ,158* ,047
,128 ,107
,ODD
,904*
,091 ,251 1 -,122 ,127 ,106 ,183
,158* ,047 -,122 ,127 1 ,245* ,002
,904*
,ODD ,106 ,183 ,245* ,002 1
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. *. Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant. a. Listenweise N=159
6
Hinweise zur Befehlssyntax fOr die Prozedur "FACTOR" in SPSS
Wie bei den meisten SPSS-Prozeduren, ist es auch bei der Befehlssyntax fUr "FACTOR" moglich, zusatzliche Optionen anzufordem, die im Menu nicht ent-
halten sind: Festlegen von Konvergenzkriterien fUr die Iteration bei der Extraktion und Rotation; Anfordem von einzelnen Diagrammen fUr rotierte Faktoren; Festlegen der Anzahl der zu speichemden Faktorwerte; Festlegen von Diagonalwerten fUr die Methode der Hauptachsen-Faktorenanalyse; Speichem der Korrelationsmatrizen oder Matrizen der Faktorladungen fUr eine spatere Analyse; Einlesen von Korrelationsmatrizen oder Matrizen der Faktorladungen. Weiterfuhrende Literatur Baur (2003) erHiutert umfassend und gut verstandlich die Konstruktion von Dimensionsvariablen mit SPSS. Bortz (1989 3) und vor aHem Uberla (1977 2) und Thurstone.(1945) gehen auf den mathematischen Hintergrund der Faktorenanalyse ein. Bei Kaiser (1974) findet sich die DarsteHung des KMO-MaBes. Schnell et. al. (2004) erHiutem verschiedene Skalierungsverfahren.
344
Sabine Fromm
Baur, Nina (2003): Wie kommt man von den Ergebnissen der Faktorenanalyse zu Dimensionsvariablen? Eine Einfuhrung in die Dimensionsbildung mit SPSS fur Windows. Bamberg 2003 (Reihe: Bamberger Beitrage zur empirischen Sozialforschung) Bortz, Jiirgen (1989 3): Statistik fur Sozialwissenschaftler. Berlin u. a.: Springer Verlag Kaiser, H.F. (1974): An Index of Factorial Simplicity. In: Psychometrika. Band 39. S. 31-36 Schnell, Rainer / Hill, Paul B. / Esser, Elke (2004): Methoden der empirischen Sozialforschung. Miinchen: Oldenbourg Thurstone, Luis Leon (1945): Multiple Factor Analysis. Chicago: University of Chicago Press Ober/a, Klaus (19772): Faktorenanalyse. Eine systematische Einfuhrung fur Psychologen, Mediziner, Wirtschafts- und Sozialwissenschaftler. Berlin u. a.: Springer Verlag
Kapitel15 Multiple lineare Regressionsanalyse Sabine Fromm
1
EinfOhrung
In soziologischen Untersuchungen geht es haufig urn die Frage, ob und wie eine oder mehrere unabhangige Variablen auf eine abhangige Variable einwirken. Eine typische Fragestellung ware etwa, von welchen EinflussgroBen die Hohe des Einkommens einer Person abhangt. In diesem Fall ware das Einkommen die abhangige Variable, GroBen wie das Alter, die berufliche QualifIkation, die Dauer der Berufstatigkeit, das Geschlecht usw. die unabhangigen Variablen. Urn den Zusammenhang zwischen der abhangigen Variable und den sie erklarenden unabhangigen Variablen zu analysieren, muss eine Modellannahme hinsichtlich der Art des Zusammenhangs getroffen werden. Dieser kann verschiedene Formen annehmen, er kann z. B. logistisch sein oder exponentiell oder aber - wie im Folgenden genauer dargestellt -linear. Welche Form des Zusammenhangs man annimmt, kann einerseits in empirischen Erkenntnissen begrUndet sein, andererseits durch Hypothesen und theoretische Annahmen tiber den Gegenstandsbereich. Ein linearer Zusammenhang liegt dann vor, wenn sich die Auspragung der abhangigen Variable proportional mit der Veranderung der unabhangigen Variable verandert. So konnte z. B. jedes zusatzliche Berufsj ahr einen durchschnittlichen Anstieg des Einkommens urn den Faktor 0.05 bewirken. Das Ziel der multiplen linearen Regressionsanalyse besteht darin, eine Schatzgleichung zur· moglichst genauen Beschreibung der durchschnittlichen linearen Abhangigkeit einer Variable von mehreren anderen Variablen aufzustellen. Dies beinhaltet Aussagen tiber: - die Starke und Richtung des Einflusses der einzelnen unabhangigen Variablen auf die abhangige Variable; - die ErkUirungskraft aller unabhangigen Variablen zusammen (ModellgUte); - die Schatzung von Auspragungen der abhangigen Variable bei Merkmalstragem, bei denen diese nicht bekannt ist. Die multiple lineare Regressionsanalyse kann somit zu erklarenden ebenso wie zu prognostischen Zwecken eingesetzt werden.
346
Sabine Fromm
2
Statistische Grundlagen
2.1
Das Grundmodell der einfachen linearen Regression mit nur zwei Variablen
2.1.1 Modellannahmen Bevor ich auf die Grundlagen der multiplen linearen Regressionsanalyse und ihre Berechnung mit SPSS eingehe, mochte ich am Grundmodell der einfachen linearen Regression mit nur zwei Variablen die wichtigsten Konzepte erUiutem. In diesem Modell wird angenommen, dass der Zusammenhang zwischen zwei Variablen durch eine lineare Funktion beschrieben werden kann. Dabei sei:
Y X
abhangige Variable (Kriterium) unabhangige Variable (Pradiktor)
Theoretisch ist bei der Beschreibung des linearen Zusammenhangs zwischen dem linearen Modell der Gesamtheit und demjenigen der Stichprobe zu unterscheiden: Grundlegend fUr ersteres ist die Vorstellung, dass in der Grundgesamtheit eigentlich ein deterministischer Zusammenhang zwischen Kriteriurn Y und Pradiktor X besteht, der aber durch eine Storvariable U iiberlagert und so zu einem stochastischen Zusammenhang wird. Man kann sich vorstellen, dass jedem X-Wert eine "Ume" von Y-Werten zugeordnet ist, die in Abhangigkeit von U variieren. Die Storvariable ist jedoch nicht beobachtbar und damit auch nicht messbar. Weiterhin wird angenommen, dass die Y-Werte alle normalverteilt sind. Angenommen wird ein Zusammenhang der Form:
Y = /30 +
/31X +
U
Dabei ist: (Regressionskonstante): 1m bivariaten Modell ist dies der Achsenabschnitt von Y bei X = 0, an dem die Regressionsgerade die Y-Achse schneidet (vgl. Abbildung 1). Inhaltlich ist dieser Achsenabschnitt nur interpretierbar, wenn X = 0 im Stiitz- bzw. Geltungsbereich des Modells liegt.1m BeispIel mit den Variablen Einkommen und Anzahl der Berufsjahre wiirde diese GroBe das geschatzte Einkommen eines Berufsanfangers (0 Berufsjahre) wiedergeben. /31 (Regressionskoeffizient): Der Regressionskoeffizient ist der Steigungsparameter der Regressionsgeraden. Er gibt an, urn wieviele Einheiten sich Y durch- , schnittlich andert, wenn sich X urn eine Einheit andert. Der Regressionskoeffizient bringt also die Bedeutung eines Pradiktors fUr das Kriteriurn an. Besteht z. B. ein linearer Zusammenhang zwischen dem Alter eines Autos und den Instandhaltungskosten, wobei die Instandhaltungskosten jahrlich urn den Faktor
- /30
Kapitel 15: Multiple lineare Regressionsanalyse
-
347
0.1 zunehmen, so konnte man den Zusammenhang formulieren als: Y (Instandhaltungskosten) = 0.1 * X (Alter). U (Storvariable): Ober die Storvariable V wirken Zufallseinflusse auf den Zusammenhang von Y und X ein. Inhaltlich kann V als die Gesamtheit der im Modell nicht berticksichtigten Variablen vorgestellt werden. Da V nicht beobachtet und gemessen werden kann, kann der Wert von Y nicht fehlerfrei aus X bestimmt, sondem lediglich geschatzt werden. Die Modellgleichung zur Bestimmung des Kriteriums lautet: (Y'
=
Schatzwert fur
1J
In der Stichprobe tritt V nicht auf, die Stichprobe ist ja immer schon eine Realisation von X- und Y-Werten. Die Schatzgleichung fUr Y lautet hier:
Y'=bo+bjx Die Funktion Y' = bo + b jX beschreibt den Zusammenhang zwischen Y und X zwar "im Wesentlichen", jedoch nicht perfekt. Die tatsachlich beobachteten Werte Yi weichen deshalb mehr oder weniger stark von den Werten auf der Regressionsgeraden abo Sie setzen sich zusammen aus den jeweiligen Schatzwerten Y 'i und den sogenannten Residuen ei:
Die Residuen sind beobachtete Abweichungen zwischen dem Messwert Yi eines jeden Merkmalstragers und dem Schatzwert (vi '), der auf der Regressionsgeraden liegt. Die ei sind also nicht etwa Realisationen der Vi! Die Storvariable der Gesamtheit hat keine Realisationen; umgekehrt existieren in der Gesamtheit keine Residuen. Ziel der Regressionsschatzung ist es, die Parameter b o und b I der Regressionsgeraden so zu bestimmen, dass die quadrierten Abstande der YWerte (Messwerte) zur Regressionsgeraden - auf der die Schatzwerte liegen insgesamt minimiert werden (Methode der kleinsten Quadrate).
348
Sabine Fromm
Abbildung 1: Streuung der Messwerte urn die Regressionsgerade y
nicht erkHirte Streuung
l}
Mittel
Y'2-Y
.................................................................[ ~~~!~.~~. ~~~~~ung
wert
y
bo
YI - Y'l
Y1
x
Die Koeffizienten b o und b i werden berechnet als: und mit: ~
= Mittelwert der abhangigen Variable in der Stichprobe x = Mittelwert der unabhangigen Variable in der Stichprobe Sxy = Kovarianz von x und y in der Stichprobe S2x = Varianz des Merkmals x in der Stichprobe FUr die Stichprobe kann der Zusammenhang zwischen Kriterium und Pradiktor dann mit folgender Formel beschrieben werden:
Y = bo + b i
X
+e
Die Quadratsumme der Residuen stellt den Teil der Streuung dar, der durch die Regressionsgerade nicht "erklart" wird (yj - y'j). Unter der durch die Regressionsgerade "erklarten" Streuung versteht man dagegen die Abweichungen der Schiitzwerte vom Mittelwert (y'- y). Die gesamte Abweichung eines jeden y- Wertes vom Mittelwert y lasst sich also in zwei "Teilstrecken" zerlegen: die Distanz Messwert - Schatzwert und die Distanz Schatzwert - Mittelwert von Y.
Kapitel 15: Multiple lineare Regressionsanalyse
349
Summiert man tiber aIle FaIle und quadriert die Differenzen, ergibt sich: n
L:(Yi-Y'i)2 i=l
Gesamtstreuung
nicht erkHirte Streuung
erkHirte Streuung
Auf dieser Streuungszerlegung basiert das Bestimmtheitsmaj3 r2 , das die Gtite des Modells zum Ausdruck bringt: n
L(Y'i-y)2 r2
= _i=_l
_
n
L(Yi _y)2
erklarte Streuung Gesamtstreuung
Es gilt: 0 :s; r 2 :s; 1
i=l
Bei der Verwendung von standardisierten Variablen verkiirzt sich die Regressionsgleichung schlieBlich zu:
y= bjx+e Der Regressionskoeffizient b i wird dann identisch mit dem Korrelationskoeffizienten zwischen Y und X. 2.1.2 Modellvoraussetzungen
-
-
Skalenniveau: Das Kriterium muss mindestens Intervallskalenniveau aufweisen. Die Pradiktoren mtissen intervallskalierte oder aber dichotome bzw. dichotomisierte Variablen mit den Auspragungen ,,0" und ,,1" sein (Dummy-Variablen). Vorliegen einer linearen Beziehung zwischen Kriterium und Priidiktoren: Nichtlineare Beziehungen kann man ggf linearisieren, z. B. durch Logarithmieren einer exponentiellen Funktion. Allerdings darf der lineare Zusaminenhang nicht zu hoch sein, da man sonst ja zweimal die gleiche Information erfassen wlirde. keine Autokorrelation der Residuen: Bei Autokorrelation bestehen systematische Verbindungen zwischen den Residuen benachbarter Falle (Voraussetzung ist also, dass die Falle irgendwie sortiert sind). Autokorrelation tritt v. a. bei Zeitreihen aut: hier stellen die Falle der Stichprobe benachbarte Zeitpunkte dar. Wird diese Modellannahme verletzt, so muss mit erheblichen Verzerrungen bei der Bestimmung von Konfidenzintervallen fUr die Regressionskoeffizienten ge-
Sabine Fromm
350
-
rechnet werden. Zur Dberprufung eignet sich die Berechnung des DurbinWatson-Koeffizienten. Dieser kann Werte zwischen 0 und 4 annehmen: Werte < 1 oder> 3 ergeben sich bei erheblicher Autokorrelation; beim Wert 2 liegt keinerlei Autokorrelation vor. keine Heteroskedastizitat der Residuen: Die Streuung der Residuen ist bei Heteroskedastizitat nicht konstant. Dies kann etwa dann der Fall sein, wenn bei einer Reihe von Beobachtungen der Beobachter in seiner Aufmerksamkeit nachlasst, und dadurch Messfehler auftreten. Die Folgen sind vergleichbar denen bei Autokorrelation.
Die Forderung nach Homoskedastizitat und Nicht-Autokorrelation ist insbesondere bei induktiven Fragestellungen wichtig, z. B. bei der Bestimmung von Konfidenzintervallen fUr den Regressionskoeffizienten. Sie lauft im Wesentlichen darauf hinaus, dass die Residuen einer Normalverteilung folgen sollten und insbesondere nicht systematisch, in Abhangigkeit voneinander, variieren. Dies ist notwendig, damit die SignifIkanzprufungen zu unverzerrten Ergebnissen fUhren. Urn Scheiilkausalitat zu erkennen, sollte auBerdem die ModellspezifIkation durch Verfahren zur Drittvariablenkontrolle uberpruft werden (vgl. hierzu Kapitel13 in diesem Buch).
2.2
Das Modell der multiplen linearen Regression
2.2.1
Schatzgleichung
Anders als bei der einfachen linearen Regression werden nun mehrere unabhangige Variablen x zur Schatzung der abhangigen Variablen Y herangezogen. Die Schatzgleichung fUr Y wird erweitert zu:
Y = bo +bjxj+b2X2 + ... + b~m Oder, bei standardisierten Variablen :
Y = bjxj+b2X2 + ... + b~m Auch im multivariaten Modell geht es darum, die b-Parameter so zu bestimmen, dass die Summe der quadrierten Abweichungen minimiert wird. Die Vorstellung einer zum Modell gehorenden Regressionsgeraden muss allerdings aufgegeben und durch das Modell einer Regressionsebene (dreidimensionaler Raum) bzw. -hyperebene (multidimensionaler Raum) ersetzt werden. Auch hier besteht das Ziel dann darin, die quadrierten Abstande der Datenpunkte zur Regressionsebene bzw. -hyperebene zu minimieren.
Kapitel 15: Multiple lineare Regressionsanalyse
351
2.2.2 Das Problem der Multikollinearitat Das Modell der multiplen linearen Regression setzt additive Kausalitat voraus, d.h. dass die unabhangigen Variablen nicht miteinander korrelieren dUrfen. Nur dann ist es moglich, die Varianzaufklarungsanteile der einzelnen. Pradiktoren genau zu bestimmen, und nur dann ist die im Modell erklarte Gesamtvarianz gleich der Summe der Varianzaufklarungspotenziale der einzelnen Pradiktoren. Andemfalls miissen Interaktionseffekte beachtet werden, d.h. die erklarte Varianz von Y setzt sich zusammen aus dem jeweiligen Erklarungspotenzial der einzelnen Pradiktoren und einem gemeinsamen Erklarungspotenzial der Pradiktoren. Das hat zur Folge, dass das Varianzaufklarungspotenzial der einzelnen Pradiktoren nicht genau bestimmt werden kann. Damit sind die Regressionskoeffizienten nicht als MaB fUr die Bedeutsamkeit eines Pradiktors interpretierbar: Der Regressionskoeffizient eines Pradiktors wird rechnerisch nicht mehr ausschlieBlich vom Zusammenhang des Pradiktors mit dem Kriterium bestimmt, sondem zusatzlich durch die Interkorrelation der Pradiktoren. "Ie groBer die Interkorrelation zwischen den Pradiktorvariablen und je groBer die Korrelation der anderen Pradiktorvariablen mit der Kriteriumsvariablen, desto weniger wird das b-Gewicht durch die Einzelkorrelation der Pradiktorvariablen mit der Kriteriumsvariablen bestimmt." (Bortz 1989: 561)
Die Annahme additiver Kausalitat wird in der Realitat fast immer verletzt. In aller Regel tritt zumindest eine schwache Korrelation zwischen den unabhangigen Variablen auf. Konnen die unabhangigen Variablen in eine Lmearbeziehung zueinander gebracht. werden, spricht man von Multikollinearitat. In diesem Fall miissen eine oder mehrere Variablen aus dem Modell entfemt werden. W oran kann man erkennen, ob Multikollinearitat vorliegt? Oberpriifen der Korrelationsmatrix: Das Vorliegen paarweiser Korrelationen zwischen den Pradiktorvariablen weist auf Multikollinearitat hin. Es kann aber nicht umgekehrt aus dem FeWen hoher paarweiser Korrelationen geschlossen werden, dass keine Multikollinearitat vorliegt, da in der Korrelationsmatrix nur die paarweisen, nicht aber die multiplen Korrelationen ausgewiesen werden. Regressionsschatzung: Jede der Pradiktorvariablen wird aus den jeweils anderen Pradiktorvariablen regressionsanalytisch geschatzt. Das MaB wird als Toleranz einer Variable bezeichnet und kann in SPSS zur MultikollinearitatsprUfung herangezogen werden.
l-r
Urn den Varianzerklarungsbeitrag einer einzelnen unabhangigen Variable beim Vorliegen von Multikollinearitat abzuschatzen, ist es sinnvoll, die semipartiellen Korrelationen zu betrachten oder eine Serie von Regressionsanalysen durchzu-
352
Sabine Fromm
fiihren, bei der jede Variable einmal an erster und einmal an letzter Stelle in das Modell aufgenommen wird (s. u. 3.2.4). Auf diese Weise kann zumindest das maximale und das minimale VarianzautkHirungspotenzial dieser Variablen bzw. Variablengruppen bestimmt werden.
3
Multiple Regressionsanalyse mit SPSS - ein Anwendungsbeispiel
3.1
Beschreibung des Datensatzes und der Variablen
Grundlage der folgenden Auswertungen ist der Datensatz "leblauf.sav" (inklusive Fragebogen mit anderen Zusatzmaterialien auf der Verlagswebseite (www.vsverlag.de) abgelegt). Befragt wurden 333 Personen folgender Altersklassen: 20 - 25 Jahre, 40 - 45 Jahre, 60 - 65 Jahre. Neben zahlreichen Informationen zum Lebenslaufwurde mittels verschiedener Skalen u. a. die Tendenz der Befragten zu Autoritarismus gemessen. Nach einer dimensionsanalytischen Oberprufung wurden die nachstehenden Items in die Autoritarismus-Skala aufgenommen (Tabelle 1). Der Wert von Cronbach's Alpha fUr die Skala betragt 0.7415. Die Variable v914 wurde umgepolt (siehe dazu Kapitel 14 in diesem Buch), da sie negativ auf den Faktor "Autoritarismus" Hidt.
Tabelle 1: Items zur Berechnung der abhangigen Variable" auto" Itemname v908 v914 (-) v919 v924 v931 v932 v937
Item Die vielen Auslander in Deutschland konnen irgendwann zu einer Bedrohung fUr unsere Kultur werden. Ich finde es sehr gut, dass man den Kriegsdienst verweigem kann. Auch in der heutigen Zeit sollte wohl eher der Mann das Sagen in der Familie haben. In unserem offentlichen Leben gibt es zuviel Kritik und zuwenig Ordnung. Es ware besser, wenn es wieder gesetzliche Bestimmungen gegen Homosexualitat gabe. Man sollte mit den Jugendlichen vielleicht wieder etwas strenger umgehen, dann bliebe uns manches Problem erspart. Eine moglichst straffe politische Fiihrung scheint mir das Beste fUr uns zu sein.
Mit Hilfe einer multiplen linearen Regressionsanalyse solI nun der Einfluss der nachstehenden Merkmale auf die Auspragung der Autoritarismus-Tendenz bei den Befragten untersucht werden73 • Da die Pradiktoren urspriinglich z. T. ordinal erhobenen wurden, die Regressionsanalyse bei den Pradiktoren aber mindestens Intervallskalenniveau voraussetzt, mussten einige Variablen zunachst geeignet transformiert werden. 1m 73
Die gesamte Syntax zur Berechnung der einzelnen Variablen findet sich bei mit anderen Zusatzmaterialien aufder Verlagswebseite (www.vs-verlag.de; "kapite/_13 _regression.sps").
353
Kapitel 15: Multiple lineare Regressionsanalyse
Beispiel wurden diese Variablen dichotomisiert, moglich ware jedoch auch die Bildung von Dummy-Variablen, wobei jede Auspragung des ursprUnglichen Merkmals zu einer neuen dichotomen Variable wird.
Tabelle 2: Pradiktoren Variablenna me bild_bef
Variablenlabel
Auspragungen
Bildungsabschluss des Befragten
o 'hochstens Hauptschulabschluss'
bild m bild v v172
Hochster Schulabschluss der Mutter Hochster Schulabschluss des Vaters Berufstatigkeit der Mutter
sex
Geschlecht
alter lebzuf
Alter des Befragten Lebenszufriedenheit des Befragten
fam_erz
AusmaB autoritarer Erziehungspraktiken in der Herkunftsfamilie
3.2
1 'mind. mittlere Reife' wie bild bef wie bild bef o 'nie berufstatig' 1'mind. zeitweise berufstatig' o 'weiblich' 1 'mannlich' (Lebensalter in Jahren) (Skala: kleine Werte = geringe Zufriedenheit) (Skala: kleine Werte = geringe Tendenz zu autoritaren Praktiken)
Durchfuhrung einer multiplen Regressionsanalyse mit der Prozedur "REGRESSION"
3.2.1 Befehlsstruktur Einzig obligatorischer Unterbefehl nach REGRESSION ist IDE PENDENT = variable, mit dem die abhangige Variable definiert wird. Die gesamte Syntax kann - wie bei jedem SPSS-Befehl-fiber das Syntax-Symbol angefordert werden. Von besonderer Bedeutung ist der Unterbefehl IMETHOD, mit dem festgelegt wird, "nach welchem Algorithmus die unabhangigen Variablen in die Schatzgleichung aufgenommen werden sollen. Grundsatzlich ist hier zu unterscheiden zwischen dem Verfahren IMETHOD = ENTER, bei dem alle Variablen gleichzeitig und ohne ihre Eignung zu prfifen in das Modell aufgenommen werden und allen anderen Verfahren, welche die Variablen schrittweise aufnehmen. Nachstehend die Befehlssyntax fUr das Modell eine Regressionsanalyse mit schrittweiser Aufnahme der Pradiktoren:
354
Sabine Fromm
REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING pairwise 0 /STATISTICS COEFF OUTS R ANOVA ZPP COLLIN TOL CHANGE @ /CRITERIA=PIN(.10) POUT(.15) • /NOORIGIN 0 /DEPENDENT auto 0 /METHOD= stepwise bild bef bild m bild v sex fam erz alter lebzuf 15 weist auf ein deutliches, ein KI von> 30 auf ein gravierendes Kollinearitatsproblem hin. Varianzanteile: Die Varianz der Regressionskoeffizienten wird in Komponenten zerlegt, die sich den Eigenwerten zuordnen lassen. Wenn Eigenwerte mit hohem KI die Varianz mehrerer Variablen gut erklaren, ist das ein Hinweis auf Kollinearitat. Die Angaben zur Modellgtite, zu den Koeffizienten des Modells und zum Problem der Multikollinearitat werden schlieBlich noch durch verschiedene Informationen tiber die Verteilung der Residuen erganzt. Abbildung 9: Residuenprufung I: Histogramm Histogramm Abhangige Variable: AUTO 40
30
20
i
Std.abw. = ,99
10
Mittel =.02
N =276,00
J:
~ '~
'~
~~
~~
.~
.~
Regression Standardisiertes Residuum
~
~
~ ~
Kapitel15: Multiple lineare Regressionsanalyse
363
Abbildung 10: Residuenprufung II: Normalverteilungsplot der Residuen P-P-Diagramm von Standardisiertes Residuum Abhangige Variable: AUTO 1,0
,.------------~
,8
,3
,5
,8
1,0
Beobachtete Kum. Wahrsch.
Die Haufigkeitsverteilung der (zuvor z-standardisierten) Residuen wird in Abbildung 9 mit einer Normalverteilungskurve verglichen.Abweichungen zeigen sich insbesondere im Bereich unterhalb des Mittelwerts. Dies bedeutet, dass niedrigere Auspragungen von "auto" durch das Modell tendenziell schlechter erklart werden als hohe. Insgesamt ist die Anpassung akzeptabel. Auch in Abbildung 10 wird die kumulierte Haufigkeitsverteilung der .standardisierten Residuen mit der kumulierten Normalverteilung verglichen. Die Darstellung verstarkt den Eindruck, dass die Verteilung der Residuen (Punkte) nicht allzu sehr von der Normalverteilung (durchgezogene Linie) abweicht. 3.2.3 Gleichzeitige Aufnahme der Variablen (METHOD = ENTER) Der schrittweisen Aufnahme der Variablen wird nun ein Modell gegenUber gestellt, das alle Variablen gleichzeitig in das Modell aufnimmt. (/METHOD = ENTER). Dies eroffnet die Moglichkeit, die GUtekriterien der einzelnen Variablen selbst zu Uberprufen und ggf. aus inhaltlichen Grunden Variablen in das Modell aufzunehmen, die z. B. die SignifIkanzkriterien nicht erfiillen: REGRESSION /DESCRIPTIVES MEAN STDDEV CORR /MISSING pairwise /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.10) POUT(.15) /NOORIGIN /DEPENDENT auto /METHOD= enter bild_bef bild m lebzuf /RESIDUALS DURBIN HIST(ZRES~D)
SIG ZPP COLLIN TOL CHANGE
bild v sex fam erz alter NORM (ZRESID)
.
364
Sabine Fromm
Abbildung 11: Modellzusammenfassung (METHOD = ENTER) Modellzusammenfassunlf
Modell 1
R ,5703
R-Quadrat ,325
Korrigiertes R-Quadrat ,306
Standardf ehler des Schatzers 1,63678
And.rung in R-Quadrat ,325
I I
I
Anderungsstatistiken
Anderung in F 17,200
I
df1
I
7
I I
And.rung in
df2 250
I
Signifikanz von F ,000
Durbin-Wats on-Statistik 1,961
a. Einflu~variablen: (Konstante), LEBZUF, Bildungsabschluss Vater (dich.), SEX, FAM_ERZ, Bildungsabschluss Befragter(dich.), ALTER, Bildungsabschluss Mutter (dich.) b. Abhangige Variable: AUTO
r
Bei Aufnahme aller unabhangigen Variablen in das Modell ergibt sich fUr eine nur marginale Verbesserung von 0.320 auf 0.325. Ein Blick auf die Koeffizienten der Variablen (Abbildung 12) unterstreicht diese Information: die Aufuahme weiterer Variablen erscheint nicht sinnvoll.
Abbildung 12: Koeffizienten (METHOD
= ENTER)
KoetrIzlenteif Nicht standardisierte Koeffizienten Modell 1
(Konstante) Bildungsabschluss Befragter (dich.)
B 7,746
Standardf ehler ,777
Standardisie rte Koeffizienten Beta
Kollinearit~tsstatistik
Korrelationen T 9,971
Signifikanz ,000
Nullter Ordnung
Partiell
Teil
Toleranz
VIF
-1,104
,242
-,279
-4,562
,000
-,418
-,277
-,237
,722
1,385
Bildungsabschluss Mutter (dich.) .
,102
,291
,022
,350
,726
-,225
,022
,018
,691
1,446
Bildungsabschluss Vater (dich.)
-,264
,270
-,061
-,978
,329
-,220
-,062
-,051
,689
1,451
,509
,207
,129
2,454
,015
,167
,153
,128
,971
1,029
SEX FAM_ERZ
-,012
,016
-,039
-,716
,475
-,096
-,045
-,037
,907
ALTER
,041
,007
,347
5,694
,000
,483
,339
,296
,726
1,102 1,378
LEBZUF
,041
,055
,041
,746
,456
,161
,047
,039
,891
1,123
a. Abhangige Variable: AUTO
Betrachtet man die Beta-Koeffizienten, so zeigt sich, dass tatsachlich nur die Variablen Alter, Bildungsabschluss des Befragten und Geschlecht relevant sind. Man wUrde hier also die gleichen Variablen auswahlen, die tiber den stepwiseAlgorithmus in das Modell aufgenommen wurden. Dies muss jedoch nicht immer so sein! Es ist deshalb stets sinnvoll, die Auswahl durch das Programm kritisch zu tiberprufen. 3.2.4 Minimales und maximales Varianzautklarungspotenzial Sowohl die Variablenaufnahme mit /METHOD STEPWISE wie auch diejenige mit /METHOD ENTER lasst die Variablen Alter, Bildungsabschluss des Befragten und Geschlecht als die relevanten Variablen des Modells erscheinen. Da diese Variablen jedoch miteinander korreliert sind, konnen die Beta-Koeffizienten nicht ihr tatsachli-
365
Kapitel 15: Multiple lineare Regressionsanalyse
che~ VarianzautkUirungspotenzial wiedergeben. Urn den Einfluss eines Pradiktors zumindest abzuschatzen, konnen sein minimales und maximales Varianzaufklarungspotenzial bestimmt werden. Ich stelle im Folgenden zwei Moglichkeiten vor, dies zu tun: '
Minimales und maximales Varianzaufklarungspotenzial aus den Korrelationen bestimmen: Zur Bestimmung des Mindestbeitrags einzelner miteinander korrelierter Pradiktoren zur Varianzerklfuung im Gesamtmodell betrachtet man die semipartiel/en Korrelationen. Quadriert man die in Abbildung 12 unter der Oberschrift "Teil" stehenden Koeffizienten, so erhalt man das minimale Varianzaufklfuungspotenzial eines jeden Pradiktors. Die Summe dieser Koeffizienten ist natiirlich kleiner als fUr das Gesamtmodell, die quadrierten semipartiellen Korrelationen gebenja nur den minimalen Beitrag jeder Variable an. Wtirde man nur die semipartiellen Erklfuungspotenziale. berucksichtigen, wiirde man die im Gesamtmodell erklfu1:e Varianz also unterschatzen. - Das maximale Varianzaufklarungspotenzial bestimmt sich dagegen aus dem Quadrat der Korrelationen nullter Ordnung. Hier sind jedoch immer die Varlanzaufklfuungspotenziale der korrelierenden Pradiktoren enthalten, so dass keine Aussagen dartiber getroffen werden, wie hoch der Beitrag des einzelnen Pradiktors ist.
r
Minimales und maximales Varianzaufklarungspotenzial durch unterschiedliche Eingabereihenfolge der Pradiktoren bestimmen: Diese Strategie besteht darin, eine Serle von Regressionsanalysen durchzuftihren, bei denenjeder Pradiktor einmal an erster und emmal an letzter Stelle in die Regressionsgleichung aufgenommen wird. Die schrittweise Regressionsanalyse baut darauf aut: dass das Gesamtvarianzerklaausgerungspotenzial bei unkorrelierten wie bei korrelierten Pradiktoren mit driickt wird. Kollinearitat der Pradiktoren fiihrt also zu verzerrten BetaFtihrt man die einzelnen Koeffizienten, nicht aber zu einer Verzerrung von Pradiktoren nacheinander in die Analyse ein und bestimmt jeweils so zeigt die Veranderung von nach Einfiihrung der letzten Variable deren minimales Varianzaufklarungspotenzial an. Der Wert von bei Modellaufuahme an erster Stelle gibt das maximale Varianzaufklarungspotenzial der Variable wieder. Nachstehend die Ergebnisse dieser Vorgehensweise fUr das Anwendungsbeispiel (VAP = Varianzaufklfuungspotenzial).
r
r.
r
r,
r
*Block 1: Maximales VAP von Bildungsabschluss, minimales VAP von Alter. REGRESSION /MISSING pairwise /STATISTICS COEFF OUTS R COLLIN TOL CHANGE /CRITERIA=PIN(.10) POUT(.15) /NOORIGIN
366
Sabine Fromm
/DEPENDENT auto /METHOD= enter bild bef / enter sex / enter alter /RESIDUALS DURBIN.
Abbildung 13: Block 1 - Minimales VAP von" alter" Modellzusammenfassun#j
Anderunasstatistiken
Modell 1
R-Quadrat R ,175 ,418a
Korrigiertes R-Quadrat ,172
2
,450b
,202
,197
3
,566c
,320
,313
Standardf ehler des Schlitzers 1,78810
Anderung in . Anderung in F R-Quadrat ,175 58,513
1,76117 1,62911
df1 1
df2 276
Anderung in Signifikanz von F ,000
,028
9,504
1
275
,002
,118
47,391
1
274
,000
Durbin-Wats on-Statistik
2,014
a. EinfluBvariablen : (Konstante), Bildungsabschluss Befragter (dich.) b. EinfluBvariablen : (Konstante), Bildungsabschluss Befragter (dich.), SEX c. EinfluBvariablen : (Konstante), Bildungsabschluss Befragter (dich.), SEX, ALTER d. Abhlingige Variable: AUTO
Wie die Veranderungen in r 2 zeigen (Abbildung 13), betragt das maximale Varianzautklarungspotenzial von Bildungsabschluss 0.175, das minimale Varianzautklarungspotenzial von Alter 0.118. Auch fUr die beiden anderenAnalyseblocke werden nur die Tabellen zur Modellzusammenfassung ausgegeben, da hier die Veranderungen in R-Quadrat dokumentiert werden. Die B- und Beta-Koeffizienten der Pradiktoren bleiben gleich. *Block 2: Maximales VAP von Geschlecht, minimales VAP von Bildung. REGRESSION /MISSING pairwise /STATISTICS COEFF OUTS R COLLIN TOL CHANGE /CRITERIA=PIN(.10) POUT(.15) /NOORIGIN /DEPENDE~T auto /METHOD= ·enter sex/ enter alter /enter bild bef /RESIDUALS DURBIN.
Abbildung 14: Block 2 -Minimales VAP von "bild_bef" Modellzusammenfassun'3
AnderunQsstatistiken
Modell
R R-Quadrat ,167a ,028 ,246 ,496 b c ,320 ,566
Korrigiertes R-Quadrat ,024 ,241 ,313
Standardf ehler des Sch~tzers
1,94083 1,71228 1,62911
Anderung in R-Quadrat ,028 ,218
Anderung in F 7,934
,074
a. EinfluBvariablen: (Konstante), SEX b. EinfluBvariablen: (Konstante), SEX, ALTER c. Einflul1variablen: (Konstante), SEX, ALTER, Bildungsabschluss Befragter (dich.) d. AbMngige Variable: AUTO
79,599 29,796
df1
df2 276 275 274
Anderung in Signifikanz von F ,005 ,000 ,000
Durbin-Wats on-Statistik
2,014
Kapitel 15: Multiple lineare Regressionsanalyse
367
*Block 3: Maximales VAP von Alter, minimales VAP von Geschlecht. REGRESSION /MISSING pairwise /STATISTICS COEFF OUTS R COLLIN TOL CHANGE /CRITERIA=PIN(.10) POUT(.15) /NOORIGIN /DEPENDENT auto /METHOD= enter alter/ enter bild bef /enter sex / RESIDUALS DURBIN.
Abbildung 15: Block 3 -Minimales VAP von "sex" Modellzusammenfassunrj
Anderunasstatistiken
Modell 1 2 3
R R-Quadrat ,234 ,4838 ,552 b ,305 c ,320 ,566
Korrigiertes R-Quadrat ,231 ,300 ,313
Standardf ehler des ScMtzers 1,72329 1,64404 1,62911
Anderung in R-Quadrat ,234 ,071 ,015
AnderunQ in F 84,146 28,249 6,064
df1
df2 276 275 274
Anderung in Signifikanz von F
Durbin-Wats on-Statistik
,DOD ,000 ,014
2,014
a. Einflur..variablen : (K.onstante), ALTER b. Einflur..variablen : (Konstante), ALTER, Bildungsabschluss Befragter (dich.) c. Einflur..variablen: (Konstante), ALTER, Bildungsabschluss Befragter (dich.), SEX d. AbMngige Variable: AUTO
Die Variable Geschlecht, bereinigt urn die EinflUsse des Alters und Bildungsabschlusses, erbringt nur noch einen sehr geringen Zuwachs an VarianzaufkUirung. Auch der Einfluss des Bildungsabschlusses ist nach der Bereinigung urn den Effekt des Alters nur noch gering. In Tabelle 3 werden die Informationen zur Bedeutung der einzelnen Pradiktoren abschlieBend zusammengefasst. Wie nicht anders zu erwarten war, besitzt die Variable Alter sowohl das groBte maximale wie auch das groBte minimale Varianzaufklarungspotenzial. Es wird deutlich, dass z. T. erhebliche Unterschiede zwischen den Beta-Koeffizienten und den Korrelationen nullter Ordnung bestehen, die von der Multikollinearitat der Pradiktoren verursacht werden. Die quadrierten semipartiellen Korrelationskoeffizienten sind identisch mit den durch schrittweises Vorgehen berechneten minimalen Varianzaufklarungspotenzialen.
368
Sabine Fromm
Tabelle 3: Korrelationen und Varianzaufklarungs-potenzial BetaKoeff.
Korr. nullter Ordnung
partielle Korr.
Alter
0,368
0,483
0,384
0,343
0,118
0,118
0,234
Bildungsabschluss
-0,290
-0,418
-0,313
-0,272
0,014
0,074
0,175
Geschlecht
0,134
0,167
0,.147
0,123
0,015
0,015
0,028
Prldiktor
Teilkorr.
quadrierte Teilkorr.
min.
max.
VAP
VAP
3.2.5 Speichem von Werten Durch Hinzufiigen des Unterbefehls ISAVE, der als letzter Unterbefehl stehen muss, lassen sich eine Vielzahl von in der Regressionsanalyse erzeugten Werten im Datensatz abspeichem. Neben den Schatzwerten fUr das Kriterium (Is AVE PRED) konnen insbesondere die Residuen (/SAVE RESID) von Interesse seine Wichtige Hinweise kann man auch aus der Inspektion von Distanzen (z. B. ISAVE MAHAL) gewinnen, die der Identifizierung von Fallen mit ungewohnlichen Wertekombinationen bei den Pradiktoren dienen. Hinweise auf ,,Ausreisser" in den Daten gibt auch die Option ISAVE DFBETA, mit der fUr jeden Fall berechnet wird, wie sich die Regressionskoeffizienten bei Ausschluss dieses Falles andem wtirden. AbschlieBend eine Auflistung der Messwerte von "auto" und der Schatzwerte fUr "auto" (pre_1) sowie die Residuen (res_1) fUr die ersten 20 Falle im Datensatz (die FaIle sind mit ihrer Identifikationsnummer, v005, gekennzeichnet): Syntax fUr den LI sT-Befehl: LIST VAR = v005 auto pre 1 res 1 leases = from 1 to 20.
Neben den Abweichungen zwischen Mess- und Schatzwerten ist in dieser Auflistung auch die Information erhalten, welche geschatzten Werte fUr "auto" sich bei den Befragten ergeben wiirden, die nicht aIle Items der Skala "auto" beantworteten und' deshalb bei "auto" als System Missing Values erscheinen. So wird die Auspragung von "auto" z. B. beim Befragten mit der IdentifIkationsnummer 610 auf 10.44 geschatzt.
369
Kapitel 15: Multiple lineare Regressionsanalyse
Abbildung 16: Messwerte, Schatzwerte und Residuen
voo'S
AUTO
PRE - 1
RES - 1
312 123 640 836 13 755 114 610 765 28 773 523 315 115 716 468 710 444 97 116
11,00 9,00 11,00 12,00 9,00 10,00 8,00
9,55763 7,92780 9,68775 10,48160 8,01580 11,01201 7,39739 10,43760 9,24533 7,44139
1,44237 1,07220 1,31225 1,51840 ,98420 -1,01201 , 60261
8,27736 9,55763 7,57338 10,83602 9,46963 10,88002 9,46963 9,25207 7,39739
-1,27736 -1,55763 -,57338 1,16398 ,53037 3,11998
10,00 10,00 14,00 7,00 8,00 7,00 12,00 10,00 14,00
8,00
Number of cases read:
20
,75467 2,55861
, 60261 Number of cases listed:
20
Literaturveneichnis Akremi, Leila / Ziegler, Markus (2007): Skalenkonstruktion nach Mokken fur mehrdimensionaleVariablenstrukturen. Ein Anwendungsbeispiel mit SPSS. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 14. Alemann, Heine von (1984): Der ForschungsprozeB. Eine Einfuhrung in die Praxis der empirischen Sozialforschung. 2., durchgesehene Auflage. Stuttgart: B. G. Teubner Angele, German (2007): SPSS 14 fur Windows. Eine Einfuhrung. Bamberg: Schriftenreihe des Rechenzentrums der Otto-Friedrich-Universitat Bamberg. http://www.uni-bamberg.de/service_ einrichtungen/urz/netze/spss/ Asher, Herbert B. (1983): Causal Modeling. Beverly Hills / London / New Delhi: Sage Publications Atteslander, Peter u. a. (2000): Methoden der empirischen Sozialforschung. Berlin: De Gruyter Backhaus, Klaus / Erichson, Bernd / Plinke, Wulff / Weiber, Rolf (Hg.) (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einfuhrung.. Berlin / Heidelberg / New York u. a.: Springer Baur, Nina (2003a): Takeoff der Auswertung. Zur Vorbereitung statistischer Analysen.. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 5 Baur, Nina (2003b): Wie kommt man von den Ergebnissen der Faktorenanalyse zu Dimensionsvariablen? Eine Einfuhrung in die Dimensionsbildung mit SPSS fur Windows. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 13 Baur, Nina / Lamnek, Siegfried (2007): Variables. In: Ritzer, George (Hg.): The Blackwell Encyclopedia of Sociology. Blackwell Publishing Ltd. S. 3120-3123 Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (2003a): Der Hund, der Eier legt. Erkennen von Fehlinformationen durch Querdenken. Reinbek: Rowohlt Beck-Bornholdt, Hans-Peter / Dubben, Hans-Hermann (2003b): Der Schein der Weisen. Irrtiimer und Fehlurteile im taglichen Denken. Reinbek: Rowohlt Behnke, Joachim / Behnke, Nathalie / Baur, Nina (2006): Empirische Methoden der Politikwissenschaft. Paderborn: Ferdinand Schoningh Behnke, Joachim / Behnke, Nathalie (2006): Grundlagen der statistischen Datenanalyse. Eine Einfuhrung fur Politikwissenschaftler. Wiesbaden: VS-Verlag Benninghaus, Hans (2005): Deskriptive Statistik. Eine Einfuhrung fur Sozialwissenschaftler. Wiesbaden: VS-Verlag Bleymiiller, Josef / Gehlert, Gunther / Giilicher, Herbert (1998): Statistik fur Wirtschaftswissenschaftler. 11. Auflage. Munchen: Verlag Franz Vahlen. S. 139-162 Bortz, Jurgen (2004): Statistik fur Human- und Sozialwissenschaftler. Berlin / Heidelberg: Springer Bortz, Jurgen / Doring, Nicola (2006): Forschungsmethoden und Evaluation fur Human- und Sozialwissenschaftler. Berlin / Heidelberg: Springer Brosius, Felix (2006): SPSS 14. Bonn: MITP-Verlag Brosius, Felix (2005): SPSS-Programmierung. Effizientes Datenmanagement und Automatisierung mit SPSS-Syntax. Bonn: MITP-Verlag Brosius, Felix / Brosius, Gerhard (1996): SPSS. Base System and Professional Statistics. Bonn u. a.: Thomson. 347-392 Brosius, Hans-Bernd / Koschel, Friederike (2001): Methoden der empirischen Kommunikationsforschung. Eine Einfuhrung. Wiesbaden: Westdeutscher Verlag Cabena, Peter / Hadjinian, Peter / Stadler, Rolf / Verhees, Jaap / Zanasi, Alessandro (1997): Discovering Data Mining. From Concept to Implementation. Upper Saddler River (NJ): Prentice Hall ClaujJ, Gunter / Ebner, Heinz (1982): Statistik. Fur Soziologen, Padagogen, Psychologen und Mediziner. Band 1: Grundlagen. 4. Auflage. Thun / Frankfurt am Main: Harri Deutsch Creswell, John W. (1998): Qualitative Inquiry and Research Design. Choosing Among Five Traditions. Thousand Oaks / London / New Delhi: Sage. Diekmann, Andreas (2007): Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen.
Literaturverzeichnis
371
Reinbek: Rowohlt Engel, Uwe (2002): Methoden der empirischen Sozialforschung in Forschung und Lehre. In: Soziologie. Forum der Deutschen Gesellschaft flir Soziologie. Heft 2 /2002. S. 78-89 Esser, Hartmut (1999): Soziologie. Allgemeine Grundlagen. Frankfurt a. M. / New York: Campus Esser, Hartmut (2002): Wo steht die Soziologie? In: Soziologie. Forum der Deutschen Gesellschaft fur Soziologie. Heft 4. S. 20-32 Ferstl, Otto K. / Sinz, Elmar 1. (2001): Grundlagen der Wirtschaftsinformatik. Band 1. 4., iiberarbeitete und erweiterte Auflage. Miinchen: Oldenbourg Flick, Uwe (2002): Qualitative Sozialforschung. Eine Einflihrung. 6., vollstandig iiberarbeitete und erweiterte Ausgabe. Reinbek: Rowohlt Flick, Uwe / Kardoff, Ernst von / Steinke, Ines (Hg.) (2000): Qualitative Sozialforschung. Ein Handbuch. Reinbek: Rowohlt Friede, Christian / Schirra-Weirich, Liane (1992): Standardsoftware - Statistische Datenanalyse SPSS/PC +. Eine strukturierte Einflihrung, Reinbek: Rowohlt Friedrichs, Jiirgen (2006): Methoden empirischer Sozialforschung, Wiesbaden: VS-Verlag Fromm, Sabine (2005): Binare logistische Regressionsanalyse. Eine Einflihrung flir Sozialwissenschaftler mit SPSS flir Windows. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 11. Fromm, Sabine (Hg.) (2008): Datenanalyse mit SPSS flir Fortgeschrittene: Multivariate Verfahren flir Querschnittsdaten. Wiesbaden VS-Verlag. 1m Erscheinen Gigerenzer, Gerd (1981): Messung und Modellbildung in der Psychologie. Miinchen / Basel: Ernst Reinhardt Verlag Gigerenzer, Gerd (1999): Uber den mechanischen Umgang mit statistischen Methoden. In: Roth, Erwin / Holling, Heinz (Hg.) (1999): Sozialwissenschaftliche Methoden. Lehr- und Handbuch flir Forschung und Praxis. 5.Auflage. Miinchen / Wien: R. Oldenbourg. S. 607-618 Gigerenzer, Gerd / Kruger, Lorenz / Beatty, John / Daston, Lorraine / Porter, Theodore / Swijtink, Zeno (1999): Das Reich des Zufalls. Wissen zwischen Wahrscheinlichkeiten, Haufigkeiten und Unscharfen. Heidelberg / Berlin: Spektrum Akademischer Verlag Hartung, Joachim / Elpelt, Barbel (2005): Multivariate Statistik. Lehr- und Handbuch der angewandten Statistik. Miinchen: Oldenbourg Hartung, Joachim / Elpelt, Barbel / Kosener, Karl-Heinz (2002): Statistik. Miinchen: Oldenbourg Jann, Ben (2002): Einflihrung in die Statistik. Miinchen / Wien: Oldenbourg Kaiser, H.F. (1974): An Index of Factorial Simplicity. In: Psychometrika. Band 39. S. 31-36 Kim, Jae-On / Mueller, Charles W. (1978): Factor Analysis. Statistical Methods and Practical Issues. Newbury Park / London / New Delhi: Sage Publications Knobloch, Bernd (2001): Der Data-Mining-Ansatz zur Analyse betriebswirtschaftlicher Daten. In: Informationssystemarchitekturen. Heft 8 (2001). S. 59-116. http:// www.seda.wiai.unibamberg.de/mitarbeiter/knobloch/publ/ KnobO 1a.pdf Knobloch, Bernd / Weidner, Jens (2000): Eine kritische Betrachtung von Data-Mining-Prozessen. Ablauf, Effizienz und Unterstiitzungsotentiale. In: Jung, R. / Winter, R. (Rg.) (2000): Date Warehousing 2000. Methoden, Anwendungen, Strategien. Heidelberg: Physica. S. 345-365. http://pda15.seda.sowi.uni-bamberg.de/ceus/papers/ [KnWeOO].pdf Kramer, Walter (2001): Statistik verstehen. Eine Gebrauchsanweisung. Miinchen / Ziirich: Piper Kromrey, Helmut (2006): Empirische Sozialforschung. Stuttgart: UTB Kusters, Ulrich (2001): Data Mining und Methoden: Einordnung und Uberblick. In: Hippner, H. / Kusters, U. / Meyer, M. / Wilde, K. D. (Hg.) (2001): Handbuch Data Mining im MarketingKnowledge Discovery in Marketing Databases. Wiesbaden: Vieweg Verlag, S. 95-130. http://www.ku..;.eichstaett.de/FakultaetenlWWFlLehrstuehlelWIlLehre/dm_v/Sections/content/ DM%203.pdf(20.1.2004) Lewis-Beck, MichaelS. (1980): Applied Regression. An Introduction. London / Beverly Hills: Sage Luck, Detlev (2003): Datenaufbereitung. Arbeitsschritte zwischen Erhebung und Auswertung quantitativer Daten. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 21
372
Literaturverzeichnis
Maier, Jurgen 1 Maier, Michaela 1 Rattinger, Hans (2000): Methoden der sozialwissenschaftlichen Datenanalyse. Arbeitsbuch mit Beispielen aus der Politischen Soziologie. Munchen 1 Wien: 01denbourg Mayer, Martin (2001): Data Mining mit genetischen Algorithmen. http://www.sagenhaftwasda nochrausgeht.de Mayntz, Renate 1 Holm, Kurt 1 Hubner, Peter (1978): Einflihrung in die Methoden der empirischen Soziologie. 5. Auflage. Opladen: Westdeutscher Verlag Meulemann, Heiner (2000): Quantitative Methoden. Von der standardisierten Befragung zur kausalen ErkHirung. In: Soziologische Revue. Sonderheft 5. S. 217-230 Potter, Ulrich 1 Rohwer, Gotz (2002): Methoden sozialwissenschaftlicher Datenkonstruktion. Weinheim 1 Munchen: Juventa Reynolds, H.T. (1989): Analysis of Nominal Data. Newbury Partk 1 London 1 New Delhi: Sage Roth, Erwin (Hg.) (1987): Sozialwissenschaftliche Methoden. Lehr- und Handbuch flir Forschung und Praxis. 2., unwesentlich veranderte Auflage. Munchen 1 Wien: R. Oldenbourg Schlittgen, Rainer (1990): Einflihrung in die Statistik. Analyse und Modellierung von Daten. Munchen 1 Wien (2. Auflage) Schnell, Rainer (1986): Missing-Data-Probleme in der empirischen Sozialforschung. InauguralDissertation zur Erlangung des akademischen Grades eines Doktors der Sozialwissenschaft an der Ruhr-Universitat Bochum - Abteilung Sozialwissenschaft. Schnell, Rainer (1997): Nonresponse in Bevolkerungsumfragen. AusmaB, Entwicklung und Ursachen. Opladen: Leske + Budrich Schnell, Rainer 1 Hill, Paul B. 1 Esser, Elke (2004): Methoden der empirischen Sozialforschung. Munchen: Oldenbourg Schulze, Gerhard (1997): Messung: Postulate und Forschungspraxis. Paper 10 zum HS "Daten und Theorie I". WS 2001/2002. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (1998a): Skalierungsverfahren in der Soziologie. Paper 12 zum HS ,,Daten und Theorie I". WS 1997/1998. Otto-Friedrich-Universitat-Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (1998b): Zur Kritik der klassischen Testtheorie. Paper 13 zum HS ,,Daten und Theorie I". WS 1997/1998. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (1998c): Multivariate Analyse nichtmonotoner Syndrome. Paper 5 zum HS "Daten und Theorie II". SS 1998. Otto-Friedrich-Universitat Bamberg Schulze, Gerhard (2000): Die Interpretation von Ordinalskalen. Paper 2 zum HS "Forschung und soziologische Theorie II". SS 2000. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (2001a): Naturwissenschaft und .Kulturwissenschaft. Paper 2 zum Hauptseminar "Soziologie der Forschung" an der Otto-Friedrich-Universitat Bamberg im Sommersemester 2001 Schulze, Gerhard (2001 b): 1st Wissensfortschritt in der Soziologie moglich? Paper 12 zum Hauptseminar "Wissenschaftstheorie flir Sozialwissenschaftler" an der Otto-Friedrich-Universitat Bamberg im Wintersemester 2000/2001 Schulze, Gerhard (2002a): Einfiihrung in die Methoden der empirischen Sozialforschung. Reihe: Bamberger Beitrage zur empirischen Sozialforschung. Band 1. Bamberg Schulze, Gerhard (2002b): Tatsachen und Reprasentation. Paper 9 zum HS "Daten und Theorie I". WS 2001/2002. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (2002c): Individuelle und kollektive Merkmale. Paper 11 zum HS ,,Daten und Theorie I". WS 2001/2002. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (2002d): Das Modell der klassischen Testtheorie in Grundziigen. Paper zum soziologischen Forschungspraktikum 2002/2003 an der Otto-Friedrich-Universitat Bamberg. Bamberg 2002 Schulze, Gerha~d (2002e): Soziologie der Stichprobenkonstitution. Paper zum soziologischen Forschungspraktikum 2002/2003 an der Otto-Friedrich-Universitat Bamberg. Bamberg 2002. Schulze, Gerhard (2002t): Kommensurabilitat. Paper 13 zum HS "Daten und Theorie I". WS
Literaturverzeichnis
373
2001/2002. Otto-Friedrich-Universitat Bamberg: Unveroffentlichtes Seminarpaper Schulze, Gerhard (2002g): Faktorenanalyse in Grundzugen. Paper zum soziologischen Forschungspraktikum 2002/2003 an der Otto-Friedrich-Universitat Bamberg. Bamberg 2002 Schulze, Gerhard (2002h): Regressionsanalyse im Uberblick. Paper zum soziologischen Forschungspraktikum 2002/2003 an der Otto-Friedrich-Universitat Bamberg. Bamberg 2002. Schulze, Gerhard (2002i): Missing Data. Paper zum soziologischen Forschungspraktikum 2002/2003 an der Otto-Friedrich-Universitat Bamberg. Bamberg 2002. Schulze, Gerhard (0.1.): Regressionsanalyse im Uberblick. Bamberg (unveroffentlichtes paper) Schur, Stephen G. (1994): The Database Factory. Active Database for Enterprise Computing. New York u. a.: John Wiley SPSS Inc. (2005): SPSS 14.0 Syntax Reference Guide for SPSS Base, SPSS Regression Models, SPSS Advanced Models Strauss, Anselm 1 Corbin, Juliet (1996): Grounded Theory. Grundlagen qualitativer Sozialforschung. Weinheim: Psychologie Verlags-Union Stuber, Ralph (2003): Data Preprocessing - Datenvorverabreitungsschritte des Prozessmodells. erstellt am 16.01.2003, DIKO-Projekt an der Universitat Oldenburg. http://www.dikoproject.de/dokumente/ausarbeitungen/stuber.pdf (20.1.2004) Thurstone, Luis Leon (1945): Multiple Factor Analysis. Chicago: University of Chicago Press Oberla, Karl (1977): Faktorenanalyse. Eine systematische EinfUhrung fUr Psychologen, Mediziner, Wirtschafts- und Sozialwissenschaftler. 2. Auflage. Berlin 1 Heidelberg: Springer-Verlag Vogel, Friedrich (1995): Parametrische und nichtparametrische (verteilungsfreie) Schatz- und Testverfahren. Studienskript, Bamberg Vogel, Friedrich (1997): Studienskript Parametrische und nichtparametrische (verteilungsfreie) Schiitz- und Testverfahren. Bamberg: Otto-Friedrich-Universitat Bamberg Vogel, Friedrich (1998): Messung von Zusammenhangen. Vorlesung im SS 98 an der OttoFriedrich-Universitat Bamberg Vogel, Friedrich (2000): Beschreibende und schlieBende Statistik. Formeln, Definitionen, Erlauterungen, Stichworter und Tabellen. 12., vollstandig uberarbeitete und erweiterte Auflage. Munchen: Oldenbourg. Watzinger, Daniela (Hg.) (2003): Mobilitat im stadtischen Raum. Dokumentation zum soziologischen Forschungspraktikum 20021 2003 an der Otto-Friedrich-Universitat Bamberg. Reihe: Bamberger Materialien zur empirischen Sozialforschung. Band 1. (in Vorbereitung) Weber Max (1921): Wirtschaft und Gesellschaft. Grundriss der verstehenden Soziologie. 5., revidierte Auflage (1980). Tubingen: J.C.B. Mohr Wellhofer, Peter R. (1997): Grundstudium Sozialwissenschaftliche Methoden und Arbeitsweisen. Eine EinfUhrung fUr Sozialwissenschaftler und Sozialarbeiter 1 -padagogen. 2., uberarbeitete und erweiterte Auflage. Stuttgart: Ferdinand Enke Verlag Wittenberg, Reinhard 1 Cramer, Hans (2003): Datenanalyse mit SPSS fUr Windows. Stuttgart: Lucius & Lucius Zofel, Peter (2002): SPSS- Syntax. Die ideale Erganzung fUr effizientes Arbeiten. Munchen: Pearson Studium
Stichwortveneichnis A a (Cronbach's) 319f, 340f, 352 a (Signifikanzniveau) 202, 27ff, 277, 292,
323ff, 355-361 1- a (Konfidenzniveau) 269ff
Ausfallprotokoll 27 Auspartialisieren 293,309£,325,351,361,365 Auspragungen zusammenfassen 94 AusreiBer 74, 76, 80, 99, 228f, 233 Ausschopfungsquote 269 Autokorrelation 349f,357
Abschlussbericht 15
B
absolute Haufigkeiten 74, 77, 202, 218-224, 241-255,277
~-Fehler
absolute Interpretierbarkeit 217,281
11, 119,202,270,272, 277f., 325,
355,361 ~
Access 34f, 39
1-
ADD FILES 53f.
Balkendiagramm 218-221,246
additive Kausalitat 291,300-302,351
Barchart 218-221,246
(Power) 269-271
Additive Multikausalitat 291,300-302,351
Bartlett-Test 325
Aggregatdaten 62-66,210-214,272
Bayes-Test 271f,277
AGGREGATE 66-71
bedingte relative Haufigkeiten 243,246,249,
Aggregatebene 53-72
251,255
ALLBUS 131, 143f, 181,211, 275f
Befragungsformen 24
Altemativhypothese 270f
Befragungsmodes 24
Amtliche Statistik 211 f
Bejahungswahrscheinlichkeit 316-320
Analyseebene 4, 15, 52f, 66f, 87
benutzerdefinierte fehlende Werte 21,47, 52, 93,
AND 89f
95, 101, 169f, 219, 323
Arithmetische Funktionen 88f
Beschreibende Statistik 11, 14,205,237,269£
Arithmetischer Operator 88 f
BestimmtheitsmaB 349, 357f., 366
arithmetisches Mittel 42,44, 46f, 68, 99f, 216,
Bilden neuer Variablen 45, 52
227-232,277,282,337,348 Array 151-205
Binare Variable 52, 70f, 78, 83, 284f, 349, 353, 371,391
dynamisches 157, 168
Binarisierung 93, 284ff
statisches 156
Bivariate Beziehung 239£,244,255, 257£, 270-
ASCII 24, 36, 39 AssoziationsmaB 9,48, 81, 117, 124,239,240275,282,288,292-311,316-320,325,342, 345-351, 359f Assoziationstabelle 241ff., 247ff., 259
273,281,286,291,296,299,304,307 Bivariate Statistik 5, 9, 11,291,293 Kreuztabelle 5, 73, 77-83, 95, 106, 108ff., 202,239-290,296,299 Boolesche Operatoren 91
Asymmetrische MaBe 256
Boxplot 228, 230, 235
asymmetrischer Zusammenhang 256
Bundesanzeiger 213
Atlas/ti 210
Bundeszentralregister 213
Stichwortverzeichnis
c C (Kontingenzkoeffizient nach Pearson) 257-261 C (Unsicherheitskoeffizient) 258, 265 Call-Center 25
Daten-Editor 29,41,52 Dateneingabe 8, 18-52, 81, 85£ Datenerfassung 8, 18-52, 81, 85£ Datenerhebung 4, 13, 18-52, 88, 101,210,233, 275,279-282,287,294,306,352
CAPI-Umfrage 24ft:
Datenfenster 23£,29,37-41,52£, 74, 79ft:
CAQDAS 210 CATI-Umfrage 24ft:, 76 CESSDA 211
Datenformatierung 45,49,61 Datensatze 210 Aggregatdaten 210,213£,272
Chi-Quadrat 257-267
ALLBUS 131,143£,181,211,275£
Clementine 209
Bundeszentralregister 213
Clustan 209 Clusteranalyse 209,283£ Codeplan 18-23, 29-34, 39£, 45 Comext 212 COMPUTE 60,63,69£, 78, 88, 96, 97-109, 130-141,338,342,358 Computergestiitzte Befragung 24ft:, 76 COpy 93 CORRELATIONS 134,202, 278, 292£, 299, 311,339,342,354,363 COUNT 88, 100ft:, 141,245-258,276£ Cramer's V 257-260, 268, 273£ Cronbach's a 319£,340£,352 Cronbach's Alpha 319£,340£,352 CROSSTABS 48, 77-81, 134,202,239-290, 292£,296,298,303,307
D Data Entry 24, 34, 39, 209 DATA LIST 37, 85 Data Mining 27,86£, 208f., 214, 370ft: Datenansicht 29, 32, 49, 120 Datenaufbereitung 9, 13, 18-52; 53-72; 73-87; 88-111;216,222,237,371,391 Datenauswahl 13, 15,54,59,61,210£,228,241, 257,269,272,306,315,325,346-349 Datenbereinigung 9, 18-52; 53-72; 73-87, 88, 216,222,237,367
375
Comext 212 DISI 211 DJI Familiensurvey 211 ESS (European Social Survey) 212 Eurobarometer 211 Europroms 212 EVS (European Values Study) 211 Genesis Online 211 Genossenschaftsregister 213 Geographische Daten 214 Gewerbezentralregister 213 GLHS (German Life Histol)' Study) 212 GML (German Microdata Lab) 211 Handelsregister 213 IAB-Bescha.ftigtenstichprobe 211 Inkar 214 ISSP 211
KfW-Griindungsmonitor 213 KfW-Mittelstandspanel 213 LA (Leseranalyse) 212
LES (Luxembourg Employment Study) 213 LIS (Luxembourg Income Study) 213 LWS (Luxembourg Wealth Study) 213 MA (Media-Analyse) 212 Mikrodaten 212 Mikrozensus 211 New Cronos 212 Partnerschaftsregister 213
376
Stichwortverzeichnis
PISA 212
Dummy-Variable bilden 93
Politbarometer 211
Durbin-Watson-Koeffizient 350,357
SOEP (Sozio-oekonomisches Panel) 53-64,212
Durchschnitt
Statistik Regional 211
dynamisches Array 157, 168
-+ artithmetisches Mittel
TIMSS 212
E
Untemehmensregister 213 Verfahrensregister 213
Eigenwert 323, 331fE, 362
World Development Indicators 213
Eindimensionale Haufigkeitsverteilung 216£
Datenselektion 52, 130, 137 Syntax-Befehl 48,60£, 135-138,295 Datumsfunktionen 88£
Einfachstruktur 327,329,333 Eingabemaske 24,29,34,35 Einscannen von Fragebogen 24,39,81,86
Debug.Print 147, 149, 154£, 159, 161fE, 181
einseitiger Zusammenhang 256
Debuggen 147, 149, 154£, 159fE, 168, 181
ELSE 93
Deduktives Vorgehen 306
Empirische Statistik 14
Deskriptive Statistik 11, 14,205,237,269£
Entropie 143-145,218,265,283
Diagrammvorlage 119
EQ 88fE,102
Dialogbox 164, 168, 170-178, 188, 190£
Ereignisanalyse 209
Dialog-Editor 164, 172£
Erklarte Varianz 331, 335
Dialogfunktion 164, 168, 171, 173-177, 190
Erwartungswert 243£,253
Dichotomisieren 93
ESS 212
Dim 152£, 156-163, 169fE, 181fE, 185, 187£
Eurobarometer 211
Dimension 9, 88, 139, 156£, 180, 193, 197£,
European Social Survey 212
201, 204, 283f, 292, 314-344,358-362, 370
European Values Study 211
Dimensionsanalyse 15,20, 142,209,283£,314-344
Europroms 212
DISI 211
EVS 211
disjunkt 104, 108, 110
E~~
Diskriminanzanalyse 284
Excel 35, 116, 119£, 128, 143,272
Disposition 88, 139, 156£, 180, 193, 197£,201,
EXECUTE 38,48-63,65,69, 71£, 78, 92, 99,
204,284,292,314-344,358-362
134,229,230
100,134,137-141,222,295,323
Dn Familiensurvey 211
Extraktion 323-327, 330-332, 343
Drittvariable 5,9,240£,291-314
Extremwerte 74, 76, 80, 99, 228,229, 233
Drittvariablenkontrolle 291-314,350 Gemeinsame Ursache 291,293, 311 Interaktionsmodell 174, 291, 293, 300-302, 304, 309, 311f. Interventionsmodell 291,293,302,311 Multikausalitat 291,300,302,351 Dummy-Variable 52, 70, 71, 78, 83,284£,349, 353,371,391
F FACTOR 316, 323, 334, 343 Factor Score 323,324,337,338,341,342 Faktor 39, 325-327, 330-346, 352 Faktorenanalyse 5, 9, 19,43, 135fE, 314-344 Faktorenextraktion 323-332, 343 Faktorenrotation 323-335, 343
Stichwortverzeichnis
377
Faktorladung 323,327-338,343
F-Test 354
FaIle hinzufugen 53f.
Fundorte fur Datensatze 210
FaIle sortieren 55, 61fI, 67, 70£, 141,293,311
Funktion 68ff, 88-90, 96-100, 128, 142-207
Falschung von Interviews 81, 83
Private 175
Familiensurvey 211
fur fehlende Werte 88f.
fehlende Werte 45, 106, 168, 338
G
benutzerdefiniert 21,47, 52, 93, 95, 101, 169f.,219,323 Funktionen fur 88, 89 Syntax-Befehl 21,45, 47f., 78, 93, 103,
Gamma 258, 266f. GE 88-90, 102 Gemeinsame Ursache 291,293,311
113f.,194,218,223,229,245,258,295,
Generalisierung 15, 240f., 269f., 320
323,334,342,354,363-367
Genesis Online 211
systemdefiniert 21, 94, 194, 219
Genossenschaftsregister 213
Fehlerdiagnose 79
Geographische Daten 209, 214
Fehlerkorrektur 52, 79, 81, 86
Geoinformationssystem 209
Fehlersuche 73,79,85,216,222
German Life History Study 212
Fehlertypen 80
German Microdata Lab 211
FILTERBY 79
GET FILE 60ff
Filtem 52, 73, 78, 80
Gewerbezentralregister 213
Syntax-Befehl 79 Fisher-Test 270-272 Folgemde Statistik 15
Gewichtung 68,222,225,230,241,247,274, 285f.,351,358 GIS 209,214
FOFUVU\TS 32,61,111, 113f.
GLHS 212
Forschungsdesign 13, 82
GML 211
Forschungsphase 13, 82
Goodman and Kruskal's Gamma 258, 266f.
Abschlussbericht 4, 9, 15, 112, 119, 122-125, 208,225,275 Datenaufbereitung 13, 18-52; 53-72; 73-87; 88-111, 371, 391 Datenauswahl 13, 15,54,59,61, 210f., 228, 241,257,269,272,306,315,325,346-349
Goodman and Kruskal's tau 258-265 Grafik Barchart 218-221,246 bearbeiten 118 Boxplot 228, 230, 235 erzeugen 117, 119
Datenerfassung 8, 18-52, 81, 85f.
gestalten 4, 112
Datenerhebung 4, 13, 18-39, 75f., 79-88, 101,
Histogramm 228, 230, 234, 362
210,233,275,279-282,287,294,306,352
in Excel exportieren 116, 119
Fragebogen 4,18-39,75-88,101,210,233,275,
in Word exportieren 116, 119
279, 280ff., 287, 294, 352 FREQUENCIES 22, 23, 45, 48f., 74, 78ff, 86, 92f.,95f., 101, 103, 109f., 113, 134ff, 141, 165, 197, 218f.,223f., 229ff, 237, 295
Piechart 218,219,221 prasentieren 126 Stangel-Blatt-Diagramm 228, 230, 236 groBter Wert 223-225, 227, 229
378
Stichwortverzeichnis
Grundgesamtheit 15, 85, 240,f, 269, 272, 307, 325,346
IF 91, 102, 104, 108f, 136tI, 160 Index 120,156,173, 181tI, 185, 189, 196, 198,
GT 88-90, 102
202,344,371
Guttman's Lambda 258-265,304f
H
Indifferenzmatrix 244, 254f, 257, 265 Indifferenztabelle 244,254-257,265 Indikatoren 59,60, 73, 78, 80,210-214,341
Handelsregister 213
Individualdaten 53, 62, 64ff., 271f
Haufigkeiten
Individualebene 63-72
absolute 74, 77,202, 218tI, 241tI, 277
Indizes 52, 156, 179, 198,204
bedingte relative 243-255
Induktive Statistik 11, 15,207,241,245,269,
relative 114, 144, 150-155, 195-199,219225, 242-255, 277 Haufigkeitstabelle 13, 22f, 43, 47tI, 73-80, 85, 93, 96ff, 107, 112tI, 131-136, 144,217-232, 240-247,276;287,295, 363 Syntax-Befehl 22f, 45, 48f, 74, 78, 80, 86,
271,277,354,373 Schatzen (Konfidenzintervall) 269tI, 349ff Testen (Bayes-Test) 271f, 277 Testen (Fisher-Test) 270-272 Testen (Neyman-Pearson-Test) 270f. Induktives Vorgehen 306
92f, 95f, 101tI, 109f, 113, 134tI, 141,
Inferenzstatistik 15, 241
165, 197, 218f, 223f, 229tI, 237, 295
Inkar 214
Haufigkeitsverteilung 13, 22f, 43, 47-49, 73-77,
Intelligent Miner 209
80, 85, 93, 96f, 99, 107, 112, 114, 131-36,
Interaktionsmodell 174,291-312
144,217-247,276,287,295,363
Interpretation
eindimensionale 216f zweidimensionale 244 Hauptkomponente 39, 325-346, 352 Hauptkomponentenanalyse 323tI, 330tI Hauptkomponentenmethode (HKM) 323, 325, 330,332
soziologische 15 statistische 15 Interpretierbarkeit absolute 217, 281 relationale 217,224, 250f, 281 Intervallskala 46, 76, 216, 227ff., 239, 258, 279,
Haushaltsdaten 62-66
279-290, 349
Haushaltsebene 53, 56,65, 67, 72
Interventionsmodell 291f, 302, 311
Herauspartialisieren 293, 309f, 325, 351, 361, 365
Interviewfalschungen entdecken 81f.
Heteroskedastizitat 350
ISSP 211
HI 92 HIGH 92 Hilfeoptionen in SPSS 11, 120, 121, 373 Histogramm 228, 230, 234, 362 Homoskedastizitat 350
I IAB-Beschaftigtenstichprobe 211
Item-Charakteristik 316 Item-Item-Korrelation 315, 324, 334 Itemselektion 316, 319 Item-Total-Korrelation 319 Item-Traceline 316-320 Iteration 324, 343
379
Stichwortverzeichnis
L
K Kaiser-Meyer-Olkin-Test 325
LA 212
Kategorien Zllsammenfassen 94
LagemaB 218-231
Kausalmodell 291-293,300-306,312 Kendall's tau 258,266 KfW-Grundungsmonitor 213 KfW-Mittelstandspanel 213
arithmetisches Mittel 42,44-47,68, 99f., 216, 227-232,277,282,337,348 Median 134,223-231,277,286 Modus 43,134,218-231,263,277
klassische Umfrage 24
Lambda 258-265, 304, 305
kleinster Wert 223f.,229-231
LE 88-90, 102
KMO 323,325,334,343
LES 213
Kollinearitat 351, 355, 359-367
Leseranalyse 212
Kollinearitatsanalyse 354
Lexiquest 209
Kommunalitat 329-330, 333
Likert-Skalierung 316-322
Konfidenzintervall 269,271, 349f., 360
LIS 213
Konfidenzniveau 269,271
Lisrel 209
Konstante 96, 154, 170, 354
LIST 40
Kontingenzanalyse 5, 239, 240
ListBox 165, 172-177, 184-191
KontingenzkoefflZient 257-261
LO 92
Konzeptspezifikation 13
Logische Funktionen 88f.
Korrelationskoeffizient 258,282,288,309-311,
Logische Operatoren 89f.
315,319,325£,351,356,359,361
Logistische Regressionsanalyse 284,371,391'
partieller 293, 309f., 325, 351, 361, 365
LOW 92
Korrelationsmatrix 282, 323ff, 332, 339, 342f., 351,355
LT 88-90, 102 Luxembourg Employment Study 213
Kovarianz 340, 348
Luxembourg Income Study 213
Kreisdiagramm 218-223
Luxembourg Wealth Study 213
Kreuztabelle 5, 73, 77-95, 106-110,202,239-
LWS 213
290,296,299
M
mit absoluten Haufigkeiten 74, 77,202,218224,241-255,277 mit bedingten relativen Haufigkeiten 243, 246,249,251,255 mit relativen Haufigkeiten 114, 144, 150155, 195-199, 219f.,225, 242,246, 248, 255,277 Syntax-Befehl 48, 77f., 80f., 134, 202, 245278,292-298,303,307 Krrterium 70, 331, 346, 348ff., 355-359, 368
MA 212 Maps 210 Marketing Automation 209 Markierungsitems 327, 333, 336 MaBzahl 15,42,45,114,134,142, 165, 210f., 230, 237, 239f.,255ff, 269ff, 356 MATCH FILES 55-72 Matchen 52, 55-72, 80 Mathematische Statistik 15
Stichwortverzeichnis
380
Maximum 36, 218f, 223-232
New Cronos 212
MAXqda 210
Neyman-Pearson-Test 270f
Media-Analyse 212
nicht-disjunkt 104f., 108, 110
Median 134, 223-231, 277, 286
Nominalskala 19,46, 142f., 156,201,217-227,
Mehrebenenanalyse 4, 15, 52f, 66f, 87 Messagebox (Msg Box) 170f Messvorschrift 316, 320
239,255-258,266-273,279,284,289,294, 296,303 Normalverteilung 216,346,350,354,363
Methode der kleinsten Quadrate 347
normierte Transinformation 258,265
metrische Variable 19,46, 76, 216, 227ff., 239,
NOT 89f.
258,279-290,294,299,309,311,349
Nullhypothese 270ff., 325
Microsoft-Produkte
o
Access 34f,39 Excel 35, 116, 119f, 128, 143,272
Odds-Ratio 257
PowerPoint 123, 128f
Online-Befragung 24f.,209
Word fur Windows 116, 119, 128, 143
Operator 68ft, 88ft, 96f., 100, 102, 128, 145,
Mikrodaten 212
158,160,180,192,201,204
Mikrozensus 211
Optimal Matching Analyse 209
Mindestskalenniveau 279
Optimize 209
Minimum 218f, 223-232
Option Explicit 168
MISSING VALUES 21,45, 47f, 52, 78, 93, 95,
OR 89,90
101ff., 113f., 169f., 194, 218f, 223, 229, 245, 258,295,323,334,342,354,363-367 Mittelwert
-+ artithmetisches Mittel
Mode 24
Ordinalskala 19f., 46, 217, 222-227, 255f., 266ft, 279-290, 293f., 298, 299, 307, 352 Ordinalskalenproblem 5, 9, 279-290, 294 Orthogonalitat 324, 329
Modell additiver Multikausalitat 291, 300f., 351
p
Modell der gemeinsamen Ursache 291ft, 311 Modus 43,134,218-231,263,277
Paper & Pencil-Umfrage 18,23-29,82
Mokken-Skalierung 20, 142,209, 283f
PARTIAL CORR 134,278,293, 309f
MsgBox 170f.
Partieller Korrelationskoeffizient 293, 309,310,
Multikausalitat 291,300, 302, 351
325,351,361,365
Multikollinearitat 351,355,359-367
Partnerschaftsregister 213
Multiple lineare Regressionsanalyse 5,43, 312,
PCA (Principal Component Analysis) 323,325, 330,332
345f., 350-355 multipler Korrelationskoeffizient 356 Multivariate Statistik 11f., 19ft, 43, 284, 371
N
Pearson's r 258,282,288,309-311,315,319, 325f,351,356,359,361 Personenbezogene Daten 53, 62, 64ff., 271f. Perzentil 94, 223, 226, 232
NE 88ft, 102
Phi 257-260, 268
Netzwerkanalyse 15,209
Piechart 218-221
Stichwortverzeichnis
PISA 212
381
Regressionsanalyse
Pivottabelle 200-205
Einfache lineare 9, 12,239,285, 352£, 365,
Pivot-Tabelle 116, 180, 272 Politbarometer 211
368,373 Multiple lineare 5, 43, 312, 345-369
Povver 11,119,270,277£
schrittvveise Aufuahme von Variablen 353,355 Regressionsebene 350
PovverPoint 123, 128£ Pradiktor 346-368
Regressionsgerade 258, 346ff., 350
Prasentation 4, 9, 15, 112, 119, 122-125,208,
Regressionskoeffizient 346, 349, 351, 358£
225,275
Regressionskonstante 346, 358
Prasentationsregeln 123
Regressionsschatzung 347,351
PRE-MaBe 257£, 261f.
Rekodieren 52, 95, 96
Pretest 18
Syntax-Befehl 20, 78, 81-83, 88, 92-95, 99£,
Private Function 175
106,295,323
Prozessblock 148,158£,168-178, 188, 191
relationale Datenbanken 209
Public 158, 168
relationale Interpretierbarkeit 217, 224, 250t: 281
Q
relative Haufigkeiten 114, 144, 150-155, 195£, 199, 219£, 225, 242, 246ff., 255, 277
QDA-Sofuvare 210
Reliabilitat 315
Qualitative Datenanalyse
Reliabilitatsanalyse 315
Sofuvare 210
Residuum 244,246,254£, 347-369
Quantil 223,226,230£
Rohdatensatt 41£,45
Quartil 94,223,228
Rotation 323-335, 343
Quartilsabstand 223, 226
R-Quadrat 349,357£,366
s
R R 208
SAS 208£, 284
r (Korrelationskoeffizient nach Pearson) 258,
Scannen von Fragebogen 24, 39, 81, 86
282,288,309-311,315,319,325£,351,356,
Schatten 269-271,349£,360
359,361
Schatzgleichung 345, 347, 350, 353, 358
Randverteilung 243, 257
Schattvvert 347£,358,368£
Ratioskala 19, 227
Schiefe 86,216-232,288,304
Raumbezogene Daten 209, 214
schiefwinklige Rotation 329
Reaktivitat 23,81,85
SchlieBende Statistik 11, 15,207,245, 269,271,
Reanalyse 24,27,39,53,208,210£
277,354,373
RECODE 20, 78, 8UI, 88, 92ff, 99£, 106,295,323
Schatten (Konfidenzintervall) 269, 271,
ReDim 157, 172, 183-197 Referenzkategorie 285
349£,360 Testen (Bayes-Test) 271£, 277 Testen (Fisher-Test) 270ff. Testen (Neyman-Pearson-Test) 270ff.
Stichwortverzeichnis
382
Schlusselvariable 55f, 60-67, 72
Stam 208,222,284
schrittweise multiple lineare Regressionsanalyse
statisches Array 156
353,355
Statistik Regional 211
Screeplot 333f
Statistische Funktionen 88f
Sekundaranalyse 24,27, 39, 53, 208, 210f
Smtistische Inferenz 15
SELECT IF 48, 60f., 135-138,295
statistische Interpremtion 15
semipartielle Korrelation 351,359,365
Statistische MaBzahl 15,42,45, 114, 134, 142,
Sequenzanalyse 209
165, 210£,230, 237, 239f, 255-258, 269-
SET 37
272,356
Sicherheitsbereich 269,271, 349f, 360
Statistische Unabhangigkeit 244, 254ff., 265
Sicherheitsgrad 269
Statistischer Zusammenhang 239f, 244, 255,
Signifikanmiveau 202, 270-272, 277, 292, 323-
257f, 270-286, 291, 296, 299, 304,307 Statistisches Bundesamt 211f
325,355,359,361 Skalenniveau 19,45,46,217,223-227,239-
Stem-and-Leaf-Diagramm 228
290,312,317,349
Steuerdatei 24,36,39,81, 85
Binare Variable 52, 70f, 78,83, 284f, 349,
Stichprobe 13, 15,54,59,61,210,211,228,
353,371,391
241,257,269,272,306,315,325,346-349
~
Intervallskala
Intervallskala
Mindestskalenniveau 279 ~
Nominalskala Ordinalskala
~
Storvariable 346, 347 Streuung, erklarte 331,335
Nominalskala
Ordinalskala
Ratioskala 19,227
StreuungsmaB 142,143,218,223,227 Maximum 223 Minimum 223
Syntax-Befehl .45f, 61
Perzentil 94, 223, 226, 232
Skalenproblem 5, 9, 279-290
Quantil 223,226, 230f
Skript 142-207
Quartil 94,223,228
Skripteditor 145f, 153,205
Quartilsabstand 223, 226
SOEP 53-56, 59f, 64, 212
Standardabweichung ~
SORTCASES 55, 61f, 67, 70f, 141,293,311 Sortieren 55,61-63,67, 70f., 141,293, 311 Soziologische Theorie 15, 292ff, 300, 306f ~
~
Varianz
Strukturelle Netzwerkanalyse 15,209
soziologische Interpretation 15 Sozio-oekonomisches Panel
Standardabweichung Varianz
SOEP
Strukturgleichungsmodelle 209 Sub Main 146-182
Spaltenzahl 257
Subroutine (Sub) 147-195
Spannweite 227-232, 285
Summenscore 139f, 338, 341-343
Splitten 52
Symmetrische MaBe 256
SPSS Maps 210·
symmetrischer Zusammenhang 256
SPSS-Datenfen~er
23£,29, 37-41, 52£, 74, 79ff.
Standardabweichung 68£, 135,227-232,277,359 Stangel-Blatt-Diagramm 228, 230, 236
Stichwortverzeichnis
Syntax-Befehle Analyseebene wechseln 66-71 BefehlausfiUrren 38,48,54,56,58,60-78,92, 99,100,134,137-141,222,295,323 Datensatz holen 60-62 FaIle auswahlen 48,60£, 79, 135-138,295 FaIle hinzufiigen 53£ FaIle sortieren ~ Sortieren fehlende Werte ~ MISSING VALVES Filtem 79 Haufigkeitstabelle ~ Haufigkeitstabelle Kreuztabelle ~ Kreuztabelle Rekodieren ~ Rekodieren Skalenniveau festlegen 45£, 61 Typenvariable bilden 102-104 Variablen berechnen 60- 70, 78, 88, 96-102, 105£,109,130-141,338,342,358 Variablen hinzufiigen 55-Ti Variablennamen vergeben 45,48,50,61, 93, 113£,134,295 Werte auflisten 40 Wertenamen vergeben 45,48, 52, 93, 103111, 113£, 134,295 Zahl der Nachkommastellen festlegen 32, 61, 111,113£ system missing values 21, 94, 194,219 systemdefinierte fehlende Werte 21, 94, 194, 219
T Tabelle bearbeiten 114 erzeugen 112 in Excel exportieren 116, 119 in Word exportieren 116, 119 prasentieren 126 Tabelle gestalten 4, 112 Tabellenvorlage 115, 116 tatsachlicher Wert 253 tau (Goodman and Kruskal's) 258-265
383
tau (Kendall's) 258, 266 IDA 209
Telefonumfrage 24-26, 76 Teleform 24, 39 Testen ~ SchlieBende Statistik Testtheorie 269 Testvariable 302, 304, 307 Text Mining 209 Textfunktionen 88£ Theorie 15,292,294,300,306£ TIMSS 212 Tippfehler 38, 81, 85, 162, 168 Toleranz 351,360£ Traceline 316-320 T~fonnation 52,95,106,217,328,352,363,391 Transformationsbefehl 88-92, 111 Transinformation, normierte 258, 265 Trennscharfekoeffizient 319, 340 t-Test / t-Wert 359 Typenvariable bilden 102-104
u Ucinet 209 Unabhangigkeit(stabelle) 244,254-257,265 Unipark 209 Univariate Statistik 5, 76,216-238; 339 Diagrammtypen 218-221,246 Grafik 218-236,246,362 Haufigkeitstabelle ~ Haufigkeitstabelle Haufigkeitsverteilung ~ Haufigkeitstabelle LagemaB 218-231 Schiefe 86, 216-232, 288, 304 StreuungsmaB 142£,218,223,227 Unsicherheitskoeffizient 258, 265 Untemehmensregister 213 user missing values 21,47,52, 93, 95, 101, 169£,219,323
Stichwortverzeichnis
384
v VALUE LABELS 45,48,52,93,103,107,109114,134,295 VARIABLE LABELS 45,48,50,61,93, 113f., 134,295 VARIABLE LEVEL 45£, 61 Variablen hinzufugen 55-58, 62-65, 71£ Variablenansicht 29-33, 50-52, 111£, 181 Variablenfunktionen 88£ Variablenname 21, 29~37, 45-52,68, 104, 120,
Wert groBter vorkommender 223-229 kleinster vorkommender 223-231 Wertebereiche zusammenfassen 94 Wertenamen 45,218,219 Syntax-Befehl 45,48,52, 93, 103, 107-111, 113£,134,295 ,WinCati 209 Word fur Windows 116, 119, 128, 143 World Development Indicators 213
z
131ff, 146-158, 172-194,204,275,353 Syntax-Befehl 45,48,50,61,93,113£,134,295 Variance Inflation Factor 360 Varianz 135,227-232,277,282, 326-337, 348, 351,357,362,365
ZA 211 Zeilenzahl 257 Zeitfunktionen 88£ Zentrales Staatsanwaltschaftliches
erklarte 331, 335 Varianzanalyse 284,354,357
Varianzanteil 327£, 332£, 357ff, 362 Varianzautklarungspotenzial 329ff,351-367 Varimax 324 Verallgemeinerung 15,240£,269£,320 Verdichtung von Daten 42, 88, 240, 255, 332 Verfahrensregister 213 Vergleichsoperator 88-90, 102 Verteilungsfunktionen 88£ VIF 360
Verfahrensregister 213 z-Transformation 52, 363 Zufallsstichprobe 13, 15,54,59,61,210£,228, 241,257, 269ff, 306, 315,325,346-349 Zufallszahlenfunktionen 88,89 Zusammenfassen von Variablen 52 Zusammenhang 239£,244,255,257£,270-273, 281,286,291,296,299,304,307 asymmetrisch 256 einseitig 256 symmetrisch 256
Voruntersuchung 18
wechselseitig 256
w Wahrheitstafel 90 Webmining 209 wechselseitiger Zusammenhang 256 WEIGHT 222,274
.
ZusammenhangsmaB 239-273,281,286,291, 296,299,304,307 asymmetrisch 256 symmetrisch 256 Zweidimensionale Haufigkeitsverteilung 244
Autoren Leila Akremi, Dipl.-Soz., ist wissenschaftliche Mitarbeiterin am Institut flir Soziologie an der Technischen Universitat Berlin. Forschungsschwerpunkte: Quantitative und qualitative Methoden der empirischen Sozialforschung, Evaluationsforschung, Messtheorie, Skalierungsverfahren. Ausgewahlte Publikationen: ,,Korrespondenzanalyse", Bamberger Beitrage fur empirische Sozialforschung (in Vorbereitung flir 2008); "Skalenkonstruktion nach Mokken fur mehrdimensionaleVariablenstmkturen. Ein Anwendungsbeispiel mit SPSS", Bamberger Beitrage flir empirische Sozialforschung 14 (2007, mit Markus Ziegler). Kontaktadresse: Technische Universitat Berlin. Fakultat VI: Planen - Bauen - Umwelt • Institut flir Soziologie • Fachgruppe Methodenlehre. Franklinstr. 28/29 • 10587 Berlin. Email:
[email protected] • pttp:llwww.tu-berlin.de/----soziologie/methoden/
Nina Baur, Dr. rer. pol., ist Junior-Professorin flir Methoden soziologischer Forschung am Institut flir Soziologie an der Technischen Universitat Berlin. Forschungsschwerpunkte: Quantitative, qualitative und historische Methoden; Zeitsoziologie, Sozialstrukturanalyse (insbesondere Verhaltnis von Geschlechterbeziehungen, Arbeitsmarkt und Sozialstaat), Wirtschaftssoziologie (insbesondere Markte). Ausgewahlte
Pu~likationen:
,,Multivariate Analysis", in: George Ritzer (Hg.): The Blackwell Ency-
clopedia of Sociology, Oxford: Blackwell Publishing Ltd. (mit Siegfried Lamnek; 2007); ,,Empirische Methoden der Politikwissenschaft", Paderbom: Schoningh (mit Joachim und Nathalie Behnke; 2006); "Verlaufsmusteranalyse. Methodologische Konsequenzen der Zeitlichkeit sozialen
Handelns~',
Wies-
baden: VS-Verlag, ausgezeichnet mit dem Dissertationspreis der Deutschen Gesellschaft flir Soziologie und dem E.ON Kulturpreis Bayem (2005); ,,Einzelfallanalyse", in: Lothar Mikos 1 Claudia Wegener (Hg.): Qualitative Medienforschung, Konstanz: UVK (mit Siegfried Lamnek; 2005). Kontaktadresse: Technische Universitat Berlin. Fakultat VI: Planen - Bauen - Umwelt • Institut flir Soziologie • Fachgruppe Methodenlehre • Franklinstr. 28/29 • 10587 Berlin. Email:
[email protected] • http://www.tu-berlin.de/----soziologie/methoden/
Jan D. Engelhardt ist als selbstandiger IT-Berater tatig. Kontaktadresse: Kantstr. 33 .96052 Bamberg. E-Mail:
[email protected] • www.engel-hardt.de
Sabine Fromm, Dr. rer. pol., ist wissenschaftliche Mitarbeiterin am Institut flir Arbeitsmarkt- und Berufsforschung Niimberg.
386
Autoren
Forschungsschwerpunkte: Internationale Arbeitsmarktforschung, Methoden der empirischen Sozialforschung, Wirtschaftssoziologie, vergleichende Wohlfahrtsstaatforschung.
Ausgewiihlte Publikationen: ,,Institutioneller Wandel als Hybridisierung. Die Entwicklung der globalen Borsenindustrie und der Konflikt urn die Deutsche Borse AG", in: Berliner Journal fur Soziologie (mit Hans-Jiirgen Aretz; 2006); ,,Binare logistische Regressionsanalyse. Eine Einfuhrung fur Sozialwissenschaftler mit SPSS fur Windows", Bamberger Beitrage fur empirische Sozialforschung 11 (2006); "Formierung und Fluktuation. Die Transformation der kapitalistischen Verwertungslogik in Fordismus und Postfordismus", Berlin: Wissenschaftlicher Verlag Berlin (2004).
Kontaktadresse: Institut fur Arbeitsmarkt- und Berufsforschung • Regensburger StraBe 104 • 90478 Niirnberg • Email:
[email protected] • http://www.iab.de
Detlev Luck, Dipl.-Soz., ist wissenschaftlicher Mitarbeiter am Institut fUr Soziologje an der Universitat Mainz. Forschungsschwerpunkte: Mobilitat, Werte und Einstellungen, Familie, Gender, soziale Ungleichheit, international vergleichende Sozialforschung
Ausgewiihlte Publikationen: "Cross-National Comparison of Gender Role Attitudes and their Impact on Women's Life Courses", in: Hans-Peter Blossfeld / Heather Hofineister Hofineister (Hg.): Globalization, Uncertainty and Women's Careers, Cheltenham / Northampton: Edward Elgar (2006); ,,Angleichung nationaler Einstellungsmuster in Richtung eines liberaleren Rollenmodells?", in: lSI Nr. 32 (mit Dirk Hofiicker, 2004); ,,Datenaufbereitung. Arbeitsschritte zwischen Erhebung und Auswertung quantitativer Daten", Bamberger Beitrage fur empirische Sozialforschung 21 (2003); ,,Lebensstile im Haushalts- und Familienkontext", in: Zeitschrift fur Familienforschung (mit Andreas Klocke und Annette Spellerberg; 2002).
Kontaktadresse: Johannes Gutenberg-Universitat Mainz • FB 02 • Institut fur Soziologie • ColonelKleinmann-Weg 2.55099 Mainz
[email protected]. http://www.staffuni-mainz.de/lueckd/
Simone Zdrojewski, Dipl.-Soz., ist Promotionsstipendiatin im Graduiertenkolleg ,,Markte und Sozialraume in Europa" an der Fakultat Sozial- und Wirtschaftswissenschaften der Otto-Friedrich-Universitat Bamberg.
Forschungsschwerpunkte: Quantitative und qualitative Methoden der empirischen Sozialforschung, Arbeitsmarktsoziologie, Europaische Integration, vergleichende Wohlfahrtsstaatsforschung.
Ausgewahlte Publikationen: ,,Increasing Employment Instability Among Young People in France? Labor Market Entry and Early Career since the Early 1990s", in: Hans-Peter Blossfeld / Karin Kurz (Hg.): Increasing Flexibility at Labor Market Entry and in the Early Career (Arbeitstitel) (zusammen mit Yvette Grelet und Louis-Andre Vallet; in Vorbereitung fur 2008); "Segregation und Integration. Entwicklungstendenzen der Wohn- und Lebenssituation von Tiirken und Spataussiedlern in der Stadt Niirnberg", in Schader-Stiftung (Hg.): Zuwanderer in der Stadt (2005).
Kontaktadresse: Otto-Friedrich-Universitat Bamberg. Graduiertenkolleg ,,Markte und SoziaIraume in Europa" • Fakultat Sozial- und Wirtschaftswissenschaften • Lichtenhaidestr. 11 • 96045 Bamberg. Email:
[email protected] • http://web.uni-bamberg.de/sowi/mse/ko_zdrojewski.html