Dieter Urban · Jochen Mayerl Regressionsanalyse: Theorie, Technik und Anwendung
Studienskripten zur Soziologie Heraus...
60 downloads
1871 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Dieter Urban · Jochen Mayerl Regressionsanalyse: Theorie, Technik und Anwendung
Studienskripten zur Soziologie Herausgeber: Prof. Dr. Heinz Sahner, Dr. Michael Bayer und Prof. Dr. Reinhold Sackmann begründet von Prof. Dr. Erwin K. Scheuch †
Die Bände „Studienskripten zur Soziologie“ sind als in sich abgeschlossene Bausteine für das Grund- und Hauptstudium konzipiert. Sie umfassen sowohl Bände zu den Methoden der empirischen Sozialforschung, Darstellung der Grundlagen der Soziologie als auch Arbeiten zu so genannten Bindestrich-Soziologien, in denen verschiedene theoretische Ansätze, die Entwicklung eines Themas und wichtige empirische Studien und Ergebnisse dargestellt und diskutiert werden. Diese Studienskripten sind in erster Linie für Anfangssemester gedacht, sollen aber auch dem Examenskandidaten und dem Praktiker eine rasch zugängliche Informationsquelle sein.
Dieter Urban · Jochen Mayerl
Regressionsanalyse: Theorie, Technik und Anwendung 3., überarbeitete und erweiterte Auflage
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
3., überarbeitete und erweiterte Auflage 2008 Alle Rechte vorbehalten © VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2008 Lektorat: Frank Engelhardt VS Verlag für Sozialwissenschaften ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.vs-verlag.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-531-15657-6
Inhaltsverzeichnis
Vorwort...............................................................................................................9
1 1.1 1.2 1.3
Einführung ............................................................................................11 Zur Konzeption eines „theoriegeleiteten Rezeptbuchs“ ........................11 Benutzerhinweise ...................................................................................14 Regressionsanalyse als statistisches Modell ..........................................16
2 2.1 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.4
Das Grundmodell der Regressionsanalyse.........................................25 Das allgemeine Regressionsmodell........................................................25 Regression im bivariaten Modell ...........................................................40 Koeffizientenschätzung ..........................................................................40 Varianzzerlegung der abhängigen Variablen (Y) ..................................51 Der problematische Determinationskoeffizient (R2), Teil 1 ..................59 Regression und Standardisierung ...........................................................65 Regression im multivariaten Modell ......................................................80 Modelllogik und Kontrollfunktion zusätzlicher X-Variablen................80 Varianzzerlegung und Standardisierung im multivariaten Modell ........96 Die Problematik standardisierter Regressionskoeffizienten ................103 Der problematische Determinationskoeffizient (R2), Teil 2 ................109 Schrittweise Variablenauswahl ............................................................112
3 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2
Regressionstheorie..............................................................................115 Die bestmögliche Regressionsschätzung .............................................115 Kriterien einer präzisen Regressionsschätzung....................................116 Grundannahmen der BLUE-Schätzung................................................120 Inferenzstatistik in der Regressionsanalyse .........................................130 Normalverteilung..................................................................................131 Signifikanzniveau und Testlogik des Signifikanztests.........................133
3.2.3 Testfehler und Teststärke (power)........................................................139 3.3 Testverfahren im bivariaten Regressionsmodell..................................143 3.3.1 Standardfehler, Konfidenzintervall und Signifikanztest des Regressionskoeffizienten .....................................................................146 3.3.2 Signifikanztest des Gesamtmodells......................................................153 3.3.3 Ermittlung von Effektstärke und Teststärke ........................................156 3.3.4 Ermittlung eines sinnvollen Stichprobenumfangs ...............................159 3.4 Testverfahren im multiplen Regressionsmodell...................................161 3.4.1 Signifikanztest des Regressionskoeffizienten ......................................162 3.4.2 Signifikanztest des Gesamtmodells......................................................163 3.4.3 Ermittlung von Effektstärken, Teststärken und Stichprobenumfang...166 3.5 SPSS-Beispiel.......................................................................................168
4 4.1 4.1.1 4.1.2 4.2 4.3 4.3.1 4.3.2 4.4 4.4.1 4.4.2 4.5 4.5.1 4.5.2 4.6 4.6.1 4.6.2 4.7 4.7.1 4.7.2 4.8
Entdeckung und Beseitigung von Modellverstößen........................177 Stichprobenumfang und Stichprobenfehler..........................................185 Ausreißer-Residuen und Instabilität bei kleinen Fallzahlen ................185 Normalverteilung (A5)..........................................................................193 0-Mittelwert der Residuen (A2)............................................................201 Linearität (A3, A4) ................................................................................202 Intrinsische Linearität...........................................................................207 Intrinsische Linearität: Interaktivität ...................................................214 Spezifikationsprobleme........................................................................217 Strategien zur Vermeidung von Spezifikationsfehlern ........................220 Ermittlung von Spezifikationsfehlern (A3) ..........................................222 Multikollinearität..................................................................................225 Ermittlung von Multikollinearität ........................................................230 Beseitigung von Multikollinearität ......................................................236 Streuungsungleichheit (Heteroskedastizität) (A1)................................242 Ermittlung von Streuungsungleichheit.................................................244 Beseitigung von Streuungsungleichheit...............................................249 Autokorrelation (A4).............................................................................260 Ermittlung von Autokorrelation ...........................................................264 Beseitigung von Autokorrelation .........................................................268 Zusammenfassung: Residuenanalyse...................................................272
5 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.2 5.2.1 5.2.2 5.3 5.3.1 5.3.2 5.4 5.5 5.5.1 5.5.2
Erweiterte Regressionsanalyse..........................................................275 Regressionsanalyse mit qualitativen Variablen ...................................275 Qualitative Variablen als Dummy-Variablen.......................................276 Regressionsmodelle mit unabhängigen Dummy-Variablen ................280 Regressionsmodelle mit unabhängigen metrischen Variablen und unabhängigen Dummy-Variablen .................................................284 Varianz- und Kovarianzanalyse als Regressionsmodell mit Dummy-Variablen................................................................................289 Regressionsanalyse mit Moderatorvariablen .......................................293 Moderatoreffekte als Interaktionseffekte .............................................294 Moderatoreffekte in der Multigruppenanalyse.....................................299 Regressionsanalyse mit Mediatorvariablen..........................................302 Signifikanz der direkten, indirekten und totalen Effekte .....................306 Statistischer Nachweis von Mediatoreffekten......................................308 Hierarchische / Sequenzielle Regressionsanalyse................................310 Spezielle Fehlschlüsse in der Regressionsanalyse ...............................317 Decken- und Bodeneffekte (ceiling and floor effects).........................318 „Regression-zum-Mittelwert“-Effekt (regression to the mean effect).319
Tabellenanhang..............................................................................................323
Literaturverzeichnis ......................................................................................331
Sachregister ....................................................................................................333
Vorwort zur 2. Auflage Das vorliegende Studienskript ist die komplett überarbeitete und um viele zusätzliche Inhalte und Kapitel ergänzte Neuauflage des Studienskipts „Regressionstheorie und Regressionstechnik“ (erschienen im ehemaligen Teubner-Verlag, Stuttgart). Auch in dieser Neuauflage wurde daran festgehalten, dass es sich dabei um eine Arbeitshilfe für Praktiker der empirischen Sozialforschung handeln soll. Es sollen in diesem Skript analytisch fundierte und anwendungsorientierte Informationen zur Durchführung von Regressionsanalysen angeboten werden, die sowohl für Neueinsteiger als auch für fortgeschrittene Anwender dieser statistischen Modellierung verständlich und nützlich sind. Um dies zu erreichen, wurde eine Darstellungsweise gewählt, - bei der alle wichtigen Schritte der Regressionsanalyse an Beispielen veranschaulicht werden, - bei der zu allen Analyseschritten die entsprechenden SPSS-Anweisungen vorgestellt werden, - bei der die Essentials der Regressionsanalyse deutlich herausgestellt werden (in Z-Kästen), - bei der auf formal-statistische Argumentationen entweder gänzlich verzichtet wird, oder diese in markierten Erweiterungsblöcken (Ergänzungskästen) separat vorgestellt werden, so dass die entsprechenden Ausführungen leicht zu übergehen sind (bzw. für ein intensiveres Studium leicht aufzufinden sind). Die inhaltlichen Schwerpunkte der vorliegenden Darstellung von Theorie und Technik der Regressionsanalyse liegen in den Bereichen: - SPSS-gestützte Anwendung regressionsanalytischer Verfahren, - schätztheoretische Grundlagen der Regressionsschätzung, - statistische Überprüfung regressionsanalytischer Modellannahmen, - kritische Interpretation und Absicherung von regressionsanalytischen Resultaten. Um die Praxisrelevanz dieses Studienskripts noch weiter auszubauen, wurden für die vorliegende Neuauflage zahlreiche neue Kapitel mit starkem Anwendungsbezug geschrieben. Dazu gehören insbesondere die Kapitel zur - Interpretation und Kritik des Determinationskoeffizienten; - Interpretation standardisierter Regressionskoeffizienten; - Bestimmung der Teststärke von Signifikanztests; - Ermittlung sinnvoller Stichprobengrößen; - Regressionsanalyse mit Moderatorvariablen; - hierarchischen bzw. sequenziellen Regressionsanalyse; - Vermeidung spezieller Fehlschlüsse in der Regressionsanalyse.
10
Vorwort
Trotz sorgfältigster Erstellung enthält fast jedes Lehrbuch ärgerliche Fehler. Und jedes Lehrbuch kann auch nur über den aktuellen Stand der Forschung zum Zeitpunkt seines Erscheinens berichten. Um beide Probleme für die Leser dieses Lehrbuchs ein wenig abzumildern, haben die Autoren die unten genannte Internetseite eingerichtet. Auf ihr soll über Druckfehler und die (hoffentlich nur wenigen) inhaltlichen Fehler in diesem Skript berichtet werden. Die Adresse der Internetseite zu diesem Studienskript lautet: www.uni-stuttgart.de/soz/regression/ Alle Leser werden gebeten, ihre Kommentare, Kritiken und Hinweise zu diesem Skript an eine der E-Mail-Adressen zu senden, die auf der oben genannten Webpage angegeben sind. Die Autoren würden sich darüber sehr freuen. Die Autoren bedanken sich bei Simone Unger und Stefan Seng für deren Mithilfe bei der Gestaltung von Text und Abbildungen im vorliegenden Buch. Stuttgart, im Herbst 2005
Dieter Urban und Jochen Mayerl
Vorwort zur 3. Auflage Die vorliegende dritte Auflage ist eine überarbeitete und um ein zusätzliches Kapitel sowie einen tabellarischen Anhang erweiterte Neuauflage des Studienskripts. Das neu eingefügte Kapitel 5.3 enthält praxisbezogene Hinweise zur Regressionsschätzung mit Mediatorvariablen, bei der direkte, indirekte und totale Effekte unterschieden werden. Der neu hinzugefügte Anhang enthält zudem Tabellen zur Durchführung von Signifikanztests (t-Tabelle und F-Tabellen) und von Teststärkeanalysen. Mit diesen Tabellen können die im Skript beschriebenen Signifikanzund Teststärkeanalysen unmittelbar durchgeführt werden, ohne dafür zusätzliche Statistik-Literatur hinzuziehen zu müssen. Für Leserzuschriften, Kommentare, Kritiken und Hinweise zu diesem Skript sind wir sehr dankbar. Zu erreichen sind wir auch weiterhin über die Webadresse: www.uni-stuttgart.de/soz/regression/ Stuttgart, im Sommer 2008
Dieter Urban und Jochen Mayerl
Manche Dinge sind Tatsachen im Sinne der Statistik oder weil sie auf einem Stück Papier stehen oder auf einem Tonband aufgezeichnet sind oder weil sie als Beweisstück vorliegen. Und andere Dinge sind Tatsachen, weil sie Tatsachen sein müssen, weil alles andere keinen Sinn ergäbe. Philipp Marlowe
1
Einführung1
1.1
Zur Konzeption eines „theoriegeleiteten Rezeptbuchs“
Das vorliegende Studienskript wendet sich an Studierende, Dozenten und Praktiker in den empirischen Sozialwissenschaften. Es berücksichtigt dort, wo notwendig, die spezielle Datensituation in der sozialwissenschaftlichen Forschung. Ansonsten ist der Inhalt des Skripts disziplinenunspezifisch. Es sollte deshalb nicht nur Interessenten aus den Sozialwissenschaften ansprechen, sondern auch Forschungsinteressierte aus denjenigen Disziplinen, in denen mit Hilfe von statistischen Methoden nicht-experimentell gewonnene Daten analysiert werden müssen. Regressionsanalytische Verfahren haben eine große Bedeutung für die sozialwissenschaftliche Datenanalyse. Ob Varianz-, Faktoren- oder Pfadanalyse, für jedes dieser statistischen Modelle ist die Regressionsanalyse wichtig, denn sie steht im Kern eines statistischen Basismodells (dem so genannten „allgemeinen linearen Modell“), ohne das die genannten Analysemethoden nicht auskommen könnten. Sicherlich ist das hier vorgestellte Regressionsmodell auch in besonderer Weise zur Analyse von Daten geeignet, die im Experiment gesammelt wurden. Der vorliegende Text geht jedoch auf die damit verbundenen Anwendungsprobleme nicht 1 Aus Gründen der sprachlichen Vereinfachung wird in diesem Skript ausschließlich die maskuline Begriffsform verwendet. Die feminine Form gilt dabei stets als mit eingeschlossen.
12
1 Einführung
ein, sondern berücksichtigt allein diejenigen Probleme, die bei der Analyse von nicht-experimentell gewonnenen Daten entstehen können. Dieses Studienskript ist ein theoriegeleitetes Rezeptbuch. Es ist theoriegeleitet, weil es einen Großteil seines Inhalts der Aufdeckung von regressionsanalytischen Anwendungsvoraussetzungen widmet, die sich aus der theoretischen Basis des Modells, dem so genannten „Gauss-Markov-Theorem“, ergeben. Diese Anwendungsvoraussetzungen der Regressionsanalyse werden in reinen Rezeptbüchern oft vernachlässigt oder gar gänzlich verschwiegen. Dann verkümmert die Regressionsanalyse zur Regressionstechnik und es bleibt dem Zufall überlassen, ob die regressionsanalytisch berechneten Ergebnisse überhaupt statistisch zu rechtfertigen und sinnvoll zu interpretieren sind. Ein solches Risiko kann ausgeschlossen oder zumindest minimiert werden, wenn bei Anwendung der Regressionsanalyse die praktischen Durchführungshinweise aus dem vorliegenden Skript befolgt werden. Denn dieses Skript will auch ein praxisorientiertes Rezeptbuch sein, das sowohl in die Prinzipien der Regressionsschätzung und deren Interpretation einführt, als auch Möglichkeiten zur empirischen Aufdeckung und Beseitigung von häufig anzutreffenden Modellverstößen aufzeigt. Denn ohne entsprechende Behandlung können diese Modellverstöße schnell dazu führen, dass die Ergebnisse einer Regressionsanalyse reine Methodenartefakte sind und keine substanzielle Bedeutung haben. Das vorliegende Studienskript beschränkt sich auf die Darstellung der klassischen OLS-Regressionsanalyse (OLS = ordinary least squares = Regressionsanalyse mit der Kleinst-Quadrate-Schätzmethode). Deren Anwendung ist vor allem dann angemessen, wenn (lineare und linearisierbare) Effekte zwischen mindestens zwei Variablen vermutet werden, und die Werte der abhängigen Variablen zumindest annäherungsweise kontinuierlich verteilt sind. Die Variablen sollten also ein metrisches Messniveau bei Verwendung einer möglichst breiten Messskala aufweisen (wie z.B. die Variable „Alter“, deren Werte auf einer Skala zwischen 18 und 101 Lebensjahren gemessen werden). Allerdings hat sich in der Forschungspraxis auch gezeigt, dass metrische bzw. als metrisch zu definierende Variablen mit nur 5 bis 10 Ausprägungen für eine sinnvolle OLS-Regression geeignet sein können. Zudem können die unabhängigen Variablen, das sind die Variablen, von denen die zu analysierenden Effekte ausgehen, für die OLS-Regression auch ein binomiales Messniveau aufweisen, also dichotom gemessen sein (wie z.B. die Variable „Ge-
1.1 Zur Konzeption eines „theoriegeleiteten Rezeptbuchs“
13
schlecht“ mit den zwei Werten „männlich“ und „weiblich“). Durch Dichotomisierung können auch Variablen mit multinomialem und ordinalem Messniveau (wie z.B. die Variablen „Parteipräferenz“ und „Stadtteilbindung“) in die OLSRegressionsanalyse einbezogen werden (wenn auch bei ordinalen Variablen mit Informationsverlust).
Z1.1: In diesem Skript wird die OLS-Regressionsanalyse zur Untersuchung linearer bzw. linearisierbarer Effekte zwischen Variablen vorgestellt, deren Variablenwerte (annäherungsweise) kontinuierlich verteilt sind bzw. auf einer möglichst breiten Skala metrisch zu messen sind. Jedoch wird auch erläutert, in welcher Weise binomial skalierte Variablen bzw. dichotom gemessene oder dichotomisierte Variablen als unabhängige Modellvariablen in die Analyse einzubeziehen sind.
Die Beschränkung auf die OLS-Regression impliziert, dass nicht alle Möglichkeiten der Regressionsanalyse in diesem Skript vorgestellt werden können. So werden u.a. folgende Regressionsmodelle nicht behandelt: -
-
Modelle, bei denen die abhängige Variable eine kategoriale Variable ist (logistische Regression, Logit- und Probitanalyse); Modelle mit solchen nicht-linearen bzw. kurvilinearen Variablenbeziehungen, die nicht in lineare Beziehungen transformiert werden können oder sollen (z.B. asymptotische Regressionsmodelle); Modelle mit latenten Konstrukten, die nicht direkt gemessen werden können (Strukturgleichungsmodellierungen mit latenten Variablen); Modellanalysen mit anderen Schätzverfahren als der OLS-Technik (z.B. mit Maximum-Likelihood-Technik); Modelle mit Zeitkomponenten, wie sie u.a. in der Überlebens- oder Ereignisanalyse anzutreffen sind (z.B. als Cox-Regression); Modelle mit Längsschnittdaten/Paneldaten; Modelle mit limitierten bzw. zensierten Daten (u.a. als Tobit-Regression); Modelle mit eindeutigen Zähldaten (Poisson-Regression); Modelle der non-parametrischen Regressionsanalyse.
1 Einführung
14 1.2
Benutzerhinweise
Die Hilfe dieses Skripts setzt dann ein, wenn der Entschluss gefasst wurde, einen theoretisch oder analytisch begründeten Zusammenhang zwischen zwei oder mehreren Variablen mittels empirisch gewonnener Daten zu überprüfen und dazu ein statistisches Modell einzusetzen. Mithin müssen vor Einsatz dieses Skripts alle Arbeiten zur Hypothesenkonstruktion und Datensammlung (inkl. der Lösung von Messproblemen wie z.B. Operationalisierungsfragen) erledigt sein. Die Konzeption eines theoriegeleiteten Rezeptbuchs zur Regressionsanalyse bedeutet also nicht, dass mit diesem Skript gezeigt wird, wie der systematische Bezug von Hypothese(n) und statistischer Modellierung herzustellen ist (vgl. dazu auch den folgenden Gliederungsabschnitt). Denn dieser Bezug muss in der theoretischen bzw. analytischen Arbeit geleistet werden. Und deshalb wird in diesem Skript auch nichts darüber gesagt, welche Konsequenzen aus den statistischen Resultaten einer Regressionsanalyse für die weitere substanzielle Forschung gezogen werden können. Auch dies betrifft konkrete Forschungsfragen, die nicht im Rahmen einer allgemeinen Methodendarstellung beantwortet werden können. Allerdings gehen wir in unserer Darstellung der Regressionsanalyse davon aus, dass sie im Kontext der Erforschung von theoretisch oder analytisch begründeten Variablenzusammenhängen eingesetzt werden soll. Denn nur dann kann sie, wie wir noch zeigen werden, sinnvolle und interpretationsfähige Resultate liefern. So werden in diesem Skript insbesondere folgende Fragen beantwortet: -
Was ist eine Regressionsanalyse? Welche Anwendungsvoraussetzungen macht das regressionsanalytische Modell? Welche Möglichkeiten zur Entdeckung und Beseitigung von Modellverstößen gibt es? Wie kann eine Regressionsanalyse mit Hilfe des EDV-Statistik-Programmpakets SPSS durchgeführt werden?
Das Skript setzt nur elementare Kenntnisse statistischer Grundbegriffe voraus. Einige komplexere statistische Konzepte (wie z.B. das der Wahrscheinlichkeitsverteilung) werden zwar neu vorgestellt, dabei aber stets auf die regressionsanalytische Problematik ausgerichtet. Bestimmte Basiskonzepte (wie das der mathematischen Erwartungstheorie) werden dort, wo sie zum ersten Male eingesetzt werden, verständlich gemacht.
1.2 Benutzerhinweise
15
Alle Textpassagen, in denen ergänzende Basisinformationen vorgestellt werden, sind durch eine Umrandung und den Hinweis „Ergänzung“ kenntlich gemacht. In gleicher Weise gekennzeichnet werden stark formalistische Beweisführungen, die dazu dienen, dem interessierten Leser die Gültigkeit formaler Argumentationen plausibel zu machen. Sollten Leser, die die umrandeten Textteile übersprungen haben, bei der weiteren Lektüre gravierende Verständnisschwierigkeiten bemerken, sollten sie sich nicht scheuen, die entsprechenden Textpassagen noch einmal in aller Ruhe durchzuarbeiten. Denn in diesem Skript gilt auch für die Darstellung aller formalen Konzepte, dass sie im Text nur rein instrumentell benutzt werden, d.h. sie werden allein zur Darlegung regressionsanalytischer Themen vorgestellt. Diejenigen Textteile, die wichtige zusammenfassende Aussagen zum Regressionsmodell formulieren, werden durch Umrandung und ein dem Text vorangestelltes „Z“ für „Zusammenfassung“ mit Ziffer gekennzeichnet (also z.B. Z1 oder Z14 für Zusammenfassung 1 oder Zusammenfassung 14). Sollte ein Leser den Inhalt der derartig herausgestellten Textstellen nicht verstehen, so wird ihm geraten, die Ausführungen, die der umrandeten Zusammenfassung vorausgehen, noch einmal zu lesen. Die Zusammenfassungen können somit auch zur Überprüfung des eigenen Textverstehens dienen. Auf einen wichtigen Punkt der in diesem Skript benutzten Darstellungstechnik sei hier noch hingewiesen: Das Skript zerlegt die sachgemäße Analyse von Regressionsmodellen in einzelne didaktische Arbeitsschritte. Diese sind für sich alleine genommen u.U. keine mustergültigen Anleitungen für eine Regressionsanalyse. So erweisen sich z.B. im Laufe der Darstellung bestimmte Lösungen als suboptimal und werden verworfen bzw. revidiert. Darauf wird bei den entsprechenden Textstellen aber stets hingewiesen. Erst am Ende des letzten Kapitels besitzt der Leser alle notwendigen Informationen, um eine sachgerechte Regressionsanalyse durchführen zu können.
1 Einführung
16 1.3
Regressionsanalyse als statistisches Modell
Die Regressionsanalyse ist, wie auch andere Datenanalyseverfahren, eine statistische Modellierung. Statistische Modelle unterscheiden sich von theoretischen Modellen dadurch, dass die entsprechenden Modellgrößen (Parameter) mit einer bestimmten, meist mathematisch formulierten Modelltechnik berechnet bzw. geschätzt werden können. Bei einer statistischen Modellierung genügt häufig das Vorhandensein von Daten und die Kenntnis einer entsprechenden Modelltechnik, um zumindest zu formal korrekten Modellschätzungen zu gelangen. Einer derartigen Vorgehensweise entspräche in der Regressionsanalyse der Einsatz einer bestimmten Regressionstechnik, um z.B. herauszufinden, in welchem Maße der Schulerfolg eines Schülerjahrgangs vom Körpergewicht und von der Länge des Schulwegs der Schüler abhängt. In Tabelle 1.1 werden dazu für 10 Schüler fiktive Variablenwerte angegeben: Die Variable „Schulerfolg“ wird als Notendurchschnitt ermittelt, die Variable „Körpergewicht“ wird in Kilogramm und die Variable „Länge des Schulwegs“ in Kilometern gemessen. Tabelle 1.1: Beispiel zur „statistischen Prognose“ von Schulerfolg Schüler (Nr.) 1 2 3 4 5 6 7 8 9 10
Schulerfolg (Notendurchschnitt) 2,3 3,6 1,2 4,5 3,8 3,9 4,0 2,7 2,9 3,0
Länge des Schulwegs (km) 4,0 1,0 5,6 0,7 2,3 4,5 0,7 1,0 0,1 0,3
Körpergewicht (kg) 90,5 70,0 89,5 82,5 65,0 86,0 50,0 89,5 89,5 90,0
Die Regressionstechnik kann mit den Daten aus Tabelle 1.1 mathematisch gültige Ergebnisse berechnen, obwohl diese Daten rein fiktiv sind. Aus diesen Ergebnissen könnte gefolgert werden, dass mit einem Körpergewicht, das über dem Durchschnitt liegt, jeder Schüler in der Lage ist, seinen Notendurchschnitt erheblich zu verbessern. So hätte ein Schüler mit einem Körpergewicht von 150 kg und einer
1.3 Regressionsanalyse als statistisches Modell
17
Länge des Schulwegs von 1 km einen Notendurchschnitt von 1,25 zu erwarten (wie ein solcher Wert mittels regressionsanalytischer Schätzung zu ermitteln ist, wird in einem der nachfolgenden Kapitel gezeigt). Und für jeden Kilometer zusätzlicher Entfernung könnten 0,19 Punkte als Abzug vom Notendurchschnitt (d.h. Verbesserung des Notendurchschnitts) erwartet werden. Es könnte also auch ein sehr leichtgewichtiger Schüler seine „statistische Benachteiligung“ ausgleichen, indem er seinen Wohnort möglichst weit entfernt von der Schule wählte. Bei einer Entfernung von 17,32 km und einem Gewicht von nur 50 kg hätte er den Vorteil des o.g. 150 kg schweren Schülers, der nur einen Schulweg von 1 km hat, aufgehoben. Dies sind mathematisch gültige Ergebnisse, erzielt nach Einsatz der Regressionstechnik. Aber sind die Ergebnisse auch sinnvoll? Warum sollte der Schulerfolg vom Körpergewicht abhängen und warum von der Länge des Schulwegs? Das Beispiel zeigt, dass eine auf Regressionstechnik reduzierte Regressionsmodellierung verkümmern muss. Man kann nicht beliebige Informationen aus Daten gewinnen, die dafür nicht oder nur schlecht geeignet sind. Vielmehr muss zuerst ein Regressionsmodell aufgestellt werden, das sinnvolle Verknüpfungen von Variablen vornimmt. Und die Kriterien zur Bestimmung der „Sinnhaftigkeit“ eines Modells liefert eine substanzielle Theorie oder zumindest ein Gebäude von argumentativ plausiblen Begründungen. So kann z.B. ein Sozialwissenschaftler aufgrund seiner Kenntnisse der sozialen Institution „Schule“ in begründeter Weise annehmen, dass die Schichtzugehörigkeit von Kindern einen Einfluss auf deren Schulerfolg ausübt. Ebenso wären Variablen des Elternhauses, der Schulorganisation und der Unterrichtspraxis zu nennen, deren Bedeutung für den Schulerfolg wohl eher zu begründen ist als ein Einfluss der Länge des Schulwegs oder der Höhe des Körpergewichts. Im genannten Beispiel können also die statistischen Resultate einer Regressionsmodellierung durchaus sehr sinnvolle Ergebnisse liefern. Das sind Ergebnisse, die z.B. theoretisch interpretierbar sind oder von denen man den Grund angeben kann, warum sie bezüglich des Schulerfolgs einen Einfluss besitzen sollten (und warum vielleicht nicht). Auch veranlassen solche Resultate u.U. zu Überlegungen hinsichtlich der Theoriekonstruktion, zu neuen theoretischen Verknüpfungen oder zu Zweifeln an der Gültigkeit von Erhebungs- und Analysemethoden. Jedoch können nur theoretische oder analytische Überlegungen einen Maßstab für die Gültigkeit eines Regressionsmodells abgeben.
18
1 Einführung
Was eine sinnvolle Regressionsmodellierung noch alles bedeutet, werden wir im Laufe der folgenden Kapitel kennen lernen. Es sei jedoch bereits hier festgehalten: Eine sinnvolle Regressionsanalyse ist nur dann durchzuführen, wenn in die Regressionsmodellierung allein solche Variablen aufgenommen werden, deren Bedeutsamkeit aus analytischen oder theoretischen Überlegungen zum entsprechenden Forschungsthema abgeleitet werden können. Eine sinnvolle Regressionsmodellierung muss theoriegerecht und/oder analytisch begründbar sein. Nun ist jedoch das Problem einer theoriegerechten Regressionsmodellierung nicht damit gelöst, dass alle Variablen, die ein Theoriemodell als erklärungsrelevante Größen bezeichnet, auch Eingang in das jeweilige Regressionsmodell finden. Es wird auch dann noch häufig eine Differenz zwischen Theoriemodell und statistischem Modell geben. Diese Differenz ergibt sich u.a. aus den statistischen Eigenschaften von Statistikmodellen, die nicht immer eine beliebig große Anzahl von Variablen und Variablenverknüpfungen in sinnvoller Weise verarbeiten können. Denn eine große Anzahl von Variablen und Variablenrelationen könnte auch eine große Unübersichtlichkeit in den Rechenoperationen und – was noch schlimmer wäre – in den Interpretationsmöglichkeiten der berechneten Ergebnisse erzeugen. In den folgenden Kapiteln dieses Skripts werden wir derartige Probleme, die aus einer Modellgestaltung mit zu vielen Variablen erwachsen können, noch ausführlicher behandeln. Es muss an dieser Stelle aber bereits darauf aufmerksam gemacht werden, dass ab einer bestimmten Modellkomplexität bestimmte Anwendungsvoraussetzungen der Regressionsanalyse nicht mehr kontrolliert werden können. Wenn also am Anfang einer Regressionsanalyse stets die Erarbeitung eines überzeugenden Theoriemodells steht und ein jedes Theoriemodell die schrankenlose Vielfalt der gesellschaftlichen Realität auf wenige zentrale Wirkungsmechanismen reduzieren muss, so ist diese notwendige Informationsreduktion bei der Spezifikation von theoriegerechten statistischen Regressionsmodellen noch weiter fortzusetzen. Der Begriff des „Modell-Dilemmas“ wird in der sozialwissenschaftlichen Forschung benutzt, um auf dieses Problem der statistischen Modellkonstruktion aufmerksam zu machen: Sollen Modelle theoriegerecht sein, dann müssen sie eigentlich auch theorierealistisch spezifiziert werden. Denn ein Theoriemodell darf im Statistikmodell nicht derart entstellt werden, dass sein zentraler Gehalt aufgelöst wird. Jedoch müssen auf der anderen Seite alle Statistikmodelle den Implikationen der damit verbundenen statistischen Rechentechniken entsprechen. Und diese fordern oftmals eine einfachere Struktur von Variablenzusammenhängen, als sie vom
1.3 Regressionsanalyse als statistisches Modell
19
Theoriemodell her gegeben ist. Deshalb wird jeder Praktiker der Regressionsanalyse auch bei strengstem antitechnizistischem Statistikverständnis nicht immer verhindern können, dass bestimmte Inhalte seines Theoriemodells im Statistikmodell nicht wiederzufinden sind oder umdefiniert werden (z.B. wenn unspezifisch gelassene „Wirkungszusammenhänge“ im Theoriemodell zu „linearen Wirkungszusammenhängen“ im Statistikmodell werden). Das Modell-Dilemma der sozialwissenschaftlichen Analyse verschärft sich mit zunehmender Theoriekomplexität und mit zunehmender statistischer Modellkomplexität. Eine generelle Lösungsmöglichkeit gibt es dafür nicht. Der Forscher muss in der Regel einige Ansprüche auf Seiten der Theorie oder der Statistik zurücknehmen, will er zu einem für ihn akzeptablen Kompromiss kommen. Ein „richtig“ oder „falsch“ ist dann schwer zu finden, jedoch neigen wir dazu, dem Praktiker im Falle eines scharfen Konflikts eher eine Rücknahme seines Statistik-Anspruchs als eine Reformulierung seiner theoretischen Ausgangspositionen zu empfehlen. Das vorliegende Skript kann zur Lösung eines Modell-Dilemmas in der Regressionsanalyse beitragen, indem es die zentralen Anforderungen einer Regressionsmodellierung offen legt. In welche der oben genannten Richtungen dann zu gehen ist bzw. ob sich ein Dilemma überhaupt in aller Schärfe herauskristallisieren muss, hängt vom jeweiligen Einzelfall ab. Dies zu beurteilen ist Aufgabe der Forschungsarbeit, die vor der eigentlichen statistischen Anwendungsphase liegt. Um aber überhaupt einen möglichen Konflikt erkennen zu können, bedarf es detaillierter Kenntnisse über die spezifischen Anforderungen der statistischen Regressionsmodellierung. Deshalb werden wir diese in den folgenden Kapiteln dieses Skripts systematisch herausarbeiten und benennen. Allzu oft wird bei Überlegungen zur theoriegerechten Modellierung übersehen, dass statistische Modelle, sollen sie theoriegerecht sein, auch datengerecht sein müssen. Denn Regressionsmodelle werden zwar zur Abbildung von Variablenbeziehungen aufgestellt, jedoch können die Parameter dieser Beziehungen nur unter Verwendung einer gegebenen Datenbasis geschätzt werden. Die empirischen Daten für eine Regressionsschätzung können erst dann ermittelt werden, wenn alle analytisch oder theoretisch bestimmten Variablen operationalisiert und messbar gemacht wurden. Dies betrifft Arbeitsprozesse, die außerhalb des Themenbereichs unseres Skripts liegen. Wichtig für die Aufstellung und die Berechnung von Regressionsmodellen ist allein die Form, in der ihnen die em-
20
1 Einführung
pirischen Daten angeboten werden. Diese Form ist bestimmt durch das Messniveau der Daten (dichotom-, ordinal-, intervall- oder ratioskaliert) und die empirisch beobachtete Verteilung von Häufigkeiten über den Messbereich einer jeden Variablen. Zu Letzterem gehören z.B. Verteilungen wie sie dann entstehen, wenn für jeden möglichen Notendurchschnitt die Anzahl der Schüler gezählt wird, die diesen Durchschnitt aufweisen. Dann können sich z.B. überdurchschnittlich viele Schüler im mittleren Bereich der Notenskala konzentrieren, und alle anderen Schüler können sich im unteren und oberen Bereich der Skala befinden. Die regressionsanalytisch relevante Form empirischer Daten besteht also aus Messniveau und Häufigkeitsverteilung der beobachteten Variablen. Diese Form hat bedeutende Konsequenzen für die statistische Berechnung bzw. Schätzung von Regressionsmodellen. So verweist die im Folgenden vorgestellte, klassische Regressionstheorie auf besondere Probleme mit Datenformen, bei denen die Variablen nicht mindestens intervallskaliert und kontinuierlich gemessen werden konnten (bei schulischen Notendurchschnitten ist diese Datenform zumindest annäherungsweise gegeben). Glücklicherweise läuft die Datenform-Problematik nicht auf ein weiteres Dilemma zwischen Theorie- und Modellorientierung hinaus, da mittlerweile statistische Verfahren zur Verfügung stehen, mit denen z.B. qualitative bzw. kategoriale Datenformen regressionsanalytisch ausgewertet werden können. Um jedoch im vorliegenden Skript nicht schon von Anfang an allzu große Probleme mit abweichenden Datenformen zu bekommen, wird in den ersten Kapiteln allein vorausgesetzt, dass alle zu analysierenden Daten ein kontinuierlich-metrisches Messniveau aufweisen (zumindest im Prinzip). Erst in Kapitel 5 wird diese Voraussetzung abgeändert. Ohne bislang verraten zu haben, was überhaupt ein Regressionsmodell ist, haben wir in dieser Einführung versucht deutlich zu machen, dass eine Regressionsanalyse nicht die bloße Anwendung einer bestimmten Technik ist. Wir sagten, dass jede Regressionsanalyse noch vor der eigentlichen statistischen Berechnung die Aufstellung eines konkreten Regressionsmodells verlangt. Dadurch greift die Regressionsanalyse u.U. einschneidend in den Forschungsprozess ein und kann evtl. bestimmte Forschungsergebnisse vorprogrammieren oder auch bestimmte Ergebnisse von vornherein ausschließen. Dies kann im einfachsten Falle z.B. dadurch geschehen, dass die Regressionsanalyse die Anzahl der Variablen eines Theoriemodells beschränkt und nur eine bestimmte Auswahl von Variablen für die statistische Analyse zulässt. Wenn also eine Theorie mehr Variablen enthält als aus Gründen der
1.3 Regressionsanalyse als statistisches Modell
21
Übersichtlichkeit oder der Rechenbarkeit in der Regressionsanalyse zulässig sind, muss der Anwender ein Regressionsmodell aufstellen, das den Anforderungen der Technik, aber nicht immer den Anforderungen des Theoriemodells entspricht. Dadurch kann eine neue Ausgangsstruktur für die Analyse geschaffen werden, und es ist offensichtlich, dass eine solche Regressionsmodellierung nicht mehr als methodenunabhängig zu bezeichnen ist. Besonders deutlich wird die Methodenabhängigkeit der Ergebnisse einer Regressionsanalyse, wenn in den weiteren Kapiteln dieses Skripts wesentlich komplexere Modellimplikationen diskutiert werden. Für den bereits „eingeweihten“ Leser seien nur beispielhaft die Linearitätsannahme und die Annahme von der Unabhängigkeit der Beobachtungen genannt. So gibt es eine Fülle von Modellvorstellungen, die mit der Regressionsanalyse verbunden sind (und die der Leser im Folgenden kennen lernen wird). Sie alle verhindern es, von „falschen“ und „richtigen“ Ergebnissen einer Regressionsanalyse zu sprechen. Die Ergebnisse einer Regressionsanalyse sind allein angemessen oder unangemessen. Der Grad der Angemessenheit orientiert sich am Grad der Adäquanz der regressionsanalytischen Modellspezifikationen bezüglich eines zu überprüfenden Theoriemodells oder einer zu überprüfenden Hypothese und bezüglich der Datenform der verwendeten Messdaten. Deshalb setzt die Bewertung und Interpretation der Resultate einer Regressionsanalyse die Kenntnis der ursprünglichen theoretischen Fragestellungen, der regressionsanalytischen Modellimplikationen und der empirischen Datenformen voraus. Denn nur durch Abgleich der statistischen Modellstruktur mit den theoretischen Fragestellungen lässt sich beurteilen, ob ein Regressionsmodell adäquat aufgestellt wurde. Und nur unter Berücksichtigung der regressionsanalytischen Modellimplikationen und der gegebenen empirischen Datenformen lässt sich einschätzen, ob ein Regressionsmodell adäquat berechnet bzw. geschätzt wurde. Aufgrund unserer bisherigen Ausführungen lässt sich in einer ersten Annäherung verdeutlichen, welche Arbeitsschritte eine Regressionsanalyse typischerweise umfassen muss. In Abbildung 1.1 auf Seite 23 werden diese Arbeitsschritte graphisch veranschaulicht. Die dort aufgeführten Zahlen entsprechen den Zahlen in der folgenden Auflistung: (1) Nach den Vorgaben eines theoretischen Begründungszusammenhangs bzw. eines Theoriemodells muss zunächst ein Regressionsmodell aufgestellt werden. Dieser Arbeitsprozess wird „Spezifikation des Modells“ genannt. Im Modell müssen die Variablen spezifiziert werden, die datenmäßig erfasst werden sollen und die die Datenbasis zur Berechnung bzw. Schätzung des Modells bereitstel-
22
1 Einführung len. Die Variablen müssen ferner entsprechend den theoretischen Vorgaben und entsprechend den Modellvorstellungen miteinander verknüpft werden. Wie dabei vorzugehen ist, beschreibt der erste Abschnitt im folgenden Kapitel.
(2) Soweit die Variablen, die im Modell spezifiziert wurden, noch nicht vorliegen, müssen die Variablenwerte jetzt empirisch gemessen werden. Das Theoriemodell muss ausreichende Vorgaben machen, um die Operationalisierung der Variablen und den Messprozess theoriegerecht steuern zu können. Diese Arbeitsphase wird im folgenden Text nicht behandelt. Wir gehen davon aus, dass die Variablenwerte theorieadäquat erhoben wurden und zur statistischen Analyse bereitstehen. Sehr wohl wird uns aber die Form der Datenbasis (s.o.) interessieren. Schwerpunktmäßig gehen die Kapitel 3 und 4 hierauf ein. (3) Die Auswahl der Regressionstechniken zur Auflösung des spezifizierten Modells erfolgt mit Hilfe der regressionsanalytischen Modelltheorie. Sie bewertet die gegebene Datenbasis (3a) vor dem Hintergrund der zu berücksichtigenden Modellimplikationen (3b) und bestimmt so die angemessene Regressionstechnik (3c). Beschreibungen zu dieser Arbeitsphase finden sich in allen Kapiteln, insbesondere jedoch in Kapitel 4. (4) Nach der Spezifikation des Regressionsmodells und der Auswahl der datengerechten Modelltechnik ist es schon selbstverständlich, dass diese auch zur Berechnung der Modellkoeffizienten eingesetzt werden muss. Die dazu erforderlichen Grundtechniken werden im folgenden Kapitel 2 beschrieben. Die daran anschließenden Kapitel präsentieren Ergänzungen und Verfeinerungen. (5) Bevor das Regressionsmodell als aufgelöst zu betrachten ist, müssen die Ergebnisse des Technikeinsatzes bewertet werden. Dies geschieht wiederum unter Berücksichtigung von Vorgaben der Regressionstheorie. Es muss dabei entschieden werden, ob die Berechnungen zufrieden stellend sind oder ob sie durch den Einfluss regressionsanalytischer Modellimplikationen verfälscht wurden. Erläuterungen dazu können vor allem in den Kapiteln 3 und 4 gefunden werden. (6) Ein letzter Schritt in der Regressionsanalyse ist die Evaluation des berechneten Regressionsmodells in Bezug auf das zu überprüfende Theoriemodell. Lassen sich die Ergebnisse in das Theoriemodell integrieren? Erhöhen sie dessen Vorhersagekraft oder lassen sich mit ihrer Hilfe bessere Handlungsmöglichkeiten
23
1.3 Regressionsanalyse als statistisches Modell
aus einem Theoriemodell ableiten? Das sind Fragen, die jetzt beantwortet werden müssen. Allerdings sind diese Fragen in hohem Maße theoriespezifisch, so dass in diesem Skript nur allgemeine Hinweise hinsichtlich des letzten Arbeitsschritts gegeben werden können. Sie finden sich verstreut über alle Kapitel. An dieser Stelle setzt wieder die eigentliche theoretische bzw. substanzielle Arbeit ein und hört somit der Bereich auf, für den die Regressionsanalyse als Hilfsmittel eingesetzt wird. Abbildung 1.1: Typische Arbeitsschritte in einer Regressionsanalyse Theoriemodell
Regressionsmodell
(2) Erhebung, Messung
Modelltheorie der Regressionsanalyse (3c) Techniklegitimation
Regressionstechnik
Daten
24
1 Einführung
Leider mussten die vorangegangenen Bemerkungen für all diejenigen Leser, die noch keine regressionsanalytischen Kenntnisse besitzen, ein wenig abstrakt bleiben. In den folgenden Kapiteln wird sich dies schnell ändern. Wir wollten jedoch auch schon in der Einleitung zu einem theoriegeleiteten Rezeptbuch auf die strukturellen Implikationen der Regressionsanalyse aufmerksam machen. Was wir damit meinten, ist Folgendes: Die Regressionsanalyse ist eine statistische Modellierung, die eine Vielzahl von Modellannahmen benutzt. Diese werden von der Regressionstechnik als gültig angesehen und dazu benutzt, um mit rein mathematisch-logischer Argumentation bestimmte Schätzwerte von Modellparametern zu berechnen, die als Resultate der Regressionsanalyse interpretiert werden können. Jedoch werden die Resultate der Regressionsanalyse von den logisch-mathematischen Strukturen des jeweiligen Regressionsmodells mitbestimmt. In extremen Fällen können sie auch von diesen Strukturen allein bestimmt werden. Dann erscheinen im Ergebnis z.B. bestimmte Variablen als einflussstarke Größen, obwohl in Wirklichkeit ein artifizielles Ergebnis vorliegt, das allein von der Modelllogik der Regressionsanalyse erzeugt wurde. Dieses Skript will dabei helfen, den Einfluss von Modellimplikationen auf die Ergebnisse von Regressionsanalysen zu erkennen und diese, wenn möglich, zurückzudrängen oder zumindest in den Ergebnisinterpretationen zu berücksichtigen. Deshalb versteht es sich als ein Rezeptbuch, das die Vorgaben der regressionsanalytischen Modelltheorie (für die Spezialisten: das sind insbesondere die Vorgaben des Gauss-Markov-Theorems) für den Anwender transparent und handhabbar macht.
2
Das Grundmodell der Regressionsanalyse
2.1
Das allgemeine Regressionsmodell
Zu den wichtigsten Zielen wissenschaftlicher Analyse gehört es, gültige Aussagen über die Richtung und Stärke von Beziehungen zwischen den Komponenten eines Theoriemodells zu formulieren. Diese Komponenten können z.B. sein: Einkommensunterschiede, Schichtzugehörigkeiten, Einstellungshaltungen oder Drogenkonsum. Zwischen diesen theoretisch oder analytisch festzulegenden Modellkomponenten können sodann Beziehungen ermittelt werden, indem zwischen zwei oder mehreren von ihnen eine geordnete Einflussbeziehung definiert wird, deren Gültigkeit empirisch zu überprüfen ist. Dazu ist diejenige Komponente zu bestimmen, die einen Einfluss ausübt, und auch diejenige Theoriekomponente festzulegen, auf die dieser Einfluss gerichtet ist. Auf diese Weise werden Aussagen darüber möglich, in welcher Weise Veränderungen in den Werten einer bestimmten Variablen zu Veränderungen in den Werten einer anderen Variablen führen. Die Konstruktion von Aussagesystemen über die Beziehungen zwischen den substanziell bedeutsamen Komponenten eines Theoriemodells ist eine der zentralen Aufgaben theoretischer Forschungsarbeit in der wissenschaftlichen Analyse. Will die wissenschaftliche Analyse die theoretisch bestimmten Beziehungen in einem Theoriemodell empirisch überprüfen, so müssen zunächst die Modellkomponenten, zwischen denen die Beziehungen vermutet werden, in empirisch beobachtbare Variablen transformiert werden und muss sodann die Art der Einflussbeziehung zwischen den Variablen exakt beschrieben werden. Dies ist Aufgabe der bereits in Kapitel 1.3 erwähnten Modellspezifikation. Der Transformationsprozess, der aus theoretischen Komponenten empirisch beobachtbare Variablen macht, ist oftmals alles andere als einfach herzustellen und bedarf u.U. weiterer theoretischer Argumentationen, die auch als „hilfstheoretische“ Konstruktionen bezeichnet werden. Diese sind immer dann von Nöten, wenn die
26
2 Das Grundmodell der Regressionsanalyse
inhaltliche Bedeutung theoretischer oder analytischer Modellkomponenten nicht bruchlos in empirisch eindeutige Variablendefinitionen zu übertragen ist. So ist z.B. die theoretische Einheit „soziale Schichtzugehörigkeit“, die häufig in der sozialwissenschaftlichen Ungleichheitsforschung benutzt wird, keineswegs bedeutungsgleich mit der umgangssprachlichen Verwendung des Schichtbegriffs. Deshalb ist vor Transformation der Theoriekomponente „soziale Schichtzugehörigkeit“ in eine empirisch messbare Schichtvariable zu überlegen, ob damit die subjektiv gemeinte oder die analytisch festgelegte Schichtzugehörigkeit gemeint sein soll, ob Schicht als sozial oder sozioökonomisch definierte Statusgruppe verwendet werden soll, und vieles andere mehr. Um dies zu entscheiden, bedarf es der Vorgaben einer beobachtungsbezogenen „Hilfstheorie“, die zwischen der theoretischen Welt des Theoriemodells und der empirischen Welt der beobachtbaren Phänomene vermittelt, und die für einen bestimmten Anwendungsfall z.B. begründet, warum Schicht als sozioökonomische Statusgruppe verstanden werden soll und warum dafür die Messwerte von Einkommen, Bildung und Berufsprestige empirisch zu ermitteln sind. Im Folgenden wird eine derartige Problematik keine Rolle spielen. Wir gehen in diesem Skript davon aus, dass die Transformation theoretischer Modellkomponenten in empirisch beobachtbare Variablen geglückt ist und nunmehr mit der Festlegung eines statistisch zu analysierenden Variablenmodells begonnen werden kann. Nachdem aus einem theoretischen Modell bestimmte Variablen für eine statistische Analyse abgeleitet werden konnten, müssen im nächsten Schritt die Beziehungen zwischen diesen Variablen modellgerecht festgelegt werden. Zur modellgerechten Formulierung von Variablenzusammenhängen gehört die Unterscheidung zwischen abhängigen und unabhängigen Variablen. Diejenige Variable, auf die ein Einfluss ausgeübt wird, wird „abhängige Variable“ und diejenige Variable, die diesen Einfluss ausübt, wird „unabhängige Variable“ genannt. In der Aussage: „Der Schulerfolg von Schülern wird durch die Bedeutung beeinflusst, die die Eltern diesem Schulerfolg beimessen“ ist der Schulerfolg die abhängige Variable und die Elterneinstellung die unabhängige Variable. Natürlich ist die Variable „Elterneinstellung gegenüber Schulerfolg“ nur in dieser Aussage eine unabhängige Variable, denn es gibt in dieser Aussage keine
2.1 Das allgemeine Regressionsmodell
27
Angaben darüber, welche Variablen die Elterneinstellung beeinflussen könnten. Dies ist in der folgenden Aussage anders: „Die Elterneinstellung gegenüber dem Schulerfolg ihrer Kinder variiert je nach Schichtzugehörigkeit der Eltern“. Hier ist dieselbe Variable, die zuvor noch unabhängige Variable war, zur abhängigen Variablen geworden. Die gleiche Wandlungsfähigkeit besitzt natürlich auch die abhängige Variable in der ersten Aussage („Schulerfolg“), die in einem anderen Anwendungskontext zur unabhängigen Variablen werden kann. Es gibt keine Variable, die ihrer Natur nach abhängig oder unabhängig ist.
Z2.1: Ob eine Variable als abhängige oder unabhängige Variable zu betrachten ist, ergibt sich allein aus der Definition einer Variablenbeziehung im jeweiligen Theorie- oder Statistikmodell und ist somit kontextspezifisch.
Im Idealfalle kann aufgrund der Inhalte theoretischer Argumentationen eine Kausalbeziehung zwischen bestimmten Modellkomponenten begründet werden, woraus sich dann ableiten lässt, welche empirische Variable als „abhängige“ und welche als „unabhängige“ Variable zu analysieren ist. Wenn z.B. ein Theoriemodell „wenn, dann“- oder „je, desto“-Hypothesen enthält, können diese Kausalaussagen in einem Statistikmodell in Variablenbeziehungen übersetzt werden. Statistikmodelle, die allein einseitig gerichtete Variablenbeziehungen enthalten, werden auch als rekursive Modelle bezeichnet, da in ihnen alle Veränderungen abhängiger Variablen allein auf Veränderungen in rein unabhängigen Variablen zurückgeführt werden. Auf diese Weise lassen sich auch erkenntnistheoretische Diskussionen über das, was eine Kausalität ist, und ob Kausaleffekte überhaupt mit Querschnittsdaten, wie sie in der statistischen Analyse am häufigsten benutzt werden, überprüft werden können, vermeiden. Denn Kausaleffekte können in Statistikmodellen rein pragmatisch bzw. modelltechnisch definiert werden. Ein Kausaleffekt ist dann ein Effekt, der über die Höhe der Veränderung einer abhängigen Modellvariablen informiert, wenn eine unabhängige Modellvariable um einen bestimmten Betrag vergrößert oder verkleinert wird. Im Unterschied zu gerichteten Kausalbeziehungen weisen korrelative Beziehungen keine Richtung des Zusammenhangs zwischen Variablen auf, sondern spe-
28
2 Das Grundmodell der Regressionsanalyse
zifizieren lediglich einen wechselseitigen Zusammenhang zwischen zwei oder mehreren Variablen. Eine zweiseitig gerichtete Form von Variablenbeziehungen sind reziproke bzw. non-rekursive Beziehungen („Feedback-Schleifen“), bei denen es zwischen zwei Variablen (X und Y) zwei kausale Effekte geben kann, die in entgegengesetzte Richtungen verlaufen (von X auf Y, von Y auf X). Modelle mit non-rekursiven Variablenbeziehungen können jedoch mit der hier vorgestellten OLS-Regressionstechnik nicht modelliert werden. Die Literatur zur Regressionsanalyse verwirrt ein wenig durch einen uneinheitlichen Sprachgebrauch. Gleichbedeutend mit der Unterscheidung „abhängig – unabhängig“ ist das Begriffspaar „endogen – exogen“. Mit diesem soll herausgestellt werden, dass die Werte der exogenen Variablen außerhalb der Erklärungsabsicht des jeweiligen Theoriemodells stehen und allein von außerhalb (und deshalb von Variablen, die dem Modell nicht bekannt sind) beeinflusst werden. Die Werte der endogenen Variablen hingegen werden durch interne Effekte erzeugt. Auch findet man in der Literatur die Unterscheidung zwischen „Kriteriumsvariable“ (abhängige Variable) und „Prädiktorvariable“ (unabhängige Variable). Damit wird deutlich gemacht, dass die unabhängige Variable (Prädiktor) zur Vorhersage (Prädiktion) von Ausprägungen in der abhängigen Variablen (bzw. in der Kriteriumsvariablen) eingesetzt werden kann. Ein weiteres synonym verwendetes Begriffspaar ist „Regressor – Regressand“. Der Regressor entspricht dabei der unabhängigen Variablen und der Regressand der abhängigen Variablen. Im Folgenden werden wir bei der traditionellen und meist gebrauchten Bezeichnung von abhängigen und unabhängigen Variablen bleiben. Im Gegensatz zur Vielfalt der begrifflichen Bezeichnungen hat sich zur Kennzeichnung von abhängigen und unabhängigen Variablen eine einheitliche Symbolik durchgesetzt: Y
bezeichnet die abhängige Variable
X
bezeichnet die unabhängige Variable
Xk bezeichnet bei mehreren unabhängigen Variablen die k-te Variable. „k“ kann Werte zwischen 1 und der Höchstzahl (bei Durchnummerierung) aller
2.1 Das allgemeine Regressionsmodell
29
X annehmen. So kann k bei drei unabhängigen Variablen auch Werte zwischen 1 und 3 annehmen. X1 bezeichnet die unabhängige Variable Nr. 1, X2 die unabhängige Variable Nr. 2 usw. Xik bezeichnet die i-te Beobachtung der unabhängigen Variablen mit der Kennzahl k. X1,1 ist der Beobachtungswert für den ersten Fall der Variablen X1. Wenn bei den Daten in Tabelle 1.1 die Variable X1 das Körpergewicht misst, so beträgt der Wert X1,1 = 90,5 kg. Und für X2,1 ergibt sich ein Wert von 70,0 kg. Yi bezeichnet den Variablenwert, den die abhängige Variable Y beim i-ten Beobachtungsfall aufweist. Nach den Werten in Tabelle 1.1 hat Y (Schulerfolg) für den Schüler Nr. 1 den Wert „2,3“ (demnach gilt: Y1 = 2,3). Es gibt für jede Variable in der Regel so viele Beobachtungswerte, wie es Fälle (bzw. Beobachtungseinheiten) gibt (i = 1, 2, 3 … n). Im Beispiel aus Tabelle 1.1 stehen 10 Fälle und damit 10 Beobachtungswerte zur Verfügung. Nachdem damit Terminologie und Symbolik geklärt sind, können wir uns nun wieder unserem eigentlichen Thema zuwenden. Wie erinnerlich, wollen wir die einseitig gerichtete Beziehung zwischen zwei empirischen Variablen in modellgerechter Weise für die Regressionsanalyse formulieren. Mathematisch ausgedrückt lässt sich ein Einfluss der Variablen X auf die Variable Y als Funktion verstehen. Die Werte der Variablen Y sind eine Funktion der Werte der Variablen X, oder formal geschrieben: Y = f(X)
(2.1)
Gleichung (2.1) zeigt die allgemeinste Form einer Einflussbeziehung zwischen X und Y. Diese Gleichung gilt nicht nur in der Regressionsanalyse. Sie kann für verschiedene statistische Modelle (die natürlich auch unterschiedliche Ergebnisse liefern können) spezifiziert werden. In diesem Skript interessiert uns aber allein die regressionsanalytische Spezifikation. Soziolinguisten haben herausgefunden, dass der Erwerb der deutschen Sprache bei ausländischen Arbeitern in Deutschland von der Anzahl der Kontakte beeinflusst wird, die die Arbeiter mit deutschsprachigen Personen haben. Der Zusammenhang gilt überraschenderweise stärker für Kontakte im Reproduktionsals im Produktionsbereich.
30
2 Das Grundmodell der Regressionsanalyse
Um das Ausmaß des Spracherwerbs zu messen, wäre es möglich, einen Index zu bilden, der je nach Anzahl der beherrschten deutschen Vokabeln, der Beherrschung grammatikalischer Regeln usw. einen Wert zwischen 0 und 10 annehmen kann. Die Kontaktfrequenz könnte anhand der wöchentlichen Anzahl von Gesprächen mit Deutschen ermittelt werden, wobei die Messeinheit ein 10Minuten-Takt wäre (d.h. ein etwa 20-minütiges Gespräch ergäbe den Wert „2“ für die Kontaktfrequenz).
In Tabelle 2.1 werden für den geschilderten Zusammenhang fiktive Werte angegeben. Es wurden 15 Arbeiter beobachtet, die entsprechend ihres Kontaktausmaßes in fünf Gruppen eingeteilt werden. Spalte 4 der Tabelle zeigt den Grad des Spracherwerbs von jedem der 15 ausländischen Arbeiter. Da wir das Ausmaß des Spracherwerbs in Abhängigkeit von der Kontaktfrequenz analysieren wollen, ist die Variable „Spracherwerb“ unsere abhängige Variable (Y) und die Variable „Kontaktausmaß“ mit fünf Ausprägungen unsere unabhängige Variable (X). Tabelle 2.1: Fiktives Datenmodell zur Analyse des Spracherwerbs ausländischer Arbeiter in Deutschland Arbeiter
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Kontaktausmaß (in 10 Min.Einheiten)
Kontaktgruppe (X)
0-5
1
5 - 10
2
10 - 15
3
15 - 20
4
20 - 25
5
Spracherwerb (Y) 0,8 1,0 1,5 2,0 1,9 1,8 3,0 3,5 4,0 4,5 6,0 5,9 8,5 8,9 9,0
Der Zusammenhang zwischen den Variablen X und Y, der in Tabelle 2.1 numerisch dargestellt wird, lässt sich auch graphisch veranschaulichen.
2.1 Das allgemeine Regressionsmodell
31
Dazu benutzt man zwei Geraden, von denen eine im rechten Winkel senkrecht auf die horizontal verlaufende Gerade stößt (vgl. Abbildung 2.1). Auf der vertikalen Gerade werden die Werte der abhängigen Variablen in Abständen entsprechend ihres Zahlenwertes aufgetragen. Ebenso verfährt man auf der horizontalen Geraden mit der unabhängigen Variablen X. Im Raum zwischen den beiden Geraden lässt sich dann für jeden ausländischen Arbeiter eine exakte Position lokalisieren.
Nach dem hier beschriebenen Verfahren wurden auch die Abbildungen 2.1 und 2.2 erstellt. Sie präsentieren die Zahlen aus Tabelle 2.1 in einer graphischen Form und lassen so den Zusammenhang zwischen Spracherwerb und Kontaktgruppenzugehörigkeit „auf den ersten Blick“ deutlich werden. Abbildung 2.2
10,0
10,0
8,0
8,0
6,0
Arbeiter der Gruppe 2 mit Spracherwerbsgrad 2,0
4,0 2,0 0,0
Spracherwerb (Y)
Spracherwerb (Y)
Abbildung 2.1
6,0 4,0 2,0 0,0
1
2 3 4 Kontaktgruppe (X)
5
1
2 3 4 Kontaktgruppe (X)
5
In Abbildung 2.2 liegen alle eingezeichneten Personenpunkte sehr eng an der dort eingezeichneten Kurve. Nur wenige der Punkte liegen direkt auf der Kurvenlinie. Diese Kurve symbolisiert die gesuchte mathematische Funktion, die den Zusammenhang zwischen X und Y, wie er in Gleichung (2.1) allgemein bestimmt wurde, spezifiziert. Sie lässt sich nicht nur graphisch beschreiben, sondern kann auch durch eine Gleichung exakt mathematisch definiert werden (was uns an dieser Stelle aber noch nicht interessieren soll). Folgende Beobachtungen lassen sich bezüglich Abbildung 2.2 machen: a) Der Einfluss von X auf Y lässt sich als Kurve darstellen. Je größer das Kontaktausmaß (hier dargestellt durch die Zugehörigkeit zu fünf verschiedenen Kontaktgruppen), desto größer ist das Ausmaß des Spracherwerbs.
32
2 Das Grundmodell der Regressionsanalyse Der Umfang des Spracherwerbs steigt nicht gleichmäßig an. Erhöht ein Arbeiter seine Kontaktfrequenz dermaßen, dass er von Gruppe 1 in Gruppe 2 gelangt, so verbessert sich seine Sprachbeherrschung um etwa eine Einheit (wenn alle Y-Werte in den ersten beiden Gruppen auf- oder abgerundet werden). Wechselt jedoch ein Arbeiter der Gruppe 4 ebenfalls in die nächsthöhere Gruppe (Gruppe 5), so macht seine Sprachbeherrschung in etwa einen Sprung von 6 auf 9, was also einer Zunahme von ungefähr drei Einheiten entspricht. Beide Arbeiter wechseln also in die nächsthöhere Gruppe. Für den einen bedeutet dies aber eine Verbesserung seiner Sprachfähigkeit um einen Wert, für den anderen Arbeiter um drei Werte. Je kontaktreicher die Gruppe ist, umso größere Konsequenzen hat eine weitere Verstärkung der Kontakte zu deutschen Mitbürgern für die Sprachbeherrschung. Diesen Sachverhalt veranschaulicht die Kurve in Abbildung 2.2.
b) Die Werte von Y (Spracherwerb) streuen in Abbildung 2.2 nur sehr gering um die Kurve. Innerhalb jeder Kontaktgruppe haben die Arbeiter fast identische Werte der Sprachbeherrschung, so dass der Zusammenhang zwischen Kontaktgruppenzugehörigkeit und Sprachbeherrschung recht eindeutig ist. Im Folgenden wollen wir uns mit Hilfe dieser beiden Beobachtungen den Grundannahmen des Regressionsmodells nähern. Beginnen wir mit der Streuungsbeobachtung (b). Dass die beobachteten Werte in einer empirischen Analyse so nahe an einer Funktionskurve liegen, wie dies die Werte für die abhängige Variable „Spracherwerb“ in Abbildung 2.2 tun, wird in der Mehrzahl aller Studien eine Ausnahme bleiben. In der Regel werden die Werte mehr oder weniger stark um die Funktionskurve streuen. Betrachten wir dazu die folgende Abbildung 2.3. Dort wird das Ausmaß des Spracherwerbs nicht mehr in Abhängigkeit von der Kontaktfrequenz, sondern in Abhängigkeit von der Dauer des Aufenthalts der ausländischen Arbeiter in Deutschland dargestellt. Für dieselbe Aufenthaltsdauer zeigt die Abbildung sehr unterschiedliche Grade des Spracherwerbs. Ausländer mit zwölfmonatiger Aufenthaltsdauer haben sowohl einen Spracherwerbsgrad von 1 als auch von 4,5. Eine mögliche Erklärung für den Streuungsunterschied zwischen den Abbildungen 2.2 und 2.3 kann man in analytischen Überlegungen zum Spracherwerb von Ausländern finden. Demnach beeinflusst die Aufenthaltsdauer für sich alleine genommen den Spracherwerb nicht in solch eindeutiger Weise wie die Kontaktfrequenz. Auch bei langer Aufenthaltsdauer kann die Isolation in der nationalen Bezugsgruppe noch so stark sein, dass die Chancen für den Erwerb der deut-
2.1 Das allgemeine Regressionsmodell
33
schen Sprache minimal sind. Dennoch gibt es, wie die Kurve in Abbildung 2.3 verdeutlicht, im Durchschnitt einen Einfluss der Aufenthaltsdauer auf den Spracherwerb: in der Tendenz steigen die Werte für den Spracherwerb mit der Länge des Aufenthalts an. Abbildung 2.3: Funktionskurve mit streuenden Y-Werten 10,0
Spracherwerb (Y)
8,0
6,0
4,0
2,0
0,0 0
5
10 15 20 Aufenthaltsmonate (X)
25
Dies wäre die substanzielle Erklärung für die in Abbildung 2.3 anzutreffende Streuung der Y-Werte. Leider ist diese Erklärung nicht die einzig mögliche. Es gibt noch zwei weitere Ursachen, die für sich alleine oder jeweils in Verbindung miteinander die Streuung verursachen können: -
Die Messinstrumente und/oder Erhebungstechniken können Streuungen erzeugen. Diese entstehen z.B. wenn Fragen, die die Sprachbeherrschung ermitteln sollen, nicht präzise genug sind. Dann werden bei Ausländern mit gleicher Aufenthaltsdauer schon allein deshalb Sprachunterschiede gemessen, weil die Fragen von verschiedenen Personen unterschiedlich verstanden und deshalb unterschiedlich beantwortet werden.
-
In den Sozialwissenschaften sind die Beobachtungs- und Erhebungssituationen in der Regel nicht-experimenteller Natur. Dies bedeutet, dass die zu er-
34
2 Das Grundmodell der Regressionsanalyse hebenden Variablen auch Einflüssen von Drittvariablen unterliegen können, die dem Forscher unbekannt sind, oder die, wenn sie bekannt sind, nicht in ihrem Einfluss auf die interessierenden Variablen kontrolliert werden können. Schwankungen dieses nicht zu kontrollierenden Einflusses erzeugen dann die beobachteten Streuungen. Natürlich kann der Einfluss von Drittvariablen auch dermaßen stark sein, dass, wenn sie bekannt sind, es sträflich wäre, sie im Theoriemodell unbeachtet zu lassen. So ist in unserem Beispiel die Kontaktfrequenz mit deutschen Kollegen am Arbeitsplatz sicherlich eine Variable, die den Spracherwerb beeinflusst. Unberücksichtigt führt sie zu Unterschieden im Grad des Spracherwerbs, die dann fälschlicherweise auf den Einfluss der Variablen „Kontaktfrequenz im Reproduktionsbereich“ oder auf den Einfluss der Variablen „Aufenthaltsdauer“ zurückgeführt werden können. Hat der Forscher eine solche Variable erkannt, muss er überlegen, ob diese nicht einen derartig starken Einfluss ausübt, dass das theoretische Modell ohne sie unvollständig wäre und deshalb auch das entsprechende statistische Modell falsch spezifiziert ist. In diesem Falle entstände ein Analyseproblem durch die Nichtberücksichtigung einer bekannten Drittvariablen, die zudem auch noch messbar ist. Es sind aber auch Drittvariablen denkbar, die, obwohl bekannt, nicht in das Regressionsmodell integrierbar sind, da sie nicht (oder nur schwer) messbar sind (z.B. individuelle Dispositionen für die Fähigkeit zum Spracherwerb). Durch deren Einfluss können auch Streuungen erzeugt werden, mit denen der Regressionspraktiker nicht substanziell, sondern „statistisch“ umgehen muss (dazu mehr im Folgenden).
Z2.2: Im Normalfall streuen die empirischen Werte der abhängigen Variablen auch dann, wenn die unabhängige Variable einen bestimmten (konstanten) Wert aufweist. Selbst bei theoretisch gültigen Einflussbeziehungen entstehen in aller Regel messpraktisch verursachte Streuungen der Y-Variablen bei gleichen X-Werten.
Mit Streuungen gleich welcher Ursache entsteht die Notwendigkeit, Datenanalysemodelle „statistisch“ zu formulieren. Da bei gleichem X-Wert verschiedene Y-Werte auftreten können, sind die Y-Werte nicht mehr einzig und allein von den X-Werten abhängig, d.h. sie können auch nicht von diesen determiniert werden. Mithin beinhalten statistische Modelle Variablenbeziehungen, deren spezifizierte Funktionszusammenhänge nicht mehr deterministisch sind. Stattdessen sind sie stochastisch, d.h. die Variablenbeziehungen werden auch noch durch andere, teilweise unbekannte Einflüsse bestimmt. Statistische Modelle betreffen stochastische und nicht deterministische Einflussbeziehungen zwischen abhängigen und unabhängigen Variablen. Deshalb
2.1 Das allgemeine Regressionsmodell
35
haben wir bislang auch von „Einflussbeziehungen“ und nicht von „Determinationsbeziehungen“ geschrieben. Und selbst wenn Variablenwerte fehlerfrei gemessen werden könnten, wären Analysemodelle immer nur in der Lage, eine begrenzte Anzahl von Variablen aufzunehmen, die dann keineswegs alle Einflussmöglichkeiten auf die abhängige Variable ausschöpften. Deshalb werden die Y-Werte in so gut wie allen empirischen Untersuchungen zu einem gewissen Ausmaß unkontrolliert streuen. Folgerichtig machen Streuungserscheinungen eine wichtige strukturelle Implikation von Statistikmodellen und damit auch von Regressionsmodellen aus.
Z2.3: Regressionsanalytische Modelle sind als statistische Modelle nicht deterministisch, sondern stochastisch formuliert.
Die Gleichung (2.1), in der ein allgemeiner Funktionszusammenhang zwischen X und Y formuliert wurde, muss also hinsichtlich der Streuungserscheinung angemessener aufgestellt werden. Wenn sie die Funktionszusammenhänge in der Population betrifft, wird sie erweitert zu: Y = f(X, )
(2.2)
Und wenn sie sich auf die entsprechenden Funktionszusammenhänge in einer Stichprobe bezieht, wird sie erweitert zu: Y = f(X, U)
(2.3)
Mit dem Symbol „“ oder „U“ werden im Folgenden alle Einflüsse belegt, die nicht aus Veränderungen der spezifizierten X-Variablen resultieren, die aber dennoch auf die Y-Variable einwirken, ohne dabei selbst kontrolliert werden zu können. Durch Erweiterung um „“ oder „U“ wird der Funktionszusammenhang explizit stochastisch, d.h. die Y-Werte werden auch durch nicht berücksichtigte X-Effekte oder unkontrolliert erzeugte Streuungen beeinflusst. In Abbildung 2.2 war uns neben der Streuung auch die Möglichkeit aufgefallen, den Funktionszusammenhang durch eine Kurve graphisch zu repräsentieren. Dieser Möglichkeit wollen wir uns im Folgenden zuwenden.
36
2 Das Grundmodell der Regressionsanalyse
Ein wichtiges Ziel der Regressionsanalyse ist es, den Funktionszusammenhang zwischen abhängiger und unabhängiger Variablen zu spezifizieren. Eine Funktion zu spezifizieren heißt, dem Symbol „f“ in Gleichung (2.1) und Gleichung (2.2/2.3) eine Bedeutung zu geben. Erst dadurch kann die Frage beantwortet werden, wie stark der Einfluss von X auf Y ist und in welche Richtung er weist. Und erst dadurch lässt sich erkennen, ob ein Anstieg von X zu einer Zunahme oder einer Abnahme von Y führt, oder gar für die Größe von Y gänzlich ohne Bedeutung ist. Die Spezifikation der Gleichungen (2.1) und (2.2/2.3) oder, wie man auch sagt, die Operationalisierung von „f“ ist nichts anderes als die mathematisch genaue Beschreibung der Kurve in Abbildung 2.2. Für unsere Einführung ist es allerdings zweckmäßiger, wenn wir zunächst annehmen können, dass die Datenpunkte im Raum zwischen X- und Y-Achse derart verteilt liegen, dass der Funktionszusammenhang am besten mit Hilfe einer Geraden (und nicht mit einer Kurve) beschrieben werden kann – zumal diese Annahme auch tatsächlich in den meisten Regressionsanalysen getroffen wird. Man nennt sie Linearitätsannahme. Wir werden sie später noch exakt definieren. Für den Augenblick wollen wir uns ihre Bedeutung anhand Abbildung 2.4 deutlich machen. In Abbildung 2.4 wird eine Kurve gezeigt, wie wir sie aus dem Beispiel über den Spracherwerb von Ausländern kennen, und darunter eine Gerade gezeichnet, die ebenfalls den Zusammenhang zwischen einer X- und einer Y-Variablen beschreiben soll. Verändert sich der Wert der X-Variablen in Abbildung 2.4 um „2,5“, also z.B. von 3 auf 5,5 oder von 7 auf 9,5, so ist die Veränderung von Y (in der Abbildung als „Y“ bezeichnet) trotz der unterschiedlichen Ausgangspunkte für die Veränderung immer gleich groß. Für konstante Sprünge auf der X-Achse ergeben sich bei der Funktionsgeraden konstante Sprünge auf der YAchse. Anders ist es bei der Funktionskurve. Dort gilt die Linearitätsannahme nicht. Je stärker die Kurve ansteigt, desto größer sind die Veränderungen in der YVariablen, auch wenn die Veränderungen auf der X-Achse konstant bleiben. Wir haben bereits in Abbildung 2.2 gesehen, was dies inhaltlich bedeuten kann.
2.1 Das allgemeine Regressionsmodell
37
Abbildung 2.4: Linearer und kurvilinearer Zusammenhang zwischen X und Y
Y
Y
Y
Y
Halten wir also fest: Die Linearitätsannahme besagt, dass die Y-Werte linear ansteigen (oder absteigen), wenn die X-Werte größer (oder kleiner) werden. Bei konstanten Sprüngen auf der X-Achse sind auch Sprünge auf der Y-Achse konstant. Dieser lineare Zusammenhang lässt sich durch eine Gerade repräsentieren (wir werden später sehen, dass diese Bestimmung der Linearitätsannahme nur eine erste Annäherung ist).
Z2.4: In klassischen Regressionsmodellen werden Einflussbeziehungen als „linear“ definiert.
Die Linearitätsannahme ist eine sehr weit reichende strukturelle Implikation des Regressionsmodells. Alle Berechnungen mit Hilfe der Regressionstechnik legen die Gültigkeit dieser Annahme zugrunde, die, wie wir in Abbildung 2.2 gesehen haben, keinesfalls immer zutreffend sein muss. Verhalten sich die empirischen Werte nicht tatsächlich linear zueinander, so können die berechneten Ergebnisse
38
2 Das Grundmodell der Regressionsanalyse
unangemessen sein, es sei denn, die zu überprüfende Theorie fordert ausdrücklich lineare Zusammenhänge. Wir werden in Kapitel 4 ausführlich auf dieses Problem zurückkommen. In Kapitel 4 werden wir zeigen, wie Zusammenhänge, die nicht linear sind, in lineare transformiert und dann modellgerecht berechnet werden können. Vorteile von Linearitätsmodellen sind ihre unkomplizierte mathematische Schätzbarkeit und ihre einfache Interpretierbarkeit. Sie werden deshalb auch häufig zur Analyse nicht-linearer Zusammenhänge benutzt, wobei dann aber alle nicht-linearen Effekte in lineare Zusammenhänge transformiert werden müssen (mehr dazu in Kapitel 4.3).
Mit der Linearitätsannahme kann Gleichung (2.2) näher spezifiziert werden. Den linearen Zusammenhang zwischen einer unabhängigen und einer abhängigen Variablen zeigt Gleichung (2.4):
Yi
X i + i
(2.4)
Die Symbole und bezeichnen Parameter, die bestimmen, in welcher Weise Y von X abhängt. Sind sie bekannt, kann für jeden beliebigen Wert von X ein dazugehöriger Y-Wert geschätzt werden. Ist z.B. der Parameter = 3 und der Parameter = 2, so ergibt sich für einen X-Wert von 4 ein Y-Schätzwert von: 3 + 2 × 4 = 11. Die - und -Parameter bezeichnen aber auch die exakte Lage einer Geraden in einem Koordinatensystem. Dabei gibt den Y-Wert an, in dem die Gerade die Y-Achse schneidet (in Abbildung 2.4: = 1). Deshalb wird auch als YAchsenabschnitt bezeichnet (oder: Intercept-Parameter). Der -Parameter berichtet die Steigung der Geraden zwischen jedem X-Wert und dem nächstfolgenden, um eine empirische Einheit erhöhten X-Wert. Ist der -Parameter negativ, so verläuft die Gerade rechtsfallend (vgl. Abbildung 2.5). In diesem Falle sinken die Y-Werte mit steigenden X-Werten. Trotz der Erweiterung um wird in Gleichung (2.4) weiterhin an einem eigenständigen Einfluss von X auf Y festgehalten. Allerdings ist die Größe von Y jetzt nicht mehr allein von X abhängig. Zwar gibt der Parameter die Einflussstärke von X auf Y an. Darüber hinaus ermöglicht er in Verbindung mit dem Wert von , den Zusammenhang zwischen X und Y in Form einer Funktionsgeraden zu veranschaulichen. Jedoch müssen alle Y-Werte jetzt nicht mehr auf der Geraden liegen, sondern können auch um diese streuen. Lägen die Y-Werte ausschließlich auf der Geraden, würde sich darin ein deterministischer Zusam-
2.1 Das allgemeine Regressionsmodell
39
menhang zwischen X und Y ausdrücken (i = 0). Ein solcher Zusammenhang wäre sehr unwahrscheinlich. Eine deterministische Variablenbeziehung kommt in der sozialen Realität nur sehr selten, wenn überhaupt, vor. Abbildung 2.5: Funktionsgerade mit negativer Steigung
-
-
Deshalb handelt es sich bei Gleichung (2.4) auch um ein statistisches Modell, das die Wirklichkeit nicht exakt wiedergeben will, sondern sie im Lichte eines bestimmten Theoriemodells verstehbar und erklärbar aufbereiten will. Durch die Aufnahme eines Störfaktors „“ in Gleichung (2.4) macht sich der Forscher sein modellhaftes Vorgehen bewusst und muss, wie wir noch sehen werden, seine Ergebnisse einer aufwändigen Bewertung unterziehen.
Z2.5: In einem Regressionsmodell wird die Größenveränderung einer abhängigen Variablen auf den Einfluss von modellabhängig spezifizierten Variablen zurückgeführt (Regression = Zurückführung). Die Regressionsschätzung will die Stärke des Einflusses von unabhängigen Variablen auf eine abhängige Variable unter bestimmten strukturellen Modellbedingungen ermitteln.
40 2.2
2 Das Grundmodell der Regressionsanalyse Regression im bivariaten Modell
2.2.1 Koeffizientenschätzung Im vorangegangenen Unterkapitel wurde ein Zusammenhang zwischen den Variablen X und Y anhand des Modells von Gleichung (2.4) beschrieben. Dieses Modell spezifiziert einen „wahren“ Zusammenhang, d.h. der Zusammenhang gilt als empirische Regelmäßigkeit für eine gesamte Population bzw. Grundgesamtheit. Gekennzeichnet wurde dies in der Gleichung (2.4) durch Verwendung der griechischen Symbole „“ und „“. Damit wurden diejenigen Parameter bezeichnet, die den quantitativen Zusammenhang zwischen X und Y in der Population bestimmen. Als „Parameter“ bezeichnet man Modellkonstanten, die für eine gesamte Population gültig sind. In der Regel sind uns die Parameter der Population unbekannt. Es ist in der Forschungspraxis zumeist auch nicht möglich, für jede Einheit der Population die Größe von X und Y zu messen, um daran anschließend und zu berechnen. Denn dann hätten z.B. in unserem Beispiel bei jedem ausländischen Arbeiter in der Bundesrepublik die Werte von dessen Sprachkompetenz und Kontaktfrequenz gemessen werden müssen. Nun ist es möglich, dass ein Forscher allein an den ausländischen Arbeitern in einem bestimmten Stadtteil interessiert ist, und es ihm gelingt, alle dort ansässigen Ausländer zu befragen. Kann er dann die für diesen Stadtteil „wahren“ Werte von X und Y erheben und die „wahren“ Parameter und berechnen? Auch in diesem Fall ist die Berechnung „wahrer“ Parameter nicht möglich. Die empirisch gemessenen Werte sind in aller Regel fehlerbelastet. Es wird kaum gelingen, das Ausmaß des deutschen Spracherwerbs von Ausländern oder deren Kontaktfrequenz fehlerfrei zu messen. Des Weiteren sind alle statistisch berechneten „Parameter“ modellabhängig und können durch Spezifikationsfehler, d.h. durch eine falsche Modellkonstruktion, verzerrt werden. Die Berechnung der Parameter und ist also selbst bei einer Totalerhebung nicht möglich. Nur wenn ein Forscher bereit wäre, höchst unrealistische Annahmen zu treffen, und von einer fehlerfreien Messung seiner Variablen und der Abwesenheit von Spezifikationsfehlern ausginge, wäre eine Berechnung „wahrer“ Parameter evtl. möglich.
2.2 Regression im bivariaten Modell
41
Es ist deshalb ehrlicher und realistischer, die Regressionsanalyse als ein statistisches Verfahren zur Schätzung von Einflusseffekten in einem bestimmten Variablenmodell zu betrachten, auch wenn die Daten nicht durch eine Stichprobe, sondern durch eine Gesamterhebung ermittelt wurden.
Z2.6: Die Ergebnisse der Regressionsanalyse beruhen immer auf einem Schätzverfahren. Dies gilt auch dann, wenn alle Daten einer Population gemessen werden konnten, oder wenn der Geltungsbereich einer Analyse auf einen bestimmten Datensatz begrenzt wird, oder wenn bewusst Verallgemeinerungen von Analyseergebnissen über eine Stichprobe hinaus vermieden werden.
Um den Unterschied zwischen einer Berechnung und einer Schätzung von Regressionsmodellen auch in der Schreibweise der Regressionsgleichungen deutlich zu machen, werden die geschätzten Werte für die Parameter und als „a“ und „b“ bezeichnet (und auch der Fehlerterm mit „U“ symbolisiert). Die Gleichung (2.4) lautet deshalb in neuer Notation:
Yi
a bX i U i
(2.5)
In Gleichung (2.5) sind „a“ und „b“ die so genannten „Regressionskoeffizienten“, die mittels Regressionstechnik ermittelt werden sollen. Wie wir uns erinnern, ist die Berechnung von a und b gleichbedeutend mit der Festlegung einer Geraden, die den Zusammenhang zwischen den Variablen X und Y beschreibt (vgl. die vorangegangene Abbildung 2.5). Unter dieser Linearitätsannahme lassen sich dann auch die statistisch geschätzten Werte der abhängigen Y-Variablen, d.h. diejenigen Y-Werte, die im Statistikmodell nur von X bestimmt werden, errechnen. Dies wird durch die folgende Gleichung (2.6) beschrieben. Um darin deutlich zu machen, dass es sich bei den Y-Werten um Schätzwerte handelt, trägt das Y-Symbol ein „Dach“.
ˆ Y i
a bX i
(2.6)
Damit der Unterschied zwischen den Gleichungen (2.5) und (2.6) deutlich wird, sei Folgendes noch einmal zusammengefasst:
42
2 Das Grundmodell der Regressionsanalyse
Jeder Wert von Y kann mit Hilfe von Gleichung (2.5) berechnet werden. Er setzt sich aus dem Wert von „a + bXi“ und dem Wert „Ui“ zusammen. Somit beschreibt Gleichung (2.5) die Entstehung der Y-Werte einer jeden Person (oder allgemeiner: einer jeden Erhebungseinheit), so wie sie empirisch beobachtet wurden.
ˆ ), die nur bei GülMit Gleichung (2.6) werden hingegen Y-Werte geschätzt ( Y i tigkeit eines bestimmten Statistikmodells entstehen, nämlich dann, wenn Y allein von X beeinflusst wird und keine Störgrößen vorliegen (Ui = 0). In der folgenden Abbildung 2.6 hat Person 13 den gemessenen X-Wert „5“ und den gemessenen Y-Wert „3“. Aufgrund der Lage der Regressionsgeraden wird für Person 13 bei einem gegebenen X-Wert von „5“ jedoch nicht der empirisch beobachtete Y-Wert „3“ ermittelt, sondern ein Y-Schätzwert von „4“. Es gilt ˆ = 4. Die Differenz aus gemessenem und geschätztem Y-Wert ist die also: Y 13 Störgröße „U13“. Im folgenden Text Z2.7 wollen wir unsere vorangegangenen Erläuterungen zur Regressionsanalyse noch einmal zusammenfassen:
Z2.7: In der linearen Regressionsgleichung des bivariaten Modells bezeichnet der a-Koeffizient (Intercept) den geschätzten Schnittpunkt der Regressionsgerade mit der Y-Achse (beim Wert Xi = 0), während der b-Koeffizient die geschätzte Steigung der Regressionsgerade über den gesamten Wertebereich von X angibt. Der b-Koeffizient berichtet das Ausmaß der zu erwartenden Veränderung in Y, wenn X um eine empirische Einheit vergrößert wird. Mit Hilfe der Regressionsgleichung kann für jeden X-Wert ein modellspezifischer Yˆ ). Wert geschätzt werden ( Y
ˆ -Wert von Person 13 aus der Abbildung Im Rechenbeispiel oben wurde der Y 2.6 abgelesen. Dabei benutzten wir die Regressionsgerade. Woher kennt man aber die Lage dieser Geraden? Dazu sind in der Regressionsanalyse die Regressionskoeffizienten zu ermitteln. Mit ihnen kann die Lage der Regressionsgeraden eindeutig bestimmt werden. Gleichzeitig erhält man mit dem Steigungskoeffizienten aber auch ein allgemeines Maß für den geschätzten Zusammenhang
2.2 Regression im bivariaten Modell
43
ˆ -Werte rechnerisch ermittelt werzwischen X und Y, mit dem ebenfalls die Y den können. Wie dies geschehen kann, soll im Folgenden erläutert werden. ˆ ) und Störgröße (U) Abbildung 2.6: Y-Schätzwert ( Y
U13
ˆ Y 13
Y13
Es sollte deutlich geworden sein, dass man sich die Regressionsanalyse als rechnerische Anpassung einer Geraden an vorgegebene Beobachtungswerte vorstellen kann. Eine solche Gerade wird umso enger an den beobachteten Werten ˆ -Werte an den liegen, je näher die bei einem bestimmten X-Wert geschätzten Y tatsächlich beobachteten Y-Werten liegen. Die geschätzten und die beobachteten Y-Werte können sogar identisch sein und liegen dann in ein und demselben Punkt auf der Regressionsgeraden. Da die beobachteten Werte aber in aller Regel um die Gerade streuen (weshalb, haben wir in Kapitel 2.1 verdeutlicht), gilt es diejenige Gerade zu finden, für die die Differenz zwischen allen Y und ˆ (jeweils von einem bestimmten X-Wert aus betrachtet) möglichst klein ist. Y Da diese Differenz auch gleich der Störgröße U ist (vgl. Abbildung 2.6), können wir ebenfalls sagen, dass es in der Regressionsanalyse darum geht, diejenige Gerade zu finden, für die die Summe aller Störgrößen U möglichst klein ist. In Abbildung 2.7 haben wir die Störgrößen (die auch „Residuen“ genannt werden) als senkrechte Geraden, die auf die Regressionsgerade stoßen, dargestellt.
44
2 Das Grundmodell der Regressionsanalyse
Die Summe aller dieser Geraden ist es, die minimiert werden muss, um zu der in Abbildung 2.7 bereits eingezeichneten Regressionsgeraden zu gelangen. Im Prinzip könnte diese Summe nach der Formel N
¦ (Yi Yˆi ) i 1
geschätzt werden. Allerdings ergäbe sich daraus kein zuverlässiges Schätzkriterium, da diese Formel bei jedem Datensatz stets mehrere Lösungen zuließe. ˆ Abbildung 2.7: Residuen (Störgrößen) zwischen Y und Y
Der Grund dafür, dass die oben aufgeführte Summenformel mehrere Lösungen zulässt, kann mit Hilfe von Abbildung 2.8 verdeutlicht werden. Dort sind die empirischen Positionen von drei Personen (für die jeweils ein X-Wert und ein Y-Wert ermittelt wurde) in ein Koordinatensystem eingezeichnet. Für die Lage der Regressionsgeraden, die den Zusammenhang zwischen X- und Y-Variable verdeutlichen soll, gibt es in Abbildung 2.8 zwei Möglichkeiten, nämlich die der gestrichelten und die der durchgezogenen Geraden. Die Summe der Differenzen ˆ -Werten ist bei zwischen den gemessenen Y-Werten und den geschätzten Y beiden Geraden jeweils null, obwohl offensichtlich die durchgezogene Gerade viel besser zu den Daten passt als die gestrichelte. Der Grund dafür ist, dass die ˆ -Werten unterschiedliche Vorzeichen Differenzen zwischen den Y- und den Y haben und sich so gegenseitig aufheben. Für jede Lösung (gestrichelt oder ungestrichelt) ist die Summe der Residuen mit negativem Vorzeichen gleich der Summe mit positivem Vorzeichen (vgl. Abbildung 2.8).
2.2 Regression im bivariaten Modell
45
Abbildung 2.8: Zwei Regressionsgeraden mit gleich guter Anpassung
() (+) (+) ()
(+) ()
1. Lösung (gestrichelt): () +
(+)
2. Lösung (durchgezogen): ()
+ +
(+) (+)
=0 +
()
=0
Um die Eindeutigkeit der Lösung wieder herzustellen, gibt es zwei Möglichkeiten, die beide die Bedeutung des Vorzeichens ausschalten: a) Die zu minimierende Summe wird aus den absoluten Differenzen der Werte (ohne Berücksichtigung der Vorzeichen) gebildet. Das Vorgehen nach diesem Kriterium wird „MAD-Schätzung“ genannt (MAD = Abkürzung der englischen Bezeichnung „minimum absolute deviations“): N
¦ Yi Yˆi i 1
b) Die zu minimierende Summe wird aus den quadrierten Differenzen der Werte gebildet, so dass die Vorzeichen keine Rolle mehr spielen. Dieses Vorgehen wird Kleinst-Quadrate-Methode oder OLS-Verfahren genannt (OLS = Abkürzung der englischen Bezeichnung „ordinary least squares“): N
¦ Yi Yˆi 2 i 1
Da die zweite Möglichkeit bestimmte statistische Eigenschaften aufweist (wie wir noch sehen werden), die die MAD-Schätzung nicht hat, benutzen wir im Folgenden ausschließlich die OLS-Schätzung. Sie ist die in den Sozialwissen-
46
2 Das Grundmodell der Regressionsanalyse
ˆ -Werte und zur schaften am weitesten verbreitete Methode zur Schätzung der Y Berechnung von Regressionskoeffizienten. Alle Statistik-Programmpakete für den EDV-Einsatz bieten auch die OLS-Schätzung für die Regressionsanalyse an.
Z2.8: Die Regressionsanalyse wird üblicherweise nach dem Schätzverfahren der Kleinst-Quadrate-Methode (OLS-Schätzung) durchgeführt.
Wie wir oben sahen, gilt für die Durchführung der OLS-Schätzung, dass die Summe N
S
¦ (Yi Yˆi ) 2
(2.7)
i 1
minimiert werden muss, um eine optimale Schätzung für die Regressionskoeffizienten zu erreichen. Ergänzung 2.1: OLS-Schätzung der Regressionskoeffizienten Da die Koeffizienten der Geraden Yi = a + bXi geschätzt werden sollen, muss die zu minimierende Gleichung (2.7) umgeschrieben werden. Dazu benutzen wir Gleichung (2.6), deren rechte Seite in Gleichung (2.7) eingesetzt wird. Es ergibt sich: N
S
¦(Y a bX ) i
2
(2.8)
i
i 1
Gleichung (2.8) kann nach den Regeln der Differenzialrechnung minimiert werden. Diese sollen hier nicht vorgestellt werden, können aber in entsprechenden Lehrbüchern der Mathematik leicht nachgeschlagen werden. Da diejenigen Werte von a und b gesucht sind, bei denen Gleichung (2.8) ein Minimum hat, muss nach den Regeln der Differenzialrechnung die erste Ableitung der Gleichung (2.8) für a und b gleich null gesetzt und sodann nach diesen beiden Koeffizienten aufgelöst werden. Was dies bedeutet, lässt sich mit wenigen Gleichungen leicht zeigen. Berechnen wir zuerst den Koeffizienten a: dS da
N
2
N
¦ d (Y ada bX ) ¦ 2(Y a bX ) (-1) i
i
i
i 1
i 1
i
N
2
¦(Y a bX ) i
i
0
i 1
Fortsetzung auf nachfolgender Seite
2.2 Regression im bivariaten Modell
47
Fortsetzung von Ergänzung 2.1 Dividiert man die Gleichung durch „–2“, so ergibt sich N
¦(Y a bX ) i
i
0
i 1
was bei Auflösung der Klammer umgeschrieben werden kann in N
N
¦Y Na b ¦X i
i 1
0
i
i 1
Zur Vereinfachung wollen wir nun annehmen, dass die X-Werte als Abweichungen der beobachteten Werte von ihrem Mittelwert (Xi = Xi – X ), d.h. als zentrierte Werte vorliegen. Dies ist zulässig, weil dadurch die absoluten Abstände zwischen den einzelnen XWerten unverändert bleiben. Die Subtraktion wird für jeden X-Wert ausgeführt und erzeugt allein eine Transformation der Rohwerte. Allerdings haben die so transformierten Werte die günstige Eigenschaft, aufsummiert den Wert „0“ zu ergeben ( Xi = 0), so dass die Gleichung umgeschrieben werden kann in: N
¦Y Na
0 , oder:
i
i 1
1 N
a
N
¦ Yi
(2.9)
Y
i 1
Nach der OLS-Methode ergibt sich also der Regressionskoeffizient a (der, wie wir uns erinnern, auch die Schnittstelle der Regressionsgeraden mit der Y-Achse markiert, vgl. Abbildung 2.6) als Mittelwert der beobachteten Y-Werte (bei zentrierten X-Werten). Die Berechnung von b erfolgt in der gleichen Weise: N
¦
dS db
i 1 N
2
N
d (Yi a bX i ) 2 db
¦X (Y a bX ) i
i
i
¦2(Y a bX ) (X ) i
i
i
0
i 1
0
i 1
N
N
N
¦X Y a ¦X b ¦X i
i
i
i 1
i 1
2
i
0
i 1
N
¦X Y i
b
i
i 1 N
¦X i 1
(2.10) i
2
48
2 Das Grundmodell der Regressionsanalyse
Für den Regressionskoeffizienten „a“ gilt also:
Z2.9: Unter der Voraussetzung, dass X zentriert wurde (Xi = Xi – X ), ist im bivariaten Modell der a-Koeffizient der Regressionsgleichung identisch mit dem Mittelwert aller beobachteten Y-Werte.
Für den Regressionskoeffizienten „b“ ergibt sich nach der OLS-Methode ein etwas komplizierterer Wert:
Z2.10: Unter der Voraussetzung, dass X zentriert wurde (Xi = Xi – X ), ist im bivariaten Modell der Regressionskoeffizient „b“ gleich der Summe des Produktes der X- und Y-Werte, dividiert durch die Summe der quadrierten X-Werte.
Die OLS-Schätzung soll im Folgenden an einem Beispiel veranschaulicht werden: Häufig wird das Lebensalter von Personen als ein soziodemographischer Bestimmungsfaktor für individuelle Orientierungen, Verhaltensweisen oder Ressourcen angesehen. So könnte man beispielsweise daran interessiert sein, wie stark die Höhe des individuellen Nettoeinkommens vom Alter einer Person bestimmt wird. Es könnte die Hypothese getestet werden, dass je älter eine Person einer bestimmten Sozialgruppe ist, umso höher ihr zu erwartendes Nettoeinkommen ausfällt. Die folgende Tabelle 2.2 zeigt die zur Analyse bereitstehenden (fiktiven) Daten und die einzelnen Rechenschritte zur Ermittlung der Regressionskoeffizienten (wir werden noch später in diesem Skript zeigen, dass die Einkommensvariable für eine Regressionsanalyse logarithmisch transformiert werden sollte). In unserem stark vereinfachten Beispiel misst die abhängige Variable (Y) das Euro-Nettoeinkommen (Spalte 2 in Tabelle 2.2) und die unabhängige Variable (X) das Lebensalter in Jahren (Spalte 3 in Tabelle 2.2). Die Spalten 4 bis 6 zeigen die Rechenschritte einer OLS-Schätzung, bei der zuerst die X-Werte zentriert werden.
2.2 Regression im bivariaten Modell
49
Nach Berechnung der Mittelwerte bzw. Summen (letzte Zeile in Tabelle 2.2) lassen sich die Regressionskoeffizienten a und b durch Einsetzen der entsprechenden Werte in die Gleichungen (2.9) und (2.10) leicht berechnen. Um die errechneten Werte besser verstehen zu können, muss die Zentrierung von X allerdings noch rückgängig gemacht werden. Dies geschieht, indem in Gleichung (2.11) statt X die Transformation (X – X ) eingesetzt wird. Die endgültige Regressionsgleichung zeigt Gleichung (2.12). a = Y = 1200 b
ˆ Y ˆ Y ˆ Y ˆ Y ˆ Y
¦ X i Yi ¦ Xi 2
46502 4964,96
9,37
= 1200 + 9,37 X = 1200 + 9,37 (X – X ) = 1200 + 9,37 (X – 40,92) = 1200 + 9,37 X – 383,42 = 816,58 + 9,37 X
(2.11)
(2.12)
(Die im Beispiel erzielten Ergebnisse sind vorläufig und werden später modifiziert, vgl. die Hinweise in Kapitel 1).
Die folgende Abbildung 2.9 zeigt die geschätzte Regressionsgerade, die den Zusammenhang zwischen den beobachteten Werten von X und Y (vgl. Tabelle 2.2) beschreibt. Sie lässt sich leicht in den Raum des X/Y-Koordinatenkreuzes einˆ -Werte bei X = 10 und X zeichnen, indem mit Hilfe von Gleichung (2.12) die Y = 75 ermittelt und durch eine Linie verbunden werden (vgl. Abbildung 2.9). Wem diese Koeffizientenberechnung zu umständlich erscheint, der sei damit getröstet, dass es hier allein um das Verständnis der Grundoperationen der Regressionsanalyse geht. Für die Forschungspraxis werden wir später einfach zu handhabende EDV-Programme kennen lernen, die die Berechnung der Regressionskoeffizienten ohne Anwendung der Inhalte von Z2.9 und Z2.10 ermöglichen.
Zurück zu unserem Beispiel: Wie lassen sich die erzielten Ergebnisse aus Gleichung (2.12) interpretieren? Die geschätzte Regressionsgerade hat eine positive Steigung, d.h. bei einem Anstieg der X-Werte (Lebensalter) vergrößern sich ˆ -Werte (Einkommen). Bei einem durchschnittlichen auch die erwarteten Y Nettoeinkommen von etwa 817 Euro (a = 816,58), das auch ohne Einfluss des Alters (Xi = 0) zu erwarten ist, bringt jedes zusätzliche Lebensjahr einen zu erwartenden Anstieg des Nettoeinkommens um etwa 9,37 Euro (b = 9,37).
50
2 Das Grundmodell der Regressionsanalyse
Der Abbildung 2.9 ist auch zu entnehmen, dass die tatsächlichen Einkommensbeträge einiger Personen relativ stark von den Werten auf der geschätzten Regressionsgeraden abweichen. Dies könnte darauf hindeuten, dass das spezifizierte Regressionsmodell eventuell einige wichtige Bestimmungsfaktoren für das personale Einkommen unberücksichtigt lässt, z.B. das Geschlecht oder die Schulund Berufsbildung der beobachteten Personen. Es könnte aber auch darauf verweisen, dass im hier analysierten Regressionsmodell ein Spezifikationsfehler vorliegt. Denn der Zusammenhang zwischen Alter und Nettoeinkommen muss nicht, wie hier angenommen, linear sein, sondern kann stattdessen auch kurvilinear sein (z.B. in der Form, dass das zu erwartende Nettoeinkommen am Anfang einer Berufskarriere ansteigt und nach Beendigung der aktiven Erwerbsarbeit wieder abfällt). In welcher Weise solche nicht-linearen Zusammenhänge und auch zusätzliche Variablen in einer Regressionsanalyse zu berücksichtigen sind, werden wir in den folgenden Kapiteln dieses Skripts noch ausführlich darstellen. Tabelle 2.2: Rechenschritte für eine OLS-Schätzung (Einkommensbeispiel) (1) Beobachtungsfall Nr. 1 2 3 4 5 6 7 8 9 10 11 12
(2) Nettoeinkommen in Euro
(3) Alter in Jahren
(4)
(5)
(6)
Yi
Xi
Xi – X
(Xi – X )2
(Xi – X ) Yi
100 1600 1000 0 1500 2000 1400 2500 1500 800 1550 450 Y = 1200
17 52 20 10 25 41 31 52 59 71 38 75 X = 40,92
-23,92 11,08 -20,92 -30,92 -15,92 0,08 -9,92 11,08 18,08 30,08 -2,92 34,08
-2392,00 572,17 17728,00 122,77 -20920,00 437,65 0,00 956,05 -23880,00 253,45 160,00 0,01 -13888,00 98,41 27700,00 122,77 27120,00 326,89 24064,00 904,81 -4526,00 8,53 15336,00 1161,45 (Xi – X )2 (Xi – X )Yi = 4964,96 = 46502
2.2 Regression im bivariaten Modell
51
Abbildung 2.9: Regressionsgerade der OLS-Schätzung nach Tabelle 2.2 2500
Einkommen (in Euro)
2000
1500
1000
500
0 0
10
20
30 40 50 Alter (in Jahren)
60
70
80
2.2.2 Varianzzerlegung der abhängigen Variablen (Y)
In fast allen vorangegangenen Abbildungen, zuletzt in Abbildung 2.9, war deutlich zu erkennen, dass die empirischen Y-Werte in einer gewissen Bandbreite streuen. Für verschiedene X-Werte erhält man verschiedene Y-Werte. Und wenn man für einen bestimmten X-Wert mehrere Y-Werte beobachten kann, so sind diese in aller Regel auch nicht identisch. Diese Streuung der Y-Werte wird als Variation von Y bezeichnet. Welches sind die Gründe für die Variation von Y im Regressionsmodell? Die Antwort müsste nach dem, was wir hier bislang zur Regressionsanalyse gesagt haben, einfach sein. Es gibt dafür vor allem zwei Gründe: Die beobachtete Variation von Y entsteht a) durch die Variation der X-Werte bzw. durch den Einfluss, den die X-Variable auf die Y-Variable ausübt, und b) durch nicht kontrol-
52
2 Das Grundmodell der Regressionsanalyse
lierbare Einflüsse von außerhalb des Modells, z.B. durch Einflüsse von Variablen, die nicht im Modell berücksichtigt wurden oder die überhaupt nicht gemessen werden konnten. Deshalb sollte in jeder Regressionsanalyse nach demjenigen Anteil der Variation von Y gefragt werden, der durch die X-Variation verursacht wird, und auch derjenige Anteil der Y-Variation bestimmt werden, der auf das Konto von dritten (häufig auch unbekannten) Variablen geht. Es müsste dafür eine Maßzahl geben. Um zu erläutern, wie man zu solch einer Maßzahl gelangen kann, wollen wir zunächst ein Maß für die Variation bestimmen: Vorausgesetzt es gäbe keine Variation in Y, so wären für verschiedene X-Werte alle Y-Werte identisch. Sie lägen alle auf einer horizontalen Linie, die parallel zur X-Achse verliefe. Alle Y-Werte hätten dann den gleichen Wert, der auch identisch mit ihrem arithmetischen Mittelwert Y wäre. Wenn jedoch die YWerte ein gewisses Ausmaß an Variation aufweisen, so liegen sie ober- und unterhalb dieser horizontalen Linie. Somit können die Y-Werte auch als Abweichungen (oder Differenzen) von ihrem Mittelwert verstanden werden. Wenn dann alle diese Differenzen aufsummiert werden, ergibt diese Summe eine Maßzahl für die Gesamtvariation von Y. Allerdings müssen wir bei der Kalkulation der Variation noch berücksichtigen (wie auch schon beim Schätzkriterium der OLS-Technik), dass sich bei einer bloßen Addition von Differenzen die Werte mit unterschiedlichem Vorzeichen gegenseitig aufheben werden. Um dies zu vermeiden, sollten die Differenzen (bzw. Abweichungen) quadriert werden, bevor sie addiert werden. Die Variation einer Variablen wird deshalb berechnet als Summe von deren Abweichungsquadraten (SAQ): SAQY = (Yi Y )2
(2.13)
Die Berechnung einer Variation ist mithin abhängig vom Mittelwert der variierenden Variablen. Eine Variable variiert stets (per definitionem) um ihren Mittelwert herum. Daraus lässt sich die folgende Überlegung ableiten: Angenommen es seien alle Y-Werte einer bestimmten Stichprobe bekannt, und es sei der konkrete Y-Wert einer bestimmten Person i zu schätzen (z.B. deren Einkommen), ohne irgendetwas über einen Einfluss der Variablen X auf Y zu
2.2 Regression im bivariaten Modell
53
wissen. Dann ist die beste Schätzung von Yi dadurch zu erreichen, dass als Schätzwert der Mittelwert des Einkommens aller befragten Personen angegeben wird. Denn bei sehr vielen unabhängigen Wiederholungen dieser Schätzung ist eine Abweichung des Schätzwertes nach oben, d.h. eine Überschätzung des tatsächlichen Y-Wertes, genauso wahrscheinlich wie eine Unterschätzung des tatsächlichen Y-Wertes. Wenn wir also in unserem Einkommensbeispiel das Einkommen von Person A aus dem in Tabelle 2.2 vorgestellten Datensatz vorhersagen müssten, ohne etwas über den Einfluss des Alters auf das Einkommen zu wissen (deshalb wird dieses Schätzmodell auch als „Null-Modell“ bezeichnet), so wäre der beste Schätzwert, den wir benutzen könnten, der Wert des mittleren Nettoeinkommens ( Y = 1200) aller befragten Personen. Da wir aber mit Hilfe der OLS-Technik eine lineare Beziehung zwischen X und Y geschätzt haben, können wir versuchen, eine bessere Vorhersage von Y zu erreichen, indem wir bei der Schätzung auch die Größe von X berücksichtigen (vorausgesetzt wir kennen das Alter derjenigen Person, für die wir das Einkommen schätzen wollen). Wir würden dann als Schätzwert von Yi den Wert nenˆ auch auf der Regressionsgeraden in nen, der als geschätzter Regressionswert Y i Abbildung 2.9 zu finden ist, wenn auf dem Wert von Xi eine Senkrechte errichtet wird, welche die Regressionsgerade genau in diesem Punkt schneidet. Diese Überlegung können wir auch nutzen, um zu sehen, wie gelungen unsere Schätzung der Regressionsgeraden ist. Dazu wollen wir die gesamte Variation der Y-Variablen in den Anteil aufteilen, der durch den Einfluss von X entstanden ist, und in den Anteil, der durch den Einfluss anderer (Stör-)Variablen verursacht wurde. Betrachten wir dazu die folgende Abbildung 2.10. Darin ist die geschätzte Regressionsgerade eingezeichnet. Wir finden dort aber auch die Gerade, auf der für jeden X-Wert derjenige Y-Wert liegen würde, den wir ohne Kenntnis von X für Y vorhergesagt hätten. Da dies immer der Mittelwert Y wäre (s.o.), verläuft diese Gerade in Abbildung 2.10 beim Wert Y parallel zur X-Achse. Greifen wir nun eine beliebige Person i aus unserer Stichprobengruppe heraus, so wird deren Position in Abbildung 2.10 durch die Werte von Xi und Yi festgelegt. Zudem haben wir für diese Person aufgrund unserer OLS-Schätzung auch den ˆ . Dieser liegt in Höhe von Xi genau auf der Regressionsgeraden. Schätzwert Y i
54
2 Das Grundmodell der Regressionsanalyse
Abbildung 2.10: Zerlegung der Variation von Yi bei Xi Beobachtung (Xi,Yi)
ˆi Yi Y
Yi Y ˆiY Y
Yi
Y
ˆi Y
Y
Xi
Mit Hilfe von Abbildung 2.10 können wir die Zusammensetzung der Variation von Yi neu bestimmen: Entsprechend unserer obigen Erläuterung ist die Variation die Summe der quadrierten Distanzen zwischen Yi und Y . Die Distanz (Yi – Y ) ist für einen Beobachtungsfall in Abbildung 2.10 eingezeichnet. Sie setzt ˆ und dem Mittelwert Y sich aus der Differenz zwischen dem Schätzwert Y i plus des Ausmaßes der Störvariablen Ui zusammen. Und die Störvariable Ui lässt sich als Differenz zwischen empirischem Y-Wert und geschätztem Y-Wert ˆ ). Als Gleichung geschrieben ergibt sich für die Variabestimmen: (Ui = Yi – Y i tion des Wertes Yi bei einem Fall: (Yi – Y )
=
Distanz zwischen empirischem Wert und Mittelwert
ˆ – Y) (Y i
+
Distanz zwischen geschätztem Wert und Mittelwert
ˆ ) (Yi – Y i Distanz zwischen empirischem Wert und geschätztem Wert
(2.14)
2.2 Regression im bivariaten Modell
55
Die Gleichung (2.14) beschreibt die Variationszerlegung für eine einzige Beobachtung. Wollen wir die Variationszerlegung für ein gesamtes Regressionsmodell beschreiben, müssen wir Gleichung (2.14) so umschreiben, dass die Distanzen aller Fälle berücksichtigt werden:
¦ (Yi Y) 2 ¦ (Yˆi Y) 2 ¦ (Yi Yˆi ) 2
(2.15)
Jede der drei Summen in Gleichung (2.15) wird als „Summe der Abweichungsquadrate“ (SAQ) im oben erläuterten Sinne bezeichnet. Gleichung (2.15) besteht somit aus den drei Summen: SAQB = Summe der beobachteten Abweichungsquadrate aller Fälle, die in die Regressionsschätzung einbezogen wurden; SAQR = Summe der im Regressionsmodell geschätzten Abweichungsquadrate aller Fälle, die in die Regressionsschätzung einbezogen wurden; SAQF = Summe der Abweichungsquadrate für die modellspezifischen Fehlerbzw. Störgrößen (Ui) aller Fälle, die in die Regressionsschätzung einbezogen wurden. Die folgende Gleichung (2.15a) ergibt sich durch Umformung aus Gleichung (2.15): (2.15a) SAQB = SAQR + SAQF ˆ ist, desto näher liegt die Regressionsgerade Je besser die Schätzung für die Y i ˆ befinden) an den beobachteten Yi. Mit jeder Verbesse(auf der sich ja alle Y i rung der Schätzung werden auch die Ui kleiner. Im Idealfall ist die Schätzung so gut, dass alle Yi auf der Regressionsgeraden liegen und alle Ui einen Wert von „0“ annehmen. Dann ist in Gleichung (2.15a) die beobachtete Variation (SAQB) gleich der Variation des Regressionsmodells (SAQR). Dementsprechend lassen sich die drei SAQ-Summen auch hinsichtlich ihrer Variationsbedeutung definieren: SAQB ist die gesamte beobachtete und maximal in einer Regressionsschätzung zu „erklärende“ bzw. „auszuschöpfende“ Variation;
56
2 Das Grundmodell der Regressionsanalyse
SAQR ist der Variationsanteil von SAQB, der durch eine bestimmte Regressionsschätzung „erklärt“ bzw. „ausgeschöpft“ wird; SAQF ist der in einer bestimmten Regressionsschätzung „unerklärt“ bzw. „unausgeschöpft“ gebliebene Variationsanteil der Gesamtvariation SAQB. Einige Leser mit statistischen Vorkenntnissen werden sich hier bestimmt daran erinnern, dass es in der Statistik neben dem hier benutzten Streuungsmaß „Variation“ auch das Streuungsmaß „Varianz“ gibt. Die Varianz ist gleich der Variation, allerdings dividiert durch die Anzahl der Beobachtungen, also:
Varianz
1 N
N
¦(Yi Y) 2 i 1
Wir können demnach ohne Bedenken die Gleichung (2.15) auch als Gleichung bezeichnen, nach der in einem Regressionsmodell die Varianzzerlegung durchgeführt wird. Bei einer idealen Schätzung, in der SAQF = 0 ist und alle beobachteten Y-Werte auf der Regressionsgeraden liegen, spricht man in der Regressionsanalyse auch davon, dass mit Hilfe des Regressionsmodells die gesamte Varianz von Y oder 100% der Varianz von Y „erklärt“ wurde(n). Wie wir gesehen haben, gibt es im Regelfall natürlich keine ideale Schätzung. In der sozialwissenschaftlichen Forschungspraxis „erklärt“ X nur einen gewissen Anteil der Varianz, vielleicht 40% oder auch nur 10%. Wichtig für den Begriff der „Varianzerklärung“ ist es, sich an die vorangegangenen theorieorientierten Bemerkungen zu erinnern. Im eigentlichen Sinne „erklärt“ X im Regressionsmodell natürlich überhaupt nichts. Die Aussage, dass X etwas erklärt, ist immer das Ergebnis einer theoretischen Analyse, aber nicht ein Ergebnis, das uns die Regressionsanalyse frei Haus liefert. Die Regressionsanalyse erbringt allein eine modellbezogene Schätzung der Y-Werte mit einem bestimmten Bewertungskriterium für den Erfolg dieser Schätzung. Und nur in loser Analogie zu theoretischen Argumentationsformen wird dieses Kriterium dann häufig „Anteil der von X erklärten Varianz in Y“ genannt. Deshalb sollte in der Regressionsanalyse nicht vom Anteil „erklärter Varianz“, sondern vom Anteil der im Regressionsmodell „ausgeschöpften Varianz“ oder
2.2 Regression im bivariaten Modell
57
„gebundenen Varianz“ gesprochen werden. Auf diese Weise wird berücksichtigt, dass mit einer Regressionsschätzung unter wissenschaftstheoretischen Gesichtspunkten keine Erklärungsleistung zu erbringen ist. Wer trotzdem nicht auf den irreführenden Begriff „erklärte Varianz“ verzichten will, sollte ihn aber zumindest in Anführungszeichen setzen. Wie wird nun der durch ein Regressionsmodell ausgeschöpfte Anteil der Varianz von Y berechnet? Dafür gibt es zwei Möglichkeiten, von denen wir im Moment eine Möglichkeit leicht nachvollziehen können (die andere Möglichkeit wird einige Seiten später vorgestellt): Dividiert man die modellgebundene Variation durch die beobachtete Variation, so erhält man folgende Maßzahl:
modellgebundene Variation beobachtete Variation
SAQR SAQB
¦(Yˆ Y) ¦(Y Y)
2
i
2
R2
(2.16)
i
Die Maßzahl R2 wird als „Determinationskoeffizient“ oder auch „Bestimmtheitsmaß“ bezeichnet. Dieser Koeffizient lässt sich in analoger Weise auch bei Benutzung des Varianzkonzepts als Quotient ableiten (vgl. Gleichung 2.16a): modellgebundene Varianz beobachtete Varianz
ˆ) Var (Y Var (Y)
R2
(2.16a)
Der Determinationskoeffizient R2 kann Werte annehmen, die zwischen 0 und 1 liegen (0 R2 1). Hat R2 einen Wert nahe 1,00, so liegt eine optimale Modellschätzung der Y-Werte vor. Ist die Schätzung schlecht, nimmt R2 Werte nahe 0,00 an. Mit dem Wert „100“ multipliziert ergibt R2 den Anteil ausgeschöpfter Varianz (R2×100 = Anteil ausgeschöpfter Varianz). In unserem Beispiel aus Tabelle 2.2 ist R2 gleich 0,07. In dem dort geschätzten Regressionsmodell bindet das Alter also (nur) 7% der Gesamtvarianz des Nettoeinkommens. Der Wert von R2 lässt sich mit Hilfe von Gleichung (2.16) berechnen. Im Falle des Beispiels aus Tabelle 2.2 müssen also zunächst für jeden X-Wert unter ˆ -Werte beVerwendung der geschätzten Regressionsgleichung (2.12) die Y i rechnet werden. Sodann sind jeweils die Differenzen zwischen den geschätzten ˆ ) und dem Mittelwert ( Y ) zu bilden, diese zu quadrieren ( Y ˆ – Y )2 Werten ( Y i i
58
2 Das Grundmodell der Regressionsanalyse
ˆ – Y )2. Um den Nenner von Gleichung (2.16) zu und aufzusummieren ( Y i ˆ -Werte berechnen, ist ähnlich zu verfahren, nur brauchen nicht zuerst die Y i berechnet zu werden, sondern es können die Rohwerte von Y benutzt werden. Die Division beider Summen ergibt R2. Da dieses Verfahren relativ umständlich ist, und die standardisierten EDVProgramme zur Regressionsanalyse den Wert von R2 direkt berechnen (vgl. dazu Kapitel 3.4), wird hier auf ein ausführlicheres Zahlenbeispiel verzichtet. Natürlich lässt sich der Determinationskoeffizient aus Gleichung (2.16) auch noch in anderer Weise berechnen. Möglich ist auch die Gleichung:
1
Fehlervariation beobachtete Variation
1
SAQF SAQB
R2
(2.17)
Allerdings wird im strikten statistischen Sinne mit Gleichung (2.17) ein Koeffizient berechnet, der allein Aussagen über die Güte der Schätzung, nicht aber über den im Modell ausgeschöpften Varianzanteil von Y zulässt. Andererseits ist Gleichung (2.17) jedoch auch dann möglich, wenn die Regressionsgerade mit einem anderen als dem OLS-Verfahren geschätzt wurde, während Gleichung (2.16) nur für dieses eine Verfahren gilt. Wem dies zu spitzfindig erscheint, mag sich damit trösten, dass die Gleichungen (2.16) und (2.17) zahlenmäßig identische Ergebnisse liefern. Als eine Ergänzung zum Determinationskoeffizienten (R2) wird von einigen Sozialforschern der Standardschätzfehler (standard error of estimate) „SEE“ betrachtet. Er wird für die bivariate Regressionsschätzung als Quadratwurzel aus der Varianz des Schätzfehlers berechnet: SEE
¦(Y Yˆ ) i
2
i
N2
(2.17.1)
was in anderer Schreibweise auch zu bestimmen ist als: SEE
SAQ F N2
(2.17.2)
In der Regressionsschätzung mit SPSS wird der SEE als „Standardfehler des Schätzers@ ausgegeben (vgl. Kap. 3.5).
2.2 Regression im bivariaten Modell
59
Der Standardschätzfehler (SEE) berichtet den durchschnittlichen Schätzfehler einer Regressionsschätzung in der Metrik der abhängigen Variablen (Y). Er informiert über das mittlere Fehlerausmaß, das bei Verwendung einer bestimmten Regressionsgleichung zu erwarten ist, und bestimmt die Höhe dieses mittleren Fehlers in den empirischen Skaleneinheiten der Y-Variablen. So erzeugt z.B. die Schätzung im oben benutzten Beispiel (Tab. 2.2) einen SEE von 762,14. Dieser Wert bedeutet: Im Durchschnitt weicht das aufgrund der Regresˆ ) vom tatsächlichen Einkommen (Y) sionsanalyse geschätzte Einkommen ( Y um einen Betrag von 762,14 Euro ab. Somit entspricht die durchschnittliche Abweichung von 762,14 Euro einem Prozentsatz von 63,5% des mittleren tatsächlichen Einkommens ( Y ) von 1200,00 Euro. Warum es sinnvoll sein kann, bei der Interpretation einer Regressionsschätzung ergänzend zum Determinationskoeffizienten (R2) auch den Standardschätzfehler (SEE) zu berücksichtigen, werden wir im anschließenden Unterkapitel 2.2.3 erörtern. 2.2.3 Der problematische Determinationskoeffizient (R2), Teil 1
Auf den ersten Blick ist der Determinationskoeffizient eine überzeugende Maßzahl, um den statistischen Erfolg einer Regressionsschätzung zu beschreiben. Dadurch, dass der Koeffizient die modellgebundene Varianz bezüglich der beobachteten Gesamtvarianz relativiert, scheint er auch in idealer Weise dazu geeignet zu sein, mehrere Modellschätzungen miteinander vergleichbar zu machen. Dementsprechend ist in der Praxis der Regressionsanalyse oftmals auch eine Jagd nach einem hohen R2 zu beobachten. Die Stunde des Glücks scheint demjenigen geschlagen, dessen Regressionsmodell ein R2 von über 0,60 aufweist. Bei näherem Hinsehen erweist sich der Wert des Determinationskoeffizienten jedoch als zweischneidige Angelegenheit. Warum das so ist, wollen wir im Folgenden verdeutlichen. Aus Gleichung (2.16a) lässt sich auch eine andere Definition von R2 im bivariaten Regressionsmodell ableiten. In dieser Definition wird, wie die rechte Seite von Gleichung (2.18) zeigt, die Größe des Determinationskoeffizienten durch den Regressionskoeffizienten b sowie durch die Varianzen der unabhängigen Variablen X und der Fehlergröße U bestimmt.
60
2 Das Grundmodell der Regressionsanalyse
R2
ˆ) Var(Y Var(Y)
b 2 Var(X) b Var(X) Var(U) 2
(2.18)
Eine Veränderung von nur einer der drei in Gleichung (2.18) genannten R2Komponenten kann bereits eine beträchtliche Veränderung des Determinationskoeffizienten zur Folge haben. Was bedeutet das? 1.) Wenn das gleiche Regressionsmodell in zwei verschiedenen Populationen geschätzt wird und in beiden Populationen auch eine gleich starke Beziehung zwischen X und Y ermittelt wird (mit einem gleich großen Ausmaß an Fehlervarianz), ist R2 dennoch für die Schätzung mit der größeren X-Varianz größer. 2.) Wenn das gleiche Regressionsmodell in zwei verschiedenen Populationen geschätzt wird und dabei die Varianzen von X und Y gleich groß bleiben, jedoch die Einflussstärke von X auf Y unterschiedlich ist, dann ist in der Schätzung mit dem größeren b-Koeffizienten auch der R2-Koeffizient größer. 3.) Wenn das gleiche Regressionsmodell in zwei verschiedenen Populationen geschätzt wird und dabei die Varianz von X und die Einflussstärke von X auf Y gleich groß sind, jedoch die Residualvarianz zwischen den Schätzungen variiert, hat die Schätzung mit der kleineren Varianz von U den größeren R2-Koeffizienten. Aus den genannten Gründen kann in einer Population A zwar die Einflussstärke einer Variablenbeziehung kleiner sein als in einer Population B, jedoch kann in Population A dennoch der R2-Koeffizient den größeren Wert annehmen. Dies lässt sich an folgendem Beispiel verdeutlichen: Unter bestimmten Bedingungen könnte Bildung einen schwächeren Effekt auf das Einkommen unter Männern (Population A) als unter Frauen (Population B) haben. Wenn aber die Bildungsunterschiede zwischen Männern größer sind (und deshalb die Varianz von X in Population A höher ist als in Population B), dann könnte dennoch die Regressionsschätzung in der Männerpopulation das größere R2 aufweisen. Es wäre dann also keinesfalls so, dass aufgrund eines größeren Determinationskoeffizienten auch der Effekt von Bildung auf Einkommen stärker sein muss als in der Schätzung mit dem kleineren Wert von R2.
2.2 Regression im bivariaten Modell
61
Allerdings könnte sich auch alles ganz anders darstellen: Im zuvor genannten Beispiel müssten die beiden R2-Koeffizienten nicht unterschiedlich sein, sondern könnten auch gleich groß sein (obwohl nach wie vor in beiden Populationen A und B eine ungleiche Einflussstärke bestünde). Wenn z.B., wie oben gehabt, der Effekt von Bildung auf Einkommen unter Frauen stärker ist als unter Männern und wenn auch gleichzeitig die Streuung der Bildungsgrade unter Männern größer ist als unter Frauen, aber wenn jetzt dieser Größenunterschied nicht allzu groß ausfiele (wenn jetzt z.B. die Bildungsvarianz unter Männern nur das Zweifache statt zuvor das Vierfache der Bildungsvarianz unter Frauen erreichte), dann könnten die R2-Werte in beiden Populationen auch gleich groß ausfallen. Bei der Bewertung eines Determinationskoeffizienten sollte also immer nach den Gründen dafür gesucht werden, warum der Koeffizient einen bestimmten Wert angenommen hat und warum dieser Wert im Vergleich zu anderen Studien eher groß oder eher klein ausfällt. Dabei ist zunächst an die drei oben genannten R2-Komponenten zu denken (Effektstärke, exogene Varianz, Residualvarianz). Es ist dann aber auch an die Ursachen dafür zu denken, warum die R2-Komponenten bestimmte Ausprägungen aufweisen. Wenn z.B. der R2-Koeffizient klein ist, dann kann das daran liegen, dass seine Komponenten negativ beeinflusst werden, und zwar a) durch die fehlerhafte Messung von Variablen, b) durch den fehlerhaften Ausschluss erklärungskräftiger X-Variablen, c) durch eine fehlerhafte Modellspezifikation (z.B. falsche Linearitätsannahmen). In welcher Weise die Höhe des Determinationskoeffizienten (R2) einer Regressionsschätzung von der Adäquanz der jeweiligen Modellspezifikation und von der Qualität der zur Verfügung stehenden Daten abhängig ist, kann auch mit Hilfe der nachfolgenden Abbildungen 2.11a bis 2.11g verdeutlicht werden (nach Anscombe 1973):
62
2 Das Grundmodell der Regressionsanalyse
Abbildung 2.11: Lineare Regressionsschätzungen mit identischem Determinationskoeffizienten (Modelle a bis d mit hohem R2 und Modelle e bis g mit R2 = 0) (a)
(b)
(c)
(d)
(e)
(f)
(g)
Im idealen Falle entspricht ein hoher R2-Wert (in einem bivariaten Modell) einer Regressionsschätzung, wie sie in Abbildung 2.11a dargestellt wird. Die Abstände zwischen den Yi-Werten und der Regressionsgeraden sind gering, der Zusammenhang zwischen X- und Y-Variablen ist eindeutig linear, und die verschiedenen anderen Fehlermöglichkeiten, die oben genannt wurden, sind nicht vorhanden. Ein hohes R2 scheint diesen idealen Zustand zu beschreiben. Jedoch weisen die Modelle 2.11a bis 2.11d alle den gleichen Wert für R2 auf. Und die
2.2 Regression im bivariaten Modell
63
Modelle 2.11b, 2.11c und 2.11d besitzen bei weitem nicht mehr die idealen Schätzbedingungen, die (vielleicht) für Modell 2.11a gelten. Das Modell 2.11b zeigt einen nicht-linearen Zusammenhang zwischen X- und Y-Variable, der allein über das hohe R2 nicht entdeckt worden wäre. Die Regressionsgerade belegt, dass hier ein lineares Modell für einen nicht-linearen Kontext spezifiziert wurde (zur Analyse nicht-linearer Regressionsmodelle vgl. Kapitel 4.3). In Modell 2.11c wird eine Zeitreihe dargestellt (wie z.B. die Entwicklung des Finanzeinkommens einer Person), bei der von vornherein deutlich wird, dass Y im Zeitverlauf anwächst. Da aber die Berechnung und Interpretation von R2 auf der Vorstellung beruht, dass die Mittelwertschätzung von Y um den Wert von R2 in der Regressionsschätzung verbessert wird, ergibt für eine solche Zeitreihe eine Mittelwertschätzung (und damit auch die Berechnung von R2) keinen Sinn. Die R2-Berechnung berücksichtigt nicht das Vorwissen über den automatischen Anstieg von Y über die Zeit (zur Analyse von autokorrelativen Regressionsmodellen vgl. Kapitel 4.7). In Modell 2.11d ist praktisch keine Variation in X vorhanden, die die Variation von Y binden könnte. Die Regressionsgerade wird allein durch den einen extremen Wert am Ende der X-Skala bestimmt. Ohne ihn wäre die Regressionsgerade eine Parallele zur X-Achse, die ohne Steigung durch den Mittelwert von Y verliefe. Der Determinationskoeffizient hätte dann einen Wert von 0,00. Zudem ist es höchst wahrscheinlich ein Stichproben- oder Messfehler, der den extremen Wert von X und damit auch den Wert von R2 erzeugt. Ähnlich wie bei einem hohen R2 lässt sich für R2 = 0 die Problematik des Determinationskoeffizienten aufzeigen. Denn keineswegs gilt stets der Umkehrschluss, dass bei niedrigem R2 die unabhängige Variable nur einen geringen oder überhaupt keinen Einfluss auf Y ausübt. Das Modell 2.11e zeigt den negativen Idealfall eines Modells mit R2 = 0, bei dem der b-Koeffizient einen Wert von 0,00 annimmt und die Regressionsgerade parallel zur X-Achse verläuft. Die Variable X hat dabei keinen Einfluss auf Y, vorausgesetzt, dass die Verteilung der Beobachtungsfälle nicht ein bloßes Artefakt ist, das von Messfehlern verursacht wird.
64
2 Das Grundmodell der Regressionsanalyse
Eine weitere Möglichkeit, einen sehr niedrigen Determinationskoeffizienten zu erhalten, zeigt Modell 2.11f. Dort wurde (ähnlich wie bei Modell 2.11b) das Regressionsmodell mit einem linearen Funktionszusammenhang spezifiziert, obwohl der empirische Zusammenhang zwischen X und Y nicht-linearer Art ist. In solchen Fällen kann eine Regressionsgerade keine gute Schätzung erbringen. Die Abweichung von der unterstellten Linearitätsbeziehung ist im Unterschied zu Modell 2.11b sogar dermaßen groß, dass die lineare Regressionsschätzung einen Regressionskoeffizienten von b = 0,00 ermitteln muss, obwohl ein deutlicher Einfluss von X auf Y anhand der in Abbildung 2.11f gezeigten Werteverteilung zu erkennen ist (zur Analyse nicht-linearer Regressionsmodelle vgl. Kapitel 4.3). Das Modell 2.11g weist keine Variation der Y-Variablen auf. Bei nicht vorhandener Y-Variation kann es auch keine Variationszerlegung von Y geben, und damit besitzt auch die Frage nach den Anteilen von ausgeschöpfter und nichtausgeschöpfter Varianz keinen Sinn. Genau wie in Modell 2.11d könnte hier ein einziger abweichender Wert (im Unterschied zu Modell 2.11d müsste dieser jedoch ein Y-Wert sein) eine positive oder negative Regressionsschätzung erzeugen. Mit den Modellen 2.11a bis 2.11g wollten wir deutlich machen, dass der Determinationskoeffizient zwar ein nützliches Maß zur Beurteilung der Angemessenheit einer Regressionsschätzung ist, aber im Gegensatz zur landläufigen statistischen Praxis sehr bedacht eingesetzt und interpretiert werden sollte. Häufig ist es in der Forschungspraxis bestimmt viel sinnvoller, die Komponenten von R2 (s.o.) sowie deren Bestimmungsgrößen (s.o.) zu analysieren als den Wert von R2 selbst. Überhaupt sollte in jeder Regressionsanalyse zusätzlich zu R2 immer auch der Standardschätzfehler (SEE) interpretiert werden (vgl. Gleichung 2.17.1). Und generell sollte gelten, dass es in der Regressionsanalyse wichtiger ist, ein korrekt spezifiziertes Modell mit signifikanten und/oder nicht-signifikanten Effekten zu interpretieren (zur Signifikanz der Regressionsschätzung (FTest) und einzelner ihrer Effekte (t-Test) vgl. Kapitel 3) als ein Modell mit hohem R2-Wert zu erzielen, bei dem unklar bleibt, aufgrund welcher Faktoren die hohen R2-Werte zustande gekommen sind. In Kapitel 2.3.4 („Der problematische Determinationskoeffizient, Teil 2“) werden wir noch einmal einige Risiken von R2 auflisten und dabei auch die besondere Problematik von R2 in multivariaten Regressionsmodellen (das sind Modelle mit mehreren X-Variablen) berücksichtigen.
2.2 Regression im bivariaten Modell
65
Z2.11: Der Determinationskoeffizient (R2) berichtet den in einer Regressionsschätzung ermittelten, ausgeschöpften (bzw. gebundenen, bzw. „erklärten“) relativen Anteil der Variation (Varianz) der abhängigen Y-Variablen. Dabei ist der Begriff einer „erklärten Varianz“ missverständlich und sollte vermieden werden. Der Determinationskoeffizient indiziert den relativen Zuwachs an Prognosegenauigkeit, der zu erreichen ist, wenn die beobachteten Werte einer Y-Variable mittels einer Regressionsschätzung in Abhängigkeit von X-Werten vorhergesagt werden sollen (im Vergleich zu einer Vorhersage, bei der allein das arithmetische Mittel der YWerte benutzt wird = Null-Modell). Der Determinationskoeffizient wird in der Forschungspraxis als ein Indikator für die Güte einer Regressionsschätzung benutzt. Er ist sehr störanfällig und kann durch vielfältige Fehlerquellen verzerrt werden (vgl. dazu die Kapitel 2.2.3 und 2.3.4). Deshalb sollten zusätzlich zu R2 immer auch der Standardschätzfehler (SEE) und die Signifikanz des Gesamtmodells (F-Test) interpretiert werden.
2.2.4 Regression und Standardisierung
Einigen Lesern mag bereits der Gedanke einer engen Verwandtschaft zwischen Regressions- und Korrelationsanalyse gekommen sein. In der Tat besteht zwischen beiden ein Ableitungsverhältnis, insbesondere wenn man sich auf die Analyse von bivariaten Modellen konzentriert. Für multivariate Modelle, die in den nächsten Unterkapiteln noch vorgestellt werden, sind jedoch die folgenden Bemerkungen nicht ohne weiteres zu verallgemeinern. Erinnern wir uns zunächst an das Statistikmodell der Pearsonschen ProduktMoment-Korrelation und schauen uns dazu Abbildung 2.12 an. Die Abbildung zeigt einzelne Beobachtungsfälle, die als Datenpunkte in ein Koordinatensystem eingetragen wurden, das von einer X-Achse und einer Y-Achse aufgespannt wird. In diesem Koordinatensystem kann jeder Beobachtungsfall nicht nur aufgrund seines jeweiligen Y- und X-Wertes positioniert werden, sondern auch aufgrund der Abweichungen beider Werte vom jeweils dazugehörigen Mittelwert. So kann z.B. die Position von Fall Nr. 15 durch die zwei Koordinaten
66
2 Das Grundmodell der Regressionsanalyse
(X15 X ) und (Y15 Y ) anstatt durch die Koordinaten (X15) und (Y15) festgelegt werden. Eine solche Koordinatenbestimmung ist uns nicht ganz fremd. Bei der Schätzung des Regressionskoeffizienten hatten wir bereits die X-Werte in ihre Abweichungen vom Mittelwert transformiert. Jetzt geschieht das Gleiche auch mit den Y-Werten. Im Prinzip wird dadurch ein neues Koordinatensystem aufgespannt, bei dem die Koordinatenachsen durch die Werte von X und Y verlaufen. Dadurch entstehen zwischen alter Y- und X-Achse vier Quadranten (vgl. dazu Abbildung 2.12). Abbildung 2.12: Fallbezogene Koordinaten als Mittelwertabweichungen
X
Y Y
X
Zur Berechnung des Pearsonschen Korrelationskoeffizienten werden für jeden Beobachtungsfall die Differenzen bzw. Mittelwertabweichungen der X- und YVariablen miteinander multipliziert: (Yi – Y ) × (Xi – X ). Für die Fälle, die in den Quadranten I und III liegen, ergeben sich dabei positive Produkte („positiv × positiv“ bzw. „negativ × negativ“), während die Produkte für Fälle in den Quadranten II und IV negativ werden („positiv × negativ“ bzw. „negativ × positiv“). Die Addition all dieser Produkte ergibt einen negativen Wert, wenn die Überzahl aller Beobachtungen in den Quadranten II und IV liegen, während
2.2 Regression im bivariaten Modell
67
diese Summe positiv wird, wenn die Mehrheit aller Beobachtungen in den Quadranten I und III liegt. Das Vorzeichen der so berechneten Summe lässt sich wie das Vorzeichen des bKoeffizienten in der Regressionsgleichung interpretieren: bei positivem Vorzeichen steigt im Durchschnitt die Größe der Y-Werte mit größer werdenden XWerten (positiver Zusammenhang), und bei negativem Vorzeichen ist mit größer werdendem X-Wert im Durchschnitt ein kleiner werdender Y-Wert zu erwarten (negativer Zusammenhang). Um dem Korrelationskoeffizienten neben einem Vorzeichen auch eine Größe zu verleihen, wird die Summe der Abweichungsprodukte durch die Anzahl der Produkte bzw. Beobachtungsfälle dividiert. Diese Summe wird auch Kovarianz genannt, da sie angibt, in welchem Ausmaß die Veränderungen in einer Variablen mit den Veränderungen in einer anderen Variablen zusammenhängen, oder anders ausgedrückt: in welchem Ausmaß beide Variablen miteinander kovariieren. 1 N
cov(X, Y)
¦ (X
t
X) (Yt Y)
(2.19)
Zur Berechnung des Pearsonschen Korrelationskoeffizienten zwischen den Variablen X und Y (rxy) wird deren Kovarianz durch das Produkt der Standardabweichungen von X und Y dividiert. Dadurch wird der unstandardisierte Wert der Kovarianz standardisiert und erhält eine feste Ober- und Untergrenze (dazu mehr im Folgenden). rxy
cov(X, Y) Sx Sy
1 N
¦ (X
¦ (X
i
t
(2.20)
X) (Yt Y)
X) 2
N
¦ (Y Y)
2
(2.21)
i
N
Der Korrelationskoeffizient (rxy) kann Werte zwischen –1,00 und +1,00 annehmen. Er hat den Wert +1,00 („perfekte“ positive Korrelation), wenn alle Beobachtungen auf einer Geraden liegen, die in Abbildung 2.12 durch die Quadran-
68
2 Das Grundmodell der Regressionsanalyse
ten I und III verlaufen würde. Und er hätte den Wert –1,00 („perfekte“ negative Korrelation), wenn die Gerade durch die Quadranten II und IV verliefe. Ein Korrelationskoeffizient mit dem Wert von 0,00 bedeutet, dass keine lineare Korrelation zwischen X und Y zu beobachten ist. Wie wir sehen, liegt der Korrelationsanalyse ebenfalls die Annahme eines linearen Variablenzusammenhangs zugrunde. Korrelationskoeffizienten mit (absoluten) Werten kleiner als 1,00 entstehen dadurch, dass eine mehr oder weniger große Anzahl von Fällen nicht nahe genug einer Geraden im diesbezüglichen Koordinatensystem (vgl. Abbildung 2.12) angesiedelt ist. Dementsprechend ist der Korrelationskoeffizient auch nicht dazu geeignet, nicht-lineare Zusammenhänge zu beschreiben. Er ist nur ein Maß für lineare Zusammenhänge. Ein häufig übersehenes Problem kann bei einem Vergleich von Korrelationswerten auftreten, die in Stichproben aus unterschiedlichen Populationen berechnet wurden. Da aufgrund der Standardisierung von rxy die Größe des Koeffizienten von den Standardabweichungen der beiden beteiligten Variablen abhängig ist (vgl. Gleichung 2.20), darf ein Korrelationsvergleich zwischen unterschiedlichen Gruppen nur erfolgen, wenn sich die Standardabweichungen in den Vergleichsgruppen nicht unterscheiden. Mithin müssen Korrelationsunterschiede also nicht immer substanziell-inhaltlicher Natur sein, sondern können auch allein durch unterschiedliche stichproben- bzw. subgruppenspezifische Standardabweichungen zustande kommen. Alle EDV-Statistikprogramme, so auch SPSS, enthalten Testverfahren zur Prüfung der Varianzhomogenität (z.B. den Levene-Test). Denn nur bei vorliegender Varianzhomogenität dürfen (wenn überhaupt) die Korrelationswerte aus unterschiedlichen Populationen oder Stichproben miteinander verglichen werden. Wir werden auf dieses Problem, welches für alle standardisierten Maße gilt, später noch einmal zurückkommen (vgl. Kapitel 2.3.3).
Im Unterschied zur Regression gibt es bei der Korrelation keinen Unterschied zwischen abhängiger und unabhängiger Variable. Der Korrelationskoeffizient ist ein reines Zusammenhangsmaß zur Analyse der linearen Beziehung zwischen zwei Variablen, von denen jede einzelne sowohl als abhängige als auch als unabhängige Variable zu betrachten ist. Deshalb lässt sich das absolute Ausmaß einer Korrelation auch als (geometrischer) Mittelwert aus den Ergebnissen von zwei Regressionsanalysen ermitteln. Dazu muss in der einen Schätzung die YVariable als abhängige und die X-Variable als unabhängige Variable analysiert werden und in der zweiten Schätzung die X-Variable als abhängige und die YVariable als unabhängige Variable untersucht werden (vgl. Gleichung 2.22).
rxy
b yx u b xy
(2.22)
2.2 Regression im bivariaten Modell
69
Z2.12: Der Pearsonsche Korrelationskoeffizient zwischen zwei Variablen (X und Y) kann (hinsichtlich seines absoluten Betrags) als geometrischer Mittelwert der Regressionskoeffizienten aus zwei bivariaten Regressionsanalysen mit X und Y berechnet werden, bei denen die beiden Variablen ihre Spezifikationen als abhängige und unabhängige Variable jeweils vertauschen.
Ergänzung 2.2: Nachweis der Gültigkeit von Gleichung (2.22) Wir gehen davon aus, dass sowohl die X-Werte als auch die Y-Werte als Abweichungen von ihren jeweiligen Mittelwerten gemessen werden. An Gleichung (2.10) ändert sich deshalb nichts. Wenn Y die abhängige Variable und X die unabhängige Variable ist, so ist b yx
¦X Y ¦X
i i i
2
Wenn X die abhängige Variable und Y die unabhängige Variable ist, so ist b xy
¦Y X ¦Y i
i
i
2
Dividieren wir Nenner und Zähler beider Gleichungen durch die Anzahl der Beobachtungen, so ergeben sich die Kovarianzen zwischen X und Y bzw. zwischen Y und X sowie die Varianzen von X und Y: 1 1 X i Yi (X i X) (Yi Y) cov (X, Y) N N 1 1 Yi X i (Yi Y) (X i X) cov (Y, X) N N 1 1 Xi 2 (X i X) 2 S x 2 N N 1 1 Yi 2 (Yi Y) 2 S y 2 N N
¦ ¦ ¦ ¦
¦ ¦ ¦ ¦
Fortsetzung auf nachfolgender Seite
70
2 Das Grundmodell der Regressionsanalyse Fortsetzung von Ergänzung 2.2 Setzen wir diese Ergebnisse in die Gleichungen für den b-Koeffizienten ein, so gilt cov(X, Y) (2.23) b yx Sx 2 b xy
cov(X, Y) Sy 2
Das geometrische Mittel aus beiden Gleichungen ergibt den Betrag des Korrelationskoeffizienten nach Gleichung (2.20). rxy
cov(X, Y) cov(Y, X) Sx 2
Sy 2
cov(X, Y) Sx S y
Vergleichen wir nun die beiden Gleichungen (2.20) und (2.23) miteinander: ryx
b yx
cov(X, Y) Sx Sy
(2.20)
cov(X, Y)
(2.23)
Sx 2
Beim Vergleich der beiden Gleichungen wird deutlich, dass r in b überführbar ist, wenn Gleichung (2.20) mit Sy multipliziert und durch Sx dividiert wird: cov(X, Y) S y u Sx Sy Sx
cov(X, Y) Sx 2
b yx
Somit gilt: b yx
ryx
Sy Sx
(2.24)
Der Regressionskoeffizient ist also gleich dem Korrelationskoeffizienten multipliziert mit der Standardabweichung der abhängigen Variablen und dividiert durch die Standardabweichung der unabhängigen Variablen.
2.2 Regression im bivariaten Modell
71
Damit lässt sich aber auch der Korrelationskoeffizient aus dem Regressionskoeffizienten berechnen: ryx
b yx
Sx Sy
(2.25)
Die rechte Seite von Gleichung (2.25) wird im Folgenden „standardisierter Regressionskoeffizient“ (b*) genannt.2 Im bivariaten Modell ist der standardisierte Regressionskoeffizient identisch mit dem Pearsonschen Korrelationskoeffizienten zwischen X und Y. In multivariaten Modellen, die wir noch im Folgenden behandeln werden, gilt das nicht! Der standardisierte Regressionskoeffizient (wie auch der Pearsonsche Korrelationskoeffizient) ergibt sich im bivariaten Modell aus dem unstandardisierten Regressionskoeffizienten, der mit der Standardabweichung der unabhängigen Variablen multipliziert und durch die Standardabweichung der abhängigen Variablen dividiert wird (vgl. Gleichung 2.26). b*yx
ryx
b yx
Sx Sy
(2.26)
Z2.13: Der standardisierte Regressionskoeffizient ist im bivariaten Modell identisch mit dem Korrelationskoeffizienten. Er kann direkt aus dem unstandardisierten Regressionskoeffizienten berechnet werden, indem dieser mit der Standardabweichung der unabhängigen Variable multipliziert und durch die Standardabweichung der abhängigen Variable dividiert wird.
2
In der Statistik-Software SPSS, mit der wir in diesem Skript den Einsatz von PC-Software zur Durchführung von Regressionsanalysen verdeutlichen (vgl. Kapitel 3.5), wird der standardisierte Regressionskoeffizient als „Beta“ bezeichnet. In der sozialwissenschaftlichen Statistik werden jedoch griechische Buchstaben zur Kennzeichnung von Populationsparametern verwendet (vgl. Seiten 40f). Deshalb ist es missverständlich, den standardisierten Regressionskoeffizienten „Beta“ zu nennen. Aus diesem Grund verzichten wir nachfolgend auf den Begriff „Beta“ bzw. „BetaKoeffizient“ und sprechen ausschließlich von „standardisierten Regressionskoeffizienten“ (b*).
72
2 Das Grundmodell der Regressionsanalyse
Man kann den standardisierten Regressionskoeffizienten auch direkt berechnen, ohne den Umweg über den unstandardisierten Regressionskoeffizienten gehen zu müssen. Dazu müssen die empirischen X- und Y-Werte vor der Schätzung des Koeffizienten standardisiert werden. Eine Regressionsschätzung mit standardisierten empirischen Daten ermittelt standardisierte Regressionskoeffizienten. Die Technik dieses Verfahrens wird in der folgenden Ergänzung (2.3) erläutert. Alle EDV-Statistikprogramme führen diese Standardisierung natürlich auch nach Anforderung durch den Benutzer in Bruchteilen von Sekunden durch. Ergänzung 2.3: Standardisierung Standardisiert werden die empirischen Rohwerte der X- und Y-Variable, wie sie z.B. in Tabelle 2.2 in den Spalten 2 und 3 aufgeführt sind. Mit den standardisierten Werten wird nach Gleichung (2.10) der Regressionskoeffizient berechnet, der nun standardisiert ist und deshalb auch standardisierter Regressionskoeffizient genannt wird. Um eine Variable zu standardisieren, wird zunächst der arithmetische Mittelwert der empirischen Variablenwerte berechnet (also in Tabelle 2.2: Y = 1200 und X = 40,92). Sodann wird der jeweilige Mittelwert von jedem einzelnen Variablenwert subtrahiert, so wie es in Tabelle 2.2 beispielhaft für die X-Variable durchgeführt wurde. Im Anschluss muss jeder der so erhaltenen Werte durch die Standardabweichung (Wurzel aus der Varianz) der betreffenden Variablen dividiert werden. Die Standardabweichung wird berechnet nach der Formel:
Standardabweichung S x
¦(X X)
2
i
N
Um die Variablenwerte von X und Y aus Tabelle 2.2 zu standardisieren, müssen wir also die von uns berechneten Differenzen zwischen Rohwerten und Mittelwert zusätzlich quadrieren, dann addieren (wie in Spalte 5 von Tabelle 2.2 geschehen), diese Summe durch die Anzahl der Personen (N) dividieren und aus dem derart gefundenen Wert die Wurzel ziehen. Die Rohwerte einer jeden Variablen werden folglich standardisiert nach dem Rechenverfahren: X i , standardisiert
X i Mittelwert von X Standardabweichung von X
Yi , standardisiert
Yi Mittelwert von Y Standardabweichung von Y
2.2 Regression im bivariaten Modell
73
Was die Standardisierung von Variablenwerten inhaltlich bedeutet, lässt sich durch folgendes kleine Beispiel veranschaulichen: Nehmen wir an, die Angaben zum Alter von Personen nach Tabelle 2.2 seien nicht in Jahren, sondern in Monatsangaben in die Analyse eingegangen. So würde aus dem Wert 17 (Jahre) der Wert 204 (Monate) und aus 52 der Wert 624. Wird mit diesen neuen Werten eine unstandardisierte Regressionsanalyse durchgeführt, die ansonsten mit der nach Tabelle 2.2 gerechneten Analyse identisch ist, so ergibt sich ein Regressionskoeffizient von 0,78 (statt 9,37). Mit jedem zusätzlichen Lebensmonat steigt dann also das zu erwartende Nettoeinkommen um ca. 78 Cent. Die Ergebnisse der unstandardisierten Regressionsschätzung sind also abhängig vom Wertebereich oder der Skalenbreite einer jeden Variablen. Im Unterschied dazu wird durch die Standardisierung einem jeden Variablenwert ein fester Platz auf einer Standardskala zugeschrieben, so dass die dann standardisierten Regressionsergebnisse nicht mehr skalenabhängig sind. In Abbildung 2.13 wird dies graphisch veranschaulicht. Es werden dort die Werte von zwei unterschiedlichen Skalen (die X-Skala mit einem Wertebereich zwischen 1 und 5, die Y-Skala mit einem Wertebereich zwischen 10 und 16) durch Standardisierung auf einer einheitlichen Standardskala (S) abgebildet. Nach der in Abbildung 2.13 veranschaulichten Transformation hat jede nun standardisierte Variable den arithmetischen Mittelwert „0,00“ und die Standardabweichung „1,00“. Diese Werte sind unabhängig davon, in welchen Einheiten und mit welchem Skalenumfang die betreffende Variable gemessen wurde. Dies hat auch zur Konsequenz, dass es in einer standardisierten Regressionsschätzung keinen a-Koeffizienten mehr geben kann. Denn dieser ist (bei zentrierten Variablen) entsprechend Gleichung (2.9) gleich dem Mittelwert der Y-Variablen, so dass er nun den Wert „0,00“ annehmen muss. Folglich hat auch die Regressionsgerade in der standardisierten Lösung stets durch den Nullpunkt des Koordinatensystems zu führen. Die standardisierte Schätzung des Regressionsmodells erzeugt bei den standardisierten Regressionskoeffizienten die Eigenschaft, dass diese (in aller Regel) im Wertebereich von „–1,00“ (stärkster negativer Zusammenhang) über „0,00“ (kein Zusammenhang) bis „+1,00“ (stärkster positiver Zusammenhang) liegen.
74
2 Das Grundmodell der Regressionsanalyse
Da sie standardisiert sind, lässt sich mit Hilfe dieser Koeffizienten feststellen, ob z.B. das Alter oder die Schulbildung einen größeren Einfluss auf das zu erwartende Nettoeinkommen hat. Allerdings ist dies schon eine Fragestellung für ein multivariates Regressionsmodell (denn es liegt mehr als nur eine unabhängige Variable vor), und solche Modelle werden erst im nächsten Kapitel vorgestellt. Abbildung 2.13: Standardisierung von zwei Variablen mit unterschiedlichen Messbereichen Ystandardisiert
Xstandardisiert 1,5 1,0 0,5
16
0
15
3
-0,5
14
2
-1,0
13
-1,5
12
5 4 0
1 (X)
-1,4
(S)
11 10 (Y)
In Ausnahmefällen kann der standardisierte Regressionskoeffizient auch größer als 1,00 werden. Dies kann vor allem dann eintreten, wenn b sehr hoch ist und die Standardabweichung von X im Vergleich zu derjenigen von Y mehr als doppelt so groß ist. Aber auch Auswirkungen allzu hoher Multikollinearität können dazu führen, dass der standardisierte Regressionskoeffizient größer als 1,00 wird (vgl. Kapitel 4.5).
2.2 Regression im bivariaten Modell
75
Wie oben schon angedeutet, haben die standardisierten Regressionskoeffizienten die günstige Eigenschaft, dass man bei ihrer Interpretation von den Einheiten, in denen die jeweiligen Variablen gemessen wurden, absehen kann. Der standardisierte Regressionskoeffizient gibt die zu erwartende Veränderung von Y bei Veränderung von X um eine Einheit an, wobei diese Einheit nunmehr die künstliche Einheit einer Standardabweichung und keine empirische Einheit mehr ist (wie z.B. Lebensjahre oder Euro-Beträge). Dies lässt sich auch so interpretieren, dass die Höhe des standardisierten Regressionskoeffizienten derjenige Anteil der Standardabweichung von Y ist, der durch die unabhängige Variable ausgeschöpft (bzw. gebunden oder „erklärt“) wird. Hat der standardisierte Regressionskoeffizient die Ausprägung „1,00“ oder „–1,00“, so wird die gesamte Standardabweichung ausgeschöpft, bei Werten, die dazwischen liegen, entsprechend weniger (z.B. „erklärt“ ein standardisierter Regressionskoeffizient von 0,30 einen Anteil von 30% und ein standardisierter Regressionskoeffizient von 0,60 hat eine doppelt so hohe Erklärungsleistung). Natürlich wird auch hier, wie im Modell der Varianzausschöpfung, im strikten Sinne keine Erklärungsleistung erbracht, sondern der Begriff „Erklärung“ entspringt allein einer sprachlichen Konvention und sollte (wie in Kapitel 2.2.3 begründet) eher vermieden werden. Da die Varianz nichts anderes ist als die quadrierte Standardabweichung, ermöglicht es der standardisierte Regressionskoeffizient im bivariaten Modell, den Determinationskoeffizienten (und damit auch die „erklärten“ Varianzanteile) in sehr einfacher Weise zu berechnen. Der Determinationskoeffizient ergibt sich im bivariaten Modell aus dem Quadrat des standardisierten Regressionskoeffizienten: (b*yx ) 2 = R2
(2.27)
Die folgende Ergänzung 2.4 weist die Gültigkeit von Gleichung (2.27) nach und verdeutlicht noch einmal die inhaltliche Interpretation des standardisierten Regressionskoeffizienten.
76
2 Das Grundmodell der Regressionsanalyse
Ergänzung 2.4: Nachweis der Gültigkeit von Gleichung (2.27) Für standardisierte Rohwerte (gemäß Ergänzung 2.3) ist der standardisierte Regressionskoeffizient identisch mit dem Korrelationskoeffizienten, da die Standardabweichungen nach der Standardisierung einen Wert von 1,00 annehmen: Sy (vgl. auch Gleichung 2.24) b *yx b yx ryx Sx
¦ ¦
1 (Yi Y) 2 N 1 Sx (X i X) 2 N Beseitigen wir nun die Anzahl der Fälle (1/N) und quadrieren wir, so ergibt sich: b *yx
Sy
ryx
(b *yx ) 2
ryx 2
ryx
¦ (Y Y) ¦ (X X)
2
i
(2.27a)
2
i
Erinnern wir uns an die Gleichung (2.15): ˆ Y) 2 (Y Y ˆ )2 (Y Y) 2 (Y
¦
¦
i
i
¦
i
i
(2.15)
Die Variation im Modell wurde durch Festlegung einer Regressionsgerade erklärt, die im standardisierten Modell ohne a-Koeffizient bestimmt wird: ˆ Y) b * X SAQ R (Y b * (X i X) i i SAQR in Gleichung (2.15) eingesetzt ergibt:
¦(Yi Y) 2
Setzen wir nun für
(b * ) 2
(b*yx)2
¦(X i X) 2 ¦(Yi Yˆi ) 2
die rechte Seite von Gleichung (2.27a) ein, so erhalten wir:
¦ (Yi Y) 2 (Xi X) 2 (Yi Yˆi ) 2 ¦ ¦ ¦ (Xi X) 2 ¦ (Yi Y) 2 ryx 2 ¦ (Yi Y) 2 ¦ (Yi Yˆi ) 2 ˆ )2 ryx 2 ¦ (Yi Y) 2 ¦ (Yi Y) 2 ¦ (Yi Y i 2 ˆ )2 (Y Y ) (Y Y ¦ i ¦ i i ryx 2 (Y ¦ i Y) 2
¦ (Yi Y) 2
ryx 2
Da sich aber nach Gleichung (2.15) ergibt: ˆ Y) 2 ˆ )2 (Y (Y Y) 2 (Y Y
¦
¦
i
i
¦
i
i
kann man Gleichung (2.27b) auch schreiben als: ˆ Y) 2 (Y i ryx 2 (Yi Y) 2
¦ ¦
was exakt der Gleichung (2.16) auf Seite 57 für R2 entspricht.
(2.27b)
2.2 Regression im bivariaten Modell
77
Die Standardisierung erbringt somit für die Berechnung der ausgeschöpften Varianz innerhalb eines bivariaten Modells rechenmäßige Vorteile gegenüber der in Kapitel 2.2.2 vorgestellten Methode zur Berechnung des Determinationskoeffizienten (für multivariate Modelle gilt Gleichung (2.27) nicht). Verdeutlichen wir den Sachverhalt an einem Beispiel: In Kapitel 2.2.1 wurde ein Regressionsmodell berechnet, das von einem linearen Einfluss des Lebensalters auf das zu erwartende, personengebundene Nettoeinkommen ausging (vgl. Tabelle 2.2). Die unstandardisierte Auflösung des Modells ergab die beiden Regressionskoeffizienten a = 816,58 und b = 9,37 sowie einen Anteil ausgeschöpfter Varianz von 7% (R2 = 0,07). Demnach erbringt in dieser Gruppe jedes zusätzliche Lebensjahr einen erwarteten Anstieg des durchschnittlichen Nettoeinkommens von 816,58 Euro um 9,37 Euro.
Z2.14: Der standardisierte Regressionskoeffizient informiert über Veränderungen auf der Standardskala von Y, die durch Veränderungen von X um jeweils eine Standardeinheit ausgelöst werden. Prozentual betrachtet, berichtet der standardisierte Regressionskoeffizient denjenigen Anteil der Standardabweichung von Y, der im Modell durch X festgelegt wird. Dementsprechend berichtet der Koeffizient den Anteil der im Modell durch X gebundenen Varianz von Y, wenn er quadriert wird. Der standardisierte Regressionskoeffizient kann analog zum unstandardisierten Regressionskoeffizienten berechnet werden, wenn zur Schätzung standardisierte Rohwerte verwendet werden. Im bivariaten Modell ist der quadrierte standardisierte Regressionskoeffizient identisch mit dem Determinationskoeffizienten.
Wir hatten schon angedeutet, dass dieses Ergebnis auch Konsequenz eines Spezifikationsfehlers sein kann, da es möglicherweise einen falschen linearen Zusammenhang zwischen beiden Variablen postuliert. Trotzdem soll nun auch die standardisierte Version dieser Regression berechnet werden. Wir gehen dabei von Gleichung (2.26) aus. Demnach werden zur Ermittlung des standardisierten Regressionskoeffizienten zusätzlich zu den bislang benutzten Informationen (vgl. Tabelle 2.2) die Standardabweichungen von X und Y benötigt. Die Berechnung der entsprechenden Werte ergibt:
78
2 Das Grundmodell der Regressionsanalyse Sx = 21,25 Sy = 753,48 S b*yx b yx x Sy
9,37
21,25 753,48
0,26
Und bei Messung von X in Monaten (anstatt in Jahren): Sx = 254,94 Sy = 753,48 S b*yx b yx x Sy
0,78
254,94 753,48
0,26
Diese Ergebnisse zeigen deutlich: Anders als die unstandardisierten Regressionskoeffizienten sind die standardisierten Regressionskoeffizienten unabhängig von ihrer Messskala. Ob in Jahren oder Monaten gemessen: die Veränderung der X-Variablen um eine Standardabweichung „erklärt“ insgesamt 26% der Veränderung in der Standardabweichung der Y-Variablen. Und quadriert man den standardisierten Regressionskoeffizienten, so erhält man – wie erwartet – einen Determinationskoeffizienten von 0,07: (b*yx ) 2 = R2 = 0,07 Damit wird aber auch sofort deutlich, dass der standardisierte Regressionskoeffizient keine Regressionsgleichung ermöglicht, die zu Prognosezwecken eingesetzt werden kann. Dies ist nur mit der unstandardisierten Lösung möglich. Denn die Skalierung des standardisierten Regressionskoeffizienten kann nicht inhaltlich-substanziell interpretiert werden. Der standardisierte Regressionskoeffizient vermittelt allein ein Maß für die Stärke einer linearen Beziehung zwischen abhängiger und unabhängiger Variablen (auch „Einflussstärke“ genannt). Der standardisierte Regressionskoeffizient kann zum Vergleich der unterschiedlichen Einflussstärken mehrerer unabhängiger Variablen auf eine abhängige Variable herangezogen werden (was im folgenden Kapitel über multivariate Modelle noch eine große Rolle spielen wird). Allerdings ist dieser Vergleich oftmals nur innerhalb eines Modells möglich. So ist es im Regelfall nicht möglich, mittels Vergleich der standardisierten Regressionskoeffizienten zwischen
2.2 Regression im bivariaten Modell
79
einem Modell, dessen Daten z.B. aus den USA stammen, und dem gleichen Modell, dessen Daten aber aus Deutschland kommen, darüber zu entscheiden, in welchen Ländern das zu erwartende Strafausmaß einen stärkeren Einfluss auf die Kriminalitätsraten besitzt. Denn bei zwei unterschiedlichen Populationen werden sich die Varianzen der Variablen höchstwahrscheinlich unterscheiden. Da diese aber die standardisierten Koeffizienten in direkter Weise beeinflussen (als „cov(X,Y)“ in Gleichung 2.23 und als „Sx“ bzw. „Sy“ in Gleichung 2.26), könnten dann u.U. standardisierte Regressionskoeffizienten geschätzt werden, die nur aufgrund unterschiedlicher Varianzen in den unabhängigen Variablen zustande kommen und die nicht als Schätzwerte von unterschiedlich großen, „wahren“ -Koeffizienten zu interpretieren sind. Wie es zu falschen Ergebnisinterpretationen in der Regressionsanalyse kommen kann, hat Blalock (1964: 132) in einem Datenexperiment veranschaulicht: In einer Gesamtstichprobe (N = 150) wurde für einen linearen Variablenzusammenhang ein unstandardisierter Regressionskoeffizient (b) von 0,26 und ein standardisierter Regressionskoeffizient (b*) von 0,54 geschätzt. Bildete man aus der Gesamtstichprobe zwei Unterstichproben, so stieg in der Unterstichprobe (N = 75) mit großer Varianz der standardisierte Regressionskoeffizient um 0,10 auf 0,64 an, während er in der Unterstichprobe (N = 75) mit kleiner Varianz um 0,20 auf 0,34 abfiel. Der unstandardisierte Regressionskoeffizient blieb in beiden Unterstichproben relativ konstant (0,27 und 0,25).
Es müssen deshalb in der Regressionsanalyse folgende Regeln beachtet werden: -
Standardisierte Regressionskoeffizienten sind unabhängig von den empirischen Messeinheiten unabhängiger Variablen und können daher als Maß der Einflussstärke von X auf Y interpretiert werden. Sie können aber nur zum Vergleich der Einflussstärken mehrerer unabhängiger Variablen innerhalb einer Stichprobe benutzt werden, da sie immer dann variieren, wenn für die gleichen Variablen in verschiedenen Populationen bzw. Stichproben unterschiedliche Varianzen vorliegen (dazu mehr in Kapitel 2.3.2).
-
Unstandardisierte Regressionskoeffizienten sind abhängig von den empirischen Messeinheiten unabhängiger Variablen. Sie sind aber unabhängig von deren Varianzen in verschiedenen Populationen. Sie können deshalb zum Vergleich der Einflussstärke einer einzigen Variablen in verschiedenen Stichproben benutzt werden, allerdings nur, wenn die betreffenden XVariablen in jeder Stichprobe in gleicher Weise gemessen wurden.
80
2 Das Grundmodell der Regressionsanalyse
-
Nur unstandardisierte Regressionskoeffizienten ermöglichen Schätzungen (für bivariate Modelle nach Gleichung 2.6) über eine zu erwartende empirische Größe (z.B. über einen bestimmten Geldbetrag) einer abhängigen Variablen (hier: Nettoeinkommen).
-
Standardisierte Regressionskoeffizienten ermöglichen keine empirischen Schätzungen, da sie sich nicht auf empirische, sondern auf statistisch standardisierte Messskalen beziehen.
Eine weitergehende Beschreibung der Problematik standardisierter Regressionskoeffizienten erfolgt in Kapitel 2.3.3.
Z2.15: Standardisierte und unstandardisierte Regressionskoeffizienten sind hinsichtlich ihrer Einsatz- und Interpretationsmöglichkeiten verschieden. Standardisierte Regressionskoeffizienten werden zum Vergleich von Einflussstärken unterschiedlicher unabhängiger Variablen innerhalb eines Modells (bei Schätzung mit einem bestimmten Datensatz) eingesetzt. Sie ermöglichen keine inhaltlichen Schätzungen auf einer empirischen Skala (zu ihrer Problematik vgl. Kapitel 2.3.3). Unstandardisierte Regressionskoeffizienten lassen hingegen den Vergleich ein und desselben Effekts zwischen mehreren gleich spezifizierten Modellen zu, die mit den Daten aus unterschiedlichen Populationen geschätzt wurden. Voraussetzung dafür ist jedoch, dass die betreffenden Variablen in allen Populationen in gleicher Weise gemessen wurden. Unstandardisierte Regressionskoeffizienten ermöglichen auch die Schätzung von zu erwartenden Y-Veränderungen in empirisch sinnvollen Skaleneinheiten.
2.3
Regression im multivariaten Modell
2.3.1 Modelllogik und Kontrollfunktion zusätzlicher X-Variablen
Die meisten theoretischen Modelle umfassen in der Regel mehr als nur eine unabhängige Variable. So wird z.B. angenommen, dass das Nettoeinkommen
2.3 Regression im multivariaten Modell
81
einer Person nicht nur von ihrem Alter abhängt, und dass der Spracherwerb von Ausländern nicht nur von ihrem Kontaktausmaß zur inländischen Bevölkerung bestimmt wird. Dementsprechend ist es auch sinnvoll, Regressionsmodelle nicht nur mit einer, sondern mit mehreren unabhängigen Variablen zu spezifizieren. Solche Modelle werden dann als „multivariate“ oder „multiple“ Modelle bezeichnet. Wie wir gesehen haben, wird in jedem bivariaten Regressionsmodell allein der Effekt einer einzigen unabhängigen Variablen geschätzt. Demgegenüber wird im multivariaten Regressionsmodell der gleichzeitige Einfluss mehrerer unabhängiger Variablen ermittelt. Dies geschieht, indem im multiplen Modell für jede X-Variable ein Regressionskoeffizient geschätzt wird, der deren Einflussstärke unter Kontrolle (d.h. unter statistisch hergestelltem Nicht-Einfluss) aller weiteren im Modell berücksichtigten X-Variablen ausdrückt. Die multivariate Regressionsanalyse schätzt also Regressionskoeffizienten für den Effekt einer jeden einzelnen unabhängigen Variablen unter der Voraussetzung, dass die anderen X-Variablen bei der Einflussnahme von X auf Y konstant bleiben, d.h. keinen Einfluss auf Y ausüben. Wir werden im Folgenden noch sehen, was dies praktisch bedeutet. Im Augenblick können wir aber schon die beiden Hauptaufgaben multivariater Modelle erkennen: -
In der multivariaten Regressionsanalyse lassen sich Modelle spezifizieren, die aus mehreren unabhängigen Variablen bestehen. Die Modelle können deshalb theoriegerechter aufgestellt und empirisch überprüft werden.
-
Im multivariaten Regressionsmodell kann die Einflussstärke einer jeden XVariablen (relativ) unabhängig vom gleichzeitigen Einfluss aller weiteren im Modell spezifizierten Variablen geschätzt werden. Dies geschieht, indem bei Schätzung eines Effektes alle anderen Effekte kontrolliert bzw. konstant gehalten werden.
Angewendet auf unser Spracherwerbsbeispiel hat die Logik der multiplen Regressionsanalyse die folgende Konsequenz: Wenn das Kontaktausmaß (X1) nur deshalb den Spracherwerb (Y) beeinflusst, weil der Wunsch, dauerhaft im Ausland ansässig zu werden (X2), sowohl X1 als auch Y beeinflusst (vgl. Abbildung 2.14a), so kann diese Scheinbeziehung zwischen X1 und Y aufgedeckt werden, wenn beide X-Variablen in eine multiple Regressionsanalyse einbezogen werden (vgl. Abbildung 2.14b). Die Effektstärke von X1 auf Y wird dann oftmals
82
2 Das Grundmodell der Regressionsanalyse
im Vergleich zu einer Schätzung im bivariaten Modell (zwischen X1 und Y) geringer ausfallen, weil im multiplen Modell der Effekt von X1 auf Y um den Einfluss von X2 auf Y kontrolliert wird. Analog zum bivariaten Modell wird auch im multivariaten Modell die YVariable als eine Funktion von X angesehen, wobei jetzt allerdings mehrere XVariablen vorhanden sind: Y = f(X1, X2 … Xk) Auch hier gehen wir wieder davon aus, dass die Variablenauswahl durch theorieorientierte Vorüberlegungen bestimmt wird, so dass das multivariate Regressionsmodell als statistische Übersetzung einer theoretischen Modellierung anzusehen ist. Denn es wäre Ausdruck einer schlechten Sozialforschung, wenn zur Variablenauswahl zuerst eine Korrelationsmatrix mit vielen möglichen XVariablen berechnet würde und dann für das multivariate Regressionsmodell diejenigen Variablen ausgewählt würden, die hoch mit der abhängigen Variablen korrelieren. Gegen ein solches Vorgehen sprechen auch statistische Gründe, die wir im Folgenden noch kennen lernen werden (z.B. Suppressoreigenschaften und Multikollinearitäten). Abbildung 2.14: Kontrollfunktion einer zusätzlichen X-Variablen im multiplen Regressionsmodell 2
1
2
1
Die obige Funktionsbestimmung wird entsprechend Z2.4 operationalisiert (Linearität der Variablenbeziehungen). Die Beschreibung des Regressionsmodells lautet sodann: Yi = + 1X1i + 2X2i + … + kXki + i
(2.28)
2.3 Regression im multivariaten Modell
83
Wir wollen uns die Darstellung in diesem Skript erleichtern, indem wir die allgemeinste multivariate Regressionsgleichung (2.28) auf ihr Minimum reduzieren. Dies entspricht einer Regressionsgleichung mit zwei unabhängigen Variablen: Yi = + 1X1i + 2X2i + i (2.28a) Wie mittlerweile bekannt sein dürfte, ist es Aufgabe der Regressionsanalyse, die Koeffizienten , 1 und 2 zu schätzen. Dazu wird analog zum bivariaten Modell die Gleichung für das empirische Regressionsmodell aufgestellt: Yi = a + b1X1i + b2X2i + Ui
(2.29)
Mit Hilfe der bereits beschriebenen Kleinst-Quadrat-Schätzmethode können a, b1 und b2 berechnen werden, indem in der Schätzung die Summe der Residuen (Ui) minimiert wird (vgl. Gleichung 2.7). Im Unterschied zur bivariaten Regression entstehen die Abweichungsquadrate jetzt allerdings nicht mehr aus der Differenz zwischen den empirischen Werten und einer Regressionsgeraden (vgl. Abbildung 2.7), sondern aus der Differenz zwischen den empirischen Werten und einer Regressionsfläche. Die Regressionsfläche ist eine so genannte Hyperfläche mit K + 1 Dimensionen (K = Anzahl der unabhängigen Variablen). Da eine derartige Fläche kaum räumlich-visuell vorstellbar und erst recht nicht graphisch zu veranschaulichen ist, haben wir uns hier für ein Modell mit nur zwei X-Variablen entschieden. Die Abbildung 2.15 zeigt die Regressionsfläche für ein Modell mit zwei unabhängigen Variablen in einem dreidimensionalen Raum. Die Fläche wird exakt bestimmt durch die Gleichung: ˆ = a + b1X1i + b2X2i Y i
(2.30)
In Punkt „a“ schneidet die Fläche die Y-Achse (X1 = X2 = 0). Der Koeffizient „b1“ bestimmt die Steigung der Fläche in Richtung der X1-Achse unabhängig von den Werten für X2. Analog dazu bestimmt der Koeffizient „b2“ die Steigung der Fläche in Richtung der X2-Achse unabhängig von den Werten für X1. Alle Beobachtungsfälle „i“ mit einem Variablenwert X1i und einem Variablenwert X2i liegen oberhalb, unterhalb oder auf der Regressionsfläche, alle geschätzten Y-Werte liegen immer auf der Fläche. Dementsprechend sind die Residuen
84
2 Das Grundmodell der Regressionsanalyse
identisch mit den Senkrechten der Beobachtungskoordinaten „(X1i | X2i)“ auf die Fläche. Abbildung 2.15: Bildhafte Darstellung einer multiplen Regressionsschätzung Y
= a + b1X1 + b2X2
X2
X1
Auch in der OLS-Schätzung der multiplen Regressionsgleichung muss also die Differenzsumme aus Gleichung (2.7) minimiert werden: N
S
¦(Yi Yˆi )2
(2.7)
i 1
Diese zu minimierende Summe lässt sich nach Überführung von Gleichung (2.29) in Gleichung (2.7) auch als Gleichung (2.31) schreiben:
2.3 Regression im multivariaten Modell
85
N
S
¦ (Yi a b1X1i b2X 2i )2
(2.31)
i 1
Diejenigen Koeffizienten, die S minimieren, können wir auf die gleiche Art und Weise wie im bivariaten Modell erhalten. Auch hier müssen die partiellen Ableitungen von S für a, b1 und b2 aufgestellt und gleich null gesetzt werden. Durch Auflösung erhält man dann die gesuchten Koeffizientenwerte. Dieses Verfahren wäre für zwei unabhängige Variablen zwar noch „per Hand“ durchzuführen, benötigte dann jedoch für mehr als zwei unabhängige Variablen erheblichen Rechenaufwand. Deshalb verzichten wir hier auf die diesbezügliche Präsentation (interessierte Leser seien auf Koutsoyiannis 1977: 119-121 verwiesen), zumal dazu auch in der Forschungspraxis ausschließlich EDV-Programme eingesetzt werden (vgl. Kapitel 3.5). Mehr als der rechentechnische Lösungsweg interessiert uns hier der verfahrenslogische. Wie sind die Rechenschritte einer multivariaten Regressionsanalyse inhaltlich zu verstehen? Um die Verfahrenslogik der multiplen Regressionsanalyse zu verstehen, ist es am besten, sich deren Regressionskoeffizienten als das Ergebnis einer mehrfachen bivariaten Regression vorzustellen. Dementsprechend sind bei einer multiplen Regression mit zwei X-Variablen folgende zwei Regressionen auszuführen: 1. Im ersten Regressionsschritt wird der Zusammenhang zwischen den beiden unabhängigen Variablen X1 und X2 überprüft, indem eine Regression von X1 auf X2 durchgeführt wird. Ihr Ergebnis ist: ˆ X 1i
a b 2 X 2i
Diejenigen Anteile von X1, die nicht durch X2 gebunden werden, sind die Residuen von X1:
RES(X)1i
ˆ X1i X 1i
2. Mit den Residuen aus dem ersten Regressionsschritt wird in einem zweiten Schritt eine nochmalige Regression gerechnet. Dabei sind die Residuen RES(X) die unabhängige Variable und Y ist die abhängige Variable:
86
2 Das Grundmodell der Regressionsanalyse ˆ Y 1i
a b1RES(X)1i
Der hier im zweiten Verfahrensschritt geschätzte Regressionskoeffizient b1 ist der gesuchte b1-Koeffizient in Gleichung (2.30). Verfährt man in der gleichen Weise mit X2, so erhält man den gesuchten b2-Koeffizienten in Gleichung (2.30). Was hier geschah, ist nichts Geheimnisvolles: Bevor die Regression von Y auf die unabhängigen Variablen X1 und X2 durchgeführt wurde, wurde X1 um diejenigen Anteile bereinigt, die von der zweiten unabhängigen Variablen beeinflusst werden. Wenn das Gleiche auch mit X2 geschieht, kann nach dieser Bereinigung die Regression von Y auf die nunmehr veränderten Werte von X1 und X2 durchgeführt werden. Auf diese Art und Weise wird die Varianz von Y jeweils nur auf denjenigen Anteil der unabhängigen Variablen zurückgeführt, auf den die andere unabhängige Variable keinen Einfluss mehr hat. Denn dieser Einfluss wurde qua Bereinigung ausgeschaltet (man sagt auch: „kontrolliert“).
Z2.16: Rein verfahrenslogisch betrachtet werden in einer multiplen Regression die empirischen Werte einer jeden unabhängigen Variable um diejenigen Anteile bereinigt, die durch lineare Effekte der anderen unabhängigen Variablen bestimmt werden, und wird sodann eine Regression der abhängigen Variable auf die nunmehr bereinigten (kontrollierten) unabhängigen Variablen durchgeführt.
Da das Verfahren der Bereinigung von X um die Einflüsse weiterer unabhängiger X-Variablen auch als „Auspartialisierung“ von X-Anteilen beschrieben wird, werden die Regressionskoeffizienten in der multiplen Regression auch als „partielle Regressionskoeffizienten“ bezeichnet. Wir wollen im Folgenden die beschriebene Verfahrenslogik und das, was die partiellen Regressionskoeffizienten inhaltlich bedeuten, an einem Beispiel verdeutlichen: Das Beispiel kommt aus dem Bereich der Ethnozentrismusforschung. Dort sind Sozialwissenschaftler u.a. an Modellen interessiert, die das Ausmaß und das Auftreten von individuellen ausländerablehnenden Einstellungen erklären kön-
2.3 Regression im multivariaten Modell
87
nen. Sie wollen in unserem Falle ein theoretisches Modell testen, das diese Einstellungen in Abhängigkeit von autoritären Orientierungen und der beruflichen Stellung von berufstätigen Personen setzt. Als Indikator der beruflichen Stellung wird das Sozialprestige des ausgeübten Berufs (PR) gewählt (gemessen auf einer Skala mit Werten zwischen 20 und 187). Als Indikator des Autoritarismus dient ein additiver Index aus drei Fragebogen-Items zu autoritären Orientierungen (AU), denen Befragte auf einer Skala von 1 bis 7 mehr oder weniger zustimmen können. Der Index hat somit einen Wertebereich von 3 bis 21. Je höher ein Indexwert ist, umso stärker sei die autoritäre Orientierung (so die Aussage der verwendeten Instrumententheorie). In vergleichbarer Weise wird auch das individuelle Ausmaß an Ausländerablehnung (AA) als additiver Index aus vier Fragebogen-Items mit einem Wertebereich von 4 bis 28 gemessen. In diesem Beispiel soll die Hypothese überprüft werden, dass Personen umso ausländerablehnender sind, je geringer ihr Berufsprestige und je stärker ihre autoritäre Orientierung sind (was sich beides theorieorientiert begründen lässt). Da man davon ausgeht, dass beide Prädiktoren einen eigenständigen Einfluss auf die Ausländerablehnung ausüben und man die Einflüsse auch als Lineareffekte untersuchen will, wird das folgende Modell spezifiziert: AAi = + 1AUi + 2PRi + i mit:
(2.32)
AA = Ausländerablehnung AU = Autoritarismus PR = Berufsprestige
Die Tabelle 2.3 enthält die Werte von Y, X1 und X2 für 10 Befragte. Die Daten stammen aus einer Untersuchung von Urban/Mayerl (2006). Natürlich reichen in aller Regel die Daten von nur zehn Personen nicht aus, um eine stabile Regressionsschätzung durchzuführen. Wir wollen hier jedoch allein die Logik der Regressionsanalyse in leicht nachvollziehbarer Weise an einem Rechenbeispiel veranschaulichen (zum Einfluss des Stichprobenumfangs auf die Güte einer Regressionsschätzung vgl. Kapitel 4.1).
88
2 Das Grundmodell der Regressionsanalyse
Tabelle 2.3: Daten zur Messung von Ausländerablehnung Beobachtungseinheit i 1 2 3 4 5 6 7 8 9 10
Ausländerablehnung AAi 12 24 11 23 10 25 6 16 7 5
Autoritarismus
Berufsprestige
AUi 9 18 12 7 4 16 4 11 7 6
PRi 74 94 98 70 115 57 115 126 126 65
Die OLS-Schätzung ermittelt für die Parameter der Regressionsgleichung (2.32) die folgenden Schätzwerte: ˆ (AA) = 9,91 + 1,08 (AUi) – 0,07 (PRi) Y i
(2.33)
R2 = 0,59 SEE = 5,55 (39,92% von AA ) Wie sich die Koeffizientenschätzung auch durch eine doppelte bivariate Regression erreichen lässt, zeigt Tabelle 2.4. Zuerst wird dort die Regression von AU auf PR berechnet: ˆ (AU) = 14,34 – 0,05 (PRi) Y i
mit R2 = 0,08
(2.33a)
woraus sich durch Einsetzen der Werte von PR (aus Tabelle 2.3) die Schätzwerte für AU ergeben (Tabelle 2.4, Spalte 2).
2.3 Regression im multivariaten Modell
89
Tabelle 2.4: Bivariate Auflösung eines multiplen Regressionsmodells i
1 2 3 4 5 6 7 8 9 10
ˆ (AU) Y i
RES(AUi)
ˆ (PR) Y i
RES(PRi)
= a + b (PR)i
ˆ (AU) = AUi – Y i
= a + b (AU)i
ˆ (PR) = PRi – Y i
10,64 9,64 9,44 10,84 8,59 11,49 8,59 8,04 8,04 11,09
–1,64 8,36 2,56 –3,84 –4,59 4,51 –4,59 2,96 –1,04 –5,09
94,42 80,47 89,77 97,52 102,17 83,57 102,17 91,32 97,52 99,07
–20,42 13,53 8,23 –27,52 12,83 –26,57 12,83 34,68 28,48 –34,07
Die Differenz der geschätzten und der tatsächlichen AU-Werte ergibt RES(AUi) (Tabelle 2.4, Spalte 3). In gleicher Weise wird mit PR verfahren. Die dazugehörige Regressionsschätzung lautet: ˆ (PR) = 108,37 – 1,55 (AUi) Y i
R2 = 0,08
(2.33b)
Vollzieht man nun den zweiten Regressionsschritt, bei dem AA auf RES(AU) bzw. auf RES(PR) zurückgeführt wird, so ergeben sich die Schätzungen: ˆ (AA) = 14,16 + 1,09 RES(AUi) Y i ˆ (AA) = 13,91 – 0,07 RES(PRi) Y i
R2 = 0,43 2
R = 0,05
(2.33c) (2.33d)
Wie wir erkennen können, sind die geschätzten b-Koeffizienten der unabhängigen Variablen, aus denen zuvor die jeweils andere unabhängige Variable auspartialisiert wurde, bis auf Rundungsfehler unserer Beispielrechnung identisch mit denen aus der simultanen multiplen OLS- Schätzung (Gleichung 2.33), in der dieses Verfahren nicht angewandt wurde. Natürlich wird das Verfahren der doppelten Regression in multiplen Regressionsschätzungen nicht benutzt, sondern es werden stattdessen EDV-Programme eingesetzt, die die Schätzung durch Lösung von Differenzialgleichungssystemen
90
2 Das Grundmodell der Regressionsanalyse
erreichen. Im vorliegenden Beispiel wird aber durch die doppelte Regression die inhaltliche Bedeutung der partiellen Regressionskoeffizienten verständlicher: Allgemein formuliert bedeutet die Höhe des partiellen Regressionskoeffizienten das Ausmaß der zu erwartenden Veränderung in Y bei Veränderung des entsprechenden X um eine empirische Einheit, wenn gleichzeitig alle anderen X konstant gehalten bzw. kontrolliert werden. In unserem Beispiel wird sich die individuelle Ausländerablehnung um einen Wert von 1,08 erhöhen, wenn der Autoritarismuswert um eine Einheit anwächst und das Berufsprestige unverändert bleibt. Natürlich wird es in der Regel nicht bei einer Konstanz der übrigen X-Variablen bleiben; erst recht nicht, wenn man berücksichtigt, dass der Wert von 1,08 eine Schätzung für den zeitlich nicht befristeten „wahren“ -Wert ist. Wir sprechen deshalb besser davon, dass der partielle Regressionskoeffizient das Ausmaß der zu erwartenden Veränderung in Y bei Veränderung der um alle Einflüsse weiterer unabhängiger Variablen bereinigten X-Variablen bezeichnet, wobei die Veränderung von X jeweils um eine empirische Messeinheit erfolgt. Die Hypothese der Ethnozentrismusforscher wird im vorliegenden Beispiel also durch die Ergebnisse einer multiplen Regressionsschätzung bestätigt: Das Ausmaß von Autoritarismus hat einen stark positiven und die Höhe des Berufsprestiges einen negativen Einfluss auf die Ausprägung ausländerablehnender Einstellungen, wobei diese Einflüsse von jedem Faktor in selbstständiger Weise ausgeübt werden. Wie wir schon im bivariaten Modell gesehen haben, hängt die Höhe der Regressionskoeffizienten von der Breite der jeweiligen Messskalen ab. Deshalb können die Ethnozentrismusforscher auch nicht durch Vergleich der partiellen unstandardisierten Regressionskoeffizienten ermitteln, ob der Einfluss der autoritären Orientierungen oder der Einfluss des Berufsprestiges der stärkere ist. Dazu benötigen sie die Ergebnisse der standardisierten Regressionsschätzung (vgl. dazu das folgende Unterkapitel). Was sie allerdings ohne weiteres ersehen können, ist das Ausmaß der Kontrollfunktion, die eine zweite unabhängige Variable übernehmen kann: Die bivariate Regression von Y auf X1 und auf X2 ergibt folgende Schätzungen: ˆ = 2,83 + 1,18 X1 Y ˆ = 25,35 – 0,12 X2 Y
R2 = 0,55 R2 = 0,17
2.3 Regression im multivariaten Modell
91
Im Vergleich dazu sei hier noch einmal die simultane Schätzung der Regression von Y auf X1 und X2 im multiplen Modell aufgeführt: ˆ = 9,91 + 1,08 X1 – 0,07 X2 Y
R2 = 0,59
Wie durch Vergleich der Schätzgleichungen leicht zu erkennen ist, sinkt nach Einführung von X2 (als zweiter Prädiktorvariablen) der b1-Koeffizient von 1,18 auf 1,08. Dies zeigt, dass im multiplen Modell ein Teil des Einflusses von X1, der ansonsten über X2 zu Y gelangt, durch Auspartialisierung wegfällt, und sich dadurch das Ausmaß des Regressionskoeffizienten um ca. 9% reduziert. Gleiches gilt für X2, wenn X1 als Kontrollvariable betrachtet wird. Die beiden Prädiktoren X1 und X2 binden also keineswegs 72% der Varianz von Y, wie man durch vorschnelle Addition der einzelnen R2 aus den bivariaten Modellen errechnen könnte. Stattdessen binden sie allein 59% der Varianz in Y, wenn sie als selbstständige Bestimmungsfaktoren in die simultane Regression einbezogen werden. Dass die Einflussstärke der beiden X-Variablen nur 59% und nicht 72% der Varianz von Y bindet, liegt daran, dass Varianzanteile in X2 auf Kosten von X1 gehen und es sich mit der Varianz von X1 ebenso verhält (vgl. Gleichungen 2.33a und 2.33b). Diese Varianzanteile sind für die Reduktion der bKoeffizienten von 1,18 auf 1,08 bzw. von –0,12 auf –0,07 verantwortlich. Wir können dies auch genauer verfolgen: Bereinigt man X1 um die von X2 verursachten Varianzanteile sowie X2 um die von X1 verursachten Varianzanteile und führt dann die Regression von Y auf die beiden (nunmehr bereinigten) X-Variablen durch, ergeben sich ausgeschöpfte Varianzanteile von 43% und 5% (vgl. Gleichung 2.33c und 2.33d). Das sind die Anteile, um welche die Leistung der multiplen Regression im Vergleich zur bivariaten Regression ansteigt. Im Beispiel: R 2 YX1X2 R
2
R
2
R
2
YX1
0,59 0,55 0,05
Y(RESX2 ) YX1X 2
R
2
YX1
R 2 Y(RESX2 )
0,55 0,05 0,60
92
2 Das Grundmodell der Regressionsanalyse
Durch Erweiterung der Regression von Y auf X1 um die zusätzliche Variable X2 steigt R2 von 0,55 auf 0,60 (kleine Abweichungen von den zuvor genannten Zahlen entstehen dabei durch Rundungsfehler). Das ist genau der Anteil, den X2 von der Varianz in Y ausschöpft, wenn es um X1 bereinigt wurde (vgl. Gleichung 2.33d). Durch eine zusätzliche, kontrollierende Variable können nicht nur Einflussstärken, sondern sogar auch Einflussrichtungen korrigiert werden. Dies wollen wir mit folgendem Beispiel veranschaulichen. Die dabei benutzten Daten sind fiktiv. Tabelle 2.5: Fiktive Daten für eine Regressionsschätzung Y 17,4 14,2 20,3 20,8 22,8 14,3 17,0 11,4
X1 10,4 14,2 15,3 14,0 11,7 11,7 15,6 14,3
X2 19,3 15,3 16,8 17,0 18,1 14,7 14,1 14,0
Berechnet man mit den Daten aus Tabelle 2.5 ein bivariates Regressionsmodell von Y auf X1, so ergibt sich:
ˆ = 20,06 – 0,21 X1 Y Führt man die zusätzliche Kontrollvariable X2 ein, so ergibt sich für die Regressionsschätzung:
ˆ = – 28,46 + 1,03 X1 + 1,98 X2 Y Im hier gezeigten Beispiel ändert sich durch Erweiterung des Regressionsmodells um eine Kontrollvariable nicht nur die Effektgröße aus der bivariaten Reˆ im bivariaten gressionsschätzung, sondern auch die Einflussrichtung. Wird Y Modell durch eine Steigerung von X1 verkleinert (negativer Effekt), wird es nunmehr im trivariaten Modell durch eine Steigerung von X1 beträchtlich erhöht (positiver Effekt). Dieser überraschende Effekt entsteht dadurch, dass X1 im „wahren“ Modell zwei Einflüsse auf Y ausübt: einen direkten und einen indirek-
2.3 Regression im multivariaten Modell
93
ten über X2. Der direkte Einfluss ist sehr schwach und positiv, der indirekte ist sehr stark und negativ (vgl. Abbildung 2.16). Da im bivariaten Modell nicht zwischen direkten und indirekten Einflüssen unterschieden wird, ist dort der Gesamteinfluss negativ, denn der stark negative Anteil überwiegt den schwach positiven Anteil am Gesamteinfluss. Hingegen wird im multiplen Modell bei Schätzung des Einflusses von X1 die Variable X2 kontrolliert, d.h. der indirekte Einfluss von X1 bleibt unberücksichtigt. Folglich berücksichtigt der geschätzte Einfluss nur die positiven Werte des direkten Weges und ist deshalb positiv. Abbildung 2.16: Kontrollfunktion in multiplen Modellen
Ist der Anwender an indirekten Effekten interessiert, die über so genannte „intervenierende Variablen“ bzw. „Mediatorvariablen“ (hier: X2) verlaufen, so kann der Gesamteffekt von X in dessen indirekten und direkten Anteil aufgelöst werden (vgl. hierzu Kapitel 5.3).
Dass im multiplen Modell die Stärke und Richtung von Variableneinflüssen kontrolliert werden können, ist ein nicht zu unterschätzender Vorteil der Regressionsanalyse. Dies sollte uns aber auch noch einmal daran erinnern, dass die geschätzten Regressionskoeffizienten stets modellspezifisch zu interpretieren sind. Denn ihre Größe hängt u.a. von der Art und der Anzahl der ins Modell einbezogenen unabhängigen Variablen ab. Der unstandardisierte Regressionskoeffizient einer bestimmten Variablen kann (bei gleicher Y-Variablen) in verschieden umfangreichen Modellen unterschiedlich sein, da in jeder Schätzung stets alle X-Variablen gegenseitig auspartialisiert werden und deshalb dieselbe Variable im Zusammenhang mit unterschiedlichen X-Variablen unterschiedliche Werte annehmen kann. Um solche modellabhängigen Veränderungen von bSchätzwerten besser erkennen und interpretieren zu können, empfiehlt es sich, multiple Regressionsschätzungen in Form von hierarchischen bzw. sequenziellen Regressionsanalysen durchzuführen (vgl. dazu Kapitel 5.4). Es gibt also nicht „den“ Regressionskoeffizienten als universell gültigen Schätzwert für den Einfluss individueller autoritärer Orientierungen auf die individuelle Ausländerablehnung. Es gibt nur den für ein bestimmtes Modell geschätzten Einflusskoeffizienten, z.B. für ein lineares Modell mit den beiden unab-
94
2 Das Grundmodell der Regressionsanalyse
hängigen Variablen „Autoritarismus“ und „Berufsprestige“. Und diese Koeffizientenschätzung ist zudem von weiteren Faktoren abhängig (vgl. Kapitel 3).
Z2.17: Eine Regressionsschätzung erbringt immer modellspezifische Koeffizientenschätzungen, die auch nur modellspezifisch interpretiert werden dürfen. Deshalb sollte die Modellabhängigkeit von Regressionsschätzungen kontrolliert werden (z.B. durch Einsatz einer hierarchischen bzw. sequenziellen Regressionsanalyse).
Bislang wurde gezeigt, dass die geschätzte Einflussstärke und Einflussrichtung im bivariaten Modell (ohne Kontrolle weiterer Variableneffekte) nicht mit der geschätzten Einflussstärke oder Effektrichtung im multivariaten Modell (mit Kontrolle zusätzlicher Variableneffekte) übereinstimmen müssen. Auch erbrachten X1 und X2 sowohl im bivariaten als auch im multiplen Modell einen bedeutenden Anteil zur Vorhersage von Y. Es ist allerdings auch möglich, dass Einflussbeziehungen im bivariaten Modell überhaupt nicht zu erkennen sind und erst in der multiplen Regression hervortreten. Der Grund dafür ist leicht nachzuvollziehen. Wie wir gesehen haben, werden im multivariaten Modell die unabhängigen Variablen wechselseitig auspartialisiert. Wenn nun aus einer X-Variablen gerade diejenigen Varianzanteile eliminiert werden, die mit einer anderen X-Variablen aber nicht mit Y zusammenhängen, gibt es für die bereinigte X-Variable einen besonders starken Zusammenhang mit Y, der sich auch in einer entsprechend großen Einflussstärke in der Regression niederschlägt. Unabhängige Variablen, die den „wahren“ Zusammenhang zwischen X und Y unterdrücken und diesen erst freigeben, wenn ihre Varianzanteile aus X auspartialisiert werden, werden „Suppressorvariablen“ genannt. Abbildung 2.17 veranschaulicht die Wirkungsweise von Suppressorvariablen. Im Beispiel nach Abbildung 2.17 korreliert X1 nur schwach mit Y, da die Variable viele Varianzanteile enthält, die unabhängig von Y sind (schräg schraffiert). X2 korreliert überhaupt nicht mit Y, hat jedoch einen großen korrespondierenden Varianzanteil in X1 (schräg schraffiert). Wird X2 aus X1 auspartialisiert, so werden aus X1 diejenigen Varianzanteile entfernt, die zuvor eine hohe Korrelation mit Y verhinderten. Folglich wird bei einer Regression von Y auf das bereinigte X1 ein starker Regressionskoeffizient geschätzt werden.
2.3 Regression im multivariaten Modell
95
Abbildung 2.17: Wirkung von Suppressorvariablen (nach Bortz 1999: 444) X2
X1
Y
ryx
1
rx x 1 2
ryx = 0 2
Suppressor
Negative Suppressorverhältnisse sind auch ein Grund dafür, warum wir in diesem Skript davor gewarnt haben, die X-Variablen für eine Regressionsmodellierung aufgrund von hohen Korrelationskoeffizienten zwischen X- und YVariablen (z.B. bei Betrachtung einer Pearsonschen Korrelationsmatrix) auszuwählen. Denn möglicherweise korrelieren darin eine X- und die Y-Variable überhaupt nicht miteinander (oder nur verschwindend gering), obgleich es sich in einer multiplen Regressionsanalyse erweisen kann, dass gerade dieses X einen beträchtlichen Einfluss auf Y haben kann, und dies erst dann zum Vorschein kommt, wenn ihr Effekt um die Effekte anderer X-Variablen bereinigt wird. So kann ein Regressionsmodell leicht falsch spezifiziert werden, wenn es mit Hilfe einer Korrelationsmatrix aufgestellt wird.
Z2.18: In der multivariaten/multiplen Regressionsanalyse kann der zu erwartende Wert einer abhängigen Variablen (Y) als Folge von Veränderungen mehrerer unabhängiger Variablen (Xk) geschätzt werden. Jeder partielle (unstandardisierte) Regressionskoeffizient (bk) berichtet die zu erwartende Veränderung in Y, die aufgrund der autonomen Veränderung der jeweiligen X-Variablen um eine empirische Skaleneinheit erfolgt. Dieser Veränderungseinfluss wird hinsichtlich der Effekte anderer im Modell berücksichtigter X-Variablen kontrolliert. Die Einsatzmöglichkeiten der geschätzten partiellen Regressionskoeffizienten sind begrenzt. Es gelten die gleichen Restriktionen wie im bivariaten Modell (vgl. Z2.15).
96
2 Das Grundmodell der Regressionsanalyse
2.3.2 Varianzzerlegung und Standardisierung im multivariaten Modell
Im vorangegangenen Kapitel 2.3.1 wurde bereits der Determinationskoeffizient der multiplen Regressionsschätzung verwendet. Die Interpretation des Koeffizienten machte keine Schwierigkeiten, da sie identisch mit derjenigen des R2 im bivariaten Modell ist (vgl. Z2.11). Auch für das R2 im multiplen Modell gilt: modellgebundene Variation beobachtete Variation
¦ (Yˆ Y) ¦ (Y Y)
2
i
2
R2
(2.34)
i
Auch in der multiplen Regressionsanalyse ist der Determinationskoeffizient ein Maß für die Güte der Regressionsschätzung. Inhaltlich betrachtet hat er sein jeweiliges Optimum erreicht, wenn das Ausmaß der ausgeschöpften Variation (bzw. Varianz) genau dem Ausmaß der beobachteten Variation (bzw. Varianz) entspricht. Dann nimmt R2 den Wert „1,00“ an. Dementsprechend gilt auch im multiplen Modell die Gleichung der Variationszerlegung (Gleichung 2.34), wie sie im bivariaten Modell aufgestellt wurde (Gleichung 2.16). Allerdings ist die graphische Veranschaulichung der Zerlegung, die in Abbildung 2.10 für das bivariate Modell noch recht einfach zu skizzieren war, nun ein wenig schwieriger geworden. Denn schon im kleinsten multiplen Modell (mit nur zwei X-Variablen) ergibt sich die Variationszerlegung nicht mehr aus den Abständen zwischen einer Regressionsgeraden und vielen Datenpunkten, sondern aus den Abständen zwischen einer Regressionsfläche und den beobachteten Datenpunkten (vgl. Abbildung 2.15). Um sich eine inhaltliche Vorstellung von dem zu machen, was der Determinationskoeffizient in der multiplen Modellierung bedeutet, denkt man am besten an eine Korrelation, die zwischen den im Regressionsmodell zu schätzenden YWerten und den empirisch beobachteten Y-Werten bestehen kann. Eine solche Korrelation wird auch „multiple Korrelation“ genannt und mit „R“ bezeichnet: R = rYˆY
(2.35)
ˆ mittels einer Diese Korrelation heißt deshalb „multiple“ Korrelation, weil Y (geschätzten) Linearkombination aller X-Variablen berechnet wird und deshalb eine Größe darstellt, die in einem einzigen Wert alle auf Y einwirkenden X-
2.3 Regression im multivariaten Modell
97
Effekte zusammenfasst. So wird im Grunde genommen mit R ein Wert gefunden, der die Korrelation zwischen Y und der Gesamtheit aller X-Effekte berechnet. Dies wird mit dem Adjektiv „multiple“ ausgedrückt. Wenn die Regressionsschätzung perfekt ist, erhält R den Wert „1,00“. Dann gibt es in der Schätzung keine Residuen, und alle beobachteten Y-Werte liegen auf der zwei- oder mehrdimensionalen Regressionsfläche. Hat R einen Wert von „0,00“, so haben die beobachteten Y-Werte und die geschätzte Regressionsfläche keine Beziehung zueinander. Dann ist es nicht möglich, Y aufgrund einer Linearkombination aller X zu schätzen. Wie erinnerlich ist im bivariaten Modell der Korrelationskoeffizient zwischen Y und X gleich dem standardisierten Regressionskoeffizienten der Regression von Y auf X (vgl. Z2.13). Im multiplen Modell gilt das nicht (dazu mehr im Folgenden). Aber auch dort ergibt sich aus dem Quadrat des multiplen Korrelationskoeffizienten der Determinationskoeffizient der multivariaten Regressionsschätzung: ( rYˆY )2 = R2 Dies ist nicht weiter verwunderlich. Da bei R = 1,00 eine perfekte Schätzung geliefert wird, muss dann auch eine perfekte oder 100%ige Ausschöpfung aller Varianzanteile von Y erreicht sein (R2 = 1,00). Und da im umgekehrten Fall bei R = 0,00 keinerlei Varianz von Y durch X gebunden wird, muss dann auch der Determinationskoeffizient einen Wert von 0,00 aufweisen. Wir wollen dies anhand der Daten aus Tabelle 2.3 veranschaulichen und die bivariate und trivariate Regressionsschätzung miteinander vergleichen. Im bivariaten Fall wird die Ausländerablehnung allein auf Autoritarismus zurückgeführt:
ˆ = 2,83 + 1,18 X1 Y
R2 = 0,55
Im trivariaten Modell tritt zur statistischen Erklärung von Ausländerablehnung zusätzlich noch das Berufsprestige hinzu:
ˆ = 9,91 + 1,08 X1 – 0,07 X2 Y
R2 = 0,59
98
2 Das Grundmodell der Regressionsanalyse
Durch die zusätzliche Aufnahme von X2 in das Regressionsmodell steigt der Wert des Determinationskoeffizienten von 0,55 auf 0,59 an. Und durch die Hinzunahme weiterer unabhängiger Variablen würde R2 auch weiterhin ansteigen. Denn jede zusätzliche X-Variable kann den Wert von R2 nicht vermindern, sondern nur vergrößern (und sei es auch nur um einen sehr minimalen Betrag).
Z2.19: Der Determinationskoeffizient R2 im multiplen Modell hat eine vergleichbare Interpretation wie R2 im bivariaten Modell (vgl. Z2.11). Bei seiner Interpretation muss stets berücksichtigt werden, dass er eine modell- und messspezifische Größe ist (vgl. dazu die Kapitel 2.2.3 und 2.3.4). Er ist identisch mit dem Quadrat der multiplen Korrelation zwischen geschätzten und beobachteten Y-Werten ( rYˆY ). Im bivariaten Modell ist der Wert von R2 identisch mit dem Quadrat des standardisierten Regressionskoeffizienten (vgl. Z2.14). Im multiplen Modell gilt dies nur in Ausnahmefällen. Warum dies so ist, wollen wir anhand unseres trivariaten Anwendungsmodells zur statistischen Erklärung von Ausländerablehnung erläutern (vgl. die Daten in Tabelle 2.3). Die Gleichung der standardisierten Regressionsschätzung lautet: ˆ = 0,68 X1 – 0,22 X2 Y
R2 = 0,59
(2.36)
Genau wie im bivariaten Modell ergeben sich auch im trivariaten Modell die standardisierten Regressionskoeffizienten der Regressionsschätzung aus einer Transformation der partiellen, unstandardisierten Regressionskoeffizienten (kleinere Abweichungen beruhen auf Rundungsfehlern): b1*
b1
b*2
b2
S X1 SY SX 2 SY
1,08
4,81 7,67
0,07
0,68
26,12 7,67
0,24
Da bei standardisierten Regressionskoeffizienten die Skalierung standardisiert ist, können sie innerhalb eines Modells unter gewissen Bedingungen (vgl. Kapi-
2.3 Regression im multivariaten Modell
99
tel 2.3.3) miteinander verglichen werden (wie erinnerlich sind sie aber nicht für empirische Vorhersagezwecke einzusetzen und können auch nicht zwischen zwei oder mehreren Stichproben verglichen werden, vgl. Z2.15). Demnach hat in unserem Beispiel die individuelle autoritäre Orientierung einen deutlich stärkeren Einfluss auf die Ausländerablehnung als das Berufsprestige (etwa 66% stärker). Zudem ist der Einfluss des Autoritarismus positiver Art (d.h. je höher die autoritäre Orientierung, desto höher ist die Ausländerablehnung) während der Einfluss des Berufsprestiges negativ gerichtet ist (d.h. je höher das Berufsprestige, desto niedriger ist die Ausländerablehnung). Beide unabhängigen Variablen binden in ihrer geschätzten Linearkombination zusammen 59% der Varianz von Ausländerablehnung. Würde man (fälschlicherweise) die partiellen, standardisierten Regressionskoeffizienten quadrieren und aufsummieren (wie es die Eigenschaft bivariater standardisierter Regressionskoeffizienten nahe legen könnte), erhielte man ein R2 von 0,51, also eine deutliche Unterschätzung des ausgeschöpften Varianzanteils. Die Differenz zwischen 0,51 und 0,59 entsteht dadurch, dass sich im multiplen Modell mit zwei unabhängigen Variablen die Schätzung der Varianz aus mehr als nur der Summe der Quadrate der standardisierten Regressionskoeffizienten zusammensetzt. Die gebundene Varianz berechnet sich nach der Gleichung (zum Nachweis vgl. Ergänzung 2.5): SYˆ
2
(b1* ) 2 (b*2 ) 2 2(b1* )(b*2 )cov X1X 2
(2.37)
Die geschätzte Varianz von Y ergibt sich also nicht nur aus den Quadraten der standardisierten Regressionskoeffizienten, sondern zusätzlich auch noch aus ihrem doppelten Produkt (2 × b*1 × b*2) sowie der Kovarianz der unabhängigen Variablen (covX1X2). Erst wenn die Kovarianz gleich null ist, wäre die geschätzte Varianz allein von den Quadraten der standardisierten Regressionskoeffizienten abhängig. Erst in diesem Falle wäre auch die erklärte Varianz, die allein auf das Konto einer jeden unabhängigen Variablen geht, identisch mit ihrem Quadrat des standardisierten Regressionskoeffizienten: nur wenn cov X1X 2
0, dann gilt : R 2
(b1* ) 2 (b*2 ) 2
100
2 Das Grundmodell der Regressionsanalyse
Ergänzung 2.5: Nachweis der Gültigkeit von Gleichung (2.37) Die geschätzte Varianz berechnet sich nach der Gleichung: 1 ˆ Y) 2 SYˆ 2 (Y N 1 [(b1*X1 b*2X 2 ) (b1*X1 b*2 X 2 )]2 N 1 [(b1* (X1 X1 ) b*2 (X 2 X 2 )]2 N def : X i X i Xi
¦
¦ ¦
1 N 1 N
¦(b X b X ) ¦(b X b X * 1 1
* 2
*2 2 1 1
2
2
*2 2
2
2
2b1*b*2 X1X 2 )
nach dem Rückverwandeln von Xi in ( X i X i ): b1*
2
2
1 N
¦ (X
1
2
2
X1 ) 2 b *2
2
1 N
¦ (X
2
X 2 ) 2 2b1* b *2
1 N
¦ (X
1
X1 )(X 2 X 2 )
2
b1* S X1 b *2 S X 2 2b1* b *2 cov X1X 2
da nach der Standardisierung SX 12
SX 2 2
1 : SYˆ 2
(b1* ) 2 (b*2 ) 2 2b1*b*2cov X1X 2
In unserem Beispiel gilt die oben genannte Bedingung nicht. Die Variablen X1 und X2 korrelieren mit einem Wert von r = –0,29. Deshalb kann der durch jede ˆ nicht durch Quadrierung einzelne X-Variable gebundene Varianzanteil von Y des entsprechenden standardisierten Regressionskoeffizienten bestimmt werden. Was sich allein bestimmen lässt, ist der simultan durch die Effekte aller XVariablen ausgeschöpfte Varianzanteil (mittels des Determinationskoeffizienten der multiplen Schätzung). Der Anteil ausgeschöpfter Varianz betrifft somit im multivariaten Modell immer die Leistung der kompletten Regressionsschätzung. Die Unabhängigkeit der X-Variablen innerhalb eines Modells wird auch als „Orthogonalität“ der X-Variablen bezeichnet. Wenn jedoch die X-Variablen miteinander korrelieren, sind sie nicht orthogonal, sondern kollinear bzw. multikollinear. Eine „Multikollinearität“ ist also das Gegenteil von Orthogonalität (mehr zur Multikollinearität in Kapitel 4.5). Nur im Falle von Orthogonalität lässt sich dementsprechend der Zuwachs an statistischer Erklärungskraft durch Hinzunahme bestimmter X-Variablen leicht
2.3 Regression im multivariaten Modell
101
berechnen. Dann ist dieser Zuwachs gleich dem Quadrat des standardisierten Regressionskoeffizienten der hinzukommenden Variablen. Unter nicht-orthogonalen Verhältnissen ist das schwieriger: Erinnern wir uns an unsere bivariate Schätzung, in der die Regression der Ausländerablehnung allein auf die autoritäre Orientierung durchgeführt wurde: ˆ = 2,83 + 1,18 X1 Y
R 2 YX1 = 0,55
Erweitert um eine zweite unabhängige Variable (Berufsprestige) ergab sich: ˆ = 9,91 + 1,08 X1 – 0,07 X2 Y
R 2 YX1X 2 = 0,59
Der Zuwachs an statistischer Erklärungskraft beträgt hier also 4%. Kennen wir die bivariate Lösung nicht, so ergibt sich bei nicht-orthogonalen X-Variablen durch Hinzunahme von X2 eine Steigerung von R2 um: R 2 YX1X 2 R 2 YX1
2 ˆ 2 (1 R 2 X 2X1 )
(2.38)
0,22 (1 0,08) 2
0,04 wobei R 2 X2X1 der Determinationskoeffizient der Regression von X2 auf X1 ist (nach Gleichung 2.33b, Seite 89). Folgende Schreibweise hat sich eingebürgert: Das erste Subskript von R bezeichnet die Variable, die in der Regression die abhängige Variable ist (in Gleichung 2.38 ist das Y bei beiden R2 auf der linken Seite und X2 bei R2 auf der rechten Seite der Gleichung). Alle folgenden Subskripte sind unabhängige Variablen. Will man bei einem Regressionskoeffizienten besonders hervorheben, dass es sich um einen partiellen Koeffizienten in einer multiplen Regression handelt, so trennt man diejenigen Subskripte, die auspartialisiert wurden, durch einen Trennungsstrich von den vorangehenden Subskripten ab: b YX1 X 2X3...X n Einfacher lässt sich auch schreiben: b1.2 - 34...n wobei die Y-Variable stets mit 1 und alle X-Variablen mit Zahlen ab 2 aufwärts nummeriert werden.
Ergänzend zum Determinationskoeffizienten (R2) lässt sich auch in der multiplen Regressionsschätzung der Standardschätzfehler berechnen und interpretieren. Er ergibt sich (mit „k“ gleich Anzahl zu schätzender Parameter) als:
102
2 Das Grundmodell der Regressionsanalyse
SEE
¦(Y Yˆ ) i
i
N k 1
2
(2.38.1)
bzw. als: SEE
SAQ F N k 1
(2.38.2)
Der Standardschätzfehler einer multiplen Regressionsschätzung wird wie auch der Standardschätzfehler der bivariaten Schätzung von SPSS ausgegeben und in gleicher Weise interpretiert (vgl. dazu unsere Ausführungen in Kap. 2.2.2). Aus Gleichung (2.38) lässt sich ersehen, dass der statistische Erklärungszuwachs im nicht-orthogonalen Modell zunächst einmal durch die Höhe des standardisierten Regressionskoeffizienten festgelegt wird. Sodann wird er aber auch noch um denjenigen Anteil korrigiert, mit dem X2 auf X1 zurückzuführen ist. Im Falle von Orthogonalität ist diese Korrektur überflüssig. X-Variablen mit hoher Multikollinearität führen zu großen Schwierigkeiten in der Koeffizientenschätzung nach der OLS-Methode. Die geschätzten Koeffizienten können dann recht instabil werden und sich u.U. radikal ändern, wenn nur eine einzige Beobachtung variiert oder wegfällt. Zudem können bei hoher Multikollinearität auch standardisierte Regressionskoeffizienten auftauchen, die oberhalb von 1,00 oder unterhalb von –1,00 liegen. Wir werden dieses Problem in Kapitel 4.5 noch intensiv erörtern. Hier sei nur schon einmal die Anmerkung vorausgeschickt, dass X-Variablen, die hoch miteinander korrelieren (etwa mit Korrelationen oberhalb von ca. +0,80 bzw. unterhalb von ca. –0,80) nur mit großer Vorsicht als gemeinsame unabhängige Variablen in ein Regressionsmodell einbezogen werden sollten. Und vorsichtig sollte man auch deshalb sein, weil bei hoher Korrelation die beteiligten Variablen u.U. nur deshalb so hoch miteinander kovariieren, weil sie Ähnliches oder sehr eng miteinander Verwandtes im gleichen empirischen Messbereich erfassen. In diesem Falle wäre ihre gemeinsame Berücksichtigung in einem einzigen Regressionsmodell auch unter modelltheoretischen Gesichtspunkten nicht mehr sinnvoll.
2.3 Regression im multivariaten Modell
103
Für eine weitergehende Beschreibung der Problematik standardisierter Regressionskoeffizienten vgl. die Ausführungen im folgenden Unterkapitel 2.3.3.
Z2.20: Der partielle, standardisierte Regressionskoeffizient in der multiplen Regression berichtet in standardisierter Weise den Einfluss einer XVariable auf die abhängige Y-Variable, wobei die Effekte aller anderen im Regressionsmodell berücksichtigten X-Variablen kontrolliert werden. Der standardisierte Regressionskoeffizient kann zu modellund stichprobeninternen Vergleichen der Einflussstärken mehrerer X-Variablen herangezogen werden. Bei seiner Interpretation müssen zahlreiche Probleme berücksichtigt werden (vgl. dazu Unterkapitel 2.3.3).
2.3.3 Die Problematik standardisierter Regressionskoeffizienten
Wie wir gesehen haben, bezeichnen standardisierte Regressionskoeffizienten das Ausmaß der Veränderung einer abhängigen Y-Variablen auf einer Standardskala (Mittelwert = 0, Standardabweichung = 1). Dabei wird diese Veränderung dadurch ausgelöst, dass der Wert der dazugehörigen X-Variablen um eine Standardeinheit ansteigt und gleichzeitig alle anderen unabhängigen X-Variablen im Regressionsmodell auf statistische Weise konstant gehalten werden. Die Ausrichtung der entsprechenden Veränderung (positiv oder negativ bzw. gleichsinnig oder gegensinnig) wird durch das Vorzeichen des standardisierten Regressionskoeffizienten (+ oder –) indiziert. Die Standardisierung der Regressionskoeffizienten eliminiert Skaleneffekte, so dass die Größe eines geschätzten Wertes unabhängig von linearen Transformationen der entsprechenden Messskala wird. So ist z.B. der standardisierte Regressionskoeffizient, der die Einflussstärke von Einkommen (X1) auf Berufsprestige (Y) misst, unabhängig davon, ob Einkommen auf einer Tsd.Euro-Skala oder einer Ein-Euro-Skala gemessen wurde. In beiden Fällen wird der standardisierte Regressionskoeffizient denselben Wert aufweisen. Gängige Praxis ist es, die standardisierten partiellen Regressionskoeffizienten zu benutzen, um innerhalb eines Regressionsmodells die Einflussstärken
104
2 Das Grundmodell der Regressionsanalyse
verschiedener X-Variablen, deren Messwerte mit unterschiedlichen Messskalen erhoben wurden, miteinander vergleichen zu können. Die vergleichende Interpretation von standardisierten Regressionskoeffizienten ist jedoch umstritten, und es gibt gute Gründe, dabei sehr vorsichtig vorzugehen, oder solche Vergleiche überhaupt gänzlich zu unterlassen. Folgende Überlegungen sprechen gegen eine allzu vorschnelle Interpretation standardisierter Regressionskoeffizienten:3 ˆ = b 1 X1 + b 2 X 2 . Angenommen ein Regressionsmodell wird geschätzt als Y Dann ergeben sich die standardisierten Regressionskoeffizienten (b*1 und b*2) aus den unstandardisierten Koeffizienten (b1, b2) durch die folgenden Transformationen: b*1 = b1(Var(X1)/Var(Y)) und b*2 = b2(Var(X2)/Var(Y)). Dies bedeutet, dass selbst dann, wenn b1 und b2 gleich groß sind oder in einem Verhältnis von 10:1 stehen, sich dies im Verhältnis von b*1 und b*2 nur dann ausdrücken kann, wenn Var(X1) und Var(X2) gleich groß sind. Und dies ist höchst unwahrscheinlich, denn die Varianzen von X1 und X2 ergeben sich zwar aus der Varianz von X1 und X2 in der Population, aber auch durch Effekte von Stichprobenziehung und Messung. So ist es z.B. für die Varianz der X-Variablen „Alter“ von Bedeutung, ob diese im Messbereich von 18 bis 65 oder von 18 bis 100 Jahren erhoben wurde. Ungleiche Varianzen sind also häufig eine Folge unterschiedlicher methodischer Designs und können damit u.U. rein artifiziell verursacht sein. Bei ungleichen Varianzen können Ergebnisse wie das folgende entstehen: Die Gesundheit aller Befragten (gemessen mit einem bestimmten medizinischen Indikator Y) erhöht sich um b*1 = 0,75 Standardeinheiten, wenn die wöchentliche Trimm-Dich-Zeit (X1) um fünf Stunden erhöht wird (was in diesem Beispiel der entsprechenden Standardabweichung von X1 entsprechen soll), und sie erhöht sich um b*2 = 0,25 Standardeinheiten, wenn das monatliche Einkommen (X2) um 750 Euro ansteigt (was der entsprechenden Standardabweichung von X2 entsprechen soll). In einem formal-statistischen Sinne könnte man dann sagen, dass der Effekt von X1 auf Y dreimal so stark ist, wie der Effekt von X2 auf Y, denn in beiden Fällen wird mit gleichen Skaleneinheiten (empirische Standardabweichungen) operiert. Aber könnte man dann dies wirklich auch in einem substanziellen Sinne behaupten? Ließen 3 Wir folgen in unseren Ausführungen den Inhalten einer Diskussion, die von M. Kline am 8.1.2003 im Internet-Diskussionsforum „SEMNET“ ausgelöst wurde.
2.3 Regression im multivariaten Modell
105
sich darauf wirklich gesundheitspolitische Maßnahmen begründen, wenn es sich z.B. bei X1 und X2 um unterschiedliche Nährstoffe in Lebensmitteln handelte? Das wäre wohl sehr gewagt. Standardisierte Regressionskoeffizienten können häufig für praktische Zwecke ganz einfach nicht sinnvoll interpretiert werden. Auch ist es nur bedingt richtig, dass standardisierte Koeffizienten keinen Bezug auf empirische Messeinheiten nehmen und deshalb problemlos miteinander verglichen werden können. Eine Veränderung um eine Standardeinheit bei einem bestimmten Prädiktor steht in direkter Verbindung zur empirischen Metrik dieses Prädiktors und würde oftmals anders ausfallen, wenn mit einer anderen Metrik/Skala gemessen worden wäre (vgl. das oben genannte Altersbeispiel). Aufgrund der Varianzabhängigkeit der standardisierten Regressionskoeffizienten dürfen standardisierte Koeffizienten auch nicht (oder nur in sehr seltenen Ausnahmefällen) zum Vergleich von Schätzergebnissen aus unterschiedlichen Populationen, Stichproben oder Subgruppen verwendet werden. Denn in aller Regel dürften die in unterschiedlichen Datensätzen gemessenen Varianzen ein und derselben Variablen nicht gleich groß sein. Und bei unterschiedlich großen Varianzen verzerrt eine größere X-Varianz die Höhe eines jeden standardisierten Regressionskoeffizienten stets nach oben, während eine größere Varianz bei der Y-Variablen den entsprechenden Koeffizientenwert nach unten zieht. Beides kann leicht durch eine unzuverlässige Messung geschehen. Deshalb sollten auch Hypothesentests über die Gleichheit von Effekten in unterschiedlichen Populationen nur mit unstandardisierten und nicht mit standardisierten Regressionskoeffizienten gemacht werden. Zudem wird häufig in der Forschungspraxis nicht daran gedacht, dass die Varianzen im Regressionsmodell durch eine falsche Gewichtung von Fällen so sehr verzerrt werden können, dass dadurch auch die standardisierten Regressionskoeffizienten verzerrt werden. Wenn z.B. der Anteil einer Minoritätsgruppe an einer Stichprobe durch eine zu hohe Gewichtung von Minoritätsangehörigen angehoben wird, kann das auch die Varianzen der X- oder YVariablen in falscher Weise vergrößern. Zwar blieben die unstandardisierten Regressionskoeffizienten von solch einer falschen Varianzanhebung unbeeinflusst, jedoch würden in diesem Falle die standardisierten Regressionskoeffizienten nach oben oder unten verschoben werden.
106
2 Das Grundmodell der Regressionsanalyse
Aber auch dann, wenn berechtigterweise anzunehmen ist, dass die Varianzen von Variablen, deren Effekte in einem einzigen Modell oder zwischen mehreren Modellen zu vergleichen sind, von identischer Größe sind, und wenn auch berechtigterweise anzunehmen ist, dass bei der Messung dieser Variablen keinerlei Probleme entstanden sind, können standardisierte Regressionskoeffizienten riskante Schätzwerte liefern. Denn immer dann, wenn die beteiligten Variablen keine normalverteilten empirischen Messwerte aufweisen, sind Varianzen bzw. Standardabweichungen keine guten Maße zur Ermittlung von deren Streuung (weil dann das entsprechende arithmetische Mittel auch kein guter Schätzwert für das Zentrum der Verteilung ist), und die varianzbasierten Streuungsmaße sagen in diesem Falle u.U. wenig über die empirischen Datenverhältnisse in einer Stichprobe aus.4 Noch heikler werden die Probleme, wenn in der Regressionsanalyse dichotome Prädiktoren (Dummy-Variablen, auch „Dummies“ genannt) verwendet werden (vgl. dazu Kapitel 5.1) und deren Effekte als standardisierte Koeffizienten geschätzt werden. Denn da die Varianz einer Dichotomie eine Funktion von deren Mittelwert ist, wird dann der standardisierte Koeffizient nicht nur von den jeweiligen Varianzen, sondern auch von den entsprechenden Mittelwerten abhängig. Und es entsteht auch noch ein zweites Problem bei der Standardisierung von Dummy-Effekten: In diesem Falle verliert die übliche Interpretation von standardisierten Regressionskoeffizienten ihre Bedeutung, da dichotome X-Variablen (meistens mit 0/1-Kodierung) nicht um eine Standardabweichung erhöht werden können. Eine Möglichkeit dieses Problem zu lösen, besteht darin, in einer Regressionsanalyse mit Dummy-Variablen nur die Y-Variable zu standardisieren und die dichotome(n) Variable(n) in ihrer 0/1-Form zu belassen. Dann muss aber auch die Interpretation der standardisierten Regressionskoeffizienten dementsprechend angepasst werden: Der entsprechend standardisierte Regressionskoeffizient bezeichnet in diesem Falle das Ausmaß an standardisierter Veränderung in Y, wenn X nicht den Wert „0,00“, sondern den Wert „1,00“ annimmt (im Beispiel: wenn das Geschlecht nicht „männlich“, sondern „weiblich“ ist). Sollte die verwendete Statistik-Software es nicht erlauben, teilstandardisierte 4
Diese Warnung gilt insbesondere für die Standardisierung der X-Variablen. Denn üblicherweise wird in der Regressionsanalyse zwar auch die Y-Variable standardisiert, aber dies muss nicht so sein, denn das relative Verhältnis der standardisierten Regressionskoeffizienten ändert sich nicht, wenn Y neu skaliert wird.
2.3 Regression im multivariaten Modell
107
Regressionskoeffizienten zu berechnen, so können diese leicht „per Hand“ berechnet werden. Um einen vollstandardisierten Regressionskoeffizienten in einen teilstandardisierten Regressionskoeffizienten zu verwandeln, ist Ersterer durch die Standardabweichung der entsprechenden Dummy-Variablen zu dividieren (entsprechend Gleichung 2.26). Dabei ist bei der Berechnung zu beachten, dass die Standardabweichung der Dummy-Variablen nur von denjenigen Fällen ermittelt wird, die auch tatsächlich in der Regressionsschätzung benutzt werden. Denn durch den listenweisen Ausschluss von Fällen mit fehlenden Werten kann die Fallzahl einer bi- oder multivariaten Regressionsanalyse wesentlich kleiner sein als die Fallzahl, die für die univariate Berechnung der Standardabweichung einer einzelnen Variablen zur Verfügung steht. Was kann also in der praktischen Regressionsanalyse gemacht werden, um die Einflussstärken innerhalb eines Modells sinnvoll miteinander vergleichen zu können? Eine gangbare Möglichkeit wäre, für alle Variablen die gleiche Metrik in der Skalierung zu benutzen und dann stets die unstandardisierten Effektstärken miteinander zu vergleichen. Zudem sollten in Regressionsanalysen stets beide Koeffizienten eines Effektes (unstandardisiert und standardisiert) berichtet werden. Dann könnte sich z.B. für zwei gleich skalierte XVariablen eine Interpretation ergeben, nach der X1 und X2 einen gleich großen unstandardisierten Effekt auf Y haben, weil eine Veränderung von X1 um eine empirische Einheit die gleichen Konsequenzen für Y hat wie eine Veränderung von X2 um eine empirische Einheit. Zugleich wäre dann aber auch zu erkennen, dass sich die beiden Effekte trotz gleicher unstandardisierter Effekte dadurch unterscheiden können, dass X1 viel stärker variiert als X2, was sich in einem höheren standardisierten Effekt von X1 ausdrücken würde. Eine gemeinsame Betrachtung von unstandardisierten und standardisierten Regressionskoeffizienten kann auch bei folgendem Problem weiterhelfen: Unter bestimmten Bedingungen können standardisierte Regressionskoeffizienten recht hohe absolute Werte aufweisen (z.B. 0,74), und dennoch kann der dazugehörige unstandardisierte Koeffizient ohne statistische Signifikanz sein (zur statistischen Signifikanz von Koeffizienten vgl. Kapitel 3). Irritierend ist diese Anomalie erst recht, wenn andere Effekte im Modell eher von kleinem standardisiertem Ausmaß sind, jedoch signifikante unstandardisierte Koeffizienten aufweisen.
108
2 Das Grundmodell der Regressionsanalyse
Eine solche „Anomalie“ ist Folge von unverhältnismäßig großen Standardfehlern (vgl. Kapitel 3.3.1). Diese verhindern, dass betragsmäßig hohe Koeffizienten als signifikant geschätzt werden. Für die Entstehung großer Standardfehler kann es viele Ursachen geben. Eine der wichtigsten ist eine hohe Kollinearität bzw. Multikollinearität (vgl. Kapitel 4.5) zwischen mindestens zwei X-Variablen, deren Effekt noch größer wird, wenn die Regressionsanalyse nur mit einer geringen Fallzahl durchgeführt wird. Denn generell gilt, dass immer, wenn die Messung von Variablen nicht gut gelungen ist, es Probleme mit hohen Standardfehlern und daraus resultierenden nicht-signifikanten Koeffizienten geben kann. In solchen Fällen sollten also nicht die hohen absoluten Koeffizientenwerte interpretiert werden, sondern es sollte nach Gründen für die schlechte Messung gesucht werden. Wenn dafür keine überzeugenden Gründe gefunden werden können, sollte die Interpretation der Regressionsschätzung auf die fehlende Signifikanz und nicht auf die Höhe der standardisierten Regressionskoeffizienten abstellen. Als Resümee bliebe also festzuhalten: Die Interpretation von standardisierten Regressionskoeffizienten ist hochgradig riskant. Um dem hohen Risiko einer Fehlinterpretation auszuweichen, sollten in der Regressionsanalyse am besten nur unstandardisierte Regressionskoeffizienten interpretiert werden, und zu Vergleichszwecken alle X-Variablen eines Modells mit gleichen Skalen gemessen werden. Wenn das nicht möglich ist, sollten stets unstandardisierte und standardisierte Koeffizienten gemeinsam interpretiert werden und dabei immer die Standardfehler (als geschätzte Streuung der Verteilung von , vgl. Kapitel 3.3.1) im Verhältnis zum jeweiligen b-Wert berücksichtigt werden. Leser, die mehr über die problematische Interpretation des standardisierten Regressionskoeffizienten erfahren wollen, sollten auch die beiden Kapitel über den problematischen Determinationskoeffizienten (R2) nachlesen (Kapitel 2.2.3 und Kapitel 2.3.4), da standardisierter Regressionskoeffizient und Determinationskoeffizient ineinander überführbar sind.
2.3 Regression im multivariaten Modell
109
2.3.4 Der problematische Determinationskoeffizient (R2), Teil 2
Auf die besondere Problematik des Determinationskoeffizienten wurde bereits in Kapitel 2.2.3 aufmerksam gemacht. Im Folgenden wollen wir noch einmal die wichtigsten Einwände gegen eine „blinde“ Verwendung von R2 zusammenfassen und dabei auch die besondere Situation in der multivariaten Regressionsschätzung berücksichtigen. Für unsere Zusammenfassung haben wir die Form einer „Giftliste“ gewählt, d.h. wir wollen die Absurdität der Jagd nach einem möglichst hohen R2-Wert dadurch besonders deutlich machen, dass wir Strategien benennen, mit denen der R2-Wert „künstlich“ bzw. rein statistiktechnisch in die Höhe getrieben werden kann (und in einigen Hexenküchen der Sozialforschung wohl leider auch tatsächlich getrieben wird). Diese Strategien sind Kennzeichen einer schlechten Sozialforschung. Sie sollten deshalb von seriösen Sozialforschern nicht eingesetzt werden. Allerdings erlaubt es oftmals erst die Kenntnis dieser Strategien, ihren Einsatz in der schlechten Sozialforschung zu erkennen und zu kritisieren. Deshalb werden wir diese Strategien hier vorstellen: S1: Benutze im Regressionsmodell eine möglichst große Anzahl von unabhängigen X-Variablen. Jede zusätzliche X-Variable kann den Wert von R2 nicht vermindern, sondern nur vergrößern (und sei es auch nur um einen minimalen Betrag). Geht es also allein darum, ein möglichst hohes R2 zu erreichen, so lässt sich mit einer entsprechend großen Anzahl einflussstarker X-Variablen ein beliebig hoher Determinationskoeffizient erzielen. Ist dann die Anzahl der unabhängigen Variablen (fast) so groß wie die Anzahl der zu analysierenden Beobachtungsfälle (oder exakter: wäre K = N –1), so hätte R2 einen Wert von 1,00, d.h. R2 könnte benutzt werden, um eine perfekte statistische Erklärungsleistung des Regressionsmodells zu behaupten. S2: Produziere verdeckte Spezifikationsfehler, die aufgrund der theoretischen oder analytischen Begründung für eine bestimmte Modellkonstruktion nicht sofort ersichtlich sind, die aber den R2-Wert erhöhen. Integriere dazu in das Modell solche unabhängigen X-Variablen, die inhaltlich betrachtet der Y-Variablen nicht vorgeordnet, sondern kausal nachgeordnet sind, die also im zeitlichen Ablauf von Y beeinflusst werden und somit eigentlich nicht Determinanten von Y, sondern Folgen von Y sind.
110
2 Das Grundmodell der Regressionsanalyse
S3: Schließe die Minderheitsgruppe von Beobachtungsfällen aus der Regressionsschätzung aus, bei denen sich deutlich abweichende Formen von Variablenbeziehungen erkennen lassen (z.B. andere als Linearbeziehungen). Diese Fälle vergrößern die Summe der Residuen in der OLS-Schätzung und können somit den R2-Wert reduzieren. Wird durch den Ausschluss entsprechender Fälle die Heterogenität in den Daten deutlich reduziert, kann der R2-Wert beträchtlich ansteigen. S4: Spezifiziere nicht vor der statistischen Analyse eine bestimmte funktionale Form der Beziehung zwischen exogenen X-Variablen und der endogenen Y-Variablen (z.B. eine linear-additive Beziehung), sondern lasse von deiner Statistik-Software diejenige mathematische Funktion suchen, die die Datenbeziehungen am besten beschreibt und somit auch das höchste R2 erbringen muss (zur Analyse kurvilinearer Funktionsbestimmungen vgl. Kapitel 4.3). S5: Suche nach solchen X-Variablen, die eine möglichst große inhaltliche Nähe zur abhängigen Variablen des Regressionsmodells aufweisen. Je stärker der Messbereich einer X-Variablen den Messbereich der Y-Variablen überschneidet, umso größer wird der Anstieg von R2 werden. Besonders hoch wird R2 werden, wenn eine oder mehrere X-Variable(n) das Gleiche wie die Y-Variable messen und dazu nur unterschiedliche Indikatoren benutzen. S6: Wenn mehrere X-Variablen zur Auswahl stehen (z.B. wenn es mehrere Indikatoren für ein bestimmtes exogenes Konstrukt gibt), benutze in der Regressionsschätzung diejenigen X-Variablen, die die höchste Varianz aufweisen. Denn bei ansonsten konstanten empirischen Werten wird die Schätzung mit der größeren exogenen Varianz auch das größere R2 aufweisen (zur Begründung vgl. Kapitel 2.2.3). Diese Strategie ist auch möglich, wenn zwischen unterschiedlichen X-Variablen aus verschiedenen Datensätzen (oder Untergruppen innerhalb eines Datensatzes) auszuwählen ist. S7: Wenn zwischen mehreren X-Variablen zu wählen ist, die sich allein in der Breite der zur Messung benutzten Skala unterscheiden (wenn z.B. das Lebensalter einmal im Messbereich von 18 bis 65 und einmal im Messbereich von 18 bis 100 erhoben wurde), so ist es gut möglich, dass die Varianz der breiter gemessenen X-Variablen größer ist, was automatisch ein höheres
2.3 Regression im multivariaten Modell
111
R2 zur Folge hätte (zur Begründung vgl. Kapitel 2.2.3). Ungleiche Varianzen und damit auch ungleiche R2-Werte können also auch Folge unterschiedlicher methodischer Designs sein. Und schon bei der Konzeption von Messinstrumenten kann man daran denken, durch die zu verwendende Skalenbreite die Chance auf ein hohes R2 zu erhöhen. S8: Wenn zur Regressionsschätzung die Daten aus mehreren unterschiedlichen Stichproben zur Verfügung stehen, oder die Schätzung mit den Daten aus unterschiedlichen Subgruppen durchgeführt werden kann, wähle denjenigen Datensatz aus, in dem die Effekte am stärksten bzw. die unstandardisierten Regressionskoeffizienten am höchsten sind. Denn unter ansonsten gleichen Bedingungen wird dort auch das R2 am höchsten sein (zur Begründung vgl. Kapitel 2.2.3). S9: Wenn mehrere Y-Variablen zur Auswahl stehen (z.B. wenn es mehrere Indikatoren für ein bestimmtes endogenes Konstrukt gibt), wähle diejenige Y-Variable aus, deren empirische Messung am zuverlässigsten ist bzw. am zuverlässigsten erscheint. Denn diejenige Y-Variable erzeugt das größere R2, die in der OLS-Schätzung die kleinere Residualvarianz aufweist (zur Begründung vgl. Kapitel 2.2.3). Dies ist häufig die Y-Variable, die mit den wenigsten Störeinflüssen gemessen werden konnte. S10: Berichte niemals ergänzende bzw. alternative Maße zur Beurteilung der Regressionsschätzung, wie z.B. den Standardschätzfehler (SEE) (vgl. Kapitel 2.2.2) oder die Signifikanz der Gesamtschätzung (F-Test) (vgl. Kapitel 3.3.2). Diese Strategie erhöht zwar nicht den Determinationskoeffizienten, jedoch ermöglicht sie es, einen berichteten (und vielleicht verzerrenden) R2-Wert weitgehend vor Kritik zu schützen. Leser, die mehr über die problematische Interpretation von R2 erfahren wollen, sollten auch das Kapitel 2.3.3 lesen („Die Problematik standardisierter Regressionskoeffizienten“), da standardisierter Regressionskoeffizient und Determinationskoeffizient ineinander zu überführen sind.
112 2.4
2 Das Grundmodell der Regressionsanalyse Schrittweise Variablenauswahl
In einigen EDV-Statistikprogrammen, so auch im SPSS-Paket (vgl. Kapitel 3.5), besteht die Möglichkeit, eine schrittweise Regressionsanalyse rechnen zu lassen (zur hierarchischen bzw. sequenziellen Regression vgl. Kapitel 5.4). Die schrittweise Regressionsanalyse wird in der Praxis der empirischen Sozialforschung leider allzu häufig allzu sinnlos angewandt. Denn sinnlos ist sie insbesondere dann, wenn man glaubt, sich durch dieses Verfahren die theoretische Vorarbeit (speziell von Spezifikationsüberlegungen) ersparen zu können. Leider begünstigt die schrittweise Regressionstechnik einen derartigen Irrglauben, da es ihr Ziel ist, aus einer gegebenen Menge von X-Variablen diejenige Teilmenge herauszufinden, deren Linearkombination mit der geringsten Anzahl unabhängiger Variablen die beste Schätzung liefert. Wäre ein derartiges Ergebnis auch im Sinne theoretisch anspruchsvoller Modellierungspraxis die beste Lösung, so könnte man sich in der Tat eine Menge theoretischer Vorarbeit ersparen. Nur leider ist sie es nicht. Wie verfährt die schrittweise Regression? Die schrittweise Regression besteht aus einer Vielzahl von multiplen Regressionen, die in einer bestimmten Reihenfolge durchgeführt werden. Der erste Schritt ist noch eine bivariate Regression. Es wird diejenige Variable ausgewählt, die mit der abhängigen Y-Variablen am höchsten korreliert, und ˆ mittels Schätztechnik auf diese X-Variable linear zurückgeführt. Für sodann Y diese Schätzung wird ein R2 berechnet. Anschließend wird die benutzte X-Variable aus allen anderen zur Verfügung stehenden X-Variablen auspartialisiert. Im zweiten Schritt wird wiederum diejenige Variable gesucht, die von den übrig gebliebenen X-Variablen am höchsten mit Y korreliert. Dabei unterscheiden sich die jetzt vorhandenen Korrelationen von denen im ersten Schritt, da X1 aus ihnen auspartialisiert wurde. Die im zweiten Schritt ausgewählte unabhängige Variable X2 wird zusammen mit X1 in einem nun trivariaten Regressionsmodell auf Y bezogen. Für diese Schätzung wird wiederum ein R2 berechnet und dieses mit dem R2 der bivariaten Schätzung verglichen. Dabei wird gefragt, ob der Zuwachs in R2 ein signifikanter Zuwachs ist. Dazu wird ein statistisches Testverfahren eingesetzt, das wir in Kapitel 3.3 noch vorstellen werden. Ist der Zuwachs signifikant im Sinne eines zuvor festgelegten Kriteriums, beginnt der nächste Schritt:
2.4 Schrittweise Variablenauswahl
113
Aus den verbliebenen Partialvariablen wird nun auch X2 auspartialisiert und anhand der Korrelationen dieser neu entstandenen Partialvariablen mit Y ein X3 für die nächstfolgende Regressionsschätzung gesucht. Sodann wird die Regression von Y auf X1, X2 und X3 im multiplen Modell berechnet und das R2 wie oben bewertet. Dieser Verfahrensablauf lässt sich so oft wiederholen, wie X-Variablen vorhanden sind und wie jeder Zuwachs des Determinationskoeffizienten statistisch signifikant ist. In der Praxis ist der Zuwachs ab einem bestimmten Schritt nicht mehr signifikant und dann wird die schrittweise Regression abgebrochen. Durch Vergleich der R2, die in jedem Schritt berechnet wurden, lässt sich zudem erkennen, ab welchem Schritt durch Hinzufügung neuer Variablen auch der absolute Wert von R2 nicht mehr bedeutend ansteigt. Man kann in der schrittweisen Regressionsanalyse also entscheiden, ob diejenige Linearkombination als optimal zu betrachten ist, bei der entsprechend der statistischen Testannahme das Verfahren abgebrochen wurde. Oder man bewertet die Zuwächse qualitativ und sucht eine Schnittstelle, deren R2 den zuvor aufgestellten Kriterien noch optimal entspricht. Entsprechend der Logik des Verfahrens kann durch das schrittweise Vorgehen der Schätzung eine Linearkombination von Variablen gefunden werden, bei der mit einem Minimum an unabhängigen Variablen ein Maximum an Varianz in Y „erklärt“ bzw. ausgeschöpft wird. Der Unterschied der schrittweisen Regression zur simultanen (bzw. „normalen“) multiplen Regression liegt also darin, dass man der Modelltechnik zugesteht, über die Relevanz von unabhängigen Variablen für die Vorhersage von Y zu entscheiden. Die schrittweise Regression verzichtet somit auf die Vorgaben eines Theoriemodells. Sie ist mithin auch kein Mittel, um ein spezifiziertes Theoriemodell zu testen. Manche Sozialforscher argumentieren, dass eine schrittweise Regressionsanalyse zu rechtfertigen ist, wenn sich ein Forschungsprojekt noch in einer explorativen Phase befindet, wenn also noch nach einem Modell gesucht wird, für das erst später die Daten erhoben werden sollen, und das erst später statistisch überprüft werden soll. Aber auch für diesen eingeschränkten Anspruch ist die schrittweise Regression nur bedingt brauchbar. Folgende Einwände sprechen gegen eine solche Forschungspraxis:
114
2 Das Grundmodell der Regressionsanalyse
1. Es ist möglich, dass eine einflussstarke Variable in der schrittweisen Regression aus dem Modell herausfällt. Das kann vorkommen, wenn diese Variable nicht sehr hoch mit Y korreliert. Denn eine einflussstarke Variable kann nur in geringem Maße mit Y korrelieren, wenn große Teile ihrer Varianz durch andere unabhängige Variablen beeinflusst werden. Ihr Varianzanteil, welcher die Veränderungen von Y beeinflusst, wird in diesem Falle durch andere Varianzanteile so sehr überlagert, dass ihre Korrelation mit Y auf ein Minimum schrumpfen kann (vgl. Abbildung 2.17). So würde eine solche XVariable im schlechtesten Falle in einer schrittweisen Regressionsschätzung trotz eines hohen -Wertes überhaupt nicht berücksichtigt werden. 2. Im Falle, dass der erste Einwand zutrifft, können die falschen Variablen in die Regression einbezogen werden, so dass das Statistikmodell falsch spezifiziert wird. Dies geschieht dann, wenn die Variablen nur aufgrund ihrer Korrelation mit der „wahren“ Einflussvariablen (die ihrerseits zu schwach mit Y korreliert, um berücksichtigt zu werden) in die Regression gelangen. Ihr Varianzanteil, der zur „Erklärung“ von Y herangezogen wird, ist dann in Wahrheit der Anteil einer anderen X- Variablen, mit der sie hoch korreliert. 3. Gelingt es im Falle des zweiten Einwandes der „einflusswahren“ Variablen, im nächsten Schritt berücksichtigt zu werden, erhöht sich R2 nur unwesentlich. Denn der größte Teil der ausgeschöpften Varianz wurde schon im Schritt zuvor berücksichtigt und einseitig einer anderen X-Variablen zugerechnet. Der Vergleich der R2 als Entscheidungskriterium für eine Verbesserung der Schätzung wird somit unbrauchbar. 4. Der unberechtigte Ausfall einer unabhängigen Variablen bedeutet, dass die einbezogenen X-Variablen nicht mehr um diese kontrolliert werden können. Wie wir aber gesehen haben, ist gerade die gegenseitige Kontrolle der XVariablen ein großer Vorteil der multivariaten Regressionsanalyse. Bei statistisch verursachten Spezifikationsfehlern werden die Regressionskoeffizienten jedoch falsch geschätzt und können nicht mehr in theoretisch sinnvoller Weise kontrolliert werden. Aufgrund dieser Einwände kann die Anwendung einer schrittweisen Regression nicht empfohlen werden. Sie löst notwendige theoretische Entscheidungen in formal-statistische auf und belastet ihre Ergebnisse mit dem allzu großen Risiko, dass es sich dabei um künstlich verursachte Fehlschätzungen handelt.
3
Regressionstheorie
3.1
Die bestmögliche Regressionsschätzung
Die Darstellung der Regressionsanalyse in Kapitel 2 erfolgte weitgehend ohne Berücksichtigung regressionstheoretischer Annahmen. Was heißt das? In Kapitel 2 wurden Regressionsmodelle spezifiziert, die einen „wahren“ Zusammenhang zwischen der abhängigen Variablen (Y) und den unabhängigen Variablen (X) behaupten. Der Zusammenhang sollte „wahr“ sein, weil er für eine gesamte Population gilt. Deshalb wurden auch die diesbezüglichen Regressionskoeffizienten mit den griechischen Symbolen und belegt. Diese Symbole bezeichnen Parameter und damit Konstanten, die für die gesamte Population gültig sind. Die Parameter einer Variablenbeziehung sind jedoch in der Regel unbekannt, und es ist zumeist auch nicht möglich, bei jeder Einheit der Population (Personen, Organisationen, Staaten u.a.) die Ausprägung von Y und X zu messen, um daran anschließend und zu berechnen. Entweder sind Populationen zu umfangreich, um die Variablenausprägungen aller ihrer Einheiten messen zu können, oder sie sind aus systematischen Gründen nicht zugänglich, z.B. weil sich ihre Gültigkeit über mehrere Zeitepochen erstreckt. Letzteres gilt auch für die Parameter von Gesetzesaussagen. Da diese als universelle Aussagen räumlich und zeitlich uneingeschränkt gültig sein müssen, ist der Umfang einer diesbezüglichen Population unendlich groß und in seiner Gesamtheit weder empirisch noch statistisch zugänglich. Sei es also aus praktischen oder systematischen Gründen: Bei der Schätzung von Populationsparametern ist man zumeist auf Informationen aus Stichproben angewiesen. Auf der Basis von Stichprobeninformationen werden die Regressionskoeffizienten „a“ und „b“ berechnet und man nimmt an, dass es sich dabei um gültige Schätzwerte der „wahren“ Parameter und handelt. Eine Begründung für eine derartige Annahme soll (und kann) die Regressionstheorie liefern.
116
3 Regressionstheorie
Die Regressionstheorie fragt nach der Möglichkeit von präzisen Schlüssen, mit denen die Ergebnisse von Stichprobenberechnungen zur Analyse von Variablenbeziehungen in einer Population verallgemeinert werden können. Zur Einführung in die Argumentationsweise der Regressionstheorie wollen wir nun als erstes verdeutlichen, was überhaupt unter einer „präzisen Schätzung“ in der Regressionsanalyse verstanden werden kann.
3.1.1 Kriterien einer präzisen Regressionsschätzung Präzise Schätzwerte für die Regressionskoeffizienten und müssen unverzerrt sein (englisch: „unbiased“). Unverzerrtheit bedeutet, dass der Erwartungswert eines Schätzwertes gleich dem wahren Wert (Parameter) der entsprechenden Variablenbeziehung in der Population ist. Unverzerrtheit (unbiasedness) bedeutet nicht, dass ein bestimmter Schätzwert identisch mit dem jeweiligen Parameter zu sein hat. Identisch mit ihm muss nur der Erwartungswert des Schätzwertes sein (vgl. Ergänzung 3.1). Ergänzung 3.1: Der Erwartungswert Hier wird eine neue mathematische Ausdrucksweise eingeführt: Der Erwartungswert E(Y) einer Zufallsvariablen bezeichnet das Zentrum der Wahrscheinlichkeitsverteilung dieser Variablen. Man kann sich den Erwartungswert einer Zufallsvariablen als denjenigen Wert vorstellen, der bei sehr vielen Beobachtungen dieser Variablen als Durchschnittswert zu ermitteln wäre. Der Erwartungswert einer diskreten Variablen (das ist eine Variable, die nur bestimmte Werte annehmen kann) berechnet sich nach der folgenden Formel (worin „X“ die Variable, „x“ die verschiedenen Variablenwerte und „p“ die Wahrscheinlichkeit dieser Variablenwerte bezeichnet): E(X)
¦ x u p(x)
Was bedeutet nun diese erste Bestimmung von Präzision? Sie bedeutet, dass bei einem unverzerrten Schätzwert ein Grund zu der Annahme besteht, dass der Durchschnittswert von sehr vielen Schätzungen (exakt: von Schätzungen, deren Anzahl gegen unendlich strebt) den wahren Parameter ergibt und man deshalb
3.1 Die bestmögliche Regressionsschätzung
117
bei einer einzigen Schätzung keine systematische Verzerrung hinsichtlich einer Über- oder Unterschätzung zu befürchten hat. Ein unverzerrter Schätzwert ist eine präzise Schätzung im Durchschnitt. Mögliche Unter- und Überschätzungen mitteln sich aus, so dass man bei einer einzigen Schätzung weder einen Grund zur Annahme einer Überschätzung noch zur Annahme einer Unterschätzung hat. Voraussetzung für eine unverzerrte Schätzung ist natürlich, dass ein „echter“ Zusammenhang zwischen X und Y überhaupt besteht. Abbildung 3.1 zeigt eine Häufigkeitsverteilung von sehr vielen geschätzten bKoeffizienten. Das Ausmaß der Verzerrung ist gleich der Streckenlänge d zwischen dem Parameter und dem Erwartungswert des Schätzwertes b. Abbildung 3.1: Verteilungsmodell eines verzerrten b
f(b)
b d
Unverzerrtheit ist jedoch nicht das einzige Kriterium für eine präzise Schätzung, denn damit ist noch nichts über die Varianz des Schätzwertes gesagt. Stellen wir uns vor, dass die beiden Koeffizienten b und identisch seien. Sie lägen dann beide auf dem b-Punkt in Abbildung 3.1 und die Strecke d wäre gleich null. Damit wäre eine unverzerrte Schätzung gegeben. Jedoch könnte man sich auch in diesem Falle noch immer eine Schätzverteilung vorstellen, die eine geringere Streuung als diejenige in Abbildung 3.1 aufweist. Mithin muss als zusätzliches Kriterium für eine präzise Schätzung gelten, dass die Schätzung auch die kleinste Varianz aller möglichen Schätzverteilungen aufweist. Dies wird in Abbildung 3.2 verdeutlicht. Nach dieser Abbildung ist die Verteilung f1
118
3 Regressionstheorie
sicherlich derjenigen von f2 vorzuziehen (obwohl beide unverzerrte Schätzverteilungen sind), denn f1 weist eine wesentlich kleinere Varianz auf als f2. Abbildung 3.2: Zwei Verteilungsmodelle unverzerrter b-Koeffizienten
Im Falle eines Schätzmodells mit geringstmöglicher Streuung spricht man auch von einer effizienten Schätzung. Die Effizienz einer Schätzung ist (neben ihrer Unverzerrtheit) ein weiteres Kriterium zur Bestimmung der Schätzpräzision. Häufig müssen Unverzerrtheit und Effizienz gegeneinander abgewogen werden: So sind z.B. zwei Schätzmodelle vorstellbar, von denen das eine zwar unverzerrt ist, aber eine große Varianz aufweist, während im zweiten Modell die Varianz sehr gering ist, die Werte jedoch verzerrt geschätzt werden. Ein solcher Fall wäre z.B. gegeben, wenn f(b) aus Abbildung 3.1 (hoch verzerrt und geringe Varianz) mit f2(b) aus Abbildung 3.2 (unverzerrt und große Varianz) zu vergleichen wäre. Um zu bestimmen, welche Schätzung dann die bessere ist, kann der „mittlere quadratische Fehler (MQF)“ berechnet werden: MQF = E(b – )2
(3.1)
Gleichung (3.1) ist ähnlich der Variationsgleichung (Gleichung 2.13), jedoch wird anstatt des Mittelwertes aller geschätzten Koeffizienten der „wahre“ Parameter benutzt. Dasjenige Schätzmodell, dessen MQF kleiner ist, hat die relativ bessere Effizienz. Im Falle des Vergleichs zweier Modelle, die beide unverzerrt sind und sich nur durch unterschiedliche Varianzen auszeichnen, benötigen wir
3.1 Die bestmögliche Regressionsschätzung
119
den MQF jedoch nicht. Dann ist in beiden Fällen E(b) = und die Varianzen können direkt miteinander verglichen werden. Ein drittes Kriterium zur Beurteilung von Schätzungen ist ihre Konsistenz. Die Konsistenz betrifft Veränderungen in der Stichprobenverteilung, wenn sich die Stichprobenumfänge vergrößern. Schätzwerte sind konsistent, wenn bei Vergrößerung des Stichprobenumfangs -
die Verzerrung des Schätzwertes kleiner wird und die Varianz des Schätzwertes geringer wird.
Folgende Abbildung 3.3 verdeutlicht dies anhand der Ergebnisse einer Simulation von Hanushek/Jackson (1977: 62). Dabei wurden zur Ermittlung einer zuvor festgelegten, „wahren“ Regressionsgleichung vierhundert verschiedene Datensätze mit unterschiedlich großen Stichprobenumfängen (N = 25 bis N = 200) erzeugt (qua Simulationsverfahren) und ebenso viele Regressionsschätzungen vorgenommen. Die Häufigkeitsverteilungen der Schätzwerte für unterschiedlich große N zeigt Abbildung 3.3. Darin ist deutlich zu erkennen: je größer die Stichprobe wird, umso geringer ist die Streuung der geschätzten Parameterwerte. Ergänzung 3.2: Die konsistente Schätzung Auf welche Weise entsteht die Eigenschaft der Konsistenz und wie ist sie zu erklären? Benötigt wird dazu der Zentrale-Grenzwert-Satz der Statistik: Bei einer Menge von unabhängigen Zufallsvariablen Xn mit dem Mittelwert und der Varianz 2 entwickelt sich die Wahrscheinlichkeitsverteilung der gemittelten Summe aller X-Werte in Form einer Normalverteilung mit dem Mittelwert und der Varianz 2/N, wenn die Anzahl der Beobachtungen gegen unendlich strebt. Dies ist unabhängig davon, welche Verteilung die einzelnen X-Variablen ursprünglich hatten. Jedoch wird diese Verteilung nicht immer und ewig die Form einer Normalverteilung beibehalten. Irgendwann wird sich die Varianz so weit verkleinert haben, dass sich die Verteilung in einem Punkt konzentriert. Dieser Punkt indiziert den wahren Wert (Parameter) eines bestimmten Faktors, der dann auch nicht mehr Zufallsvariable (mit einer gewissen Streuung) sondern eine Konstante ist. Dies folgt auch aus der Varianzformel 2/N. In der graphischen Veranschaulichung erscheint dann keine Verteilungskurve mehr, sondern am X-Wert des Parameters erscheint eine im rechten Winkel zur X-Achse stehende Gerade mit der Höhe von 1,00 (da die Wahrscheinlichkeit dieses Wertes gleich 1,00 ist). Schätzmodelle, die konsistent sind, nennt man in ihrem oben beschriebenen Verhalten auch „asymptotisch“.
120 Abbildung 3.3:
3 Regressionstheorie Ergebnisse eines Simulationsmodells zur Konsistenzüberprüfung (nach Hanushek/Jackson 1977: 62)
3.1.2 Grundannahmen der BLUE-Schätzung Alle Schätzverfahren, in denen Schätzwerte mit den Eigenschaften „unverzerrt“, „effizient“ und „konsistent“ zu errechnen sind, liefern bestmögliche Schätzungen. Grenzt man die Verfahren auf diejenigen mit linear verknüpften Schätzwerten ein (dazu gehört auch die OLS-Schätzung), so können diese Verfahren Schätzwerte ermitteln, die als „BLUE“ bezeichnet werden (BLUE ist auszusprechen wie engl. „blue“ für „blau“):
3.1 Die bestmögliche Regressionsschätzung B L U E
-
121
best linear unbiased estimation
Nach dem so genannten Gauss-Markov-Theorem sind die Ergebnisse der OLSSchätzung „BLUE“, wenn vier Bedingungen erfüllt sind. Im Folgenden werden diese Bedingungen erläutert und der BLUE-Charakter für die OLS-Regressionsschätzungen aus Kapitel 2 nachgewiesen. Ziehen wir mehrere Stichproben aus einer identisch bleibenden Population, so wird sich auch bei einer deterministischen Beziehung zwischen X und Y für ein und denselben X-Wert nicht immer der gleiche Y-Wert ergeben. Denn verschiedenste Stichproben- und Messwertverzerrungen, die mannigfaltigste Ursachen haben können, werden verhindern, dass bei einem konstanten X-Wert ein stets wiederkehrender identischer Y-Wert zu ermitteln ist. Stattdessen werden sich die empirisch ermittelten Y-Werte (bei jeweils konstantem X-Wert) um den wahren Wert von Y verteilen. Die Y-Werte nahe dem Y-Wert der Population werden relativ häufig vorkommen, während entfernter liegende Werte dementsprechend seltener anzutreffen sind. Die Häufigkeiten dieser Y-Werte könnten jeweils in einen Wahrscheinlichkeitswert überführt werden, und geht man in einem Gedankenspiel von einer sehr großen Anzahl von Stichproben aus, so würde man eine Wahrscheinlichkeitsverteilung aller Y-Werte erhalten (dabei müssten allerdings alle Stichproben einen gleich großen Umfang aufweisen, da ansonsten die Verteilungswerte der Y-Werte mit unterschiedlichen Zuverlässigkeiten gebildet würden). Die Verteilung der Wahrscheinlichkeitswerte für alle Y-Werte kann man mit einem mathematischen Ausdruck als „P(Y|X)“ bezeichnen. Dann steht „P“ für Wahrscheinlichkeitsverteilung (engl. probability), und X rechts vom Strich bedeutet, dass die Wahrscheinlichkeitsverteilung für Y nur bezüglich eines ganz bestimmten, fixen X-Wertes gilt. In einer graphischen Veranschaulichung bekäme man dann für jeden X-Wert eine Verteilungskurve aller Y-Werte, wie wir sie schon im vorhergehenden Unterkapitel 3.1.1 für die b-Koeffizienten kennen gelernt haben. Natürlich ist es in der Forschungspraxis nicht möglich, diese sehr oft zu wiederholenden Beobachtungen durchzuführen (sei es, weil sie zu teuer sind, zu viel
122
3 Regressionstheorie
Zeit kosten oder zu personalintensiv sind). Jedoch kann mit Hilfe der Regressionstheorie begründet werden, unter welchen Voraussetzungen eine einmalige Schätzung als „BLUE“ zu bezeichnen ist. Und nach Auskunft der Regressionstheorie ist dies möglich, wenn bei einer OLS-Schätzung vier Annahmen erfüllt sind. Diese Annahmen betreffen die Verteilung der Y-Werte. So lautet die erste Annahme: Für unterschiedliche X-Werte hat jede Verteilung P(Y|Xi) dieselbe Varianz ( 2), d.h. dieselbe Streuung um den wahren Y-Wert. In einem Streuungsbild (vgl. Abbildung 3.4) muss also jede Verteilungskurve (eine Kurve für jeden X-Wert) stets die gleiche Form aufweisen (was in Abbildung 3.4 auch der Fall ist). Abbildung 3.4: Verteilungskurven von Y für drei verschiedene X-Werte i
3 2 1
1
2
3
Die oben verdeutlichte Annahme bezieht sich, wie auch die drei weiteren Annahmen, auf Eigenschaften der Y-Werte. Alle diese Annahmen lassen sich aber auch leicht in Annahmen über die Störgröße U überführen (s.u.) und können dann (mit Einschränkungen) empirisch überprüft werden (dazu mehr in Kapitel 4). Wir werden deshalb im Folgenden die oben veranschaulichte Annahme und auch alle weiteren Annahmen als Annahmen über die Verteilung der Störgrößen U vorstellen.
3.1 Die bestmögliche Regressionsschätzung
123
Als Störgrößen oder Residuen wurden in Kapitel 2 die Differenzen zwischen den geschätzten Y-Werten, die nur von b und der Höhe von X abhängen, und den beobachteten Y-Werten, die aufgrund des zusätzlichen Einflusses anderer Faktoren zustande kommen, beschrieben. Wenn angenommen wird, dass der wahre Wert von Y präzise geschätzt wurde, so liegen der wahre Y-Wert und der damit identische Y-Schätzwert auf der Geraden Y = + X. Die Störgrößen U sind dann die Distanzen zwischen jedem wahren bzw. geschätzten Y-Wert und den beobachteten Y-Werten, die um jeden geschätzten Y-Wert streuen. Hinsichtlich dieser Distanzen bzw. Residuen U besagt die erste Annahme (A1) der Regressionstheorie, dass deren Varianz bei jedem Beobachtungswert von X den gleichen Wert aufweisen sollte und mithin konstant sein muss, wenn die BLUEEigenschaft erreicht werden soll. Die folgende Abbildung 3.5 veranschaulicht die Residuenstreuung im Bereich eines bestimmten X-Wertes. Sie kann auch als Teilausschnitt aus Abbildung 3.4 verstanden werden. Abbildung 3.5: Verteilungskurve der U bei konstantem X
124
3 Regressionstheorie
Liegen die Residuen U gleicher Distanz symmetrisch auf der linken und rechten Seite des wahren Y-Wertes verteilt, so ist ihr Erwartungswert bei jedem X-Wert gleich „0“. Dann liegt der Erwartungswert von U auf der wahren, aber unbekannten Geraden: Yi = + Xi. Dies entspricht der zweiten Annahme (A2) für eine OLS-Schätzung mit BLUE-Eigenschaft. Sie lautet demnach: E(U) = 0. Die Abbildung 3.4 verdeutlicht dies für die Verteilungen von Yi (bzw. für die Verteilungen von Ui) bei den drei X-Werten X1, X2 und X3. Und auch Abbildung 3.5 veranschaulicht die Annahme „E(U) = 0“ beim Wert Xi. Die dritte Annahme für eine Regressionsschätzung mit BLUE-Eigenschaft lautet: Die Werte von U sind unabhängig von den Werten der unabhängigen XVariablen. Wenn also X1 sehr viel kleiner als X2 ist, dann dürfen die Residuen bei X1 nicht auch automatisch alle kleiner sein als die Residuen bei X2, denn beide Variablen (X und U) sollen voneinander unabhängig sein. Die vierte Annahme, die zu erfüllen ist, betrifft die Reihenfolge von Residuen, die sich insbesondere bei Regressionsanalysen mit Zeitreihendaten ergibt. Demnach darf ein jeder U-Wert nicht von den jeweils vorausgehenden oder folgenden U-Werten beeinflusst werden. Ein hoher U-Wert darf nicht allein deshalb hoch sein, weil sein Vorgängerwert oder sein Nachfolgewert ebenfalls hoch ist. Fassen wir zusammen. Die vier Annahmen, die erfüllt sein müssen, damit bei einer einmaligen Regressionsschätzung eine begründete Hoffung auf ein Schätzergebnis mit BLUE-Eigenschaft besteht, lassen sich als Annahmen über die Verteilung von Residuen formulieren. Sie lauten: Die Verteilungen der Störgrößen bzw. Residuen (U) haben für jeden X-Wert dieselbe Varianz (A1) sowie einen Erwartungswert von 0 (A2) und sie kovariieren nicht mit den X-Werten (A3) sowie mit den Residuenwerten benachbarter Messungen (A4). A1: Var(Ui) = i2 = 2 A2: E(U) = 0 A3: Cov(XiUi) = 0 A4: Cov(UiUj) = 0 (mit i j)
3.1 Die bestmögliche Regressionsschätzung
125
Sucht man unverzerrte, lineare Schätzwerte mit kleinster Varianz, die zudem noch konsistent sind, so müssen A1 bis A4 erfüllt sein. Und selbst, wenn nur eine dieser Annahmen nicht zutrifft, so kann das sehr unerwünschte Konsequenzen für die Gültigkeit von Regressionsschätzungen haben. So schmälert eine Verletzung von A1 und/oder A4 die Gültigkeit von Signifikanztests, eine Verletzung von A2 erzeugt Verzerrungen bei der Schätzung des a-Koeffizienten der Regressionsschätzung und eine Verletzung von A3 signalisiert Spezifikationsfehler bzw. die Aufstellung eines schlechten Regressionsmodells. Wir werden in Kapitel 4 die negativen Konsequenzen der Verletzung von BLUE-Annahmen noch ausführlicher erläutern und auch einige Möglichkeiten vorstellen, mit denen diese (und andere) Annahmen zu überprüfen sind. Zunächst wollen wir jedoch noch nachweisen, dass im Falle der Gültigkeit von A1 bis A4 die OLS-Schätzung auch Ergebnisse liefert, welche die BLUE-Eigenschaft besitzen. Unsere Argumentation beginnt bei der Linearitätsannahme der Regressionsanalyse und der OLS-Technik als einem „linearen“ Schätzmodell: Wir waren der Forderung nach Linearität schon in Z2.4 begegnet, ohne sie dort zu begründen. Jetzt wissen wir, dass Linearität eine Anwendungsbedingung des Gauss-Markov-Theorems ist und dass mit diesem Theorem etwas über die Güte von Regressionsschätzungen ausgesagt wird. Die Regressionsschätzung nach dem OLS-Verfahren ist ein lineares Schätzmodell, weil es die Y-Werte aufgrund einer linearen Funktion von Stichprobenbeobachtungen schätzt (vgl. Ergänzung 3.3; mehr zur Linearität in Kapitel 4). Nur deshalb sind nach dem Gauss-Markov-Theorem auch OLS-Ergebnisse möglich, die die BLUEEigenschaft besitzen und damit die Eigenschaften der Unverzerrtheit, Effizienz und Konsistenz aufweisen. Bedingung dafür ist die Gültigkeit der Annahmen A1 bis A4. Betrachten wir zunächst die Eigenschaft der Unverzerrtheit. Entsprechend den Ausführungen in der folgenden Ergänzung 3.3 (und den dortigen Gleichungen 3.2 und 3.3) sind die geschätzten Regressionskoeffizienten auch als Linearkombinationen zu verstehen. Und da Unverzerrtheit bedeutet, dass die Erwartungswerte der Schätzwerte gleich den Parametern der Population sind, können wir die Gleichungen (3.2) und (3.3) dementsprechend umschreiben:
126
3 Regressionstheorie
E(a)
¦ N E(Y )
(3.3a)
E(b)
¦ g E(Y )
(3.2a)
1
i
i
i
Nun kann in Ergänzung 3.4 nachgelesen werden, dass nach einer Reihe von Transformationen gilt: E(a) = E(b) = Mithin sind die Koeffizientenschätzungen nach der OLS-Methode unverzerrt. Ergänzung 3.3: Lineare Koeffizientenschätzung Nach Gleichung (2.10) ergibt sich bei Anwendung der OLS-Technik für den Regressionskoeffizienten: b
¦X Y ¦X
i i 2
(2.10)
i
Definiert man nun einen Gewichtungsfaktor g als Xi gi Xi 2
¦
so ist b nichts anderes als b g i Yi g 1 Y1 g 2 Y2 ... g N YN
¦
(3.2)
Gleichung 3.2 zeigt den Schätzwert b als gewichtete Summe der Variablen Y, was genau der Linearitätsannahme entspricht. Gleiches lässt sich auch für den Schätzwert a zeigen, der nach Gleichung 2.9 identisch mit dem Mittelwert Y ist (bei zentrierten X-Variablen). 1 g N 1 1 1 a gYi Y1 Y2 ... YN (3.3) N N N
¦
3.1 Die bestmögliche Regressionsschätzung
127
Ergänzung 3.4: Unverzerrtheit der OLS-Schätzung
¦ N E(Yi ) 1
E(a)
¦
(3.3a)
1 ( X i U i ) N
¦
1 X i N
1 N
¦
Xi
1 N
da nach A2 gilt: E(Ui) = 0, lässt sich die Gleichung umschreiben in:
¦
1 N
¦ Xi
1 N
da Xi in transformierter Form vorliegt, ist Xi = 0 und es gilt: 1 N E(a)
¦
Damit gilt: „a“ ist ein unverzerrter Schätzwert von „“.
da g
E(b)
¦g i E(Yi )
E(b)
¦g i ( X i U i ) ¦g i ¦g i X i ¦g i U i
Xi /
¦X i 2 (siehe oben) gilt: §
E(b)
(3.2a)
¦¨¨ ©
Xi
¦Xi
2
· ¸ ¸ ¹
da Xi = 0 (vgl. oben), gilt: § XX · ¨ i i ¸ E(b) ¨ 2¸ © Xi ¹
¦
¦
§ XX · i i ¸ 2¸ © Xi ¹
¦¨¨
¦
§ XU · i i ¸ 2¸ © Xi ¹
¦¨¨
¦
§ XU · i i ¸ 2¸ © Xi ¹
¦¨¨
¦
da nach A3: E(XiUi) = 0, gilt: E(b)
¦Xi 2 ¦Xi 2
E(b)
Damit gilt: „b“ ist ein unverzerrter Schätzwert von „“.
128
3 Regressionstheorie
Schwieriger ist es, die Effizienz der berechneten Koeffizienten nachzuweisen. In der folgenden Ergänzung 3.5 soll dies auch nur für b gezeigt werden. Dabei läuft der Nachweis über eine Minimierung, bei der derjenige Gewichtungsfaktor in Gleichung (3.2) gesucht wird, der die Varianz von b minimiert. Es kann gezeigt werden, dass das gesuchte „g“ identisch mit dem „g“ in der linearen Koeffizientenschätzung ist und somit die OLS-Schätzung effiziente Ergebnisse liefern kann. Die Koeffizientenschätzung der OLS-Methode liefert auch konsistente Ergebnisse, was sich mittels der Varianzformel für b (vgl. Ergänzung 3.6) nachweisen lässt. Sie lautet:
Var(b)
2
¦
Xi 2
(3.5)
Da Xi = Xi – X ist (nach unserer in Kapitel 2 eingeführten Transformationsregel), kann der Nenner von Gleichung (3.5) auch umgeschrieben werden und es ergibt sich: Var(b)
2 N u Var(X)
(3.6)
Nach Gleichung (3.6) nimmt mit Vergrößerung des Stichprobenumfangs die Varianz des berechneten Regressionskoeffizienten ab. Weitere Möglichkeiten, Schätzungen mit möglichst geringer Varianz zu erhalten, bestehen darin, Daten zu analysieren, -
deren Residuenvarianz ( 2) in der Regressionsschätzung möglichst gering ist (wir erinnern uns an Annahme A1, wonach die Varianzen der Residuen konstant sein müssen);
-
die eine möglichst große Varianz in der unabhängigen Variablen aufweisen.
3.1 Die bestmögliche Regressionsschätzung
129
Ergänzung 3.5: Effizienz der OLS-Schätzung
b
¦ gi Yi
Var(b)
(vgl. Ergänzung 3.3)
¦ g i Yi )
Var(
Da Y eine Zufallsvariable ist (A3, A4), gilt nach den Regeln der Erwartungslehre Var(b)
g 2 Var(Y) oder:
Var(b)
¦ g i 2 i 2
( i2 = Varianz der Residuen, vgl. A1)
Bei Gültigkeit von A1 gilt: Var(b) i 2
¦ gi 2
(3.4)
Um nachzuweisen, dass die Varianz des geschätzten b minimal ist, muss ein Minimum von gi2 gefunden werden (mit gi = 0 und giXi = 1). Dies kann mit Hilfe einer Ableitungsmethode durchgeführt werden, die mit dem so genannten Lagrange-Multiplikator arbeitet (vgl. Yamane 1962: 116-120). Danach ist das gesuchte g Xi gi Xi 2
¦
Wird dieses g in Gleichung (3.2) eingesetzt, folgt daraus X i Yi b Xi2
¦ ¦
was exakt dem OLS-Schätzwert von b entspricht. Somit ist die OLS-Schätzung effizient.
Ergänzung 3.6: Konsistenz der OLS-Schätzung Gemäß Gleichung (3.4) ist die Varianz von b: Var(b)
i 2
¦ gi 2
Der Gewichtungsfaktor der OLS-Schätzung ist: Xi gi Xi 2
¦
Eingesetzt in Gleichung (3.4) ergibt sich: Xi 2 1 Var(b) i 2 i 2 Xi 2 X 2
¦
¦ i
Var(b)
¦
i
¦ Xi2
(3.5)
130
3 Regressionstheorie
Z3.1: Die OLS-Schätzung ist ein Verfahren, das „beste“ lineare und unverzerrte Schätzwerte liefern kann. Ihre Schätzungen können effizient und konsistent sein (Gauss-Markov-Theorem). Voraussetzung dafür ist allerdings die Gültigkeit von vier Annahmen zur Verteilung der Regressionsresiduen. Danach müssen die Residuen bei jedem XWert die gleichen Varianzen aufweisen (A1), einen Erwartungswert von 0 haben (A2), unabhängig vom X-Wert sein (A3) und (insbesondere bei Analysen mit Zeitreihendaten) unabhängig voneinander verteilt sein (A4).
3.2
Inferenzstatistik in der Regressionsanalyse
Mit Hilfe des Gauss-Markov-Theorems konnten wir nachweisen, dass die OLSTechnik in der Lage ist, Schätzungen mit BLUE-Eigenschaften zu liefern. Dieser Nachweis gilt allerdings nur für die Erwartungswerte der geschätzten Regressionsparameter. Empirisch könnten diese Erwartungswerte erst aus einer Vielzahl von OLS-Schätzungen annäherungsweise ermittelt werden. In der Forschungspraxis haben wir es jedoch in aller Regel mit nur einer einzigen Stichprobe und einer einzigen, darauf basierenden Schätzung zu tun. Über diese Schätzung wissen wir zwar jetzt, dass das dabei eingesetzte OLSSchätzverfahren präzise Schätzwerte ermöglicht. Aber wir wissen nicht, ob ein bestimmter, nur ein einziges Mal geschätzter Koeffizient seinem Erwartungswert entspricht. Möglicherweise ist gerade dieser Wert ein Ausrutscher, der aufgrund zufälliger Fehler in der Stichprobenziehung oder in der Erhebung entstanden ist. Zwar könnte ein solcher Ausrutscher-Wert durch eine Vielzahl von neuen Stichproben (immer aus der identischen Population) und mit vielen zusätzlichen Schätzungen korrigiert werden. Da dies jedoch in aller Regel nicht machbar ist, wurden zur Absicherung einmaliger Schätzergebnisse statistische Testverfahren entwickelt. Statistische Testverfahren bemühen sich mittels Wahrscheinlichkeitsberechnungen herauszufinden, ob berechtigterweise angenommen werden kann, dass die Ergebnisse eines einmalig durchgeführten Schätzverfahrens frei von zufälligen Fehlern sind. Verzerrungen aufgrund systematischer Fehler können diese Testmodelle jedoch auch nicht entdecken. Ein systematischer Fehler läge z.B. vor,
3.2 Inferenzstatistik in der Regressionsanalyse
131
wenn bei einer Stichprobenziehung aus der Population aller in der Bundesrepublik lebender Ausländer die italienischen Staatsbürger ausgeschlossen würden. Diese Verzerrung wäre nicht mehr zufällig, da auch bei wiederholten Stichprobenziehungen kein einziger Italiener eine Chance besäße, in die Stichprobe aufgenommen zu werden. Es handelte sich damit um einen systematischen Fehler, den ein statistisches Testverfahren nicht bemerken würde. Mit diesem Beispiel ist auch schon deutlich geworden, dass Fehlertests echte Zufallsstichproben voraussetzen. Jedes Element der Population darf nicht daran gehindert werden, in die Stichprobe zu gelangen oder, anders ausgedrückt, jedes Element der Population muss auch eine Chance besitzen, ein Bestandteil der Stichprobe zu werden. Ist diese Bedingung nicht erfüllt, sind Stichprobenschätzungen derart verzerrt, dass es keinen Sinn mehr macht, nach zufälligen Fehlern zu suchen. Alle Testverfahren zum Aufspüren zufälliger Schätzfehler benutzen Wahrscheinlichkeitsverteilungen, wie wir sie schon zuvor an verschiedenen Stellen dieses Skripts kennen gelernt haben. Und das wichtigste Modell einer Wahrscheinlichkeitsverteilung ist die Normalverteilung. Die Charakteristika der Normalverteilung werden im Folgenden kurz skizziert, bevor wir dann die Logik von Signifikanztests in der Regressionsanalyse erläutern werden.
3.2.1 Normalverteilung
Die Normalverteilung (oder: Gauss-Verteilung) ist das mathematische Modell einer stetigen Wahrscheinlichkeitsverteilung. Stetige Verteilungen unterscheiden sich von diskreten Verteilungen (z.B. Binomial- oder Poisson-Verteilung) dadurch, dass die darin dargestellte Zufallsvariable X unendlich viele Werte annehmen kann. Dies hat zur Folge, dass man zwar ein beliebiges X-Intervall unter einer Normalverteilungskurve abstecken kann (vgl. Abbildung 3.6), dass man aber nicht alle X-Werte angeben kann, die in diesem Intervall liegen. Und obwohl sich für alle Werte einer normalverteilten X-Variablen eine Wahrscheinlichkeitssumme von 1,00 ergibt, betrifft diese Wahrscheinlichkeitsangabe unendlich viele X-Werte, so dass es nicht möglich ist, für einen bestimmten XWert auch eine bestimmte Wahrscheinlichkeit anzugeben. Diese ist allein für alle X-Werte eines bestimmten X-Intervalls zu ermitteln (z.B. für das Intervall zwischen den Werten von X = 4,50 und X = 6,83).
132
3 Regressionstheorie
Graphisch veranschaulicht sehen Normalverteilungen immer glockenförmig aus (vgl. Abbildung 3.6). Der Zuschnitt der Glockenform kann jedoch variieren. Jede Normalverteilung kann durch einen speziellen Mittelwert () und eine spezielle Varianz ( 2) charakterisiert sein. Aber allen Normalverteilungen ist gemeinsam, -
dass sie symmetrisch um ihren Mittelwert aufgebaut sind und zwei festgelegte Wendepunkte haben (bei „ + “ und bei „ – “);
-
dass sie asymptotisch verlaufen, so dass sich ihre X-Werte mit stetig abnehmenden Wahrscheinlichkeiten an beiden Rändern der Verteilung im Unendlichen verlieren.
Abbildung 3.6 zeigt eine Normalverteilung mit = 0 und = 1. Mögliche andere Normalverteilungen wurden in Abbildung 3.2 gezeigt. Eine Normalverteilung mit den in Abbildung 3.6 gezeigten Parametern wird auch „Standardnormalverteilung“ genannt. Die Standardnormalverteilung ergibt sich (rein formal gesehen) durch Standardisierung aller X-Werte nach dem in Kapitel 2.2.3 beschriebenen Verfahren. Insgesamt 68% aller möglichen X-Werte der Standardnormalverteilung liegen zwischen –1 und +1 (bzw. zwischen den Werten „ – “ und „ + “). Und 95% aller Werte liegen zwischen –2 und +2 (bzw. zwischen „ – 2 “ und „ + 2 “). Abbildung 3.6: Standardnormalverteilung
Mit Hilfe von Abbildung 3.6 lässt sich auch die Wahrscheinlichkeit veranschaulichen, mit der ein bestimmter Wert in ein bestimmtes Intervall der Normalverteilung fällt. Das Ausmaß einer solchen Wahrscheinlichkeit wird durch die Grö-
3.2 Inferenzstatistik in der Regressionsanalyse
133
ße einer Fläche zwischen X-Achse und Verteilungskurve symbolisiert. In Abbildung 3.6 ist z.B. die Wahrscheinlichkeit dafür, dass ein Wert zwischen X = 1 und X = 2 liegt, gleich dem Ausmaß der dort schraffiert dargestellten Fläche. Welchen numerischen Wert diese Wahrscheinlichkeit besitzt, lässt sich aus Tabellen ablesen, die man im Anhang fast eines jeden allgemeinen Statistiklehrbuches findet (z.B. Bortz 1999, Sahner 2005). In unserem Beispiel entspricht die schraffierte Fläche einer Wahrscheinlichkeit von 13,5%. Es sei hier noch einmal betont, dass die Normalverteilung ein rein mathematisches Modell ist. Dieses Modell ist nicht richtig oder falsch, sondern wird per Konvention in der geschilderten Form festgelegt. Dass es dennoch nicht gänzlich aus der Luft gegriffen ist, wird mit dem Zentralen-Grenzwert-Satz der Statistik begründet (vgl. Ergänzung 3.2). Demnach nimmt die Werteverteilung einer additiv gebildeten Zufallsvariablen die Form einer Normalverteilung an, wenn der Beobachtungsumfang gegen unendlich strebt. Das hier vorgestellte Modell der Normalverteilung betrifft die Werteverteilung einer einzigen Variablen. Die Normalverteilung kann sich aber auch auf die Verteilung der Wertekombinationen von zwei oder noch mehr Variablen beziehen (als bivariate oder multivariate Normalverteilung). In Kapitel 3.3 werden wir das Modell der bivariaten Normalverteilung erläutern.
3.2.2 Signifikanzniveau und Testlogik des Signifikanztests
Nachdem wir die Kennzeichen der Normalverteilung kennen gelernt haben, können wir im Folgenden die Logik inferenzstatistischen Testens bei einmalig erstellten Regressionsschätzungen verdeutlichen. Die praktische Durchführung von Signifikanztests wird ab Kapitel 3.4 erläutert. In jedem Signifikanztest wird zunächst eine Hypothese über denjenigen Parameter der Grundgesamtheit formuliert, der geschätzt werden soll. Diese Hypothese wird „Nullhypothese“ (Abkürzung: H0) genannt. In ihr wird behauptet, dass ein entsprechender Regressionsparameter den Wert „0“ hat ( = 0), das heißt, dass es in der Grundgesamtheit keinen Effekt von X auf Y gibt. Diese H0 wird – als Ausgangspunkt für alle inferenzstatistischen Analysen – als richtig unterstellt. Gegen sie wird das regressionsanalytisch berechnete „b“ gestellt, welches eine empirische Schätzung von darstellt. Die Gegenbehauptung zur Nullhypothese,
134
3 Regressionstheorie
nach der „ 0“ gilt, wird als „Alternativhypothese“ (Abkürzung: HA) bezeichnet. Der Signifikanztest verfährt aus logischen Gründen nach dem indirekten Prinzip des Falsifikationismus. Demnach ist es nicht möglich, eine theoretische Annahme (bzw. Hypothese) empirisch zu verifizieren. Stattdessen muss sie empirisch widerlegt werden. Der Test versucht also nicht die Richtigkeit von HA, sondern die Falschheit von H0 nachzuweisen. Dabei verfährt er aber äußerst vorsichtig. Die Testlogik geht davon aus, dass es auch einen absoluten Falschheitsbeweis nicht geben kann. Der Test unterstellt immer die Richtigkeit von H0 und bestimmt nur die Wahrscheinlichkeit, mit der bei einer bestimmten Datenlage eine richtige H0 fälschlicherweise zurückgewiesen werden könnte. Deshalb wird diese Wahrscheinlichkeit auch „Irrtumswahrscheinlichkeit“ genannt. Im Test bleibt also die (unterstellte) Richtigkeit von H0 unangetastet. Nur wenn die Irrtumswahrscheinlichkeit für die Zurückweisung einer wahren H0 besonders gering ist, kann sich ein Forscher aus praktischen Gründen gegen H0 und für HA entscheiden. Allerdings sagt das Testverfahren selbst über die Richtigkeit von HA nichts aus. Bei der praktischen Testdurchführung wird die Entscheidung zwischen H0 und HA formalisiert: Da als Ausgangspunkt die Gültigkeit von H0 angenommen wird (welche einen -Wert von 0 postuliert), wird davon ausgegangen, dass die Wahrscheinlichkeit, einen Stichprobenwert nahe = 0 zu erhalten, sehr groß ist. Deshalb wird H0 nur dann zurückgewiesen, wenn der beobachtete Wert sehr unwahrscheinlich ist, d.h. wenn die Stichprobendaten ein außergewöhnlich seltenes Ergebnis liefern. Auf diese Art und Weise können übereilte Schlüsse vermieden werden. Je vorsichtiger der Forscher dabei vorgehen will, umso kleiner wählt er den Schwellenwert für Irrtumswahrscheinlichkeiten, die ihn an der Gültigkeit von H0 zweifeln lassen. Wenn nun in einem Test die zu testenden Schätzwerte in den „seltenen Bereich“ einer theoretisch begründeten Wahrscheinlichkeitsverteilung fallen (dazu später mehr), kann vermutet werden, dass sie nicht zufällig dorthin gelangt sind, denn dafür ist ihr Auftreten viel zu unwahrscheinlich. Wenn sie dort aber nicht zufällig sind, so lässt sich diese Tatsache gegen die Gültigkeit von H0 wenden. Folgerichtig wird in diesem Falle die H0 – allerdings mit einer gewissen Irrtumswahrscheinlichkeit – zurückgewiesen. Es wird also im Test unterstellt, dass je stärker die Abweichung eines geschätzten Wertes vom erwarteten Wert „ = 0“ ist,
3.2 Inferenzstatistik in der Regressionsanalyse
135
umso seltener ein Irrtum bei Zurückweisung von H0 vorkommt (dass also eine richtige H0 fälschlicherweise zurückgewiesen wird). Die Seltenheit einer starken Abweichung eines empirisch geschätzten Wertes von einem theoretisch erwarteten Wert sowie die Seltenheit einer irrtümlichen Zurückweisung von H0 wird in einem Wahrscheinlichkeitswert ausgedrückt. Dieser bezeichnet das Ausmaß der Irrtumswahrscheinlichkeit und indiziert das Signifikanzniveau des Tests (als Abkürzung wird „“ verwendet, wobei dieses alpha nicht mit dem Regressionsparameter „“ verwechselt werden darf). Gewöhnlich wird ein Signifikanzniveau von = 0,05 oder = 0,01 angesetzt. Dieses bedeutet, dass nur in 5% oder 1% von sehr vielen (hypothetisch unterstellten) Regressionsschätzungen (mit den Daten aus einer bestimmten Population) trotz gültiger H0 ein bestimmter, empirisch geschätzter Wert zu erwarten ist, der so deutlich vom Wert „ = 0“ abweicht, dass H0 (fälschlicherweise) verworfen wird. Das heißt dann aber auch gleichzeitig, dass H0 niemals mit absoluter Gewissheit, sondern nur mit 5%iger oder 1%iger Irrtumswahrscheinlichkeit zurückgewiesen werden kann. Liegt die Irrtumswahrscheinlichkeit eines geschätzten Koeffizienten über diesen Schwellenwerten von = 0,05 oder = 0,01 (die sich in der Wissenschaftlergemeinde als Konvention eingebürgert haben), so spricht man von fehlender Signifikanz der Ergebnisse. Es wird in der theoretischen Statistik angenommen, dass die unendlich vielen Schätzwerte, die sich in einer Population für den wahren Wert von „ = 0“ ermitteln ließen, aufgrund von Zufallsfehlern mehr oder weniger deutliche Schwankungen aufwiesen. Und die Wahrscheinlichkeitsverteilung der verschiedenen Werte hätte die Form einer Normalverteilung um den Zentralwert von 0,00 (entsprechend der Gültigkeit von H0: = 0). Die gesamte Fläche unterhalb der entsprechenden Normalverteilungskurve repräsentierte dann die Summe aller Wahrscheinlichkeiten aller Schätzwerte. Die folgende Abbildung 3.7 zeigt eine solche Kurve als standardisierte Normalverteilungskurve (standardisiert deshalb, weil hier die Verteilung einer standardisierten Zufallsvariablen veranschaulicht wird). In der Abbildung wird der 5%ige Bereich für sehr seltene Schätzwerte als schraffierte Fläche ausgewiesen. Die gesamte 5%-Fläche verteilt sich auf die beiden Endseiten der Kurve (0,025 + 0,025 = 0,05). Wie oben erläutert, würden in einem Signifikanztest sehr seltene positive oder negative Schätzwerte, die in diesem Bereich lägen, zur Zurückweisung der Nullhypothese ausreichen. Dies entspräche der Logik eines
136
3 Regressionstheorie
zweiseitigen Signifikanztests. Denn mit H0 wird nur behauptet, dass einen Wert von 0,00 aufweist, so dass es zur Zurückweisung von H0 ausreicht, wenn b (als Schätzwert von ) ungleich 0,00 ist und zugleich in einem „unwahrscheinlichen“ Verteilungsbereich liegt. Dieser kann am unteren oder oberen Ende der Wahrscheinlichkeitsverteilung angesiedelt sein (mehr zur Technik von Signifikanztests in Kapitel 3.3 und 3.4). Die jeweiligen Grenzwerte, ab denen die „seltenen“ Bereiche der standardisierten Normalverteilung beginnen, entsprechen speziellen z-Werten. Abbildung 3.7 zeigt, dass für ein Signifikanzniveau von 5% die „seltenen“ Wahrscheinlichkeitsbereiche links des z-Wertes von –1,96 und rechts des zWertes von +1,96 beginnen (wobei diese Werte jeweils in das entsprechende Intervall einbezogen werden). Wir kommen hierauf in Kapitel 3.3 wieder zurück (u.a. in Zusammenhang mit dem t-Test).
Abbildung 3.7:
Zweiseitiger Signifikanzbereich ( = 5%) einer standardisierten Normalverteilung
Mit einem Signifikanztest wird ein geschätzter b-Wert auf seine Signifikanz überprüft. Oder anders gesagt: Mit einem Signifikanztest wird ein geschätzter bWert daraufhin überprüft, ob er ein extrem seltener Wert ist, der überzufällig vom wahren Wert „ = 0“ abweicht. Folgende Abbildung 3.8 verdeutlicht die oben beschriebene Testlogik für den Fall eines signifikanten Testergebnisses: Im Signifikanztest wird zunächst angenommen, dass die Wahrscheinlichkeitsverteilung von (genannt „f()“) und die Wahrscheinlichkeitsverteilung von b (genannt „f(b)“) einer Normalverteilung entsprechen. Der geschätzte b-Koeffizient liegt im Signifikanzbereich der f()-Verteilung um = 0 und sein Konfidenzintervall (der mittlere Bereich der Wahrscheinlichkeitsverteilung, in dem 95% aller geschätzten b-Werte liegen) schließt = 0 nicht ein. Es wird deshalb entschieden, dass b der Schätzwert einer anderen Verteilung mit 0 ist. Dem-
3.2 Inferenzstatistik in der Regressionsanalyse
137
nach ist b auch nicht das Ergebnis von zufälligen Fehlereinflüssen und H0 wird mit einer entsprechenden Irrtumswahrscheinlichkeit zurückgewiesen. Unter dieser Einschränkung (d.h. mit einer bestimmten Irrtumswahrscheinlichkeit) ist b signifikant. Abbildung 3.8: Signifikanzbereich und Konfidenzintervall in der Testlogik
Unsere Erläuterungen zum Hypothesentest bei der Regressionsanalyse sollten deutlich gemacht haben: Es gibt kein signifikantes Testergebnis ohne ein bestimmtes Ausmaß an Irrtumswahrscheinlichkeit. Und deshalb hat statistische Signifikanz auch nichts mit theoretischer Relevanz zu tun. Signifikante Ergebnisse sind lediglich Aussagen darüber, dass es eine akzeptable Wahrscheinlichkeit für die Nicht-Zufälligkeit statistisch produzierter Zusammenhänge gibt. Bei einem Signifikanzniveau von 5% wird demnach die Hypothese, dass die Ergebnisse rein zufällig von H0: = 0 abweichen, mit einer Irrtumswahrscheinlichkeit von 5% zurückgewiesen. Das bedeutet aber auch, dass in 5% aller möglichen Testverfahren eine wahre H0 zu Unrecht zurückgewiesen wird. Und stets entspricht es einer bloßen, zu Testzwecken getroffenen Annahme, dass die H0 für die entsprechende Population zutreffend ist (weitere Testfehler werden im folgenden Kapitel 3.2.3 beschrieben).
138
3 Regressionstheorie
Mit einer Testlogik, wie sie in diesem Kapitel beschrieben wurde, werden die Ergebnisse der Regressionsanalyse hinsichtlich ihrer Abhängigkeit von Zufälligkeiten getestet. Dies gilt vor allem hinsichtlich zweier Regressionsresultate: 1. Die Regressionskoeffizienten können hinsichtlich ihrer Abhängigkeit von Zufälligkeiten getestet werden. 2. Der gesamte Regressionserfolg als Verhältnis von „erklärter“ zu „unerklärter“ Varianz kann hinsichtlich seiner Abhängigkeit von Zufälligkeiten getestet werden. Das gilt auch für Zuwächse von R2, wenn weitere X-Variablen in die Analyse einbezogen werden. Wie diese Tests praktisch durchzuführen sind, wird in den Kapiteln 3.3 bis 3.5 gezeigt.
Z3.2: Die Zufallsabhängigkeit von Resultaten der Regressionsanalyse kann nach der Logik hypothetischer Testmodelle überprüft werden. Die entsprechenden Testverfahren basieren auf einem Vergleich von Wahrscheinlichkeiten. Dabei wird die Wahrscheinlichkeit für eine bestimmte Nullhypothese mit der Wahrscheinlichkeit eines empirisch ermittelten Wertes unter der Annahme verglichen, dass die Nullhypothese zutrifft. Diese Annahme kann nur dann durch einen geschätzten Wert zurückgewiesen werden, wenn dessen Wahrscheinlichkeit sehr gering ist. Gelingt dem Schätzwert die Zurückweisung, so ist über seine Richtigkeit nichts ausgesagt. Denn die Testlogik verfährt indirekt: Sie versucht die Irrtumswahrscheinlichkeit für die Zurückweisung einer nach wie vor als „wahr“ akzeptierten Nullhypothese durch eine fälschlicherweise als wahr akzeptierte Alternativhypothese auf einem möglichst geringen Signifikanzniveau festzustellen. Voraussetzung für ein gültiges Testverfahren ist die Annahme normalverteilter Parameter und Schätzwerte.
3.2 Inferenzstatistik in der Regressionsanalyse
139
3.2.3 Testfehler und Teststärke (power)
Die Irrtumswahrscheinlichkeit, mit der eine richtige H0 fälschlicherweise zurückgewiesen wird, wird auch als „Fehler 1. Art“ bzw. „-Fehler“ bezeichnet, was nicht zu verwechseln ist mit dem Intercept-Parameter „“. Bei einem Signifikanzniveau von 5% entscheidet man sich mit einer Wahrscheinlichkeit von 0,05 gegen H0, obwohl H0 richtig ist. In diesem Fall würde fälschlicherweise ein Zusammenhang zwischen den entsprechenden Variablen behauptet ( 0). Beim „Fehler 2. Art“ bzw. „-Fehler“ (womit nicht der Regressionsparameter „“ gemeint ist) ist HA richtig, aber man entscheidet sich fälschlicherweise für H0. Dabei darf aus einer Irrtumswahrscheinlichkeit von 5% für die Zurückweisung von H0 (-Fehler) nicht geschlossen werden, dass HA mit 95%iger Sicherheit richtig ist. Dennoch steht der Fehler 2. Art in Beziehung zum Fehler 1. Art: Je kleiner das Signifikanzniveau angesetzt wird, um zu verhindern, dass H0 nicht fälschlicherweise verworfen wird, umso schwerer wird es für die Alternativhypothese (an deren Richtigkeit ein Forscher möglicherweise eher glaubt) an Stelle von H0 akzeptiert zu werden. Somit kann die Schutzmauer, die versucht, den Fehler 1. Art so gering wie möglich zu halten, auch zu hoch sein, um neuen (vielleicht besseren) Hypothesen eine realistische Chance zu geben, sich in der Forschung zu bewähren. Je höher die Schutzwälle um H0 gezogen werden, d.h. je kleiner der Fehler 1. Art angesetzt wird, umso größer ist die Wahrscheinlichkeit für den Fehler 2. Art (dass eine richtige HA irrtümlicherweise nicht angenommen wird). Somit können auch nicht die Wahrscheinlichkeiten beider Fehler gleich klein sein (obwohl sie das eigentlich sein sollten). Dies sollte jedoch in der Forschungspraxis nicht dazu führen, dass der Fehler 2. Art bei einer inferenzstatistischen Überprüfung von Regressionsschätzungen vernachlässigt wird (was leider in der sozialwissenschaftlichen Forschungspraxis noch allzu häufig geschieht). Denn mit steigendem Stichprobenumfang werden in der Regressionsanalyse auch kleine und substanziell unbedeutende Effekte immer wahrscheinlicher signifikant. Und umgekehrt betrachtet sinkt in der Regressionsanalyse auch die Wahrscheinlichkeit für die Signifikanz von Ergebnissen, je kleiner die Stichprobengröße wird (dazu mehr in Kapitel 4.1). So wäre es also gerade bei kleinen Stichproben hilfreich, mehr über die Wahrscheinlichkeit des Fehlers 2. Art zu erfahren.
140
3 Regressionstheorie
Hierzu dient die Ermittlung von so genannten Teststärken (englisch: test power). Die Teststärke bezeichnet die Chance, die in einem Test gegeben ist, um eine falsche (!) Nullhypothese korrekterweise zu verwerfen und damit eine richtige HA vorläufig anzunehmen. Dies entspricht dem Gegenteil der Wahrscheinlichkeit () des Fehlers 2. Art, mit der eine falsche H0 fälschlicherweise nicht verworfen wird bzw. eine richtige HA nicht angenommen wird. Die Teststärke ergibt sich daher als „1 – “. Da der Fehler 1. Art üblicherweise kleiner oder gleich 0,05 liegen sollte und der Fehler 2. Art (wie oben skizziert) nicht gleich klein sein kann, wird in der Forschungspraxis häufig verlangt, dass die Wahrscheinlichkeit für den Fehler 2. Art kleiner oder gleich 20% betragen sollte. Damit sollte die Teststärke (1 – ) dann auch bei 80% oder höher liegen. Ist man nicht in der Lage, diesen Wert zu akzeptieren (aus unterschiedlichsten Gründen, z.B. weil die Stichprobe klein bleiben muss) sollte die Teststärke aber zumindest größer als 50% sein, was bedeutet, dass die Wahrscheinlichkeit, überhaupt einen signifikanten Effekt zu entdecken, größer ist als die Wahrscheinlichkeit, diesen nicht zu entdecken. Mit anderen Worten: Nach den üblicherweise akzeptierten Standards der Sozialforschung sollte die Wahrscheinlichkeit, dass die Alternativhypothese überhaupt eine Chance hat, die Nullhypothese zu ersetzen (d.h. dass ein geschätzter Regressionskoeffizient oder ein R2 des Gesamtmodells auch als signifikant angenommen wird), bei 80% oder höher liegen. Ansonsten kann die NichtSignifikanz einer Regressionsschätzung auch aufgrund einer zu kleinen Stichprobengröße entstehen. Denn diese erzeugt u.U. eine viel zu geringe Teststärke. Dann würde der Testausgang eine Folge eines fehlerhaften Test- bzw. Untersuchungsdesigns sein. Die Teststärke entsteht hauptsächlich als Funktion von drei Faktoren: -
je weniger streng das Signifikanzniveau angesetzt wird, je höher die geschätzte Effektstärke ist, je größer der Stichprobenumfang ist,
desto höher ist die Stärke beim Test eines bestimmten Modellparameters. Es gibt zudem noch eine Vielzahl weiterer Faktoren, die die Teststärke beeinflussen können (vgl. z.B. Cohen 1988; Muthen/Muthen 2002; Urban/Mayerl 2003).
3.2 Inferenzstatistik in der Regressionsanalyse
141
Die nachfolgende Tabelle 3.1 verdeutlicht die verschiedenen Ergebnisse von Signifikanztests mit ihren jeweiligen Wahrscheinlichkeiten (p). Tabelle 3.1: Mögliche Ergebnisse beim Signifikanztest von Prädiktoreffekten in der Regressionsanalyse „wahre“ Werte in der Population kein Effekt des Prädiktors: Effekt des Prädiktors: H0 korrekt, HA falsch H0 falsch, HA korrekt
Testentscheidung
kein Effekt des Prädiktors: H0 akzeptiert, HA verworfen Effekt des Prädiktors: H0 verworfen, HA akzeptiert
korrekte Folgerung (p = 1 – )
Fehler 2. Art (p = )
Fehler 1. Art (p = )
korrekte Folgerung (p = 1 – = Teststärke)
Die Teststärke von Signifikanztests kann in der Forschungspraxis auf zweierlei Arten berücksichtigt werden: 1. In einer a-priori-Analyse: Dort lässt sich eine vorweg festgelegte Teststärke benutzen, um zu ermitteln, wie groß bei einem bestimmten Signifikanzniveau und bei einer bestimmten (zu erwartenden) Effektstärke der dann anzustrebende Stichprobenumfang einer empirischen Studie sein sollte, um den entsprechenden Effekt mit mindestens 80%iger Wahrscheinlichkeit auch als signifikant schätzen zu können. So kann z.B. ein notwendiger Stichprobenumfang ermittelt werden, wenn das Signifikanzniveau auf 5% festgelegt wird, die Teststärke auf 80% fixiert wird und die zu erwartende Effektstärke bei 0,01 (sehr kleine Effektstärke) oder bei 0,42 (sehr große Effektstärke) liegt (dazu mehr in Kapitel 3.3.4). 2. In einer post-hoc-Analyse: Dabei sind die Effektstärke und der Stichprobenumfang gegeben, so dass für ein gewisses Signifikanzniveau (z.B. 5%) die Teststärke einer bestimmten Parameterschätzung ermittelt werden kann. Eine Überprüfung der Teststärken ist in der post-hoc-Analyse insbesondere für solche nicht-signifikanten Effekte interessant, deren Effektstärken durchaus inhaltlich bedeutsam sein könnten. Denn dann kann ermittelt werden, ob die Nicht-Signifikanz u.a. auf eine fehlende Teststärke der empirischen Studie zurückgeführt werden könnte. Auf diese Weise kann verhindert werden, dass die Nicht-Signifikanz einer Schätzung allzu vorschnell mit theoretisch-
142
3 Regressionstheorie
substanziellen Gründen interpretiert wird bzw. die Alternativhypothese vom Forscher allzu leichtfertig verworfen wird, weil sie (angeblich!) falsch ist. Denn im Falle einer niedrigen Teststärke eines nicht-signifikanten Effekts, dessen Relevanz jedoch theoretisch oder analytisch zu begründen ist, kann beschlossen werden, entweder a) die Alternativhypothese aufgrund des Studiendesigns weder zu verwerfen noch zu akzeptieren (und eine neue Studie anzustreben) oder b) das Signifikanzniveau anzuheben (z.B. von 0,05 auf 0,10), womit aber auch die Wahrscheinlichkeit des oben erläuterten Fehlers 1. Art vergrößert wird. Auf diese Weise kann die Teststärke-Analyse auch zur Ermittlung des anzusetzenden Signifikanzniveaus eingesetzt werden. In den folgenden Unterkapiteln soll nun die Testtechnik von Signifikanztests, die Bestimmung der Teststärke für Regressionskoeffizienten und Bestimmtheitsmaß (post-hoc-Teststärke-Analyse) sowie die teststärke-basierte Ermittlung adäquater Fallzahlen (a-priori-Teststärke-Analyse) erläutert werden.
Z3.3: Unter der Teststärke wird die Wahrscheinlichkeit verstanden, mit der in einem Signifikanztest eine falsche Nullhypothese richtigerweise verworfen werden kann (so dass die Alternativhypothese eine höhere statistische Plausibilität erhält). Die Teststärke kann somit als Gegenteil der Wahrscheinlichkeit des Fehlers 2. Art () verstanden werden. Sie wird mit einem Wert von „1 – “ kalkuliert. Die Berücksichtigung der Teststärke kann vor Fehlschlüssen bewahren, die entstehen können, wenn bei Interpretation von empirischen Nicht-Signifikanzen die Einflüsse zu geringer Stichprobengrößen oder eines zu strengen Signifikanzniveaus übersehen werden. In der Regressionsanalyse ist insbesondere die Stärke des Tests einzelner Regressionskoeffizienten und von R2 interessant. Die Teststärke sollte über 0,80 liegen, was der Wahrscheinlichkeit eines maximalen Fehlers 2. Art von 20% entspricht.
3.3 Testverfahren im bivariaten Regressionsmodell 3.3
143
Testverfahren im bivariaten Regressionsmodell
Um Testverfahren, die nach der in Kapitel 3.2 beschriebenen Testlogik operieren, in der Regressionsanalyse einsetzen zu können, muss unser Katalog regressionsanalytischer Annahmen (A1 bis A4), wie er in Kapitel 3.1.2 beschrieben wurde, um eine weitere Annahme erweitert werden: Entsprechend dieser zusätzlichen Annahme muss die Verteilung aller Werte von Y bei jedem einzelnen X-Wert einer Normalverteilung entsprechen, wie sie auch schon in Abbildung 3.4 skizziert wurde. Dann hätte die bivariate Normalverteilung der Variablen Y und X die Form eines langgezogenen Bergrückens, wie er in Abbildung 3.9 dargestellt wird. Man könnte bei jedem X-Wert einen Schnitt parallel zur Y-Achse durch den Kegel machen und erhielte dann bei jedem X-Wert eine Schnittfläche in Form einer univariaten Normalverteilung von Y (dieses Prinzip veranschaulichte auch schon Abbildung 3.4). Abbildung 3.9: Veranschaulichung einer (theoretischen) bivariaten Normalverteilung von X/Y-Wertepaaren i
144
3 Regressionstheorie
Würde man sich vorstellen, dass dieses Bergmassiv mit Wasser gefüllt wäre und der Wasserspiegel beliebig gesenkt werden könnte, so wären verschiedenste Wasserstände vorstellbar. Der Oberflächenrand eines jeden Wasserstandes hätte die Umrisse einer Ellipse. Auf der Linie dieser Ellipse lägen alle diejenigen X/Y-Kombinationen, die gleiche Wahrscheinlichkeitswerte besitzen. Abbildung 3.10 verdeutlicht diese Vorstellung für vier Ellipsen, deren gemeinsame Hauptachse die Regressionsgerade ist. Es wird dabei senkrecht aus der Vogelperspektive auf die Wasserstandsränder hinabgeschaut. Abbildung 3.10: Ellipsenmodell der bivariaten Normalverteilung Y
X
Die Abbildungen 3.9 und 3.10 veranschaulichen das theoretische Modell der bivariaten Normalverteilung mit einer stetigen Verlaufskurve. Empirische Normalverteilungen haben im Unterschied dazu eine diskrete Form, wie sie in Abbildung 3.11 gezeigt wird. Dort gibt es nicht unendlich viele X-Werte und unendlich viele Y-Werte in einem bestimmten Skalenintervall, sondern nur eine beschränkte Anzahl von Wertekombinationen. Deshalb ist der Bergrücken nunmehr auch abgestuft. Für jede X/Y-Kombination, die eine andere Wahrscheinlichkeit hat als ihre Nachbarkombination, gibt es nunmehr einen Sprung in der Säulenhöhe von p(Y, X) nach oben oder unten. Entsprechend unserer Überlegungen in Kapitel 3.1.2 können wir die hier neu hinzugekommene Annahme über eine Normalverteilung der Y-Werte in eine Annahme über die Verteilung von Residuen transformieren. Dementsprechend müssen die Werte der Residuen einer Regressionsanalyse bei jedem X-Wert normalverteilt sein und gleichzeitig einen Mittelwert von 0 und eine konstante Varianz 2 aufweisen:
3.3 Testverfahren im bivariaten Regressionsmodell
145
A5: Ui ~ N (0, 2) Diese zusätzliche Annahme (A5) muss erfüllt sein, wenn in einer Regressionsanalyse auch Signifikanztests durchgeführt werden sollen. Denn die Annahmen A1 bis A4 reichen nur aus, um die Erwartbarkeit eines Schätzwertes mit BLUEEigenschaften zu begründen. Sollen jedoch die zuvor erläuterten Testmodelle praktisch eingesetzt werden, muss zusätzlich auch noch Annahme A5 akzeptiert werden können. Abbildung 3.11: Veranschaulichung einer empirischen bivariaten Normalverteilung p(Y|Xi)
Y
X
Z3.4: Die Annahmen A1 bis A4 müssen um eine weitere Annahme ergänzt werden, wenn Regressionsergebnisse hinsichtlich ihrer Zufallsabhängigkeit mittels Signifikanztests überprüft werden sollen. Diese zusätzliche Annahme (A5) fordert normalverteilte Residuen mit einem Mittelwert von „0“ und einer konstanten Varianz bei jedem einzelnen X-Wert.
146
3 Regressionstheorie
3.3.1 Standardfehler, Konfidenzintervall und Signifikanztest des Regressionskoeffizienten
Im Folgenden wird gezeigt, auf welche Weise die Zuverlässigkeit und Signifikanz des Regressionskoeffizienten „b“ zu testen ist (der a-Koeffizient spielt in der Sozialforschung zumeist keine große Rolle und wird deshalb hier übergangen). Die Ausführungen informieren über die Durchführung von Signifikanztests, deren allgemeine Logik zuvor in Kapitel 3.2 erläutert wurde (und dort insbesondere in Kapitel 3.2.2). Zur Berechnung von Konfidenzintervall und Signifikanz einzelner b-Koeffizienten wird deren Standardfehler benötigt. Der Standardfehler ist ein Schätzwert für die Streuung der Stichprobenverteilung von b (bzw. für die Streuung von f(b), vgl. Kapitel 3.2.2 sowie Abbildung 3.8). Er kann aus der Formel für die Varianz von b (Gleichung 3.5) abgeleitet werden, da die BLUE-Eigenschaften von b auch auf die Varianz von b zu übertragen ist. Die Varianz von b ergibt sich, wie bereits auf Seite 128 in Gleichung (3.5) berichtet, als: Var(b)
2
¦X
(3.5)
2 i
Ziehen wir aus Gleichung (3.5) die Quadratwurzel, so ergibt sich: s SE b Xi 2
¦
(3.7)
Gleichung (3.7) zeigt die Formel für die geschätzte Streuung der Verteilung von b. Sie wird auch als Standardfehler von b bezeichnet (englisch: „standard error“, abgekürzt: „SE“). Was für die Berechnung des Standardfehlers allein noch fehlt, ist der Wert von „s“. Die Streuung „s“ wird nach der folgenden Gleichung berechnet (wobei ein Wert von –2 im Nenner eine notwendige Korrektur ist, um s2 unverzerrt zu erhalten, was aber nur für den bivariaten Fall gilt): s2
1 N2
¦ (Y Yˆ ) i
i
2
(3.8)
3.3 Testverfahren im bivariaten Regressionsmodell
147
Indem Gleichung (3.8) in Gleichung (3.7) eingesetzt wird, erhalten wir eine neue Formel für den Standardfehler von b. Mit dieser Formel (Gleichung 3.9) kann der Standardfehler von b (als Schätzwert für die Streuung von b) aus den empirischen Daten berechnet werden:
¦ (Y Yˆ ) / (N 2) ¦ (X X) 2
SE b
i
i
2
(3.9)
i
(In Gleichung 3.9 wurde die Transformation von X, die noch in Gleichung 3.5 und 3.7 beibehalten wurde, der Übersichtlichkeit wegen wieder rückgängig gemacht.) Beim Einsatz von Standard-Statistik-Software (wie z.B. SPSS) wird der Standardfehler direkt berechnet. Eine Beispielrechnung erfolgt weiter unten. Mit Hilfe des Standardfehlers von b lässt sich ein Konfidenzintervall bestimmen, das den Bereich derjenigen Wahrscheinlichkeitsverteilung von b angibt, in dem b mit einer gewissen Wahrscheinlichkeit zu finden ist. Dabei benutzen wir als Verteilungsmodell nicht die Standardnormalverteilung, sondern ein daraus abgeleitetes Modell: die t-Verteilung. Denn die zusätzliche Unsicherheit, die durch die Schätzung von 2 durch s2 erzeugt wird, kann bei Verwendung der tVerteilung in gewisser Weise reduziert werden. Benutzen wir die t-Verteilung und verwenden das gebräuchliche 95%Konfidenzintervall (KI), so liegt b mit 95%iger Wahrscheinlichkeit im Intervall mit den Grenzwerten (Gr): Gr(KI0,95) = b ± tn × SEb
(3.10)
Liegt = 0 nicht in diesem Bereich, so entscheiden wir uns mit einer Irrtumswahrscheinlichkeit von 5% gegen H0 und bezeichnen b als statistisch signifikant auf einem Signifikanzniveau von 5%. Es ist nun möglich, H0 zweiseitig oder einseitig zu testen (vgl. dazu auch Kapitel 3.2.2). Wird zweiseitig getestet, so ist es unerheblich, ob das mit 5%iger Wahrscheinlichkeit von H0 abweichende „b“ am äußersten rechten oder linken Ende der Verteilungskurve liegt (vgl. Abbildung 3.7). Denn dann postuliert HA
148
3 Regressionstheorie
allein „ 0“. Demgegenüber behauptet HA bei einer einseitigen Fragestellung entweder „ > 0“ oder „ < 0“. Da aber in einen einseitigen Test mehr theoretische Überlegungen eingehen als in einen zweiseitigen Test (denn eine der beiden Vorzeichenmöglichkeiten wird ausgeschlossen), liefert ein einseitiger Test eher signifikante Ergebnisse als ein zweiseitiger Test. Was uns für die praktische Durchführung des Signifikanztests noch fehlt, ist die Bestimmung des „n“ von tn in Gleichung (3.10). Dieses n wird „Anzahl der Freiheitsgrade“ (FG) genannt (englisch: „degrees of freedom“, abgekürzt: „df“). Die Bezeichnung rührt daher, dass t-verteilte Werte auch als Summenvariablen vorstellbar sind, die aus einer bestimmten Summe von unabhängigen Variablen bestehen (unabhängig sein = frei sein). Ab ca. 120 Freiheitsgraden wird die tVerteilung identisch mit der Standardnormalverteilung. Dann verliert die Unsicherheit, die durch die Benutzung von s2 anstelle von 2 entsteht, ihre Bedeutung. Empirisch wird die Anzahl der Freiheitsgrade aus der Anzahl der Beobachtungen (N) minus der Anzahl der Regressionskoeffizienten berechnet. Und da im bivariaten Modell zwei Koeffizienten geschätzt werden (a und b), beträgt dort die Anzahl der Freiheitsgrade „N – 2“. Wir können nun einen einseitigen und einen zweiseitigen Test durchführen. Mit beiden soll hier ermittelt werden, ob die OLS-Regressionsschätzung des bKoeffizienten einen Wert erbracht hat, der als zufällige oder systematische (überzufällige) Abweichung von dem als „wahr“ unterstellten „ = 0“-Wert zu betrachten ist. Dazu kehren wir zu unserem Einkommensbeispiel aus Tabelle 2.2 zurück. Der Regressionskoeffizient einer Regression des Einkommens auf das Alter betrug dort b = 9,37. Diesen b-Koeffizienten wollen wir auf seine Signifikanz testen (dazu akzeptieren wir an dieser Stelle die Gültigkeit von A1 bis A5; in welcher Weise diese Annahmen zu überprüfen sind, werden wir in Kapitel 4 erörtern). Im ersten Schritt des Signifikanztests müssen wir den Standardfehler von b nach Gleichung (3.9) berechnen. Der Standardfehler mit N = 12 beträgt: ( X i X )2 = 4964,96 (vgl. Tabelle 2.2)
ˆ )2 = 5808557,30 ( Yi Y i
3.3 Testverfahren im bivariaten Regressionsmodell
SE b
¦ (Yi Yˆi ) 2 / (N 2) ¦ (Xi X) 2
5808557,30 / (12 2) 4964,96
149
10,82
Die bivariate Regressionsgleichung (Gleichung 2.12) kann nun in der folgenden Form neu geschrieben werden:
ˆ Y i
816,58 9,37 X i (10,82)
(2.12a)
(Wie hier gezeigt, wird in der Forschungspraxis der Standardfehler in Klammern unter den b-Koeffizienten geschrieben, um dessen geschätzte Varianz sofort ablesen zu können.) Der t-Wert für 10 Freiheitsgrade und ein Signifikanzniveau von 5% wird aus einer Tabelle der t-Verteilung entnommen (vgl. Tabelle A1 im Anhang) (ab ca. 120 Freiheitsgraden kann anstelle der t-Verteilung auch die Standardnormalverteilung benutzt werden, zu finden u.a. in Bortz 1999; Sahner 2005). Da es sich hier um einen zweiseitigen Test handeln soll, muss in der t-Tabelle (Tabelle A1 im Anhang) der t-Wert für Gleichung (3.10) in der dortigen Spalte für den entsprechenden Wert des Signifikanzniveaus (in unserem Beispiel = 0,05) abgelesen werden. Bei df = 10 ist t = 2,23. Somit können nunmehr die Grenzwerte des 95%-Konfidenzintervalls für b nach Gleichung (3.10) bestimmt werden. Sie betragen: Gr(KI0,95) = b ± tN-2×SEb = 9,37 ± (2,23×10,82) = 9,37 ± 24,13
(3.10a)
Dementsprechend liegt b mit 95%iger Wahrscheinlichkeit im Verteilungsbereich zwischen den Grenzen von –14,76 und +33,5. Da auch = 0 in diesem Intervall liegt, können wir H0 nicht mit einer genügend kleinen Irrtumswahrscheinlichkeit verwerfen und akzeptieren sie mithin. Auf einem Signifikanzniveau von 5% muss also in unserem Beispiel der Regressionskoeffizient von b = 9,37 als „nicht-signifikant“ gelten. Er ist deshalb als zufällige Abweichung von dem „wahren“ Wert „ = 0“ zu betrachten. Ist man bereit anzunehmen, dass der zu schätzende -Wert auf jeden Fall positiv sein muss und deshalb H0 nur mit einem überzufälligen, positiven b-Koeffi-
150
3 Regressionstheorie
zienten verworfen werden kann, so kann man den Signifikanztest „rechtseinseitig“ durchführen. Der 5%ige Signifikanzbereich liegt dann allein auf der rechten Seite der Wahrscheinlichkeitsverteilung von und beginnt ab der oberen (positiven) Grenze des 95%-Konfidenzintervalls (vgl. Abbildung 3.7). Der entsprechende Grenzwert mit einem t12-2-Wert von 1,81 (entnommen aus Tabelle A1 im Anhang) beträgt dann: Gr(KI0,95, rechts) = b + tN-2×SEb = 9,37 + (1,81×10,82) = 9,37 + 19,58 = 28,95
(3.10b)
Da auch bei dieser rechts-einseitigen Bestimmung des Konfidenzintervalls der „wahre“ Wert „ = 0“ innerhalb des Intervalls liegt (das Intervall umfasst ja den gesamten Bereich von – bis +28,95), ist auch nach dem Ergebnis des einseitigen Signifikanztests die H0 mit einem Schätzwert von b = 9,37 nicht zu verwerfen. Und damit muss dieser b-Wert als „nicht-signifikant“ bezeichnet werden. Nach der gleichen Logik wäre auch ein links-einseitiger Signifikanztest durchzuführen (allerdings wäre dann die untere Grenze des Konfidenzintervalls zu ermitteln nach: Gr(KI0,95, links) = b – tN-2×SEb). Da dieser Test allerdings voraussetzt, dass der eigentliche Wert des Regressionskoeffizienten negativ ist und in unserem Beispiel ein durchgängig negativer Effekt des Alters auf das zu erwartende Einkommen wohl auszuschließen ist, macht ein solcher Test an dieser Stelle keinen Sinn. Es gibt eine recht zuverlässige Daumenregel zur Durchführung eines t-Tests bei großen Stichproben: Den t-Wert kann man als absoluten Quotienten aus geschätztem Regressionskoeffizienten und Standardfehler ermitteln (vgl. Ergänzung 3.7). Für einen zweiseitigen Test (mit = 0,05) muss dieser Quotient dann größer als 1,96 sein, um H0 zurückweisen zu können. Dementsprechend ergibt sich für unser oben benutztes Beispiel: t
b SE b
9,37 10,82
0,87
(3.11)
Da der Wert t = 0,87 kleiner ist als 1,96 (Grenzwert bei großen Stichproben beim zweiseitigen Test) bzw. kleiner ist als t12-2 = 2,23 (exakter Grenzwert bei kleinen Stichproben aus t-Tabelle A1 im Anhang), muss b als statistisch nicht signifikant auf einem Signifikanzniveau von 5% bezeichnet werden.
3.3 Testverfahren im bivariaten Regressionsmodell
151
Der oben zitierte Grenzwert von 1,96 kommt deshalb zustande, weil bei großen Stichproben (d.h. Freiheitsgraden von mindestens 120) der theoretische t-Wert für zweiseitige Tests auf 5%igem Signifikanzniveau sich sehr schnell einer Konstante von 1,96 annähert (für zweiseitige Tests auf 1%igem Signifikanzniveau beträgt die entsprechende Konstante: 2,58). Als Daumenregel lässt sich dann formulieren, dass ein Regressionskoeffizient in absoluten Zahlen etwa doppelt so groß sein muss wie sein Standardfehler, um auf einem Niveau von 5% signifikant zu werden und H0 zurückweisen zu können. In unserem Beispiel ist b mit einem Schätzwert von 9,37 weit davon entfernt, doppelt so groß zu sein wie sein Standardfehler 10,82. Bei einseitigen Tests gilt, dass bei großen Stichproben (ab ca. 120 Freiheitsgraden) der t-Wert konstant 1,65 (5% Signifikanzniveau) bzw. 2,33 (1% Signifikanzniveau) beträgt. Ergänzung 3.7: Signifikanztest von b
Die Grenzwerte des 95%igen Konfidenzintervalls liegen bei (vgl. Gleichung 3.10) : (b ± tN-2 SEb) wenn b positiv ist, gilt: (b – tN-2 SEb) > 0 wenn b negativ ist, gilt: (b – tN-2 SEb) < 0 Durch Umformung lässt sich erreichen: b/SEb > tN-2 (bei positivem b) (bei negativem b) b/SEb < tN-2 geschrieben in absoluten Zahlen: b/SEb > tN-2
(3.12)
Wenn aufgrund eines t-Tests eine b-Schätzung als nicht-signifikant ausgewiesen wird, so muss dies nicht immer besagen, dass der entsprechende Effekt tatsächlich bedeutungslos ist. Nicht-signifikante Schätzergebnisse können auch andere Ursachen haben. Sie können z.B. infolge von Design- oder Messfehlern entstehen. Auf folgende, effektfremde Ursachen nicht-signifikanter Schätzergebnisse ist insbesondere zu achten: a) Fehler 2. Art bzw. zu geringe Teststärke, b) zu
152
3 Regressionstheorie
große Standardfehler, c) zu geringe Stichprobengröße. Woran sind diese drei Ursachen nicht-signifikanter Testergebnisse zu erkennen? Bei einem nicht-signifikanten Testergebnis kann man die Stärke des entsprechenden Tests (power) ermitteln, um zu erfahren, wie groß überhaupt die Wahrscheinlichkeit ist, dass ein b-Koeffizient mit der vorhandenen Effektstärke (sowie dem angesetzten Signifikanzniveau und der gegebenen Fallzahl) als signifikant geschätzt werden kann. Die Teststärke sollte, wie erläutert, größer oder gleich 0,80 sein. Wie das zu machen ist, wird in Kapitel 3.3.3 und 3.4.3 beschrieben. Über mögliche Gründe für eine zu geringe Teststärke wurde in Kapitel 3.2.3 berichtet. Ein negativer Testausgang kann auch durch einen großen Standardfehler verursacht werden. Dieser tritt u.a. dann auf, wenn ein Regressionsmodell falsch spezifiziert wurde und dadurch die Summe der Abweichungsquadrate ˆ ) 2 sehr groß wird. Über die Entdeckung und den Umgang mit Spezifi (Yi Y i kationsfehlern berichten wir noch ausführlich in Kapitel 4.4. Einige Ursachen für Spezifikationsfehler wurden aber auch schon in Abbildung 2.11 auf Seite 62 veranschaulicht, und auch bei Erörterung unseres Einkommensbeispiels (vgl. Tabelle 2.2) haben wir bereits angedeutet, dass ein kurvilinearer Zusammenhang, der fälschlicherweise als rein linearer Zusammenhang bestimmt wird, zu einem Spezifikationsfehler führen wird. Ein großer Standardfehler entsteht aber auch dann, wenn aufgrund von Operationalisierungs- oder Messfehlern die Varianz von X gering ist und deshalb der Nenner von Gleichung (3.9) klein wird. In beiden Fällen wird eine OLS-Schätzung hochgradig instabil werden, was sich dann auch in einem nicht-signifikanten Testergebnis ausdrückt.
Eine weitere Ursache für nicht-signifikante Testergebnisse ist die Instabilität von Regressionsschätzungen aufgrund von zu geringen Fallzahlen. Denn nur eine einzige extreme Beobachtung kann bei sehr kleinen Fallzahlen die Lage der Regressionsgeraden entscheidend beeinflussen und damit über Signifikanz oder Nicht-Signifikanz von Regressionsschätzungen entscheiden. Bei einem großen Stichprobenumfang (z.B. bei N = 2000) wäre ein solcher Beobachtungsfall natürlich nur ein „Ausreißer“ (englisch: „outlier“), der ohne Konsequenzen bliebe (vgl. zur Ausreißer-Problematik das Kapitel 4.1). Jedoch muss bei großen Fallzahlen bedacht werden, dass der Stichprobenumfang auch in umgekehrter Richtung einen „unerwünschten“ Effekt erzeugen kann: Bei sehr großen Stichproben werden auch sehr kleine b-Schätzwerte immer als signifikant getestet.
3.3 Testverfahren im bivariaten Regressionsmodell
153
Ihr geschätzter Betrag muss nur größer als 0,00 sein (was in der Praxis fast immer der Fall ist). Denn bei steigendem Stichprobenumfang verkleinert sich automatisch der Standardfehler und vergrößert sich somit die Teststärke (vgl. Urban/Mayerl 2003). Deshalb kann bei großen Fallzahlen anstatt des traditionellen Signifikanztests mit „H0: = 0“ auch ein einseitiger Minimum-Effekt-Test durchgeführt werden. Dieser verlangt, dass der geschätzte Regressionskoeffizient eine gewisse (immer etwas willkürlich festzulegende) MindestEffektstärke besitzen muss. Interessierte Leser seien bezüglich der Details dieser Testlogik und der Bestimmung des Minimum-Effekts auf Murphy/Myors (1998) verwiesen. Die Signifikanz eines geschätzten Regressionskoeffizienten ist also nicht ohne weiteres gleichbedeutend mit seiner theoretischen, analytischen oder substanziellen Relevanz. Und die Nicht-Signifikanz eines geschätzten Effekts ist nicht immer gleichbedeutend mit seiner theoretischen, analytischen oder substanziellen Bedeutungslosigkeit. Denn Signifikanztests sind allein ein statistisches Hilfsmittel der Modellanalyse. Ihre Ergebnisse sind von vielen methodisch beeinflussten Randbedingungen abhängig. Und zudem basieren Signifikanzdiagnosen immer auf Wahrscheinlichkeitsaussagen, die unausweichlich mit den Fehlern der 1. und 2. Art behaftet sind.
3.3.2 Signifikanztest des Gesamtmodells
In der Regressionsanalyse können auch Signifikanztests eingesetzt werden, um die Abhängigkeit der Gesamtschätzung eines Regressionsmodells von zufälligen Verzerrungen zu überprüfen. Obwohl ein solcher Test vor allem in der multivariaten Analyse seinen Sinn hat (vgl. Kapitel 3.4), kann er auch im bivariaten Fall eingesetzt werden. Voraussetzung dafür ist wiederum die Gültigkeit der Annahmen A1 bis A5. Als Prüfgröße wird der so genannte F-Wert bestimmt: F
Anteil ausgeschöpfter Varianz Anteil nicht ausgeschöpfter Varianz
154
3 Regressionstheorie
Wenn H0 richtig ist (und sie wird entsprechend der Testlogik als richtig vorausgesetzt), folgt die Wahrscheinlichkeitsverteilung der F-Werte einer bestimmten Form der Normalverteilung, die in der Statistik als „F-Verteilung“ bezeichnet wird. Die F-Verteilung bezieht sich nicht (wie die t-Verteilung) auf die Verteilung einer einzigen Summenvariablen, sondern die F-Werte entstehen als Quotienten aus zwei Summenvariablen. Mithin ist der Verlauf der F-Verteilung auch von zwei Größen abhängig: von „N“ und von „m“. Mit „N“ wird die Anzahl der Beobachtungen und mit „m“ die Anzahl der zu schätzenden Regressionskoeffizienten (inklusive der Konstante) bezeichnet. Daraus ergeben sich die beiden Freiheitsgrade der F-Verteilung: FG1: m – 1 FG2: N – m Um in einer standardisierten Tabelle (vgl. Tabelle A2 bei = 0,05 und Tabelle A3 bei = 0,01 im Anhang) einen bestimmten F-Wert zu finden, benötigt man diese beiden Werte (FG1 und FG2) sowie ein Signifikanzniveau. Dann lässt sich mit Hilfe des tabellarisch zu ermittelnden, theoretischen F-Wertes die kritische Grenze einer F-Verteilung bestimmen. Liegt ein empirisch berechneter F-Wert jenseits dieser Grenze (in Abbildung 3.12 im schraffierten Feld), so ist er statistisch signifikant auf einem entsprechenden Signifikanzniveau und H0 kann mit der entsprechenden Irrtumswahrscheinlichkeit zurückgewiesen werden. Abbildung 3.12: F-Verteilung
Beim F-Test wird ein theoretisches Verteilungsmodell unterstellt, das bei Gültigkeit von H0 die Verteilung des Quotienten aus ausgeschöpftem und nichtausgeschöpftem Varianzanteil beschreibt. Bei dieser Verteilung gibt es einen Wahrscheinlichkeitsraum, in dem der empirische F-Wert liegen muss, wenn die
3.3 Testverfahren im bivariaten Regressionsmodell
155
Regressionsschätzung signifikant von H0: = 0 verschieden ist (im Falle bivariater Modelle). Der F-Wert für ein Regressionsmodell wird berechnet nach der Formel: FR
R 2 / FG1 (1 R 2 ) / FG 2
(3.13)
Im Einkommensbeispiel nach Tabelle 2.2 ist =1 = 10 = 0,07
FG1 FG2 R2
(da m = 2) (da N = 12 und m = 2) (vgl. Seite 57)
Daraus folgt: FR
R 2 / FG1 (1 R 2 ) / FG 2
0,07 / 1 = 0,75 0,93 / 10
Der kritische F-Wert für ein Signifikanzniveau von 0,05 beträgt gemäß Tabellierung (vgl. Tabelle A2 im Anhang): F1, 10 = 4,96. Da FR mit einem Wert von 0,75 unterhalb des kritischen F-Wertes liegt (bzw. in Abbildung 3.12 links vom kritischen Wert Fi liegt), ist FR nicht signifikant von H0 verschieden. Somit muss die insgesamt betrachtete „Erklärungsleistung“ des entsprechenden Regressionsmodells eher als Zufallsergebnis gewertet werden (mit einer Irrtumswahrscheinlichkeit von 5%).
Z3.5: Im bivariaten Regressionsmodell kann die Abhängigkeit der Schätzergebnisse von zufällig wirkenden Verzerrungen mit Hilfe von Signifikanztests (t-Test und F-Test) statistisch überprüft werden (bei Gültigkeit von A1 bis A5). Die Testverfahren sind statistische Modellierungen, d.h. sie legen eine Vielzahl von Annahmen zugrunde, deren Gültigkeit teilweise zu unterstellen und teilweise zu überprüfen ist.
156
3 Regressionstheorie
3.3.3 Ermittlung von Effektstärke und Teststärke
Im bivariaten Modell entspricht die Teststärke des Determinationskoeffizienten (R2) derjenigen des Regressionskoeffizienten (b), so dass die nachfolgend vorgestellte Methode zur Ermittlung der Teststärke (nach Cohen 1988) für beide Anwendungsfälle gilt. Die Teststärke wird dabei anhand eines F-Tests ermittelt F
Anteil ausgeschöpfter Varianz v u Anteil nicht ausgeschöpfter Varianz u
(3.14)
wobei der linke Quotient als ein Maß der Effektstärke interpretiert werden kann und der rechte Quotient anhand der Freiheitsgrade (v und u) Informationen über die Anzahl der Fälle und Variablen enthält. Die Variable „u“ bezeichnet die Anzahl unabhängiger Variablen, und „v“ ergibt sich nach der Gleichung: v = N – u – 1. Die Teststärke eines bestimmten R2 oder eines bestimmten Regressionskoeffizienten kann vorgefertigten Tabellen nach Cohen (1988: 416ff) entnommen werden, die auch im Anhang dieses Skripts abgedruckt sind (Tabellen A4 und A5). Dazu müssen folgende Werte bekannt sein: das Signifikanzniveau (zumeist wird = 0,05 angenommen; die im Anhang befindliche Tabelle A4 ist für = 0,05 und die Tabelle A5 für = 0,01 ausgewiesen), die Freiheitsgrade u und v (s.o.), der Effektstärke-Index f2 (s.u.) sowie der Nonzentralitätsparameter (s.u.). Der Effektstärke-Index f2 wird berechnet als f2
Anteil ausgeschöpfter Varianz Anteil nicht ausgeschöpfter Varianz
R 2 YB 1 R 2 YB
(3.15)
wobei in multivariaten Regressionsanalysen das Subskript „B“ für eine Gruppe von unabhängigen Variablen steht. Im bivariaten Fall bezeichnet B lediglich eine einzige, unabhängige Variable. Wenn wir nach Gleichung (3.15) für unser Einkommensmodell (vgl. Tabelle 2.2) die Effektstärke von Alter auf Einkommen berechnen, beträgt der Effektstärke-Index f2 = 0,07 / (1 – 0,07) = 0,08. Zur Interpretation der Effektstärke im bivariaten Modell hat Cohen vorgeschlagen (ders. 1988: 413), die Effektstärke
3.3 Testverfahren im bivariaten Regressionsmodell
157
bei Werten um 0,01 als „klein“, bei Werten um 0,10 als „mittel“ und bei Werten um 0,33 als „groß“ zu bezeichnen. Demnach wäre die hier berechnete Effektstärke am ehesten als „mittel“ zu bewerten (im multivariaten Modell betragen die entsprechenden Orientierungspunkte: 0,02, 0,15 und 0,35). Der Nonzentralitätsparameter kann ermittelt werden über:
f 2 (u v 1)
R 2 YB 1 R 2 YB
u (u v 1)
(3.16a)
oder alternativ über:
R 2 YB uN 1 R 2 YB
(3.16b)
Wir wollen im Folgenden die Teststärke für unser Einkommensmodell aus Tabelle 2.2 beispielhaft ermitteln. Dazu setzen wir zunächst das Signifikanzniveau auf = 0,05 fest. Die Anzahl der unabhängigen Variablen ist 1, so dass u = 1 ergibt. Die Fallzahl beträgt N = 12, so dass v = N – u – 1 = 12 – 1 – 1 = 10 ist. Der Nonzentralitätsparameter beträgt mithin: = f2 × N = 0,08 × 12 = 0,96. Damit haben wir alle wichtigen Informationen beisammen, um die Teststärke des Regressionsmodells der Tabellierung zu entnehmen (vgl. im Anhang Tabelle A4 bei = 0,05). Die dort abgedruckte Tabelle enthält natürlich nicht alle möglichen Kombinationen der zu bestimmenden fünf Werte (, u, v, sowie f2, welcher zur Bestimmung von benötigt wird). Deshalb müssen in der Tabelle diejenigen Werte gesucht werden, die ihnen am nächsten kommen (so dass das Testergebnis auch nur annäherungsweise zutreffen kann). Wir ermitteln dementsprechend die Teststärke für das R2 unserer Regressionsschätzung in einer groben Annäherung bei den Tabellenwerten: = 0,05, u = 1, v = 20 und = 2. Mit diesen Werten beträgt die tabellierte Teststärke: 0,27 bzw. 27%. Die Teststärke des Regressionsmodells erreicht also nicht annähernd den empfohlenen Richtwert von 80%. Sie liegt noch nicht einmal über 50%. Und da in unserem Beispiel die Werte für v und sogar noch deutlich niedriger liegen als die kleinsten Werte in der Tabellierung, liegt die tatsächliche Teststärke sogar noch unter 27%.
158
3 Regressionstheorie
Eine derart niedrige Teststärke von unter 0,27 war für unser Beispiel auch zu erwarten. Die dort benutzte Fallzahl (N = 12) ist für eine zuverlässige Schätzung deutlich zu gering, und auch die Effektstärke nimmt im Modell einen vergleichsweise geringen Wert an. Über die Hypothese HA, nach der das zu erwartende Einkommen vom Alter einer Person abhängt, sollte also aufgrund dieser (fiktiven) Studie besser nicht entschieden werden. Soll eine exaktere Bestimmung der Teststärke vorgenommen werden, so kann dies anhand linearer Interpolationen erfolgen. Dies geschieht folgendermaßen: Im Regelfall liegt v zwischen zwei im Tabellenanhang A4 und A5 berichteten v-Werten (v0 und v1), und auch liegt zwischen zwei in der Tabelle berichteten -Werten (0 und 1). Man verwendet dann zuerst den niedrigeren v-Wert (v0) der Tabelle und ermittelt die Teststärke bei v0 für den eigentlichen -Wert v0 (powervo). Hierzu müssen die Teststärke für 0 (power0) und die Teststärke für 1 (power1) aus der Tabelle abgelesen werden. Dann kann mittels linearer Interpolation die Teststärke für den -Wert der empirischen Studie berechnet werden: (3.17) powerv0 = power0 + [(1 – ) (power1 – power0) / (1 – 0)] Dasselbe muss nun auch bei v1 für die Teststärke (powerv1) zwischen 1 und 0 mit derselben Formel berechnet werden. Dann kann in einem letzten Schritt die Teststärke für das empirische v und empirische mit folgender Gleichung ermittelt werden: 1/v 0 1/v power powerv0 (powerv1 powerv0 ) (3.18) 1/v 0 1/v1 Ist kleiner als 2, dann kann die Interpolation mittels = 0 vorgenommen werden. Bei = 0 ist die Teststärke bei jedem u-Wert gleich dem Signifikanzniveau (vgl. Cohen 1988: 414). Zudem ist zu beachten, dass bei v = der Term 1/v gleich 0 ist. Im Folgenden soll beispielhaft nach dieser Methode die exakte Teststärke für die Werte einer fiktiven empirischen Studie ermittelt werden: die Fallzahl betrage 100 (N = 100), die Anzahl der unabhängigen Variablen sei 1 (u = 1) und die mittlere Effektstärke betrage f2 = 0,11. Damit ist v = N – u – 1 = 100 – 1 – 1 = 98 und ist = f2 × N = 0,11 × 100 = 11. Das Signifikanzniveau wird auf 5% gesetzt. Der Wert v = 98 liegt zwischen den tabellierten v-Werten von 60 und 120. Als erstes lesen wir deshalb aus der Tabelle A4 die Teststärken bei v = 60 und u = 1 ab. Bei = 10 beträgt die Teststärke 0,88 und bei = 12 beträgt die Teststärke 0,92. Damit lässt sich die Teststärke (v0) bei = 11, u = 1 und v = 60 gemäß der linearen Interpolation nach Gleichung (3.17) berechnen: powerv0 = 0,88 + [(12 – 11) × (0,92 – 0,88) / (12 – 10)] = 0,90. Bei v = 120 und u = 1 beträgt die Teststärke (v1): powerv1 = 0,88 + [(12 – 11) × (0,93 – 0,88) / (12 – 10)] = 0,91. Damit beträgt die Teststärke unserer fiktiven Studie gemäß Gleichung (3.18): power = 0,9 + [(1/60 – 1/98) / (1/60 – 1/120)] × (0,91 – 0,9) = 0,91 Die Teststärke liegt also bei 91% und damit deutlich über dem Schwellenwert von 80%.
3.3 Testverfahren im bivariaten Regressionsmodell
159
3.3.4 Ermittlung eines sinnvollen Stichprobenumfangs
Wie bereits angesprochen, kann das Konzept der Teststärke auch benutzt werden, um die zur Durchführung einer spezifischen statistischen Auswertung benötigte Fallzahl in Form einer a-priori-Analyse zu bestimmen. Allerdings sind dazu ganz bestimmte Randbedingungen festzulegen. Dazu gehören die folgenden Daten: -
die angestrebte Teststärke (üblicherweise 80% bzw. 0,8),
-
das Signifikanzniveau inferenzstatistischer Tests (üblicherweise 5% bzw. 0,05),
-
die Anzahl unabhängiger Modellvariablen (im bivariaten Fall beträgt die Anzahl natürlich „1“),
-
die als „wahr“ vermutete (d.h. die in der Population vorhandene) Effektstärke der zu analysierenden Variablenbeziehung.
Bei Festsetzung der angestrebten bzw. als „wahr“ vermuteten Effektstärke kann der Forscher die Ergebnisse vergleichbarer und bereits durchgeführter empirischer Studien benutzen. Stehen solche empirischen Ergebnisse nicht zur Verfügung, so kann die Stichprobenbestimmung auch jeweils für eine „kleine“, „mittlere“ und „große“ Effektstärke durchgeführt werden (vgl. Kapitel 3.3.3, dort werden Orientierungswerte für kleine, mittlere und große Effektstärken beziffert). Sind die oben genannten Daten festgelegt, lässt sich die Frage beantworten, wie viele Fälle mindestens benötigt werden, um mit einer gewissen Wahrscheinlichkeit (= Teststärke) eine Beziehung zwischen zwei Variablen mit einer bestimmten Effektstärke als signifikant schätzen zu können (auf einem bestimmten Signifikanzniveau). Wie kann nun diese Mindest-Fallzahl konkret ermittelt werden? Nehmen wir beispielhaft an, dass wir an der Beziehung zwischen der Einstellung zu einer privat ausgeführten Spendentätigkeit und einem tatsächlichen Spendenverhalten (z.B. zugunsten von Erdbebenopfern) interessiert sind. Nehmen wir weiter an, dass auf der Basis bisheriger empirischer Ergebnisse der
160
3 Regressionstheorie
Einstellungs-Verhaltensforschung im Bereich des Spendenverhaltens ein nur geringer direkter Zusammenhang zwischen Spendeneinstellung und Spendenverhalten zu erwarten ist. Demnach könnte evtl. für eine entsprechende Variablenbeziehung im bivariaten Regressionsmodell eine Effektstärke von f2 = 0,01 zu ermitteln sein (vgl. Kapitel 3.3.3). Nehmen wir weiterhin an, dass wir diese Effektstärke mit einer Wahrscheinlichkeit von 80% auch als signifikant schätzen möchten. Zudem legen wir ein Signifikanzniveau von 5% fest. Und da das Regressionsmodell nur zwei Variablen enthält (eine abhängige und eine unabhängige Variable), hätte „u“ einen Wert von 1. Wir können nun mit Hilfe der Teststärketabelle im Anhang (Tabelle A4) nach dem Mindest-Stichprobenumfang zur Schätzung eines Regressionsmodells suchen, welcher folgende Eigenschaften aufweist: f2 = 0,01, u = 1, Signifikanzniveau = = 0,05, Teststärke = 1 – = 0,8. Unbekannt sind der Nonzentralitätsparameter und v, da zur Berechnung beider Werte der Stichprobenumfang benötigt wird (vgl. Kapitel 3.3.3). In einem ersten Schritt müssen wir Gleichung (3.16b) umformen in: N
(3.16c)
f2
Dann gilt es, den Nonzentralitätsparameter in Gleichung (3.16c) zu ermitteln, um die Gleichung nach N auflösen zu können. Hierzu schauen wir in die entsprechende Teststärketabelle für Analysen mit = 0,05 (Tabelle A4 im Anhang). Da u = 1 und 1 – 0,8 betragen sollen, betrachten wir in der Tabelle die Teststärkewerte in der Zeile für u = 1. Dort suchen wir nach dem kleinsten Wert, bei dem die Teststärke größer oder gleich 0,80 beträgt. In unserem Beispiel ist dies bei = 8 der Fall. Nachdem wir den kleinsten Nonzentralitätsparameter ermittelt haben, bei dem u = 1 und 1 – 0,80 betragen, können wir nach Gleichung (3.16c) den benötigten Stichprobenumfang ermitteln:
N
8 0,01
800
3.4 Testverfahren im multiplen Regressionsmodell
161
Aufgrund dieser Berechnung sollte in unserem Beispiel die geplante empirische Studie zur Untersuchung des bivariaten Zusammenhangs zwischen Spendeneinstellung und Spendenverhalten mit einem Stichprobenumfang von mindestens 800 Fällen (netto!) durchgeführt werden. Denn wird ein Stichprobenumfang mit weniger als 800 Fällen gewählt, so fällt auch die Wahrscheinlichkeit, mit der in der Studie ein signifikanter Schätzwert zu ermitteln ist (= Teststärke), unter 80% ab. Diese Wahrscheinlichkeit fällt umso mehr ab, je weniger Fälle in die Analyse einbezogen werden können – und dies ist riskant. Denn damit steigt das Risiko, dass H0 angenommen wird und kein signifikanter Effekt zwischen Spendeneinstellung und Spendenverhalten geschätzt wird, selbst wenn H0 tatsächlich falsch und HA richtig wäre. In den hier benutzten Teststärketabellen (Tabellen A4 und A5 im Anhang) werden die Werte der Teststärke für jeweils vier verschiedene v-Werte angegeben (20, 60, 120 und ). Der v-Wert wird, wie oben erläutert, durch die Fallzahl und die Anzahl der Modellvariablen bestimmt (v = N – u – 1). Er ist vor allem dann relevant, wenn er kleiner oder gleich 120 ist, da sich ab 120 die Teststärkewerte nur noch gering verändern. Jedoch wird v nach der genannten Formel (v = N – u – 1) erst dann einen Wert von 120 oder kleiner annehmen, wenn N sehr klein ist (in unserem bivariaten Beispiel bei N 122). Da in der Sozialforschung nur selten mit so geringen Fallzahlen gearbeitet werden dürfte, kann der v-Wert wohl zumeist vernachlässigt werden. Wird jedoch nach der oben beschriebenen Methode eine kleine Stichprobengröße ermittelt und ist v dabei kleiner oder gleich 120, so sollte der ermittelte Wert für die Mindest-Fallzahl gegebenenfalls modifiziert werden. Dies ist dann der Fall, wenn bei v = N – u – 1 (mit dem oben ermittelten NWert) der Teststärkewert in der Tabelle im Anhang nicht größer oder gleich 0,80 ist. In diesem Fall sollte dann v = N – u – 1 (mit unbekanntem N) mit dem entsprechenden v-Wert aus der Tabelle, bei dem die Teststärke 0,80 oder höher liegt, nach N aufgelöst werden. Das so ermittelte N entspräche dann dem benötigten Mindest-Stichprobenumfang.
Weitere Informationen zur Relevanz des Stichprobenumfangs in der Regressionsanalyse finden sich in diesem Skript in den Unterkapiteln 3.2.3 und 4.1.
3.4
Testverfahren im multiplen Regressionsmodell
Um auch im multiplen Regressionsmodell inferenzstatistische Testverfahren durchführen zu können, muss dort genau wie im bivariaten Modell die Gültigkeit der Annahmen A1 bis A5 vorausgesetzt werden können (vgl. Kapitel 3.1.2 und 3.2.1). Im Unterschied zur bivariaten Analyse müssen jedoch in der multiplen Regressionsanalyse die Residuenannahmen nicht für die Werte einzelner XVariablen gelten, sondern sie haben auch für alle Werte zu gelten, die sich als
162
3 Regressionstheorie
Kombinationswerte aus den Werten von zwei oder mehreren X-Variablen ergeben. Mit anderen Worten: In der multiplen Regressionsanalyse gibt es eine große Anzahl von Kombinationsmöglichkeiten der Werte aller X-Variablen. Für jede einzelne dieser Kombinationsmöglichkeiten müssen A1 bis A5 zutreffen, wenn in der Analyse auch Signifikanztests durchgeführt werden sollen.
3.4.1 Signifikanztest der Regressionskoeffizienten
Analog zur Vorgehensweise im bivariaten Modell lässt sich auch im multiplen Regressionsmodell jeder Regressionskoeffizient einzeln auf seine Zufallsabhängigkeit testen. Dazu wird wiederum der t-Test benutzt (eine alternative Methode zum Test der Signifikanz einzelner Regressionskoeffizienten, bei welcher der FTest eingesetzt wird, werden wir in Kapitel 3.4.2 vorstellen). Wir wollen das Verfahren am Beispiel der statistischen „Erklärung“ von Ausländerablehnung aus Tabelle 2.4 verdeutlichen. Darin wurde die Abhängigkeit ausländerablehnender Einstellungen von autoritären Einstellungen und vom sozialen Berufsprestige geschätzt. Dies erbrachte folgende Regressionsgleichung:
ˆ = 9,91 + 1,08 X1 – 0,07 X2 Y
R2 = 0,59
(2.33)
Für X1 und X2 lassen sich nun nach Gleichung (3.9) die jeweiligen Standardfehler berechnen und Gleichung (2.33) kann in neuer Form präsentiert werden:
ˆ = 9,91 + 1,08 X1 – 0,07 X2 Y (0,40) (0,07) Für jeden der beiden geschätzten Regressionskoeffizienten wäre es möglich, je nach postulierter Nullhypothese ein Konfidenzintervall zu berechnen (nach Gleichung 3.10, Seite 147). Allein die Anzahl der Freiheitsgrade würde sich im Vergleich zum bivariaten Modell ändern. Im multiplen Beispiel müssten bei zwei unabhängigen Variablen drei Koeffizienten geschätzt werden (a, b1 und b2), so dass bei N = 10 ein t-Wert mit 7 Freiheitsgraden in der entsprechenden Tabelle der t-Verteilung (Tab. A1 im Anhang) zu suchen wäre (tN-3 = t10-3 = t7). Da uns an dieser Stelle das Konfidenzintervall nicht weiter interessieren soll, berechnen wir die t-Werte sofort nach der Formel (3.11) von Seite 150. Die
3.4 Testverfahren im multiplen Regressionsmodell
163
Werte betragen für X1: 2,70 und für X2: –1,00. Der theoretische Schwellenwert für t7 beträgt bei einem 5%igen Signifikanzniveau nach Tabellierung der t-Verteilung: ±2,37 (zweiseitiger Test). Somit kann zwar der partielle Regressionskoeffizient von X1 die Nullhypothese zurückweisen, derjenige von X2 aber nicht (da er mit –1,00 deutlich den Schwellenwert von –2,37 verfehlt). Das heißt, der Effekt von Autoritarismus wird als signifikant und der Effekt von Berufsprestige als nicht signifikant bewertet (bei einem Signifikanzniveau von 5%). Zu fragen wäre: Soll man aufgrund des hier berechneten Testergebnisses den Einfluss des Berufsprestiges auf das Ausmaß von Ausländerablehnung als zufällig interpretieren? Denn immerhin spricht gegen die Zufallsbestimmtheit des Schätzwertes die theoretische Plausibilität eines Einflusses von sozialem Berufsprestige auf ausländerablehnende Einstellungen (z.B. aufgrund einer prestigeabhängig wahrgenommenen Erwartung von Statusverlust in der Arbeitsmarktkonkurrenz mit ethnischen oder sozialen Minderheiten). Eine solche Diskussion würde allerdings die methodischen Beschränkungen des vorliegenden, rein didaktisch gewählten Beispiels ignorieren. Und das wäre schlecht. Denn die kleine Fallzahl (N = 10) macht die Ergebnisse der Regressionsanalyse sowieso höchst instabil (vgl. Kapitel 4.1). Und auch die Teststärke ist aufgrund des geringen Stichprobenumfangs viel zu gering, um einen signifikanten Effekt aufdecken zu können (s.o.). Zudem mahnt die möglicherweise fehlende Gültigkeit von A1 bis A5, die hier noch nicht überprüft werden kann (dies wird erst Thema von Kapitel 4 sein), zur Vorsicht. So ist letztlich in diesem rein rechentechnisch zu sehenden Beispiel keine verbindliche Entscheidung darüber zu treffen, ob das Ergebnis des Signifikanztests akzeptiert werden soll oder nicht.
3.4.2 Signifikanztest des Gesamtmodells
Der F-Test des bivariaten Regressionsmodells (Kapitel 3.3.2) lässt sich auch zum Test einer multiplen Modellschätzung einsetzen. Dabei wird wiederum nicht die Signifikanz einzelner partieller Regressionskoeffizienten getestet, sondern getestet wird die Signifikanz des ausgeschöpften Varianzanteils (relativ zum unausgeschöpft gebliebenen Varianzanteil) als Resultat der Gesamtschätzung.
164
3 Regressionstheorie
So lautet in unserem Beispiel zur Ausländerablehnung (Tabelle 2.4) die Nullhypothese des F-Tests: H0: 1 = 2 = 0 und die Alternativhypothese: HA: 1 0 und/oder 2 0 Die Bestimmung der Freiheitsgrade erfolgt wie im bivariaten Modell: FG1 = m – 1 = 3 – 1 = 2 FG2 = N – m = 10 – 3 = 7 Nach Gleichung (3.13) wird der F-Wert des Regressionsmodells berechnet:
FR
R 2 / FG1 (1 R 2 ) / FG 2
0,59 / 2 0,41 / 7
5,1
Der kritische F-Wert für ein Signifikanzniveau von 5% beträgt mit den entsprechenden Freiheitsgraden nach der F-Tabellierung (vgl. Tabelle A2 im Anhang) F = 4,74. Da FR größer als der kritische F-Wert ist, wird H0 zurückgewiesen und die Erklärungsleistung des trivariaten Regressionsmodells als ein Resultat akzeptiert, das nicht zufallsbestimmt ist. Voraussetzung für diese Interpretation bleibt auch hier die Gültigkeit von A1 bis A5. Der F-Test bietet zusätzlich die Möglichkeit, zwei Regressionsmodelle hinsichtlich ihrer Erklärungsleistung miteinander zu vergleichen. Allerdings können nur Regressionsschätzungen verglichen werden, deren Daten aus der gleichen Population (Stichprobe) kommen, und die sich allein dadurch unterscheiden, dass eines der beiden Modelle mehr unabhängige X-Variablen berücksichtigt als das andere. Wir können den diesbezüglichen F-Test wiederum an unserem Beispiel aus Tabelle 2.4 verdeutlichen. Dort hatten wir zusätzlich zum trivariaten Modell ein bivariates Modell berechnet, das die Ausländerablehnung ausschließlich auf Veränderungen beim Autoritarismus zurückführt:
3.4 Testverfahren im multiplen Regressionsmodell
ˆ = 2,83 + 1,18 X1 Y
165
R2 = 0,55
Diese Modellschätzung kann mit der trivariaten Schätzung nach Gleichung (2.33) von Seite 88 verglichen werden. Der F-Test überprüft dabei den Zuwachs an Erklärungsleistung, der durch die Erweiterung von einer auf zwei unabhängige Variablen erzielt wird. Entsprechend wird der F-Wert berechnet: F
(R 2 YX1X2 ...Xn R 2 YX1X2 ...Xn 1 ) / FG1 (1 R 2 YX1X2 ...Xn ) / FG 2
(3.19)
Der Wert für FG1 ist dabei gleich der Differenz der zu schätzenden Koeffizienten beider Modelle. Und der Wert für FG2 ergibt sich aus „N – m“, wobei sich m auf die Anzahl der Koeffizienten des Modells mit der größeren Anzahl von XVariablen bezieht. Für unser Beispiel sieht Gleichung (3.19) wie folgt aus: F
(0,59 0,55) / 1 (0,41) / 7
0,04 0,06
0,67
Der kritische F-Wert (für = 0,05; FG1 = 1; FG2 = 7; einseitiger Test) beträgt 5,59 (vgl. Tab. A2 im Anhang) und ist damit größer als der F-Wert der Modelldifferenz. Deshalb ist der Unterschied zwischen der Erklärungsleistung des trivariaten und des bivariaten Regressionsmodells als nicht signifikant einzuschätzen. Dieses Ergebnis bestätigt den Ausgang des t-Tests für b2, bei dem der partielle Regressionskoeffizient keinen signifikanten Unterschied zu H0 (2 = 0) erreicht. Da sich beide hier im F-Test verglichenen Modelle nur hinsichtlich der Anwesenheit von X2 unterscheiden, zielen t- und F-Test in die gleiche Richtung und müssen dementsprechend gleiche Ergebnisse liefern. Mit dem F-Test ergibt sich also auch die Möglichkeit, über den Vergleich von zwei Modellen, die sich nur hinsichtlich einer einzigen unabhängigen Variablen unterscheiden, die statistische Signifikanz des Effekts eben dieser einen XVariablen zu überprüfen. Von diesem Spezialfall einmal abgesehen, lässt sich im F-Test der Zuwachs an Erklärungskraft eines jeden Modells (M1) gegenüber einem beliebigen Submo-
166
3 Regressionstheorie
dell (M2) auf statistische Signifikanz testen. Voraussetzung ist neben den Annahmen des allgemeinen Testmodells (A1 bis A5), dass die beiden Modelle M1 und M2 zwei Modelle der gleichen Population (bzw. Stichprobe) sind und die unabhängigen Variablen des kleineren Modells M2 eine Teilmenge derjenigen von M1 darstellen (vgl. hierzu auch die hierarchische Regression in Kapitel 5.4).
Z3.6: Mittels Signifikanztest können im multiplen Regressionsmodell - die partiellen Regressionskoeffizienten, - die Erklärungsleistung des Gesamtmodells sowie - der Erklärungsvorteil eines Modells gegenüber seinen Submodellen auf Unabhängigkeit von Zufälligkeiten (d.h. Signifikanz) überprüft werden. Dafür gelten auch die Erläuterungen von Z3.5 und die Voraussetzung nach Z3.4.
3.4.3 Ermittlung von Effektstärken, Teststärken und Stichprobenumfang Im multivariaten Modell entspricht die Teststärke von R2 nicht mehr derjenigen der Regressionskoeffizienten, so dass die Teststärke getrennt für das Bestimmtheitsmaß R2 des Gesamtmodells (1.) sowie für jeden einzelnen Regressionskoeffizienten bk (2.) ermittelt werden muss. (ad 1.) Die Teststärke für das R2 eines multiplen Gesamtmodells berechnet sich nach derselben Methode wie im bivariaten Modell. Denn hier wie dort wird der R2-Wert als Kennwert für den relativen Anteil der ausgeschöpften Varianz benutzt. Allerdings geht im multivariaten Fall die Varianzbindung eben nicht wie im bivariaten Modell auf den Effekt eines einzigen Prädiktors zurück, sondern wird von den Effekten mehrerer Prädiktoren bewerkstelligt. Analog zum bivariaten Anwendungsfall wird also auch im multivariaten Modell die Teststärke von R2 anhand eines F-Tests ermittelt. Einziger Unterschied ist, dass das „B“ aus Gleichung (3.16a) bzw. (3.16b) nun eine Gruppe von mindestens zwei unabhängigen Variablen bezeichnet. Die Teststärke kann, wie in Kapitel 3.3.3 beschrieben, den Tabellen A4 und A5 im Anhang entnommen werden, wenn , N, f2, v, u und bekannt sind. Aus diesem Grund verzichten wir an
3.4 Testverfahren im multiplen Regressionsmodell
167
dieser Stelle auf ein weiteres Beispiel und verdeutlichen nachfolgend die Teststärkebestimmung für einzelne partielle Regressionskoeffizienten. (ad 2.) Die Teststärke für einen partiellen Regressionskoeffizienten im multivariaten Modell wird über den Zuwachs an ausgeschöpfter Varianz von Y bei Hinzufügen des interessierenden Prädiktors in das entsprechende Regressionsmodell ermittelt. Der Index der Effektstärke beträgt dann f2
R 2 YAB R 2 YA 1 R 2 YAB
(3.20)
wobei R2YAB für die gesamte ausgeschöpfte Varianz des Regressionsmodells mit den Variablengruppen A und B steht, während R2YA die ausgeschöpfte Varianz des Regressionsmodells mit der kleineren Variablengruppe A bezeichnet (bevor die Variablen aus B dem Regressionsmodell hinzugefügt werden). Hinweise zur Interpretation der Effektstärke f2 wurden in Kapitel 3.3.3 gegeben. Der Nonzentralitätsparameter wird berechnet als:
R 2 YAB R 2 YA 1 R 2 YAB
u (u v 1)
(3.21)
Wie ersichtlich ist die Frage nach der Teststärke eines Regressionskoeffizienten vergleichbar mit der Frage, wie sich die Teststärke eines Modells verändert, wenn zusätzliche Varianz von Y durch die Hinzunahme eines Regressionskoeffizienten ausgeschöpft wird. Allerdings ist dies gemäß Gleichung (3.21) nur der Spezialfall davon, dass eine ganze Gruppe B zusätzlicher Prädiktoren in ein Modell aufgenommen wird. Im Falle eines einzigen interessierenden Regressionskoeffizienten besteht die Gruppe B eben nur aus genau dieser einen Variablen. Mit Hilfe des festzusetzenden Signifikanzniveaus, den Freiheitsgraden u und v (vgl. Kapitel 3.3.3) sowie dem Nonzentralitätsparameter aus Gleichung 3.19 kann dann, ganz wie im bivariaten Fall beschrieben, die Teststärke für den Regressionskoeffizienten aus der entsprechenden Tabellierung entnommen werden. Die Verwendung der Teststärketabelle im multivariaten Fall unterscheidet sich nicht vom bivariaten Fall (vgl. dazu Kapitel 3.3.3).
168
3 Regressionstheorie
Ebenfalls kann das in Kapitel 3.3.3 vorgestellte Verfahren zur Ermittlung von Mindest-Stichprobengrößen in exakt derselben Weise im bivariaten wie im multivariaten Anwendungsfall durchgeführt werden. Der einzige Unterschied besteht in der Größe von u (d.h. der Anzahl unabhängiger Variablen). Aus diesem Grund wird an dieser Stelle auf ein weiteres Beispiel zur Bestimmung einer sinnvollen Stichprobengröße verzichtet.
3.5
SPSS-Beispiel
Im Folgenden wollen wir die Daten unseres Beispiels zur sozialen Determination von Ausländerablehnung (Tabelle 2.3) einer Regressionsanalyse mit dem Statistik-Software-Paket „SPSS“ unterziehen. Die entsprechende SPSS-Prozedur heißt „Regression“. In der SPSS-Menüführung ist diese Prozedur unter dem Menüpunkt „Analysieren“ zu finden. Dort muss die Option „Regression“ sowie in einem weiteren Unterpunkt „Linear…“ ausgewählt werden. Ist die Prozedur „Regression“ aufgerufen, stehen dem Anwender eine Reihe weiterer Optionen zur Verfügung. Davon sollen an dieser Stelle nur diejenigen interessieren, die sich auf Themen beziehen, die im vorliegenden Studienskript behandelt werden. Weitere Analyse-Optionen der Regressionsanalyse mit SPSS werden im Verlauf des anschließenden Kapitels 4 vorgestellt. Im Auswahlfenster „Lineare Regression“ verbirgt sich hinter dem Bereich „Block 1 von 1“ die Möglichkeit, durch Anklicken von „Weiter“ mehrere Modelle zu spezifizieren, die jeweils im Vergleich zum vorherigen Modell (bzw. „Block“) zusätzliche unabhängige Variablen enthalten können. Damit ist es möglich, den Anstieg von R2 (und die Signifikanz dieses Anstiegs) beim Vergleich zweier (oder mehrerer) Modelle zu schätzen. So nehmen wir für unser Beispiel die Variable „Autoritarismus“ in Block 1 und die Variable „Magnitude Prestigeskala“ in Block 2 auf. Die abhängige Variable ist natürlich „Ausländerablehnung“. Unter der Schaltfläche „Statistiken…“ verbergen sich zahlreiche statistische Kennzahlen, die in der Ausgabe angezeigt werden können. Wir wählen für unser Beispiel die folgenden Optionen aus: „Schätzer“ (das sind die Regressionskoeffizienten), „Konfidenzintervalle“, „Anpassungsgüte des Modells“ (dies betrifft den Grad der Varianzausschöpfung und die Signifikanz des Gesamtmodells) sowie „Teil- und partielle Korrelationen“.
3.5 SPSS-Beispiel
169
Sind Kriteriumsvariable und alle unabhängigen Variablen zugeordnet (die unabhängigen jeweils zu Block 1 bzw. Block 2), und sind die Statistiken für die Ausgabe ausgewählt, kann der von SPSS automatisch erstellte Syntax-Befehl betrachtet werden, indem „Einfügen“ (unterhalb von „OK“) ausgewählt wird. Im Syntax-Fenster erscheint der Befehl: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS CI R ANOVA CHANGE ZPP /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Ausländerablehnung /METHOD=ENTER Autoritarismus /METHOD=ENTER Prestige.
Alternativ zur SPSS-Steuerung mittels Anklicken von Menü-Optionen kann dieser Befehl auch direkt eingegeben werden (unter dem Hauptmenüpunkt „Datei“ ist dazu zunächst „Neu“ und dann „Syntax“ auszuwählen). Die Nutzung der Syntax-Steuerung ist für die ernsthafte Forschung u.a. deswegen unerlässlich, weil damit alle Analyseschritte, die in einer statistischen Analyse mit SPSS vorgenommen werden, dokumentiert und deshalb auch repliziert werden können. Unser Analysebeispiel zur sozialen Determination von Ausländerablehnung (vgl. Kapitel 2.3.1) erbrachte folgende Regressionsschätzung (nach Gleichung 2.33): Ausländerablehnunggeschätzt = 9,91 + 1,08 (Autoritarismus) – 0,07 (Prestige) Dazu werden mit SPSS nach Aufruf des Regressionsbefehls umfangreiche weitere Informationen ausgegeben. Im Folgenden werden die Inhalte dieser Ausgabe aufgelistet und inhaltlich kommentiert.
170
3 Regressionstheorie
Tabelle 3.2: SPSS-Ausgabe „Modellzusammenfassung“ Modellzusammenfassung
Änderungsstatistiken
Modell 1 2
R R-Quadrat ,739a ,546 ,769b ,592
Korrigiertes R-Quadrat ,490 ,475
Standardfehler des Schätzers 5,476 5,553
Änderung in R-Quadrat ,546 ,046
Änderung in F 9,635 ,781
df1 1 1
df2 8 7
Änderung in Signifikanz von F ,015 ,406
a. Einflußvariablen : (Konstante), Autoritarismus b. Einflußvariablen : (Konstante), Autoritarismus, Magnitude Prestigeskala
Die Tabelle 3.2 zeigt folgende statistische Kennzahlen zum Gesamtmodell: Modell:
Die komplette Ausgabe wird getrennt ausgegeben: Modell 1 (bivariat: nur „Autoritarismus“ als Einflussgröße), Modell 2 (trivariat: „Autoritarismus“ und zusätzlich „Prestige“ als Einflussgrößen) (weitere Informationen dazu lassen sich in Kapitel 2.3.1 finden).
R:
Das „R“ ist die multiple Korrelation des jeweiligen Gesamtmodells (weitere Informationen dazu in Kapitel 2.3.2).
R-Quadrat:
Der Determinationskoeffizient (bzw. das Bestimmtheitsmaß) berichtet den relativen Anteil ausgeschöpfter Varianz der jeweiligen Modellschätzung (weitere Informationen dazu in Kapitel 2.2.3 und 2.3.4).
Korrigiertes R-Quadrat:
Eine Variante von R2 ist das „korrigierte R2“. Es ist ein „unverzerrtes“ R2-Maß, bei dem R2 um die Anzahl der Freiheitsgrade bzw. um den jeweiligen Stichprobenumfang und die Anzahl der im Modell berücksichtigten X-Variablen korrigiert wird. R2korrigiert = R 2 mit
K 1 (1 R 2 ) NK
N = Anzahl der Fälle; K = Anzahl der unabhängigen Variablen
3.5 SPSS-Beispiel
171
Standardfehler des Schätzers
Der Standardschätzfehler (SEE) des gesamten Regressionsmodells gibt Auskunft über die Abweichungen der beobachteten von den geschätzten Y-Werten. Je kleiner dieser Standardfehler ist, desto besser ist die Anpassungsgüte des geschätzten Regressionsmodells (weitere Informationen dazu in Kapitel 3.3.1).
Änderung in R-Quadrat:
Dies ist die Differenz der relativen Anteile ausgeschöpfter Varianz beim Vergleich zweier Modelle. Hier werden Modell 1 mit Modell 0 (ein Modell ohne X-Variablen) sowie Modell 2 mit Modell 1 verglichen (weitere Informationen dazu in Kapitel 2.3.2).
Änderung in F:
Die Prüfgröße F zur Bestimmung der Signifikanz der R2Differenzen zwischen zwei Modellen (weitere Informationen dazu in Kapitel 3.3.2 und 3.4.2).
df1; df2:
Der Freiheitsgrad FG1 (df1) ist die Differenz zwischen der Anzahl der zu schätzenden Koeffizienten in Modell 1 und der entsprechenden Anzahl in Modell 2. Der Freiheitsgrad FG2 (df2) ist die Differenz zwischen der Fallzahl und der Anzahl der Koeffizienten des Modells mit der größeren Anzahl von XVariablen (weitere Informationen dazu in Kapitel 3.3.2 und 3.4.2).
Änderung in Signifikanz von F:
Dies betrifft die mittels der Prüfgröße F (s.o.) empirisch ermittelte Irrtumswahrscheinlichkeit für den Anstieg von R2 beim Vergleich von Modell 1 mit einem Modell ohne Einflussvariablen (Modell 0). Die Irrtumswahrscheinlichkeit beträgt p = 0,015 und indiziert damit einen signifikanten Anstieg von R2 bei Verwendung eines Signifikanzniveaus von 5%. Beim Vergleich von Modell 1 mit Modell 2 beträgt die entsprechende Irrtumswahrscheinlichkeit p = 0,406 und indiziert damit keinen signifikanten Anstieg von R2 bei Verwendung eines Signifikanzniveaus von 5% (weitere Informationen dazu in Kapitel 3.2.2, 3.3.2 und 3.4.2).
172
3 Regressionstheorie
Tabelle 3.3: Varianzanalyse „ANOVA“ ANOVAc Modell 1
2
Regression Residuen Gesamt Regression Residuen Gesamt
Quadrats umme 288,969 239,931 528,900 313,044 215,856 528,900
df 1 8 9 2 7 9
Mittel der Quadrate 288,969 29,991 156,522 30,837
F 9,635
Signifikanz ,015a
5,076
,043b
a. Einflußvariablen : (Konstante), Autoritarismus b. Einflußvariablen : (Konstante), Autoritarismus, Magnitude Prestigeskala c. Abhängige Variable: Ausländerablehnung
In der ANOVA-Ausgabe („Analysis of Variance“) werden nochmals Informationen zum Gesamtmodell ausgegeben (vgl. Tabelle 3.3): Modell:
Die Ausgabe erfolgt in unserem Beispiel wieder getrennt für Modell 1 und Modell 2 (s.o.).
Quadratsumme:
Ausgegeben wird unter „Regression“ die Summe der Abweichungsquadrate (SAQ) für die ausgeschöpften Varianzanteile (SAQR), unter „Residuen“ die unausgeschöpften Varianzanteile (SAQF) sowie unter „Gesamt“ die beobachtete Gesamtvarianz des Regressionsmodells (SAQB). Dabei gilt nach Gleichung (2.15a): SAQB = SAQR + SAQF Der Quotient aus SAQR und SAQB ergibt die in Tabelle 3.2 berichteten Bestimmtheitsmaße (R2-Werte): Modell 1: R2 = 288,969 / 528,9 = 0,546 Modell 2: R2 = 313,044 / 528,9 = 0,592 (mehr dazu in Kapitel 2.2.2 und 2.3.2).
df:
Mit den Angaben zu den Freiheitsgraden der beiden Regressionsmodelle („Regression“) und deren Fehler- bzw. Störgrößen („Residuen“) lässt sich für ein bestimmtes Signifikanzniveau in einer Tabelle der F-Verteilung ein kritischer F-Wert suchen. Für eine Regressionsanalyse mit SPSS ist dies nicht notwendig, da dort selbstständig die Signifikanz des F-Tests ermittelt wird (vgl. Spalte „Signifikanz“) (weitere Informationen dazu in Kapitel 3.3.2 und 3.4.2).
3.5 SPSS-Beispiel
173
Mittel der Quadrate:
Das „Mittel der Quadrate“ ergibt sich aus der jeweiligen Quadratsumme (s.o.) dividiert durch die Freiheitsgrade, also: Modell 1: 288,969 = 288,969 / 1 29,991 = 239,931 / 8 Modell 2: 156,522 = 313,044 / 2 30,837 = 215,856 / 7 Dividiert man pro Modell die beiden Werte für die Mittel der Quadrate, so ergibt sich der jeweilige F-Wert (vgl. auch Kapitel 3.3.2 und 3.4.2): Modell 1: 288,969 / 29,991 = 9,635 Modell 2: 156,522 / 30,837 = 5,076
F:
Dies ist wieder die Prüfgröße für den F-Test (H0: 1 = 2 = 0). Diese wird nach Gleichung (3.13) berechnet oder durch Division der beiden „Mittel der Quadrate“ ermittelt (s.o.) (weitere Informationen dazu in Kapitel 3.3.2 und 3.4.2).
Signifikanz:
Die hier ausgegebene empirische Irrtumswahrscheinlichkeit sollte kleiner oder gleich 0,05 sein, um bei einem Signifikanzniveau von 5% von einer „signifikanten“ Varianzausschöpfung des Gesamtmodells sprechen zu können (weitere Informationen dazu in Kapitel 3.2.2).
Tabelle 3.4: Geschätzte Regressionskoeffizienten Koeffizientena Nicht standardisierte Koeffizienten
Mo dell 1 2
(Konstante) Autoritarismus (Konstante) Autoritarismus Magnitude Prestigeskala
B 2,831 1,178 9,913 1,076 -,065
Stand ardfeh ler 3,964 ,379 8,967 ,401 ,074
Standar disierte Koeffizi enten
Beta ,739 ,675 -,223
95%Konfidenzinterva ll für B
T ,714 3,104 1,106 2,681 -,884
Signifi kanz ,495 ,015 ,305 ,032 ,406
Untergrenze -6,310 ,303 -11,29 ,127 -,240
Obergrenze 11,973 2,052 31,116 2,025 ,110
Korrelationen Nullt er Ordn Parti ell ung Teil ,739
,739
,739
,739 -,416
,712 -,317
,647 -,21
a. Abhängige Variable: Ausländerablehnung
In Tabelle 3.4 werden Informationen über die einzelnen im Modell geschätzten Regressionskoeffizienten ausgegeben:
174
3 Regressionstheorie
Modell:
Es erfolgt eine getrennte Ausgabe für Modell 1 und Modell 2.
B:
Die B-Werte für Modell 1 und Modell 2 sind: in der Zeile „Konstante“ die jeweiligen Koeffizientenschätzungen für die aGröße bzw. den Intercept-Wert (der Y-Achsenabschnitt zur Bestimmung der Lage der Regressionsgeraden) und in der Zeile „Name der X-Variablen“ die Schätzwerte für die unstandardisierten Regressionskoeffizienten b1 (Autoritarismus) und b2 (Magnitude Prestigeskala). In unserem Beispiel bedeuten diese Schätzwerte für Modell 2: die durchschnittliche Ausländerablehnung beträgt (auf einer Skala von 4 bis 28 gemessen) 9,913, wenn für Autoritarismus und Prestige empirische Werte von „0,00“ angenommen werden. Steigt der Autoritarismuswert (auf einer Skala von 3 bis 21) um eine empirische Einheit, so vergrößert sich die zu erwartende Ausländerablehnung um 1,076 Skalenpunkte. Und steigt der Prestigewert um einen Punkt, so sinkt die zu erwartende Ausländerablehnung um 0,065 Skalenpunkte (weitere Informationen dazu in Kapitel 2.2.1 und 2.3.1).
Standardfehler:
Standardfehler von B (berechnet nach Gleichung 3.7) ist ein Schätzwert für die Varianz von B. Mit seiner Hilfe lässt sich der t-Wert zur Signifikanzprüfung ermitteln (siehe unten zu „T“) (weitere Informationen dazu in Kapitel 3.3.1 und 3.4.1). Hohe Standardfehler können Nicht-Signifikanzen erzeugen, auch wenn b* groß ist (vgl. S. 107f).
Beta:
In SPSS werden die partiellen, standardisierten Regressionskoeffizienten (b*k) auch „Beta“-Koeffizienten genannt, wobei diese „Beta“-Koeffizienten nicht mit den Parametern k der Grundgesamtheit verwechselt werden dürfen. Die im jeweiligen Modell geschätzten standardisierten Regressionskoeffizienten können als Indikatoren der Effektstärke von X1 (Autoritarismus) und X2 (Magnitude Prestigeskala) interpretiert werden (weitere Informationen dazu in Kapitel 2.3.1 und 2.3.3).
T:
Prüfgröße „t“ für den t-Signifikanztest. Nach Gleichung (3.12) lassen sich mit Hilfe des Standardfehlers die t-Werte zur Überprüfung der Signifikanz der Regressionskoeffizienten berechnen (t = B / Standardfehler). Zur Beurteilung der Signifikanz der geschätzten Koeffizienten können diese t-Werte mit dem
3.5 SPSS-Beispiel
175
kritischen t-Wert (aus Tabelle A1 im Anhang zu entnehmen) verglichen werden. Bei einem Signifikanzniveau von 5% beträgt dieser kritische Wert ab ca. 120 Freiheitsgraden für einen zweiseitigen Test ±1,96 (weitere Informationen dazu in Kapitel 3.3.1 und 3.4.1). Signifikanz:
Benennt die kleinstmögliche Irrtumswahrscheinlichkeit für die Zurückweisung von H0, nach der die Schätzwerte für b1 und b2 nur zufällig entstanden sind und die wahren Parameter in der Population jeweils einen Wert von 0,00 aufweisen. Für b1 beträgt die kleinstmögliche Irrtumswahrscheinlichkeit ca. 3% (p = 0,032) und für b2 ca. 41% (p = 0,406). Wie wir gesehen haben, ist eine Irrtumswahrscheinlichkeit von 41% nicht akzeptabel (weitere Informationen dazu in Kapitel 3.2.2).
95%-Konfidenzintervall für B:
Mutungsbereich bzw. Konfidenzintervall des Verteilungsmodells für jeden der unstandardisierten Regressionskoeffizienten. In Modell 1 liegt b1 (= 1,178) mit 95%iger Wahrscheinlichkeit zwischen 0,303 („Untergrenze“) und 2,052 („Obergrenze“). Da dieses Intervall den Wert „ = 0“ nicht enthält, kann H0 verworfen werden und b1 als signifikant bezeichnet werden (mit einer Irrtumswahrscheinlichkeit von 5%). In Modell 2 liegt b1 mit 95%iger Wahrscheinlichkeit zwischen 0,127 und 2,025 (und ist damit weiterhin als signifikant zu bezeichnen), während b2 mit einem Konfidenzintervall von –0,240 bis 0,110 den Wert von „ = 0“ einschließt. Damit kann die H0 bei b2 nicht verworfen werden und somit muss auch der Schätzwert als nichtsignifikant gelten (weitere Informationen dazu in Kapitel 3.2.2).
Korrelation „Nullter Ordnung“
In der Ausgabe werden drei Korrelationstypen unterschieden. Die Korrelation „nullter Ordnung“ entspricht den bivariaten, unkontrollierten Korrelationen nach Pearson zwischen dem jeweiligen Prädiktor und der abhängigen Y-Variablen (vgl. Gleichung 2.20) (weitere Informationen dazu in Kapitel 2.2.4).
Korrelation „Partiell“
Als „Partiell“ wird der kontrollierte, partielle Korrelationskoeffizient bezeichnet. Dieser ist zur Korrelation nullter Ordnung nur dann verschieden, wenn das Modell mindestens zwei unabhängige Variablen enthält (vgl. Modell 2 in Tabelle 3.4). Quadriert man die partielle Korrelation, so erhält man denjenigen
176
3 Regressionstheorie Varianzanteil von Y, der allein durch den linearen Effekt der entsprechenden unabhängigen Variablen ausgeschöpft wird. Am leichtesten lässt sich die partielle Korrelation über die Veränderung in R2 bei Hinzunahme der entsprechenden unabhängigen Variablen in die Regressionsschätzung berechnen. Die quadrierte partielle Korrelation zwischen Y und X2 (hier: „B“) bei Auspartialisierung von X1 (hier: „A“) berechnet sich nach: r 2 YB.A
R 2 YAB R 2 YA 1 R 2 YA
0,592 0,546 1 0,546
0,101
Zieht man aus 0,101 die Quadratwurzel, so entspricht das Ergebnis dem in der Ausgabe berichteten partiellen Korrelationskoeffizienten des Prädiktors „Prestige“ von 0,317 (das Vorzeichen wird durch den Regressionskoeffizienten vorgegeben). Zur Ermittlung der partiellen Korrelation für „Autoritarismus“ müssten nach dieser Methode zuerst die Variable „Prestige“ (Modell 1) und im zweiten Schritt die Variable „Autoritarismus“ in das Regressionsmodell einbezogen werden (Modell 2). Korrelation „Teil“
In dieser Spalte wird die so genannte „semipartielle Korrelation“ (oder „Teilkorrelation“) ausgegeben. Im Unterschied zur partiellen Korrelation, bei der eine dritte Variable X2 sowohl aus X1 als auch aus Y auspartialisiert wurde, wird bei der semipartiellen Korrelation der Zusammenhang nur aus einer Variablen (hier: aus X1) herausgerechnet bzw. auspartialisiert. Es kann u.U. sinnvoller sein, anstatt der partiellen die semipartiellen Korrelationen zu betrachten, wenn Korrelationen zwischen den unabhängigen X-Variablen angenommen werden. Die semipartielle Korrelation kann leicht anhand der Änderungen der R2Werte bei Hinzunahme einer neuen Variablen ermittelt werden: r 2 Y(B.A)
R 2 YAB R 2 YA
0,592 0,546
0,046
Nach dem Ziehen der Quadratwurzel aus 0,046 erhält man den semipartiellen Korrelationskoeffizienten von 0,21 bzw. –0,21 (das negative Vorzeichen wird vom Regressionskoeffizienten übernommen).
4
Entdeckung und Beseitigung von Modellverstößen
Die statistische Schätzung eines Regressionsmodells basiert auf einer Vielzahl von Annahmen. Dazu gehören die regressionstheoretischen Annahmen A1 bis A5 (vgl. Z3.1 und Z3.4) und dazu gehören modellbezogene Annahmen, wie z.B. die Linearitätsannahme (vgl. Z2.4). Im Folgenden sollen diese und weitere Modellannahmen der Regressionsanalyse ausführlicher erörtert werden. Dabei werden wir auch verschiedene Möglichkeiten zur Entdeckung und Beseitigung von Modellverstößen vorstellen. Ein wichtiges Hilfsmittel zur Überprüfung der Gültigkeit zentraler Annahmen der Regressionsschätzung ist die Residuenanalyse. Als Residuen werden, wie erinnerlich, die Abstände zwischen den empirischen und den geschätzten Y-Werten einer Regressionsanalyse bezeichnet:
ˆ Ui Yi Y i Residuenanalysen können mit den oben definierten „Roh“-Residuen (Ui), aber auch mit einer Vielzahl von transformierten Residuenvariablen durchgeführt werden. Folgende Residuenvariablen können in den meisten Residuenanalysen sinnvoll eingesetzt werden: 1.) untransformierte „Roh“-Residuen (s.o.): Ui 2.) standardisierte Residuen: Ui` 3.) studentisierte, ausgeschlossene Residuen: U*i 4.) partielle Residuen: Uij ad 1.) Die Residuumsvariable „Ui“ ergibt sich als Differenz zwischen den Werten von beobachteter und geschätzter Y-Variablen. Sie wird sehr häufig zur Residuenanalyse eingesetzt, hat aber entscheidende Mängel. So indiziert ein ResiduenStreudiagramm mit Ui oftmals Verstöße gegen Modellannahmen der Regressionsanalyse, auch wenn in Wirklichkeit diese Modellannahmen eingehalten werden
178
4 Entdeckung und Beseitigung von Modellverstößen
(vgl. Fox 1997: 302). Deshalb sollte eine Residuenanalyse mit Ui immer durch eine Analyse mit einer anderen Residuenvariablen ergänzt werden. Die Residuumsvariable Ui kann in einer Regressionsanalyse mit SPSS unter der Bezeichnung „RESID“ angefordert werden (s.u.). ad 2.) Die Residuumsvariable „Ui`“ ist die z-transformierte, standardisierte Form von Ui (zur Standardisierung von Variablen vgl. Ergänzung 2.3). Durch die Standardisierung erhält sie einen Mittelwert von „0,00“ und eine Standardabweichung von „1,00“. Dadurch sind in einer graphischen Residuenanalyse mit Ui` die evtl. vorhandenen Besonderheiten der Residuenstreuung leichter zu erkennen als in einer Residuenanalyse mit Ui. Die Residuumsvariable Ui` kann in einer Regressionsanalyse mit SPSS unter der Bezeichnung „ZRESID“ angefordert werden (s.u.). ad 3.) Die Residuumsvariable „U*i “ ist eine standardisierte Residuumsvariable, bei der als Standardisierungsverfahren eine „Studentisierung“ unter Ausschluss des jeweiligen Beobachtungsfalls durchgeführt wird. Bei dieser Standardisierung wird zwar auch jeder Residualwert durch seine geschätzte Standardabweichung dividiert (wie bei Ui`), jedoch wird die Standardabweichung noch vor Division mit einem Maß für die Distanz zwischen dem X-Wert des jeweiligen Falles und dem X-Mittelwert über alle Fälle multipliziert und dadurch gewichtet. Zudem wird zur Schätˆ der Fall, für den das Residuum studentisiert wird, aus der Regreszung von Y i sionsanalyse ausgeschlossen, wodurch sich besonders günstige Bedingungen für einen t-Test mit dieser Variablen ergeben (vgl. Fox 1997: 272). Der Algorithmus zur Berechnung von U*i wird in Kapitel 4.1.1 vorgestellt. In der praktischen Residuenanalyse erbringt U*i oftmals gut interpretierbare Ergebnisse. Deshalb kann U*i auch anstelle von Ui` (oder zusätzlich zu Ui` bzw. bei multiplen Modellen zusätzlich zu Uij) eingesetzt werden. Die Residuumsvariable U*i kann in einer Regressionsanalyse mit SPSS unter der Bezeichnung „SDRESID“ angefordert werden (s.u.). ad 4.) Die Residuumsvariable „Uij“ ist die partielle Form der Residuumsvariablen „Ui“. Sie ist ein Schätzwert für den Teil des Residualwerts, der bei einer multivariaten Regression als Ergebnis des geschätzten Effekts „bjXj“ entsteht. Die partielle Residuumsvariable wird berechnet nach der Gleichung: Uij = Ui + bjXji. Sie ergibt sich also als Summe aus normalem Residualwert und linearer Komponente der partiellen Regression von Y auf Xj. Dementsprechend erhält man mit einer multivariaten Regressionsanalyse so viele partielle Residuumsvariablen, wie das Modell exogene X-Variablen aufweist. Die partiellen Residuumsvariablen sollten immer
4 Entdeckung und Beseitigung von Modellverstößen
179
ergänzend zu U*i (bzw. Ui`) eingesetzt werden, wenn die Ergebnisse einer multiplen Regressionsschätzung einer Residuenanalyse unterzogen werden. Die Residuumsvariable Uij kann in einer Regressionsanalyse mit SPSS nicht direkt angefordert werden und muss deshalb mit einer entsprechenden SPSS-Anweisung separat errechnet werden (s.u.). In SPSS lassen sich die verschiedenen Residuumsvarianten auf folgende Weise erstellen: Im Menü zur Anforderung einer linearen Regression wählt man das Untermenü „Speichern“ und aktiviert dort je nach Wunsch die Schaltflächen - „Residuen nicht standardisiert“ für die „Roh“-Residuen Ui, - „Residuen standardisiert“ für die standardisierten Residuen Ui`, oder - „Studentisiert, ausgeschl.“ für die studentisierten, ausgeschlossenen Residuen U*i. Falls die SPSS-Syntax-Steuerung benutzt wird, ist der Regressionsbefehl jeweils um folgende Zeile zu ergänzen: - für die „Roh“-Residuen (Ui): /SAVE RESID - für die standardisierten Residuen (Ui`): /SAVE ZRESID - für die studentisierten, ausgeschlossenen Residuen (U*i): /SAVE SDRESID Natürlich können auch alle drei Residuenvariablen auf einmal erstellt werden mit der Ergänzung: /SAVE RESID ZRESID SDRESID Ist dies geschehen, befinden sich nach Ausführung des Regressionsbefehls die gewünschten Residuen im Datensatz mit folgenden Variablennamen: „RES_1“ (= Ui), „ZRE_1“ (= Ui`), „SDR_1“ (= U*i). Zur Erstellung der partiellen Residuen (Uij) sind in SPSS mehrere Schritte notwendig. Als Erstes muss der Regressionsbefehl ausgeführt werden, wobei die „Roh“-Residuen (Ui) wie oben beschrieben abgespeichert werden müssen. Die dabei ermittelten unstandardisierten Regressionskoeffizienten (pro XVariable ein b-Wert) sowie die erstellte „rohe“ Residuenvariable (Ui) können dann zur Generierung der partiellen Residuenvariablen (hier „PARTRES_k“) entsprechend der oben erläuterten Formel erstellt werden. Dabei muss für jede X-Variable, für die eine partielle Residualvariable erzeugt werden soll, folgender Befehl ausgeführt werden: COMPUTE PARTRES_k = RES_1 + Regressionskoeffizient * X-Variable. Der Koeffizient „k“ steht dabei stellvertretend für die Nummer der jeweiligen X-Variablen (z.B. bezeichnet „PARTRES _1“ die partiellen Residuenwerte für X1). Die Variable „Regressionskoeffizient“ ist ein Platzhalter für den jeweiligen Wert des unstandardisierten Regressionskoeffizienten der entsprechenden X-Variablen. Er wurde im ersten Schritt ermittelt. Und „X-Variable“ versteht sich als Platzhalter für den jeweiligen Variablennamen der entsprechenden X-Variablen.
In der Residuenanalyse wird im Anschluss an die Regressionsschätzung die empirische Verteilung der Residuen in verschiedenen Streudiagrammen untersucht. In diesem Streudiagramm sollten die standardisierten Residuen links und rechts ihres Mittelwertes ohne erkennbare Regelmäßigkeit platziert sein und dabei zumindest innerhalb der Grenzen ihrer doppelten Standardabweichung (±2,00) liegen. Je nach Fragestellung und Anzahl unabhängiger Variablen werden in der Analyse unterschiedliche Residuen-Streudiagramme ausgewertet:
180
4 Entdeckung und Beseitigung von Modellverstößen
a) Im bivariaten Regressionsmodell sollte ein Streudiagramm zwischen der jeweiligen X-Variablen und den standardisierten (Ui`) bzw. studentisierten (U*i) Residuen analysiert werden (vgl. die folgende Abbildung 4.1). b) Im multivariaten Regressionsmodell sollten zwei Arten von Streudiagrammen untersucht werden: ˆ und U*i (bzw. Ui`). Die b1) ein Streudiagramm zwischen standardisiertem Y i ˆ Verwendung von Yi dient hierbei als eine Art „Notlösung“, weil in multivariaten Regressionsanalysen eigentlich die Residuenverteilungen für jede Kombination von Werten aller X-Variablen verglichen werden müssten. Da dies aber in der Forschungspraxis kaum durchführbar sein dürfte (weil es dort stets zu viele Kombinationen und zu wenige Residuenfälle pro Kombination gibt), wird stattdessen ein Streudiagramm zwischen U und ˆ untersucht. Dieses kann über eine SPSS-Prozedur abgerufen werden Y (s.u.).
b2) je ein Streudiagramm zwischen Xi und Uij (für jede unabhängige XVariable im Modell). Damit können Verstöße gegen Modellannahmen bei einzelnen Prädiktoren identifiziert werden. Die entsprechenden Streudiagramme werden auch „partielle Residuen-Streudiagramme“ bzw. „partial residual plots“ genannt. Alternativ dazu können auch sog. „partielle Regressions-Streudiagramme“ betrachtet werden, die inhaltlich sehr ähnlich sind (s.u.). c) Zusätzlich sollte insbesondere bei Zeitreihenanalysen ein Streudiagramm aller Residuen angefordert werden, in dem die Residuen in der Zeitabfolge der Beobachtungen angeordnet sind. Mit Hilfe eines solchen Streudiagramms kann überprüft werden, ob eine Autokorrelation zwischen den Residualwerten vorliegt oder nicht (vgl. Kapitel 4.7). In SPSS werden die oben genannten Streudiagramme durch folgende Eingaben erstellt: ad a) Ein Streudiagramm zwischen U*i (bzw. Ui`) und Xk wird über den Menüpunkt „Grafiken“ (Unterpunkte „Streudiagramm“ und dann „einfach“) angefordert. Dabei werden die X-Werte auf der X-Achse und die standardisierten Residuen (die zuvor als neue Variable abgespeichert wurden, s.o.) auf der YAchse abgetragen (vgl. Abbildung 4.1). Im entsprechenden Syntax-Befehl (s.u.) ist „ZRE_1“ gleich Ui` und „alter“ gleich X. Bei der Analyse von U*i anstatt Ui` muss „ZRE_1“ durch „SDR_1“ ersetzt werden. GRAPH / SCATTERPLOT(BIVAR)= alter WITH ZRE_1 / MISSING=LISTWISE.
4 Entdeckung und Beseitigung von Modellverstößen
181
ad b1) Ein Streudiagramm zwischen Yˆi und U*i (bzw. Ui`) kann ausgegeben werden, indem man im Untermenü „Diagramme“ der Regressionsanalyse die Variablenbezeichnung „*ZRESID“ (für Ui`) bzw. „*SDRESID“ (für U*i) in die Y-Achse und die Variablenbezeichnung „*ZPRED“ in die X-Achse einträgt („PRED“ steht dabei für „predicted values“, also „vorhergesagte Werte“). Zur Implementation in den SPSS-Syntax-Befehl reicht die Erweiterung der Regressionsanweisung um die Zeile: /SCATTERPLOT=(*ZRESID ,*ZPRED) bzw. /SCATTERPLOT=(*SDRESID ,*ZPRED) ad b2) Die partiellen Residuen-Streudiagramme können analog zum Streudiagramm (a) erstellt werden, mit dem Unterschied, dass nun anstatt der standardisierten Residuen die zuvor erstellten partiellen Residuen (s.o.) verwendet werden. Für jede X-Variable wird dabei ein eigenes Streudiagramm erstellt, jeweils mit der zugehörigen partiellen Residuenvariablen. Alternativ zu dieser Vorgehensweise können mit dem SPSS-Regressionsbefehl auch so genannte „partielle Regressions-Streudiagramme“ in direkter Weise abgerufen werden, die dort etwas missverständlich als „partielle Diagramme“ bezeichnet werden. Diese Streudiagramme werden in der Literatur auch „partial regression plots“ oder „added variable plots“ oder „adjusted variable plots“ oder „individual coefficient plots“ genannt. Der direkte Abruf dieser Streudiagramme beansprucht insbesondere bei einer großen Anzahl von X-Variablen deutlich weniger Zeit als die separate Erstellung der einzelnen partiellen Residuen-Streudiagramme. Zum direkten Abruf muss im Untermenü „Diagramme“ der linearen Regressionsanalyse die Schaltfläche „Alle partiellen Diagramme erzeugen“ aktiviert werden. Alternativ dazu kann auch der Syntax-Regressionsbefehl erweitert werden um die Zeile „/PARTIALPLOT ALL“. Die partiellen Regressions-Streudiagramme liefern ähnliche Informationen wie die oben beschriebenen partiellen Residuen-Streudiagramme. Dabei werden auf der Y-Achse die unstandardisierten Residuen einer Regression von Y auf alle X-Variablen außer der interessierenden Xk abgetragen. Und auf der XAchse werden die unstandardisierten Residuen einer Regression von genau dieser Xk-Variablen auf alle anderen X-Variablen verortet. Damit werden sowohl die Residuen der Y- als auch der Xk-Variablen unabhängig vom Einfluss aller anderen X-Variablen dargestellt. Bei hoher Multikollinearität (vgl. Kapitel 4.5) zwischen den X-Variablen hat dies den Vorteil, dass die „partiellen RegressionsStreudiagramme“ im Unterschied zu den oben beschriebenen „partiellen Residuen-Streudiagrammen“ nicht durch Multikollinearitätseffekte beeinflusst werden. ad c) Zur Überprüfung von Autokorrelation wird ein Streudiagramm benötigt, bei dem standardisierte (Ui`) bzw. studentisierte, ausgeschlossene (U*i) Residuen auf der Y-Achse und die Beobachtungsfälle in ihrer Zeitabfolge (oder einer anderen sinnvollen Reihenfolge) auf der X-Achse abgetragen werden. Voraussetzung dafür ist, dass die Beobachtungsfälle im SPSS-Datensatz auch in ihrer entsprechenden Reihenfolge angeordnet sind. Ein solches Streudiagramm ist aufzurufen über den Menüpunkt „Grafiken“ (Unterpunkt „Sequenz...“) und die Auswahl der zuvor erstellten Variablen „ZRE_1“ (für Ui`) bzw. „SDR_1“ (für U*i). Der SPSS-Syntax-Befehl lautet hierfür: TSPLOT VARIABLES= zre_1. bzw. TSPLOT VARIABLES= sdr_1.
4 Entdeckung und Beseitigung von Modellverstößen
182
In folgender Abbildung 4.1 (in der sich die Residuen nicht in der erwünschten, unsystematischen Weise verteilen) wird beispielhaft das Residuen-Streudiagramm zwischen den Residuen Ui` und den Beobachtungen Xi aus unserem bivariaten Beispiel aus Tabelle 2.2 gezeigt, das im Anschluss an die entsprechende Regressionsschätzung erstellt wurde. Abbildung 4.1: SPSS-Streudiagramm der Residuen einer Regressionsschätzung (Beispiel aus Tabelle 2.2)
Standardisierte Residuen
2,00
1,00
0,00
-1,00
-2,00 10
20
30
40 50 X: Alter
60
70
80
Als Folge einer Residuenanalyse, bei der ein Verstoß gegen bestimmte Modellannahmen festgestellt wurde, kann eine Datentransformation oder Neuspezifikation des Regressionsmodells notwendig werden, um die Gültigkeit der Modellannahmen wieder herzustellen. Zum Beispiel können in einer Residuenanalyse so genannte „Ausreißerwerte“ identifiziert werden, welche u.U. die Ergebnisse einer Regressionsschätzung erheblich verzerren und die deshalb durch Ausschluss aus dem zu untersuchenden Datensatz unschädlich gemacht werden müssen (dazu mehr im nächsten Unterkapitel). Aber auch die Linearitätsannahme, um nur ein weiteres Beispiel zu nennen, kann mittels Residuenanalyse überprüft werden. Sollten dabei Verstöße gegen diese Annahme identifiziert werden, können diese eventuell durch Datentransformation oder Neuspezifikation des Modells beseitigt werden (vgl. dazu Unterkapitel 4.3).
4 Entdeckung und Beseitigung von Modellverstößen
183
Zu beachten ist, dass in beiden genannten Fällen (und wir werden im Laufe von Kapitel 4 noch weitere Beispiele kennen lernen) zur Beseitigung von Modellverstößen eine Anpassung des zu schätzenden Modells an die Datenbasis vorgenommen wird. Dadurch kann ein Regressionsmodell, das evtl. allein aufgrund theoretischer Annahmen spezifiziert wurde, auf induktivem bzw. modelltechnischem Wege in einem erheblichen Ausmaß modifiziert werden. Folglich besteht die Gefahr, dass sich eine Regressionsanalyse von ihrer eigentlichen Absicht (einen theoretisch begründeten Zusammenhang zu überprüfen) allzu weit entfernt. Dieser Gefahr sollte sich jeder Anwender bewusst sein, wenn er eine Regressionsschätzung qua Residuenanalyse evaluiert. Denn häufig wird eine Residuenanalyse zeigen, dass eine bestimmte Modellspezifikation und die zur Verfügung stehenden Daten unter regressionstheoretischen Gesichtspunkten nicht zusammenpassen. Und dann kann vielleicht durch Modellveränderung bzw. durch Datentransformation eine stabile und akzeptable Regressionsschätzung erreicht werden. Allerdings macht sich der Regressionspraktiker damit abhängig von den modelltechnischen Implikationen der Regressionsanalyse. Denn allein aus diesen heraus ergeben sich ja die Annahmen und Voraussetzungen, die in einer Residuenanalyse zu überprüfen sind. Wenn also ein Anwender aus guten Gründen an seinem theoretisch oder analytisch spezifizierten Modell und seiner Datenbasis festhalten will, so sollte er in diesem Falle eher auf eine Regressionsanalyse verzichten, als in nicht zu rechtfertigender Weise sein Modell und seine Daten zu verändern. Was sollte aber ein Sozialwissenschaftler machen, wenn er sich seines Theoriemodells und seiner Datenbasis nicht derartig sicher ist? Dann könnte er sich auf einen interaktiven Prozess zwischen modellanalytischem und modellstatistischem Vorgehen einlassen, worin u.U. die statistischen Ergebnisse zu neuen theoretischen oder analytischen Überlegungen führen, die dann wiederum statistisch zu überprüfen wären. Für einen derartigen interaktiven Arbeitsprozess gibt es das sog. „jack knifing“. Dieses ermöglicht ein exploratives Vorgehen, in dem eine systematische Überprüfung des induktiv gewonnenen bzw. modifizierten Theoriemodells durchzuführen ist. Beim „jack knifing“ wird die Menge aller Beobachtungsfälle in rein zufälliger Auswahl zweigeteilt. Die eine Datenhälfte dient dem interaktiven, explorativen Vorgehen, die andere Hälfte steht zur Überprüfung des so gewonnenen Theoriemodells zur Verfügung. Zwar können auf diese Weise keine systematischen Stichprobenfehler erkannt werden. Und auch Messfehler gelten weiterhin für beide Hälf-
184
4 Entdeckung und Beseitigung von Modellverstößen
ten des Datensatzes. Jedoch entsteht auf diese Weise ein Teildatensatz, der nicht für die Neuaufstellung eines Regressionsmodells benutzt wurde und mit dem deshalb das Modell in „harter Weise“ konfrontiert werden kann (als Beispiel vgl. Klitgaard et al. 1981). Eine Spielart des „jack knifing“ ist die Kreuzvalidierung. Dabei werden die geschätzten Y-Werte der einen Datenhälfte mit den beobachteten Y-Werten der zweiten Hälfte korreliert. Die so berechnete Größe ist als multiple Korrelation zu verstehen und kann mit der entsprechenden Korrelation zwischen beobachteten und geschätzten Y-Werten in der ersten Stichprobenhälfte verglichen werden. Zwar wird die übergreifende multiple Korrelation stets geringer ausfallen als die interne, denn für Letztere wurde eine optimale Linearkombination zur Schätzung von YWerten ermittelt. Dennoch können die Abweichungen zwischen beiden Korrelationen als ein Hinweis auf Stichprobenfehler, welche die Regressionsresultate verzerren, interpretiert werden. Je geringer die Abweichungen sind, desto stabiler werden die Regressionsschätzungen hinsichtlich des Einflusses von Mess- und anderen Fehlern sein. Voraussetzung für die Kreuzvalidierung ist natürlich eine genügend große Fallzahl im ursprünglichen Datensatz.
Z4.1: Die Residuenanalyse (mit unterschiedlichen Residuenvariablen) bietet die Möglichkeit, zentrale Anwendungsvoraussetzungen der Regressionsanalyse statistisch zu überprüfen und bei evtl. vorhandenen Verstößen gegen diese Voraussetzungen entsprechende Gegenmaßnahmen vorzunehmen. Diese implizieren jedoch oftmals eine (evtl. ungewollte) Anpassung des zu überprüfenden Regressionsmodells an die Voraussetzungen der statistischen Regressionsmethodik oder an die vorhandene Datenbasis. Oder sie führen zu einer Anpassung der Datenbasis an die Voraussetzungen der methodischen oder theoretischen bzw. analytischen Modellierung. Wenn das so ist, sollte der Anwender dabei sehr behutsam vorgehen (indem er z.B. seine Regressionsanalyse als „explorativ“ deklariert, oder ein zusätzliches „jack knifing“ oder eine ergänzende Kreuzvalidierung vornimmt).
4.1 Stichprobenumfang und Stichprobenfehler 4.1
185
Stichprobenumfang und Stichprobenfehler
4.1.1 Ausreißer-Residuen und Instabilität bei kleinen Fallzahlen
In Abbildung 4.1 wurde für die Regressionsschätzung von Einkommen auf Lebensalter das Streudiagramm der standardisierten Residuen gezeigt. Man kann darin sofort erkennen, dass sich alle zwölf Residuen innerhalb der Grenzen von +2 und –2 Standardabweichungen befinden. Entsprechend einer weit akzeptierten Konvention würde man weitere Fälle, deren Residuen außerhalb dieser Grenzen lägen, als „Ausreißer“ (outlier) bezeichnen. Ausreißer sind Beobachtungsfälle, die im Regressionsmodell nicht adäquat berücksichtigt werden konnten. Denn die empirischen Werte dieser Fälle liegen (sehr) weit von der geschätzten Regressionsgeraden oder -fläche entfernt. Beobachtungsfälle, die als „Ausreißer“ einzustufen sind, können u.U. trotz ihrer Außenseiterrolle die Regressionsschätzung in entscheidender Weise beeinflussen. Das kann insbesondere bei Schätzungen mit kleinen Fallzahlen geschehen. Wir wollen dies an einem Beispiel verdeutlichen: In Abbildung 4.1 ist zwar kein Residuenwert größer als die doppelte Standardabweichung aller Residuen, aber diese Grenze entspricht einer Konvention, die man nicht unbedingt akzeptieren muss. Die Graphik zeigt, dass einige Residuen schon recht nahe am Grenzwert von ±2,00 liegen. Dies betrifft vor allem den Fall, der in der Graphik unten rechts nahe der Grenze von –2,00 eingezeichnet ist (Fall Nr. 12: 75 Jahre und 450 Euro Einkommen) sowie den Fall, der in der Graphik ganz oben nahe der Grenze von +2,00 zu finden ist (Fall Nr. 8: 52 Jahre und 2500 Euro Einkommen). Allem Anschein nach liegen diese beiden Fälle nicht im Trend der anderen Daten. Auch die Abbildung 2.9 auf Seite 51 bestätigt diese Vermutung. Für mittlere X-Werte liegt kein anderer Beobachtungsfall so weit über der Regressionsgeraden wie Fall Nr. 8. Und der Fall Nr. 12 liegt bei den älteren Befragten am weitesten unterhalb der Regressionsgeraden. Es soll deshalb angenommen werden, dass es sich bei beiden Fällen um Ausreißer handelt. Ausreißer können u.a. infolge von Stichproben- und/oder Messfehlern entstehen. Die entsprechenden Messwerte sind dann fehlerbehaftet und sollten aus der Regressionsanalyse ausgeschlossen werden. In unserem Beispiel schließen wir also die Befragten Nr. 8 und Nr. 12 aus, weil wir die für sie gemessenen X- und Y-Werte als das Ergebnis von Stichprobenfehlern ansehen.
4 Entdeckung und Beseitigung von Modellverstößen
186
Die Regression ohne die Fälle Nr. 8 und Nr. 12 erbringt das folgende Ergebnis: ˆ = 566,83 + 15,88 X Y (10,53) mit: R2 = 0,22; SEE = 621,00 (54,24% von Y ) Zum Vergleich noch einmal das Modell inklusive Ausreißer: ˆ = 816,58 + 9,37 X Y (10,82) mit: R2 = 0,07; SEE = 762,14 (63,51% von Y ) Die Regressionsschätzung ohne die beiden Ausreißer erbringt also ein stark verändertes Ergebnis: Zum einen vergrößert sich der Determinationskoeffizient um mehr als das Dreifache (was auch eine Folge der weiteren Reduktion der Fallzahl ist, denn bei kleinen Fallzahlen überzeichnet R2 den Erfolg einer Regressionsschätzung sehr deutlich). Und zum anderen signalisiert der Regressionskoeffizient jetzt einen sehr viel stärkeren Einfluss der X-Variablen. Allerdings ist der Regressionskoeffizient nach wie vor nicht signifikant auf einem Signifikanzniveau von 5%, auch wenn der t-Wert nun deutlich größer ist und damit die Irrtumswahrscheinlichkeit deutlich reduziert wurde (t = 15,88/10,53 = 1,51 versus t = 9,37/10,82 = 0,87). Eine derartige Veränderung der Regressionsschätzung entsteht als Folge des Zusammenspiels von drei Faktoren: a) der Ausreißer, b) der kleinen Fallzahl, c) der Kleinst-Quadrate-Schätzung. Da die Kleinst-Quadrate-Technik die Regressionskoeffizienten durch die Minimierung von ˆ )2 (Y Y
¦
ˆ ) einen ganz besonschätzt, hat eine große Distanz (d.h. ein hoher Wert für Y– Y ders starken Einfluss auf die Lage der Regressionsgeraden. Und im Falle kleiner Fallzahlen kann dieser Einfluss nicht durch überproportional viele Fälle mit kleinen Abständen ausgeglichen werden. Dementsprechend kommt dann eine verzerrte Schätzung zustande. Auch wirkt die Reduktion der Fallzahl ungünstig auf die Varianz des geschätzten Regressionskoeffizienten. Denn nach Gleichung (3.6) (S. 128) vergrößert sich dessen Varianz mit einer Verkleinerung des Stichprobenumfangs.
4.1 Stichprobenumfang und Stichprobenfehler
187
Der SPSS-Regressionsbefehl enthält eine Option (s.u.), die die Identifikation von Ausreißern bei Überschreitung bestimmter Werte der Standardabweichung erlaubt. Damit können all diejenigen Fälle abgerufen werden, die außerhalb von j Standardabweichungen liegen, wobei der Wert für j frei wählbar ist. Ein Wert von j = 2 entspricht der oben benutzten Daumenregel, nach der die Residuenwerte nicht außerhalb eines Intervalls von ±2,00 Standardabweichungen liegen sollten. SPSS berichtet mit dieser Option für jeden Beobachtungsfall die Fallnummer, den stanˆ -Wert dardisierten Residuenwert, den beobachteten Y-Wert, den geschätzten Y ˆ sowie die Differenz zwischen Y- und Y -Wert (= unstandardisierte Residuen). Dies ermöglicht die einzelnen Ausreißerfälle im Datensatz zu identifizieren sowie das Ausmaß der Differenz zwischen jedem beobachteten und geschätzten Y-Wert zu analysieren. Je größer diese Differenz ist, desto größer ist die potenzielle Verzerrung der Regressionsschätzung durch den entsprechenden Ausreißerfall. In SPSS kann die Option zur Ausreißerdiagnose im Menü „Lineare Regression“ unter dem Unterpunkt „Statistiken…“ aktiviert werden. Hier steht unter der Überschrift „Residuen“ die Möglichkeit zur Verfügung, die „Fallweise Diagnose“ zu aktivieren. Zudem kann entschieden werden, ob die Diagnose für alle Fälle angezeigt werden soll (nicht zu empfehlen), oder ob die Diagnose erst bei Überschreitung eines bestimmten Wertes „j“ der Standardabweichung erfolgen soll. Alternativ dazu kann in der SPSS-SyntaxSteuerung der Regressionsbefehl durch eine zusätzliche Zeile erweitert werden (s.u.). Dabei kann in einer Klammer hinter „OUTLIERS“ bestimmt werden, ab wie vielen Standardabweichungen ein Fall in die Ausreißeranalyse aufgenommen werden soll. In der folgenden Befehlserweiterung haben wir eine Abweichung von mindestens zwei Standardabweichungen als Schwellenwert festgesetzt: /CASEWISE PLOT(ZRESID) OUTLIERS(2).
Zur Entdeckung von Ausreißerfällen haben wir bislang Residuen-Streudiagramme (vgl. Abbildungen 2.9 und 4.1) sowie bestimmte Grenzwerte (als Vielfaches der jeweiligen Standardabweichung aller Residuen) benutzt (bei multiplen Modellen ist ˆ zu benutzen). Zusätzlich steallerdings im Streudiagramm anstatt Xik nunmehr Y i hen aber auch eine Reihe formaler Entscheidungsregeln zur Entdeckung von Ausreißern zur Verfügung. Diese können auch in SPSS angefordert werden. Die Regeln basieren auf unterschiedlichen Maßzahlen (vgl. dazu Cohen/Cohen et al. 2003: 394-411): 1) Maßzahlen zur Extremität von Werten der unabhängigen Variablen, 2) Maßzahlen zur Extremität von Residuen, 3) Maßzahlen des Fall-Einflusses auf die Regressionsschätzung.
4 Entdeckung und Beseitigung von Modellverstößen
188
(ad 1) Das gebräuchlichste Maß für die Extremität von Werten der unabhängigen Variablen ist der sog. „zentrierte Leverage-Index“ (h*ii). Für jeden Fall i wird dabei die Differenz zwischen beobachtetem X-Wert und dem arithmetischen Mittel der X-Variablen wie folgt zu einer Maßzahl verrechnet (für bivariate Regressionsmodelle): h*ii =
(X i X) 2
¦(Xi X) 2
Der Minimalwert des zentrierten Leverage-Index beträgt „0,00“ und der Maximalwert „1– 1/N“. Die Fälle mit den höchsten Leverage-Werten können als potenzielle Ausreißer behandelt werden. Zur Identifikation der 5% Fälle mit den extremsten Leverage-Indexwerten kann als Daumenregel ein Schwellenwert von 2k/N (bei großen Stichproben) und von 3k/N (bei kleinen Stichproben) benutzt werden, wobei k der Anzahl der X-Variablen entspricht. (ad 2) Die Maßzahl „Externally Studentized Residuals“ (U*i) (= studentisierte Residuen bei ausgeschlossenem Fall i) basiert auf einer Transformation der gewöhnlichen Regressionsresiduen Ui (vgl. dazu auch unsere Ausführungen zu Beginn von Kapitel 4 bezüglich der studentisierten Residuen). Mit dieser Transformation wird auch berücksichtigt, in welcher Weise sich die Diskrepanz zwischen vorhergesagtem und beobachtetem Y-Wert entwickelt, wenn Ausreißerfälle aus der Regressiˆ (erforderlich für die Berechnung von U) ausonsschätzung zur Ermittlung von Y geschlossen werden.
Ui 1· § MQF(i) u ¨1 h *ii ¸ N © ¹ mit: Ui: unstandardisierter Residuenwert; MQF(i): mittlerer quadratischer Fehler ohne Fall i (Ausreißerfall) U*i
Hohe positive und hohe negative U*i-Werte verweisen auf Ausreißer. Als Schwellenwerte zur Diagnose von Ausreißerfällen können Werte von ±3 oder ±4 (bei großen Stichproben) und von ±2 (bei kleinen Stichproben) verwendet werden. (ad 3) Zwei globale Maße für die Veränderung der Regressionsschätzung bei Ausschluss eines Falls sind DFFITS und Cook’s D. Beide Maße liefern redundante
4.1 Stichprobenumfang und Stichprobenfehler
189
Informationen, weshalb wir hier nur DFFITS vorstellen. DFFITS ist eine Funktion der bereits unter Punkt (1) und Punkt (2) vorgestellten Maßzahlen: Nur wenn U*i und h*ii hohe Werte annehmen, wird auch der DFFITS-Wert hoch sein.
DFFITSi (standardisiert) =
U*i
1 N 1 * 1 h ii N h *ii
Wieder können Ausreißer dadurch bestimmt werden, dass die entsprechenden Fälle einen hohen standardisierten DFFITS-Wert aufweisen. Als Daumenregel können Grenzwerte von ±2 (k+1/N) (bei großen Stichproben) und von ±1 (bei kleinen Stichproben) benutzt werden. Auch die Maßzahl „DFBETAS“ kann wichtige Informationen über Ausreißer liefern. Sie informiert über die Veränderung jedes einzelnen Regressionskoeffizienten bei Herausnahme des jeweiligen Falls i, oder, anders gesagt, über den Effekt eines jedes einzelnen Beobachtungsfalls i auf die Schätzung von ganz bestimmten Regressionskoeffizienten: DFBETASij (standardisiert) =
b j b j(i) SE b j(i)
mit: bj: unstandardisierter Regressionskoeffizient; bj(i): Regressionskoeffizient bei Ausschluss des Falles i; SE: Standardfehler von b. Wieder können Ausreißer als diejenigen Fälle mit den höchsten standardisierten Werten von DFBETAS ermittelt werden. Alternativ können folgende Schwellenwerte als Daumenregel verwendet werden: ±2/ N (bei großen Fallzahlen) und ±1 (bei kleinen Fallzahlen). In SPSS lassen sich alle hier vorgestellten Maßzahlen anfordern und als neue Variablen abspeichern, indem diese Maße im Regressionsmenü unter „Speichern“ ausgewählt werden. Alternativ dazu kann wiederum in der SPSS-Syntax-Steuerung der Regressionsbefehl wie folgt erweitert werden: „/SAVE LEVER SDRESID SDBETA SDFIT“. Im Anschluss an die SPSS-Regressionsschätzung befindet sich dann für jede ausgewählte Maßzahl eine neue Variable im Datensatz, die für jeden Fall den Wert der entsprechenden Maßzahl beinhaltet.
190
4 Entdeckung und Beseitigung von Modellverstößen
In unserem Einkommensbeispiel hatten wir mittels Residuenanalyse die beiden Fälle Nr. 12 und 8 als potenzielle Ausreißer identifiziert (s.o.). Betrachten wir für dieses Beispiel auch die Ergebnisse der vier vorgestellten Maßzahlen zur Identifikation potenzieller Ausreißer: Bei der kleinen Stichproben unseres Einkommensbeispiels (N = 12) und mit k = 1 (d.h. mit einer einzigen X-Variablen) gelten die folgenden Schwellenwerte zur Diagnose von Ausreißerfällen: - für h*ii: 3k/N = 3(1)/12 = 0,25 - für U*i: 2,00 - für DFFITSi (standardisiert): 1,00 - für DFBETASi (standardisiert): 1,00 Bezüglich des Falls Nr. 12 zeigt sich, dass dieser bei allen vier Maßzahlen im Vergleich zu allen anderen Fällen ausnahmslos die höchsten Werte aufweist: h*i,12 = 0,23; U12 = 1,91; DFFITS12 (standardisiert) = 1,3; DFBETAS12 (standardisiert) = 1,12. Zudem liegen die Werte für DFBETAS und DFFITS auch über den hier angegebenen Schwellenwerten. Kein anderer Fall weist ansonsten Werte oberhalb der angegebenen Schwellenwerte auf. Die Methode der formalen Ausreißer-Identifikation bestätigt also für diesen Fall das Ergebnis unserer vorangegangenen Residuenanalyse: der Fall Nr. 12 wird als potenzieller Ausreißer identifiziert. Ob die identifizierten Ausreißerfälle eine Regressionsschätzung in nennenswerter Weise verzerren können, lässt sich relativ einfach mit einer zusätzlichen Regressionsschätzung feststellen. Dabei wird die ursprüngliche Regressionsgleichung um eine neue Dummy-Variable erweitert, die für alle als Ausreißer identifizierten Fälle den Wert 1 zugewiesen bekommt und für alle anderen Fälle den Wert 0 erhält (zur Dummy-Analyse vgl. Kapitel 5.1.1). Wenn in der multiplen Regressionsschätzung der Effekt dieser Variablen signifikant ist (t-Test), dann stellen die Ausreißerfälle für die betreffende Regressionsanalyse ein ernst zu nehmendes Problem dar und sollten evtl. aus der Analyse ausgeschlossen werden. Um Beobachtungsfälle als unerwünschte „Ausreißer“ (die evtl. aufgrund von Stichproben- und/oder Messfehlern entstanden sind) aus einer Regressionsanalyse auszuschließen, bedarf es einer überzeugenden Begründung. Denn bei diesen Fällen (z.B. bei den Fällen Nr. 8 und Nr. 12 im obigen Beispiel) könnte es sich ja auch um äußerst relevante Einzelbeobachtungen handeln, die zu einer verzerrten Regressionsschätzung führten, wenn man sie einfach wegließe. Leider verfügt der Praktiker
4.1 Stichprobenumfang und Stichprobenfehler
191
in aller Regel nicht über die nötigen Informationen, um darüber entscheiden zu können. Deshalb sollten bei Regressionsschätzungen, die durch Ausreißer verzerrt sein könnten, zusätzliche Beobachtungsfälle hinzugezogen werden, um eine Instabilität der Regressionsschätzung zu vermeiden. Sind diese nicht vorhanden und ist auch eine analytische Begründung über die Relevanz von Ausreißern nicht möglich, so sollten stets beide Regressionsergebnisse (mit und ohne Ausreißer) im Forschungsbericht vorgestellt und diskutiert werden. Eine verschwiegene Anpassung von Daten an die Erfordernisse der Regressionsmodellierung entspräche einem, in diesem Skript schon mehrfach kritisierten induktiven Vorgehen, das der statistischen Methode eine unberechtigt hohe Eigengesetzlichkeit zugestehen würde. Nicht nur wenn Ausreißer auftreten, sondern auch unter sonstigen ungünstigen Bedingungen führen kleine Stichproben leicht zu äußerst instabilen Regressionsresultaten. Das gilt für eine damit evtl. verbundene geringe Varianz in Y (die groß sein sollte, um etwas zu haben, das „erklärt“ werden kann) und für eine geringe Varianz in X (die groß sein sollte, um etwas zu haben, mit dem „erklärt“ werden kann, s.u.). Je kleiner die Fallzahl ist, umso mehr sinkt die Chance, dass die entsprechenden Varianzen zur Verfügung stehen. Welches Fehlerrisiko eine zu kleine Varianz in X mit sich bringt, kann anhand der Darstellung in der folgenden Abbildung 4.2 verdeutlicht werden. Obwohl dort die Residuensumme stets konstant bleibt, ist die Stabilität im Modell mit großer Varianz von X (Abbildung 4.2b) wesentlich höher als im Modell mit geringer Varianz (Abbildung 4.2a). Wahre und geschätzte Regressionsgerade sind im Modell 4.2b nur geringfügig verschieden, während beide in Modell 4.2a sogar unterschiedliche Einflussrichtungen indizieren. Zum besseren Verständnis des hier dargestellten Sachverhalts hilft auch die Varianzformel von b (nach Gleichung 3.6 auf Seite 128). Darin steht die Varianz von X im Nenner, so dass bei Anwachsen von Var(X) die Varianz von b abnehmen muss und damit auch die Ergebnisse einer Regressionsschätzung stabiler werden müssen. Regressionstheoretisch lässt sich die Instabilität von Regressionsergebnissen bei kleinen Fallzahlen als Anwachsen des „mittleren quadratischen Fehlers“ (vgl. Gleichung 3.1 auf Seite 118) verstehen. Da mit Verkleinerung des Stichprobenumfangs die Varianz von b zunimmt (vgl. Gleichung 3.6), vergrößert sich auch der MQF (mittlerer quadratischer Fehler), d.h. die Wahrscheinlichkeit für verzerrte Schätzungen des Regressionskoeffizienten nimmt zu.
192 Abbildung 4.2:
4 Entdeckung und Beseitigung von Modellverstößen Stabilität von Regressionsschätzungen bei kleiner Fallzahl und verschieden großer Varianz von X (nach Wonnacott/Wonnacott 1977: 342)
Mit kleinen Fallzahlen werden zudem die Ergebnisse von Signifikanztests potenziell instabil. Dies haben wir bereits im Zusammenhang mit der Teststärke von Signifikanztests (vgl. Kapitel 3.2.3) und bei der Interpretation von NichtSignifikanz (Kapitel 3.3.1) gesehen. Besonders deutlich wird diese potenzielle Instabilität bei der Berechnung des Standardfehlers (Gleichung 3.7 auf Seite 146), ˆ )2 benutzt. In kleidenn dort werden als Nenner die Abweichungsquadrate (Y – Y nen Stichproben erhält jede Beobachtung im Verhältnis zu ihrer theoretischen Bedeutung überproportional große statistische Bedeutung, so dass auch hier wiederum Ausreißer die Testergebnisse beeinflussen können. Davon abgesehen kann auch die Gültigkeit von A1 bis A5 nur an hinreichend großen Stichprobenumfängen überprüft werden. Je größer diese sind, umso zuverlässiger lassen sich die entsprechenden Annahmen überprüfen (vgl. dazu die folgenden Abschnitte dieses Kapitels).
Z4.2: Kleine Fallzahlen können Regressionsschätzungen besonders bei Existenz von Ausreißern und/oder bei geringen Varianzen von X äußerst instabil machen. Im Fall von extremen Ausreißern und wenn keine Möglichkeit besteht, die Ursachen für die Entstehung von Ausreißerfällen analytisch zu bewerten, sollten zwei Regressionsschätzungen (mit und ohne Ausreißer) durchgeführt und dokumentiert werden.
4.1 Stichprobenumfang und Stichprobenfehler
193
4.1.2 Normalverteilung (A5)
Die Annahme A5 postuliert normalverteilte Residuen (vgl. Z3.4). Wie in Kapitel 3.2 erläutert, ist die Gültigkeit von A5 erforderlich, um die Ergebnisse der Regressionsschätzung auf Signifikanz überprüfen zu können. Davon unberührt bleibt die BLUE-Eigenschaft der Regressionsschätzung. Diese ist unabhängig von A5. In Abbildung 3.4 (auf Seite 122) haben wir in stilisierter Form dargestellt, wie man sich die Gültigkeit von A5 vorstellen kann: Für jeden Wert von X existiert eine große Anzahl von Residuenwerten, deren jeweilige Häufigkeitsverteilung den Spezifikationen einer Normalverteilung entspricht. Somit erforderte eine exakte empirische Überprüfung von A5, dass jeweils nur die Residuen von Fällen mit gleichem X-Wert (oder, falls mehrere X-Variablen vorhanden sind, von Fällen mit der gleichen Kombination von X-Werten) auf Einhaltung der Normalverteilungsform analysiert werden. Dies setzt jedoch sehr große Datensätze voraus. Denn bei jedem XWert bzw. bei jeder Kombination von X-Werten müsste eine ausreichend große Anzahl von Beobachtungsfällen für den Test zur Verfügung stehen. Deshalb wird in der Forschungspraxis häufig ein vereinfachtes Verfahren zur A5Überprüfung benutzt. Es wird davon ausgegangen, dass bei einer Normalverteilung der Residuen von jedem einzelnen X-Wert (bzw. von jeder einzelnen X-WerteKombination) auch die Summe aller Residuen (über alle X-Werte bzw. über alle XWerte-Kombinationen hinweg) eine Normalverteilung aufzeigen muss. Und dann wäre ein einziger Normalverteilungstest zum Nachweis von A5 ausreichend. Diese Argumentation hat zwar eine gewisse Plausibilität, sie lässt sich aber nicht umkehren: Wenn die Summe aller Residuen normalverteilt ist, so folgt daraus nicht zwingend, dass auch die Residuen in jeder X-Wert-spezifischen Teilgruppe eine Normalverteilung aufweisen. Somit hat ein Test auf Normalverteilung über alle Residuen hinweg nur eine eingeschränkte Beweiskraft. Er ist allerdings oftmals der einzig praktikable Weg, um A5 bei kleinen bis mittleren Fallzahlen überhaupt empirisch überprüfen zu können. Eine empirische Überprüfung der A5-Annahme ist vor allem dann angezeigt, wenn a) der Stichprobenumfang gering ist und man prinzipiellen Argumentationen (wie z.B. dem Zentralen-Grenzwert-Satz der Statistik) nicht trauen kann, wenn b) eine bestimmte (Sub-)Population untersucht wird, bei der eine Häufung extremer Werte erwartet wird, oder c) wenn sich hinsichtlich der empirischen Verteilung einer YVariablen aufgrund theoretischer Überlegungen oder praktischer Erfahrungen ver-
4 Entdeckung und Beseitigung von Modellverstößen
194
muten lässt, dass die Normalverteilungsannahme bei Analyse dieser Variablen gefährdet sein könnte. So weist beispielsweise das Nettoeinkommen in aller Regel eine rechtsschiefe Verteilung auf. Und die gemessene Lebenszufriedenheit zeigt fast immer eine linksschiefe Verteilung. In solchen Fällen geschieht es nicht selten, dass bei Berücksichtigung dieser Variablen in Regressionsschätzungen empirische Residuenverteilungen entstehen, die vom Ideal einer Normalverteilung stark abweichen. Allerdings muss das nicht so sein, und auch eine sehr schief verteilte Y-Variable kann für eine inferenzstatistisch durchgeführte Regressionsanalyse vollkommen ohne Bedeutung sein. Denn die A5 bezieht sich allein auf die Residuenverteilung und nicht auf die empirische Verteilung der Y-Variablen einer Regressionsanalyse. Zur Überprüfung der Normalverteilungsannahme A5 stehen mehrere Möglichkeiten zur Verfügung. Sie kann überprüft werden: a) mittels deskriptiver Kennzahlen und visueller Analyse der empirischen Residuenverteilungen; b) mittels Normalverteilungstests, wie z.B. dem Kolmogorov-Smirnov-Test; c) mittels Analyse von Normalverteilungsplots. ad a) Wie erinnerlich ist die Normalverteilung als symmetrische Kurve in Form eines Glockenquerschnitts vorstellbar. Mit Kennzahlen zur Schiefe und Kurtosis der Verteilung (auch Exzess oder Wölbung genannt) können Abweichungen von der Normalverteilungskurve statistisch beschrieben werden. Mit dem errechneten Wert für die Schiefe werden Abweichungen von der Symmetrie-Eigenschaft ermittelt. Nimmt die Schiefe einen Wert von 0 an, so ist die Verteilung absolut symmetrisch. Ist die Schiefe hingegen positiv („positive Schiefe“), verschiebt sich die Spitze der Verteilung mehr zur linken Seite und die Verteilung verläuft nach rechts in lang gezogener Weise aus (was man „linkssteil“ bzw. „linksgipflig“ oder auch „rechtsschief“ nennt). Ist die Schiefe negativ („negative Schiefe“), verschiebt sich die Spitze der Verteilung zur rechten Seite und die Verteilung verläuft nach links lang gezogen aus (was man „rechtssteil“ bzw. „rechtsgipflig“ oder „linksschief“ nennt).
Schiefe
1 N
3
§ Yi Y · ¸ SY ¹
¦¨©
4.1 Stichprobenumfang und Stichprobenfehler
195
Der Wert für die Kurtosis misst die Steilheit einer Verteilung. Bei einer Normalverteilung hat sie den Wert von „0“. Bei positiven Werten ist die Verteilung spitzer (bzw. enger) als die Normalverteilung, bei negativen Werten ist sie abgeflachter (bzw. breiter).
Kurtosis
§ Yi Y ·4 1 ¸ 3 ¦¨ N © SY ¹
Liegen Schiefe- und Kurtosis-Werte nahe „0“, so indizieren sie eine (annähernde) Normalverteilung. Zudem lassen sich mit Hilfe der Standardfehler von Schiefe und Kurtosis die Wertebereiche ermitteln, in denen die Werte von Kurtosis und Schiefe noch liegen dürfen, um von einer zumindest annäherungsweisen Gültigkeit der Normalverteilungsannahme ausgehen zu können. Zwar hängen diese Standardfehler von der jeweils zugrunde liegenden Verteilung ab, können jedoch grob geschätzt werden über: S.E.Schiefe =
6 N
S.E.Kurtosis =
24 N
Diese Schätzungen sind umso exakter, je größer der Stichprobenumfang ist (exakte Standardfehler werden von SPSS ausgegeben, so dass uns an dieser Stelle für die Kalkulation „per Hand“ die Schätzungen mittels der oben aufgeführten Formeln genügen sollen). Entsprechend einer Daumenregel sollte das Verhältnis zwischen Schiefe-Wert und entsprechendem Standardfehler (Schiefe / S.E.Schiefe) sowie zwischen Kurtosis-Wert und entsprechendem Standardfehler (Kurtosis / S.E.Kurtosis) kleiner als |2| sein (genauer: |1,96|; vgl. die Interpretation des t-Tests in Kapitel 3.3.1). Anders ausgedrückt: Sind die Werte für Schiefe oder Kurtosis gleich oder größer als ihr jeweiliger doppelter Standardfehler, so weichen beide Werte signifikant von der Normalverteilungsannahme ab (mit 5% Irrtumswahrscheinlichkeit). Bei großen Fallzahlen wird der Standardfehler allerdings sehr klein, weshalb die Normalverteilungsannahme dann fast immer signifikant abgelehnt wird, auch wenn die Schiefe oder Kurtosis nur noch unwesentlich von der Normalverteilung abweicht. Bei großen
4 Entdeckung und Beseitigung von Modellverstößen
196
Stichproben wird daher häufig die Daumenregel angewandt, dass Kurtosis und Schiefe im Wertebereich von –1 bis +1 liegen sollten, um von einer annähernden Normalverteilung sprechen zu können. In unserem Einkommensbeispiel (mit nur zwölf Fällen!) liegt bei einem solchen Kombinationstest die Schiefe aller Residuen bei –0,16 und die Kurtosis der Residuen bei –1,02. Die diesbezüglichen Standardfehler betragen: S.E.Schiefe =
S.E.Kurtosis =
6 12 24 12
0,71
1,41
Bei vorliegender Normalverteilung sollte also der Wert für die Schiefe in unserem Beispiel in einem Bereich von 0 r 2 u 0,71 liegen, d.h. zwischen –1,42 und +1,42. Mit einem Wert von –0,16 ist dies der Fall. Für die Kurtosis gilt, dass diese bei Normalverteilung in unserem Beispiel in einem Bereich von 0 r 2 u 1,41 liegen sollte, d.h. zwischen –2,82 und +2,82, was mit einem Wert von –1,02 ebenfalls gegeben ist. Die Residuen scheinen dementsprechend weder zu schief noch zu steil bzw. flach verteilt und damit (annähernd) normalverteilt zu sein. Ein solches Ergebnis ist jedoch insbesondere bei kleinen Fallzahlen oftmals ein rein formal richtiges und kein substanziell richtiges Testergebnis. Das zeigt auch die folgende visuelle Residuenanalyse. In der visuellen Analyse wird die Normalverteilungsannahme allein durch optische Inspektion des Histogramms aller Residuen überprüft (unter der oben erläuterten Einschränkung). Auch dies macht für unser Beispiel bei nur zwölf analysierbaren Residuen nicht viel Sinn, soll aber hier zur Veranschaulichung des Vorgehens dennoch gemacht werden. In der folgenden Abbildung 4.3 wird die Häufigkeit eines jeden standardisierten Residuenwerts mittels der Höhe eines dazugehörigen Balkens graphisch dargestellt. Zudem wird darin der ideale Verlauf einer Normalverteilungskurve angezeigt. Die Abstände zwischen Kurvenverlauf und Balkenoberkanten geben Hinweise darauf, ob die Residuenverteilung annäherungsweise als normalverteilt betrachtet werden kann. In unserem Beispiel (mit zwölf Fällen) ist das naturgemäß nicht der Fall.
4.1 Stichprobenumfang und Stichprobenfehler
197
Abbildung 4.3: Residuen-Histogramm mit Normalverteilungskurve 4
Häufigkeit
3
2
1
0 -2
-1 0 1 Standardisiertes Residuum
2
In SPSS können die Werte für Schiefe und Kurtosis der Residuenverteilung sowie die entsprechenden Standardfehler („seskew“ und „sekurt“) in zwei Schritten angefordert werden. Als erstes müssen die standardisierten Residuen in einer neuen Variablen („ZRE_1“) abgespeichert werden, wie dies zu Beginn von Kapitel 4 gezeigt wurde. Dann können im zweiten Schritt mit folgendem Frequencies-Befehl die gewünschten statistischen Kennzahlen angefordert werden: FRE ZRE_1 /STATISTICS=SKEWNESS SESKEW KURTOSIS SEKURT. Ein Histogramm der Residuen mit Normalverteilungskurve kann im Untermenü „Diagramme“ der Regressionsanalyse ausgewählt werden, indem das Kästchen „Histogramm“ aktiviert wird. Alternativ kann der SPSS-Regressionssyntax-Befehl um die Zeile „/RESIDUALS HIST(ZRESID)“ erweitert werden.
ad b) Mit Hilfe des Kolmogorov-Smirnov-Anpassungstests kann geprüft werden, ob eine Stichprobe aus einer Grundgesamtheit mit einer bestimmten Verteilung (wie z.B. der Normalverteilung) stammt. Dabei wird als Nullhypothese formuliert, dass die empirischen Daten einer bestimmten Verteilung (hier: der Normalverteilung) folgen. Ist die Kolmogorov-Smirnov-Statistik nicht signifikant (mit p > 0,05), so ist davon auszugehen, dass die Nullhypothese zutrifft und eine (annähernde) Normalverteilung vorliegt. In unserem Beispiel (bei dem dieser Test aufgrund der geringen Fallzahl ohne inhaltliche Bedeutung ist) beträgt die Irrtumswahrscheinlichkeit (nach der sich empirische Verteilung und Normalverteilung unterscheiden) 0,90. Damit würde die Nullhypothese beibehalten und die Alternativhypothese, die die Unterschiedlichkeit der empirischen und theoretischen Verteilungen postuliert, bliebe unberücksichtigt.
198
4 Entdeckung und Beseitigung von Modellverstößen
Zur Ermittlung einer signifikanten Verteilungsdifferenz mittels Kolmogorov-Smirnov-Test wird der Testwert D (für „Distanz“) bzw. eine standardisierte Variante des D-Wertes („Kolmogorov-Smirnov-Z“) herangezogen. Denn der Test analysiert die maximale absolute Distanz zwischen der empirischen (beobachteten) und der theoretischen (erwarteten) Verteilung (in unserem Fall: der Normalverteilung). Wir verzichten an dieser Stelle auf eine Beispielsrechnung. In SPSS kann der Kolmogorov-Smirnov-Test über den Menüpunkt „Nichtparametrische Tests“ und den Unterpunkt „K-S bei einer Stichprobe...“ angefordert werden. Der einfache SPSS-Syntax-Befehl mit der Variablen „ZRE_1“ lautet: NPAR TESTS /K-S(NORMAL)= ZRE_1 /MISSING ANALYSIS.
ad c) Eine dritte Möglichkeit, die Normalverteilungsannahme zu überprüfen, erfordert eine visuelle Bewertung von Normalverteilungsstreudiagrammen. Ein doppeltes Wahrscheinlichkeitsstreudiagramm, das sog. P-P-Plot (oder: P-P-Wahrscheinlichkeitsdiagramm, wobei jedes „P“ für „Probability“ steht) ist hierfür das gebräuchlichste Diagramm und kann über die Regressionsfunktion in SPSS angefordert werden (s.u.). Im Diagramm werden auf der Y-Achse die kumulierten theoretischen Wahrscheinlichkeiten der Normalverteilung abgetragen, während auf der XAchse die kumulierten relativen Häufigkeiten der beobachteten Residuen platziert werden. Wenn sich die Residuen in perfekt normalverteilter Weise darstellen, müssen die dazugehörigen Wahrscheinlichkeitswerte auf der im Diagramm eingezeichneten Diagonalen liegen. Je näher die Wahrscheinlichkeitswerte der Residuen an der Diagonalen liegen, desto begründeter ist die Normalverteilungsannahme A5 (unter der oben erläuterten Einschränkung). Wäre unser Beispiel inhaltlich zu interpretieren (was bei nur zwölf analysierten Residuen nicht möglich ist), ließe sich aus der entsprechenden Graphik ersehen, dass die Residuen nicht perfekt normalverteilt sind (sonst würden alle Wahrscheinlichkeitswerte der Residuen genau auf der diagonalen Geraden liegen). Aber da alle Wahrscheinlichkeitswerte der Residuen nahe an der Diagonalen liegen, könnte (bei größerer Fallzahl) von einer annähernden Normalverteilung gesprochen werden (vgl. die folgende Abbildung 4.4). In SPSS kann der P-P-Plot im Untermenü „Diagramme“ der Regressionsanalyse angefordert werden, indem das Kästchen „Normalverteilungsdiagramm“ angeklickt wird. Alternativ kann der SPSSRegressionssyntax-Befehl um die Zeile „/RESIDUALS NORM(ZRESID)“ erweitert werden.
4.1 Stichprobenumfang und Stichprobenfehler
199
Abbildung 4.4: P-P-Wahrscheinlichkeitsdiagramm der Residuenverteilung (SPSSAusgabe)
erwartete kum. Wahrsch.
1,0
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
beobachtete kum. Wahrsch.
Wenn in einer Regressionsanalyse die Normalverteilungsannahme A5 extrem verletzt ist, beispielsweise weil die Residuen eine extrem schiefe Verteilung mit 60% aller Fälle auf dem niedrigsten oder höchsten Wert aufweisen, so sind mehrere Gegenmaßnahmen möglich: -
Wird die Schiefe durch wenige Ausreißerfälle verursacht, können diese Ausreißer unter bestimmten Bedingungen (vgl. Kapitel 4.1.1) aus der Regressionsanalyse ausgeschlossen werden.
-
Wird die Schiefe der Residuen durch die schiefe Verteilung einer Y-Variablen verursacht (was möglich ist, aber nicht so sein muss, s.o.), so können die Werte der Y-Variablen transformiert werden, um deren Verteilungsform der Form einer Normalverteilung anzupassen. So können bei stark rechtsschiefen Verteilungen (typischerweise bei Einkommen oder Antwortreaktionszeiten) die Variablenwerte transformiert werden, indem sie logarithmiert oder reziprok transformiert werden, oder indem statt der Rohwerte deren Quadratwurzeln in der Regressionsanalyse benutzt werden. Durch all diese Transformationen werden kleinere Werte über- und größere Werte untergewichtet, so dass eine Rechtsschiefe abgeschwächt wird und sich die empirische Verteilung der Form einer
200
4 Entdeckung und Beseitigung von Modellverstößen
Normalverteilung annähert (allerdings mit der Konsequenz der Über- bzw. Untergewichtung von Variablenwerten, was ihre Interpretation evtl. erschwert bzw. verzerrt). Ob eine solche Transformation dann auch tatsächlich die gewünschten Auswirkungen auf die Verteilung der Residuen einer Regressionsschätzung hat, muss jeweils ausgetestet werden. -
Sehr häufig verweisen nicht-normalverteilte Residuen auf Spezifikationsfehler im Regressionsmodell. Sie indizieren dann einen nicht unbeträchtlichen Anteil von Varianz in der abhängigen Variablen, der nicht durch lineare Effekte aller im Modell vertretenen X-Variablen gebunden werden kann. In diesem Falle muss u.U. die Linearitätsannahme modifiziert werden (vgl. Kapitel 4.3), oder es müssen vorhandene X-Variablen aus dem Modell herausgenommen und/oder neue, bislang nicht im Modell vertretene X-Variablen hinzugenommen werden. Auch kann die Messung bestimmter X- oder Y-Variablen so fehlerhaft sein, dass ein im Prinzip richtig spezifiziertes Modell empirisch falsch spezifiziert wurde, weil durch die fehlerbelastete Messung falsche bzw. verzerrte Kovarianzen erzeugt wurden (vgl. dazu auch die Sensibilität der OLS-Schätzung gegenüber variierenden Variablenvarianzen, die in Kapitel 4.1.1 dargestellt wurde). Wenn daher eine nicht der Normalform entsprechende Residuenverteilung als Hinweis auf ein falsch spezifiziertes Regressionsmodell interpretiert wird, muss die Regressionsanalyse mit theoretischen oder analytischen Überlegungen zur Begründung einer neuen Effektmodellierung von Anfang an neu durchgeführt werden (vgl. dazu auch Kapitel 4.4).
-
Sind alle zuvor genannten Möglichkeiten als Ursache für schiefe oder sehr flache Residuenverteilungen auszuschließen, kann die Regressionsanalyse auch mit nicht-normalverteilten Residuen durchgeführt werden. Allerdings sollten dann keine inferenzstatistischen Analysen (z.B. Signifikanztests von geschätzten Regressionskoeffizienten) durchgeführt werden. Zwar hat sich in Simulationsstudien eine gewisse Robustheit der t-Werte bei Verstößen gegen die Normalverteilung herausgestellt (vgl. Bohrnstedt/Carter 1971), jedoch sind diese Ergebnisse an so viele Randbedingungen gebunden, dass sie auf konkrete Regressionsschätzungen nur in Ausnahmefällen zu übertragen sind. Deshalb sollte, wenn überhaupt Regressionsanalysen mit nicht-normalverteilten Residuen interpretiert werden müssen, auf eine Auswertung von Signifikanztests eher verzichtet werden. Solche eingeschränkten Analysen sollten allerdings gut begründet werden und eine seltene Ausnahme bleiben. Denn auf diese Weise könnten die zuvor genannten Fehlerquellen allzu schnell unentdeckt bleiben.
4.2 0-Mittelwert der Residuen (A2) -
201
Als letzte Möglichkeit bliebe der Verzicht auf Durchführung einer OLSRegressionsschätzung und die Verwendung von alternativen (z.B. nichtparametrischen) Schätzverfahren (deren Erörterung allerdings außerhalb des vorliegenden Skripts liegt).
Z4.3: Die Annahme normalverteilter Regressionsresiduen (A5) kann durch Anwendung von visuellen und deskriptiven Analyseverfahren, mittels Normalverteilungstests (wie z.B. dem Kolmogorov-Smirnov-Test) oder durch Auswertung von Normalverteilungsdiagrammen überprüft werden. Dabei müssen im Idealfalle die vielen Residuenverteilungen untersucht werden, die entstehen, wenn Residuensubgruppen von Beobachtungsfällen mit gleichem X-Wert oder gleichen X-WertKombinationen gebildet werden. Bei kleinen bis mittelgroßen Fallzahlen ist auch eine gemeinsame Untersuchung aller Residuen zu rechtfertigen.
4.2
0-Mittelwert der Residuen (A2)
Die Annahme A2, nach welcher der Erwartungswert für alle Residuen einen Wert von „0“ aufzuweisen hat, kann nicht überprüft werden. Da sich der Erwartungswert von U auf die Verteilung der Residuen im Populationsmodell bezieht und dieses Modell unbekannt ist, sind auch dessen Residuen unbekannt. Bekannt sind allein die Residuen der Regressionsschätzung. Deren Mittelwert hat aus Gründen, die in der Technik der Regressionsschätzung begründet sind, stets einen Wert von 0. Dies ist unabhängig davon, ob A2 erfüllt ist oder nicht. Die Nicht-Überprüfbarkeit von A2 ist nicht von besonderer Tragik, da im Fall einer ungültigen Annahme A2 allein der a-Koeffizient (das Intercept der Regressionsgleichung) verzerrt geschätzt würde (vgl. Ergänzung 3.4 auf Seite 127). Dieser a-Koeffizient ist in aller Regel von geringem theoretischem oder analytischem Interesse, weswegen wir ihn auch schon des Öfteren in diesem Skript vernachlässigt haben (z.B. beim Signifikanztest). Wir können deshalb von einer Diskussion weiterer Konsequenzen, die sich bei Nichterfüllung der Annahme A2 ergäben, absehen.
4 Entdeckung und Beseitigung von Modellverstößen
202 4.3
Linearität (A3, A4)
In den vorangegangenen Kapiteln haben wir an verschiedenen Stellen auf die Bedeutung der Linearitätsannahme aufmerksam gemacht (vgl. Z2.4 sowie Ergänzung 3.3). Denn nur für lineare Einflussbeziehungen kann mittels OLS-Methode eine eindeutige, optimale Regressionsgleichung geschätzt werden. Das ist eine der zentralen Aussagen des Gauss-Markov-Theorems (vgl. Z3.1). Ob die empirischen Zusammenhänge in den Daten einer Studie die Linearitätsannahme der Regressionsanalyse unterstützen, oder ob sich in ihnen nicht-lineare Zusammenhänge widerspiegeln, kann auf verschiedene Weise untersucht werden. Dazu wird eine Vielzahl von Testverfahren angeboten. Beispielsweise lässt sich durch Vergleich eines „linearen“ Korrelationskoeffizienten (Pearsons Produkt-Moment-Korrelationskoeffizient „r“) mit einem „nichtlinearen“ Korrelationskoeffizienten (eta) die Linearität eines bivariaten Variablenzusammenhangs überprüfen. Ein anderes Verfahren besteht darin, den Variationsbereich einer X-Variablen in mehrere Intervalle zu zerlegen (vgl. die folgende Abbildung 4.5). Dann kann ein Linearitätstest durchgeführt werden mittels 1. Multigruppenanalyse, 2. Vergleich von Dummy-Variablen-Effekten, 3. Schätzung von Interaktionseffekten. ad 1.) Bei der Multigruppenanalyse wird die Regressionsschätzung getrennt für einzelne Fallgruppen durchgeführt. Diese unterscheiden sich durch unterschiedliche Wertebereiche bei derjenigen X-Variablen, die im Verdacht steht, einen nichtlinearen Effekt auszuüben. Die unstandardisierten Regressionskoeffizienten, die in jeder Gruppe für den jeweiligen X-Prädiktor anfallen, können miteinander verglichen werden. Unterscheiden sich die Regressionskoeffizienten für einen bestimmten X-Effekt in den verschiedenen Schätzungen deutlich voneinander (z.B. in ihrem Vorzeichen, in ihrer Einflussstärke oder in ihrer Signifikanz), so ist dies ein Indiz für eine nicht-lineare Einflussbeziehung. ad 2.) Eine andere Möglichkeit zur Feststellung nicht-linearer Effekte besteht darin, für die verschiedenen Wertebereiche einer „verdächtigen“ X-Variablen mehrere eigenständige dichotome X-Variablen zu spezifizieren und diese als unabhängige Variablen in eine Regressionsschätzung (über alle Fälle) einzubeziehen. Die neu
4.3 Linearität (A3, A4)
203
gebildeten, dichotomen X-Variablen erhalten dazu jeweils in einem „Heimat“Wertebereich einen Wert von 1 und ansonsten einen Variablenwert von 0 zugewiesen (weshalb solche dichotomen Variablen auch als „Dummy-Variablen“ bezeichnet werden, vgl. Kapitel 5.1.1). Allerdings dürfen zur Vermeidung von Multikollinearitätsproblemen (vgl. Kapitel 4.5) nicht alle so gebildeten Dummy-X-Variablen in eine Regressionsschätzung aufgenommen werden. Auf eine Dummy-X-Variable muss in der Schätzung stets verzichtet werden (mehr zur Regressionsschätzung mit Dummy-Variablen in Kapitel 5.1). Wenn z.B. der gesamte Wertebereich einer XVariablen in vier Intervalle unterteilt würde, ergäbe sich eine zu schätzende Regressionsgleichung mit drei dichotomen Dummy-X-Variablen: Y = a + b1X1 + b2X2 + b3X3 + U Durch Vergleich der drei geschätzten Regressionskoeffizienten kann dann entschieden werden, ob die Steigungen der Regressionsgeraden (oder, wenn noch weitere X-Prädiktoren vorhanden wären: ob die Steigungen der Regressionsfläche) in den verschiedenen X-Abschnitten deutlich voneinander abweichen. Wenn das so ist, weicht auch der Zusammenhang zwischen der Y-Variablen und der ursprünglichen X-Variablen (ohne Intervalleinteilung) von der Linearitätsannahme ab. ad 3.) Die Aufdeckung von Nicht-Linearität mittels Dummy-Variablen kann durch Spezifikation von Interaktionseffekten noch weiter verfeinert werden (mehr zur Schätzung von Interaktionseffekten in Unterkapitel 4.3.2 und 5.2.1). Ein Vorteil dieser Methode gegenüber der in Punkt 2 vorgestellten Technik besteht darin, dass dabei die metrische Information über die Verteilung der X-Werte innerhalb der einzelnen Werteintervalle nicht verloren geht und in der Regressionsschätzung genutzt werden kann. Denn bei diesem Vorgehen werden die X-Werte in den einzelnen X-Wertebereichen nicht dichotomisiert, sondern es werden zusätzliche Dummy-Variablen gebildet (zur Vermeidung von Multikollinearitätsproblemen entspricht ihre Anzahl der Anzahl der Wertebereiche minus 1). Diese DummyVariablen erhalten einen Wert von 1, wenn der entsprechende Beobachtungsfall in einem bestimmten X-Wertebereich liegt, und ansonsten einen Wert von 0. Bei Festlegung der zu schätzenden Regressionsgleichung wird die kontinuierliche XVariable mit jeder Dummy-Variablen multipliziert, so dass die X-Variable dann mehrfach in der Gleichung auftritt. Beispielsweise lautet die Regressionsgleichung bei vier X-Werte-Intervallen (d.h. bei drei Dummy-Variablen: D1, D2, D3): Y = a + b1X×D1 + b2X×D2 + b3X×D3 + U
204
4 Entdeckung und Beseitigung von Modellverstößen
Unterscheiden sich die geschätzten Interaktionseffekte deutlich voneinander (z.B. in ihrem Vorzeichen, in ihrer Einflussstärke oder in ihrer Signifikanz), so indiziert dies eine nicht-lineare Beziehung zwischen X und Y. Abbildung 4.5 verdeutlicht die hier vorgestellte Methode. Darin wird entsprechend der oben aufgestellten Regressionsgleichung der Wertebereich von X in vier Intervalle unterteilt, so dass für drei Intervalle (X1, X2, X3) entsprechende 1/0-DummyVariablen erzeugt werden müssen (D1, D2, D3). Diese sind dann in der Regressionsschätzung mit der ursprünglichen X-Variablen zu multiplizieren. Die geschätzten Regressionskoeffizienten (b1, b2, b3) indizieren die Steigung der Regressionsgeraden im jeweiligen X-Bereich. Abbildung 4.5: Linearitätstest durch Differenzierung des Regressionsmodells
Es gibt noch eine Vielzahl weiterer Modellspezifikationen, mit denen die Linearitätsannahme überprüft werden kann (vgl. Kmenta 1971: 466ff). Alle Verfahren sind allerdings nur ein Hilfsmittel bei der Linearitätsdiagnose mit einer jeweils spezifischen Fehleranfälligkeit. So sind beispielsweise die Ergebnisse der oben beschriebenen Tests von der Intervallaufteilung abhängig. Für unterschiedlich breite Intervalle können sich unterschiedliche Regressionskoeffizienten ergeben, und ist die Anzahl der Intervalle zu gering, so kann u.U. auch eine gravierende Abweichung von der Linearitätsannahme unentdeckt bleiben. Zusätzlich zu den zuvor besprochenen Testverfahren schlagen wir deshalb (ebenso wie bei der Ausreißersuche) eine visuelle Residuenanalyse vor. Wie dabei Abweichungen von einer Linearbeziehung zu entdecken sind, macht die folgende Abbildung 4.6 deutlich. Denn bei einem nicht-linearen Zusammenhang, der fälschlicherweise linear spezifiziert wurde, verteilen sich die Residuen nicht mehr rein zufällig um die Regressionsgerade, sondern folgen einer bestimmten Regelmäßig-
4.3 Linearität (A3, A4)
205
keit. Sie verstoßen damit gegen die beiden Annahmen A3 und A4, die eine Zufallsverteilung der Residuen fordern. In Abbildung 4.6 sind die Residuen bis zum Wert Xi negativ (d.h. sie liegen unterhalb der Regressionsgeraden). Sie werden dann im Bereich zwischen Xi und Xk positiv (d.h. sie liegen oberhalb der Regressionsgeraden) und werden im Bereich rechts von Xk wiederum negativ (d.h. sie liegen dort wieder unterhalb der Regressionsgeraden). Die Residuen folgen also einer bestimmten Regelmäßigkeit, die darauf hinweist, dass in diesem Modell der „wahre“ Zusammenhang zwischen den Messwerten von Y und X nicht linear ist. Abbildung 4.6: Regelmäßigkeit der Residuen bei verkannter Nichtlinearität
Xi
Xk
Residuenregelmäßigkeiten, wie sie in Abbildung 4.6 dargestellt werden, können durch visuelle Inspektion von Streudiagrammen im Koordinatensystem zwischen
ˆ -Werten, a) standardisierten Residuen und standardisierten Y b) standardisierten (bivariate Regressionsanalyse) bzw. partiellen (multivariate Regressionsanalyse) Residuen und Xk-Werten erkannt werden. Besteht ein rein linearer Zusammenhang, so müssen in beiden Diagrammtypen die Residuen rein zufällig um ihre 0-Achse verteilt sein. Ein Residuen-Streudiagramm im Koordinatensystem (b) hatten wir im bivariaten Fall bereits zu Beginn von Kapitel 4 betrachtet. Das andere Streudiagramm im Koordinatensystem (a) zeigt die folgende Abbildung 4.7. Darin wird wieder die Residuenverteilung aus unserem Einkommensbeispiel veranschaulicht.
4 Entdeckung und Beseitigung von Modellverstößen
206
Abbildung 4.7: Residuen-Streudiagramm zur Linearitätsdiagnose mit Loess-Linie
Standardisiertes Residuum
2
1
0
-1
-1 0 1 Standardisierter geschätzter Wert
2
Um in die SPSS-Graphik auch die Gerade durch den Y-Mittelwert „0“ einzublenden, muss man im Diagramm-Editor unter dem Menü-Unterpunkt „Elemente – Anpassungslinie bei Gesamtwert“ die Option „Mittelwert von Y“ auswählen. Zudem kann entweder eine Regressionsgerade, eine Regressionskurve („quadratische Regression“) oder die „Loess-Linie“ zur Visualisierung des Variablenzusammenhangs in die Graphik integriert werden. Die Loess-Linie ist eine Anpassungslinie, die ohne Vorannahmen über Linearität oder Nicht-Linearität explorativ aus vielen kleinen aneinander gereihten Geraden gebildet wird. Dadurch kann eine zusätzliche visuelle Information über eine mögliche Linearität oder Nicht-Linearität des Variablenzusammenhangs abgerufen werden.
Das Streudiagramm in Abbildung 4.7 signalisiert, dass in unserem Einkommensbeispiel kein linearer Zusammenhang zwischen Alter und Einkommen besteht. Denn an den beiden Enden der Einkommensachse, bei den kleinen und großen ˆ -Werte), sind die Residuen eher geschätzten Einkommenswerten (standardisierte Y klein, während sie bei mittleren Einkommenswerten doch verhältnismäßig stark anwachsen. Dies ist immer dann der Fall, wenn „wahre“ Zusammenhänge zwischen Regressionsvariablen eher U- oder umgekehrt-U-förmig (bzw. kurvilinear) verlaufen und somit fälschlicherweise lineare Zusammenhänge für die Regressionsschätzung unterstellt wurden. Die Existenz kurvilinearer Variablenbeziehungen braucht aber glücklicherweise nicht dazu zu führen, dass die lineare Regressionsanalyse als inadäquates statistisches Modell abgelehnt werden muss. Denn viele nicht-lineare Zusammenhänge können durch Datentransformation in lineare Zusammenhänge überführt und so-
4.3 Linearität (A3, A4)
207
dann einer linearen Regressionsanalyse unterzogen werden. Wie das geschieht, werden wir in Kapitel 4.3.1 zeigen. Auf eine alternative Interpretation des Datenmusters in Abbildung 4.7 sei zuvor aber noch verwiesen: Bei kleinen Fallzahlen müssen die oben beschriebenen Regelmäßigkeiten der Residuenanordnung nicht automatisch als Hinweise auf nichtlineare Variablenbeziehungen gedeutet werden. Dann können auch einige wenige Ausreißerfälle bestimmte Residuenmuster erzeugen. Darauf ist entsprechend unserer Erläuterungen in Kapitel 4.1.1 bei der Residuendiagnose ebenfalls zu achten.
4.3.1 Intrinsische Linearität
Regressionsgleichungen sind dann linear, wenn sie linear in den Koeffizienten (bzw. in den Parametern) der Gleichung sind. In diesem Falle ist jeder Regressionskoeffizient identisch mit der Summe eines Produkts, das aus Yi und einem Gewichtungsfaktor besteht (vgl. Ergänzung 3.3). Diese Definition von Linearität hat (im bivariaten Modell) wenig mit dem Verlauf der Regressionsgeraden zu tun und steht auch (im multivariaten Modell) in keiner Beziehung zur Oberflächenstruktur der Regressionsfläche. Denn eine Regressionsgerade kann gekrümmt oder geschwungen verlaufen, d.h. sie kann kurvilinear sein, und dennoch kann das jeweilige Modell als lineares Regressionsmodell nach der OLS-Methode geschätzt werden. Kurvilineare Modelle sind immer als lineare Modelle zu schätzen, wenn die Kurvilinearität nicht durch eine Eigenart der Regressionskoeffizienten, sondern durch eine besondere Konstellation der Prädiktoren verursacht wird. Dann kann ein Modell zwar auf den ersten Blick nicht-linear erscheinen, weil es einen kurvilinearen Funktionsverlauf zeigt, aber dieser Funktionsverlauf kann durch einige Transformationen der X-Variablen in einen linearen Funktionsverlauf überführt werden. Eine Linearisierung von kurvilinearen Modellen ist immer möglich, wenn ein nicht-lineares Modell eine intrinsische Linearität der Variablen bzw. Variablenkombinationen aufweist. Machen wir uns dies an einem Beispiel deutlich: Die Linearität eines Regressionsmodells bedeutet zunächst einmal, dass in der entsprechenden Regressionsgleiˆ um chung mit jeder Erhöhung von X um eine bestimmte Einheit die Variable Y den Wert des Regressionskoeffizienten ansteigt. Und dies ist unabhängig davon, ob die X-Variable von 1,00 auf 2,00 oder von 10,00 auf 11,00 erhöht wird.
4 Entdeckung und Beseitigung von Modellverstößen
208
Wenn eine Regressionsgleichung von der Art ist:
ˆ a bX 2 Y so ist eine derartige Linearität nicht mehr gegeben. Denn wenn dort X um eine ˆ: Einheit ansteigt, z.B. von 1 auf 2, dann beträgt die Steigerung von Y
ˆ b2 2 b12 'Y
b4 b1 b3
und dies ist ein anderer Anstieg als derjenige, der durch einer Steigerung der XVariablen von 6 auf 7 (also ebenfalls eine Steigerung um nur eine Einheit) ausgelöst wird: ˆ b7 2 b6 2 b49 b36 b13 'Y Hinter dieser Nicht-Linearität verbirgt sich jedoch glücklicherweise eine „intrinsische Linearität“ in den Variablen. Deshalb kann die Linearität durch Transformation der Variablenwerte wieder hergestellt werden. In unserem Einkommensbeispiel mit kurvilinearem Zusammenhang zwischen Alter und Einkommen (vgl. Abbildung 4.7) müssen wir dazu X als X2 neu definieren: X’ = X2. Dann ist die betreffende Regressionsschätzung wieder linear (allerdings mit neuen Werten für die XVariable):
ˆ a bX' Y Wenn also der im Streudiagramm (Abbildung 4.7) entdeckte Zusammenhang zwischen erwartetem Einkommen und Lebensalter tatsächlich ein umgekehrt-Uförmiger, kurvilinearer Zusammenhang ist, kann er durch die folgende Funktionsgleichung beschrieben werden: ˆ = a + b1X1 + b2X12 Y In diesem Falle kann diese nicht-lineare Funktionsgleichung nach einer entsprechenden Variablentransformation auch in Form folgender linearer Regressionsgleichung bestimmt werden: ˆ = a + b1X1 + b2X2’ Y
(mit: X2’ = X12)
(4.1)
4.3 Linearität (A3, A4)
209
In SPSS kann die quadrierte Variable (X12) mit einem einfachen COMPUTE-Befehl generiert werden: COMPUTE alter2 = alter*alter. Danach kann die Regression nach Gleichung 4.1 geschätzt werden, indem in unserem Einkommensbeispiel neben der ursprünglichen Altersvariablen die neu generierte Variable „alter2“ als zusätzliche unabhängige Variable in die Regressionsanalyse aufgenommen wird.
Das Ergebnis einer trivariaten Regressionsschätzung mit unserem Beispielsdatensatz aus Tabelle 2.2 (Einkommensbeispiel) lautet:
ˆ = – 1565,82 + 153,86 X1 – 1,69 X2’ Y (22,10) (0,25) mit: R2 = 0,84; SEE = 328,74 (27,40% von Y ) oder, wenn X2’ in X12 zurück verwandelt wird:
ˆ = – 1565,82 + 153,86 X1 – 1,69 X12 Y (22,10) (0,25) mit: R2 = 0,84; SEE = 328,74 (27,40% von Y )
(4.1a)
In der folgenden Tabelle 4.1 werden die mit einer linearen und die mit einer quadratischen Regressionsgleichung geschätzten Y-Werte einander gegenüber gestellt. Dabei werden (im Unterschied zu Tabelle 2.2) die Fälle nach ihrem Alter aufsteigend sortiert. Dadurch wird der Unterschied zwischen linearer und quadratischer Regressionsschätzung besonders deutlich: Während die vorhergesagten Einkommenswerte in der linearen Regression immer weiter ansteigen und damit besonders bei den beiden Fällen über 70 Jahre sehr schlechte Einkommensprognosen abgeben, steigt gemäß der quadratischen Regression das Nettoeinkommen mit dem Alter zunächst an. Mit zunehmendem Alter wird der Anstieg des Einkommens jedoch abgebremst (hier etwa ab 38 Jahren) und fällt beginnend mit einem Alter von 41 Jahren wieder ab (sogar rapide bei den über 70-jährigen Personen). Durch die Berücksichtigung der Kurvilinearität im Verhältnis von Alter und Einkommen steigt der Determinationskoeffizient der Regressionsschätzung von 0,07 (lineare Schätzung) auf 0,84 (quadratische Schätzung) an. Die Varianzausschöpfung ist damit in der quadratischen Regression zwölfmal so hoch wie in der linearen Regression. Im Unterschied zur linearen Regressionsschätzung ist zudem auch der geschätzte Regressionskoeffizient b1 nunmehr signifikant (vgl. Gleichung 2.12a auf Seite 149 versus Gleichung 4.1a).
4 Entdeckung und Beseitigung von Modellverstößen
210
Tabelle 4.1: Vorhergesagte unstandardisierte Werte der linearen und kurvilinearen (quadratischen) Regression von Einkommen auf Alter X
Y
Alter
Einkommen
10 17 20 25 31 38 41 52 52 59 71 75
(Euro) 0 100 1000 1500 1400 1550 2000 1600 2500 1500 800 450
ˆ Y geschätztes Einkommen (lineare Regression) 910,28 975,87 1003,98 1050,83 1107,05 1172,64 1200,75 1303,82 1303,82 1369,41 1481,85 1519,33
ˆ Y geschätztes Einkommen (quadratische Regression) -196,24 561,29 835,23 1224,17 1579,32 1839,82 1900,75 1863,79 1863,79 1627,26 836,33 464,49
Die vorhergesagten unstandardisierten Y-Werte können in SPSS leicht in einer neuen Variablen abgespeichert werden, indem im Regressionsmenü unter dem Unterpunkt „Speichern…“ die Option „vorhergesagte Werte – unstandardisiert“ ausgewählt wird. Alternativ kann der SPSS-Syntax-Befehl der linearen Regression um die Anweisung erweitert werden: „/SAVE PRED“.
In SPSS gibt es alternativ zur hier vorgestellten Vorgehensweise auch die Möglichkeit, in direkter Weise quadratische (und andere kurvilineare) Regressionsschätzungen durchzuführen. Hierzu wählt man im Menü „Analysieren“ und dem Unterpunkt „Regression“ den Punkt „Kurvenanpassung…“ aus. Dort steht eine Reihe von nicht-linearen Funktionen zur Verfügung. Für einen Vergleich von linearer und quadratischer Schätzung können z.B. diese beiden Spezifikationen direkt ausgewählt werden. Unter dem Untermenü „Speichern“ lassen sich auch dabei wieder die vorhergesagten Y-Werte in einer neuen Variablen abspeichern. Der entsprechende SPSS-Syntax-Befehl lautet: CURVEFIT /VARIABLES=Einkommen WITH Alter /CONSTANT /MODEL=LINEAR QUADRATIC /PLOT FIT /SAVE=PRED.
Bei Neudefinition von Variablen durch Transformation solcher Variablen, die bereits in der Regressionsgleichung enthalten waren, ergeben sich als unerwünschte Nebenfolge hohe Multikollinearitäten zwischen ursprünglicher und neu gebildeter X-Variablen. In unserem Beispiel korrelieren X1 und X2’ mit einem r = 0,98, was negative Konsequenzen für die Regressionsschätzung hat. In Kapitel 4.5 werden wir darauf zurückkommen.
4.3 Linearität (A3, A4)
211
Alle folgenden Regressionsgleichungen enthalten intrinsisch lineare Modellspezifikationen (und viele weitere kurvilineare Modelle mit intrinsischer Linearität sind möglich): Y a bX U
Y
a b1X1 b 2 X 2 2 U
Y
a b1logX U
Y
ab X U
In den Abbildungen 4.8a bis 4.8e werden für einige häufig anzutreffende, nichtlineare Modellspezifikationen folgende Informationen aufgelistet: 1. die nicht-lineare Funktionsbestimmung des Regressionsmodells, 2. die zur Linearisierung des Modells notwendigen Transformationen, 3. die lineare Funktionsbestimmung des Regressionsmodells. Abbildung 4.8: Linearisierbare Funktionen 4.8a: exponentieller Zusammenhang 1. Y = × e X × U 2. Y’ = ln(Y) ’ = ln(a) U’ = ln(U) 3. Y’ = a’ + bx + U’
4.8b: parabolischer/quadratischer Zusammenhang 1. Y = + 1X + 2X2 + U 2. X2’ = X2 3. Y = a + b1X1 + b2X2’ + U
4 Entdeckung und Beseitigung von Modellverstößen
212 4.8c: logarithmischer Zusammenhang 1. Y = + logX + U 2. X’ = logX 3. Y = a + bX’ + U
4.8d: inverser/reziproker Zusammenhang 1. Y = + /X + U 2. X’ = 1/X 3. Y = a + bX’ + U
4.8e: logistischer Zusammenhang5 1. Y
e X
1 e X 2. Y’ = ln (Y/(1–Y)) 3. Y’ = + X
Alle Variablentransformationen (auch diejenigen in Abbildung 4.8) lassen sich in SPSS mit dem COMPUTE-Befehl durchführen. Alternativ können, wie oben beschrieben, die hier vorgestellten kurvilinearen Funktionen auch über die SPSSProzedur zur kurvilinearen Regressionsschätzung ermittelt werden. 5 Mit der OLS-Schätzung der in Beispiel 4.8e aufgeführten Gleichung (3.) sind Probleme verbunden. Deshalb sollte hier ein Maximum-Likelihood-Schätzverfahren benutzt werden (vgl. Urban 1993: 25-34).
4.3 Linearität (A3, A4)
213
Im Regressionsmodell von Abbildung 4.8a fällt auf, dass dort die Residuen nicht additiv, sondern multiplikativ auf Y einwirken. Inhaltlich indiziert dies einen großen Einfluss von U, wenn Y groß ist, und einen geringen Einfluss von U, wenn Y kleinere Werte annimmt. Durch die Logarithmierung der Gleichung lässt sich die Linearität der Beziehung jedoch wieder herstellen. Wäre U nicht multiplikativ in die Regressionsgleichung einbezogen, so ließe sich die logarithmische Transformation nicht durchführen und damit auch die Regressionsschätzung nicht nach der OLS-Methode vornehmen. Es sei jedoch warnend darauf hingewiesen, dass durch die multiplikative Einbeziehung von U möglicherweise die Annahme A4 (Cov(UiUj) = 0) verletzt wird. Dies wäre der Fall, wenn sich nachweisen ließe, dass die Residuen miteinander korrelieren, d.h. wenn ein hohes Ui notwendigerweise ein hohes Uj nach sich ziehen würde. Auf dieses Problem werden wir in Kapitel 4.7 noch näher eingehen. Modelle nach der Art von 4.8a sind zumeist Wachstumsmodelle, in denen z.B. die Entwicklung des Bevölkerungswachstums in Abhängigkeit von der Zeit beschrieben wird. Nehmen wir an, man würde nach entsprechender Transformation eine Regressionsschätzung von folgender Art erhalten (nach Wonnacott/Wonnacott 1977: 446-450): ˆ = 3,90 + 0,22 X Y Die Variable X hätte dabei Werte entsprechend der verschiedenen Zeitpunkte für die Beobachtung von Y. Dann wäre diese Schätzung zurückzuübersetzen in:
ˆ = ln 3,9 + ln 0,022 Y („ln“ bezeichnet den natürlichen Logarithmus mit der Basis e = 2,718) ˆ = e3,9 × e0,022 X Y ˆ = 49,5 × e0,022 X Y Der Wert „a = 49,5“ wäre die Schätzung der Bevölkerungsgröße zum Zeitpunkt X = 0, z.B. 49,5 Millionen Amerikaner im Jahre 1880. Und der Koeffizient b = 0,022 bezeichnete die jährliche Wachstumsrate von 2,2%, die in dieser Regressionsanalyse geschätzt wurde.
214
4 Entdeckung und Beseitigung von Modellverstößen
4.3.2 Intrinsische Linearität: Interaktivität
Eine spezielle Form intrinsischer Linearität der Variablen liegt dann vor, wenn ein theoretisches Modell nicht nur separate X-Effekte aufweist, sondern auch solche Effekte enthält, die durch das Zusammenwirken von mindestens zwei X-Variablen entstehen. Beispielsweise kann die Sparaktivität von Familien sowohl von der Familiengröße (X1) als auch vom Familieneinkommen (X2) bestimmt werden. Zusätzlich ist aber auch noch denkbar, dass bei einer Verringerung des Einkommens große Familien anders reagieren würden als kleine Familien. Dann existiert neben den direkten Effekten von X1 und X2 noch ein dritter Effekt (X3), dessen Stärke sowohl von X1 als auch von X2 abhängt. Ein solcher dritter Effekt würde inhaltlich bedeuten, dass die Sparaktivität dann besonders hoch ist, wenn die Familie groß wäre (X1) und zugleich das Familieneinkommen gering wäre (X2). In diesem Falle würden zwei X-Variablen „interagieren“ und gemeinsam einen Einfluss auf Y ausüben. Ein derartiger Effekt wird Interaktionseffekt genannt. Er ist in den Sozialwissenschaften besonders bedeutsam, da dort in vielen theoretischen und analytischen Aussagen bestimmte Einflüsse vom Vorhandensein anderer Einflüsse abhängig gemacht werden. Ein berühmtes Beispiel für einen theoretisch begründeten Interaktionseffekt stammt z.B. aus der Wert-Erwartungstheorie. Diese postuliert, dass die Selektionsprozesse bei der Wahl von Handlungsalternativen sowohl von den Bewertungen der Handlungskonsequenzen als auch von den Erwartungen über deren Realisierung abhängen. In der Regressionsanalyse wird ein Effekt, der nur durch das Zusammenspiel von mehreren Bestimmungsfaktoren entsteht, als Einfluss einer unabhängigen Interaktionsvariablen modelliert. Die Interaktivität wird in das Regressionsmodell aufgenommen, indem die Anzahl der unabhängigen Variablen um einen multiplikativen Faktor ergänzt wird. Nehmen wir zur Veranschaulichung das oben angeführte Beispiel über das Sparverhalten, so lautet die entsprechende Regressionsgleichung:
Y a b1Größe b 2 Einkommen b3Größe u Einkommen U Um die Linearität der Effekte in dieser Regressionsgleichung herzustellen, muss genau wie im vorherigen Unterkapitel erläutert, der multiplikative Term in eine Interaktionsvariable überführt werden. Dazu wird das Produkt „Größe × Einkom-
4.3 Linearität (A3, A4)
215
men“ in die Variable „X3’“ transformiert, so dass die lineare Regressionsgleichung nunmehr lautet:
Y
a b1X1 b 2 X 2 b3X 3 ' U
Die Variable X3’ ist in der Regressionsschätzung eine reale Variable. Hinsichtlich ihrer substanziellen Interpretation ist sie jedoch nur eine Phantom-Variable. Es gibt kein empirisches Korrelat zu X3’, sondern die Variable X3’ soll einen Einflusstyp identifizieren, der sich aus der Wechselwirkung der beiden empirischen Variablen X1 und X2 zusammensetzt. Solche Phantom-Variablen werden manchmal auch Regressoren genannt, um ihren nicht-empirischen Charakter zu verdeutlichen. Regressoren sind Variablen ohne eigenständigen empirischen Messbereich, die benötigt werden, um kurvilineare Modellspezifikationen als Linearmodelle analysieren zu können. Zur Verdeutlichung der Wirkungsweise von Interaktionseffekten wollen wir unser Ausländerablehnungsbeispiel (vgl. Tabelle 2.3) um einen interaktiven Effekt anreichern. Wir nehmen an, dass neben den isolierten Einflüssen von Autoritarismus und Berufsprestige ein zusätzlicher Interaktionseffekt auf die Ausländerablehnung wirkt, der sich aus der Wechselwirkung von Autoritarismus und Berufsprestige ergibt. Je höher das Berufsprestige und je geringer der Autoritarismus, so die Annahme, desto niedriger ist die Ausländerablehnung. Beide Einzeleinflüsse erzeugen also in ihrer jeweiligen Kombination noch einmal einen zusätzlichen Effekt, der ebenfalls die Entstehung der Ausländerablehnung beeinflusst. Somit wird neben den Variablen „Autoritarismus“ und „Prestige“ eine dritte unabhängige Variable in die Regressionsgleichung aufgenommen, die sich als Interaktionsvariable aus der multiplikativen Verknüpfung der beiden unabhängigen Variablen ergibt: „Autoritarismus × Berufsprestige“. Wichtig ist, dass bei Untersuchung der Wirkungsweise eines multiplikativ zu verstehenden Effekts nicht nur eine dementsprechende Interaktionsvariable als Prädiktorvariable in die Regressionsanalyse aufgenommen wird. Auch die beiden Haupteffekte, aus denen die Interaktionsvariable gebildet wurde (hier: Autoritarismus und Berufsprestige), müssen als unabhängige Variablen in der Regressionsgleichung berücksichtigt werden. Denn nur dann wird statistisch kontrolliert, ob der Interaktionseffekt unabhängig von den Einzeleffekten seiner Komponenten einen eigenständigen Einfluss auf Y ausübt. Wenn sich dann im Schätzergebnis zeigt,
216
4 Entdeckung und Beseitigung von Modellverstößen
dass sowohl die isolierten Haupteffekte als auch deren Interaktionseffekt signifikante Einflüsse ausüben, verweist dies darauf, dass einerseits die beiden Prädiktoren bedeutsame, unabhängige Einflüsse ausüben, und dass andererseits die beiden Prädiktoren durch ihre wechselseitige Verstärkung oder Abschwächung noch einen dritten Einfluss ausüben, den sie gemeinsam erzeugt haben. Wenn eine theoretische Argumentation verlangt, dass nur ein Interaktionseffekt bedeutsam sein sollte, so gilt dieser (streng genommen) nur dann als statistisch bestätigt, wenn für den Interaktionseffekt ein signifikanter Einfluss nachgewiesen werden kann und gleichzeitig die beiden isolierten Haupteffekte ohne signifikantes Schätzergebnis bleiben. Mit der simultanen Schätzung von Interaktionseffekt und dazugehöriger Haupteffekte ist ein bedeutsamer Nachteil verbunden; fast immer entstehen dadurch Multikollinearitätsprobleme (vgl. Kapitel 4.5). Diese können jedoch durch spezielle Variablentransformationen (noch vor der Regressionsschätzung) beseitigt werden (dazu mehr in Kapitel 4.5.2). In SPSS kann eine Regressionsschätzung mit multiplikativen Interaktionseffekten relativ einfach angefordert werden. Es muss lediglich mittels des COMPUTE-Befehls eine neue Variable generiert werden, deren Werte sich multiplikativ aus den Werten der jeweiligen Einzelvariablen ergeben. Dabei ist die Richtung der Kodierung der Variablenwerte zu beachten: In unserem Ausländerablehnungsbeispiel (vgl. Tabelle 2.3), bei dem Autoritarismus und Prestige interagieren sollen, muss die Autoritarismusvariable gedreht werden (mittels RECODE-Befehl), damit dort hohe Skalenwerte einen niedrigen Autoritarismus indizieren. Auf diese Weise kann mit einer Interaktionsvariablen überprüft werden, ob die Ausländerablehnung dann besonders niedrig ist, wenn das Berufsprestige hoch und gleichzeitig der Autoritarismus gering ist. Die entsprechenden Syntax-Befehle lauten: 1.) Befehl zur Rekodierung des Autoritarismus-Index mit einem Wertebereich von 3 bis 21: RECODE au (3=21) (4=20) (5=19) (6=18) (7=17) (8=16) (9=15) (10=14) (11=13) (12=12) (13=11) (14=10) (15=9) (16=8) (17=7) (18=6) (19=5) (20=4) (21=3) INTO auto2. Die gleiche Rekodierung lässt sich auch durch folgenden Befehl erreichen: COMPUTE auto2 = 24 – au. 2.) Befehl zur Erstellung der Interaktionsvariablen als „Berufsprestige × Autoritarismus (rekodiert)“: COMPUTE interaktion = prestige*auto2.
Die Regressionsanalyse (mit den Daten aus Tabelle 2.3) ergibt folgende Regressionsschätzung:
ˆ = 43,57 – 1,62 Autoritarismus – 0,15 Prestige + 0,01 Interaktion Y (–0,90) (–0,53) (0,31) mit: R2 = 0,60; SEE = 5,95 (42,81% von Y )
4.4 Spezifikationsprobleme
217
Das Ergebnis zeigt, dass der Interaktionseffekt zwischen Autoritarismus und Prestige sowie die beiden isolierten Haupteffekte nicht signifikant sind. Zudem entspricht die Effektrichtung (d.h. das Vorzeichen) des Interaktionseffekts nicht unserer Hypothese. Entweder ist also unsere theoretische Annahme nicht richtig, oder unsere Daten sind fehlerbelastet, oder es gibt einen Spezifikationsfehler, oder es besteht ein Verstoß gegen notwendig einzuhaltende Regressionsannahmen, oder (was hier am wahrscheinlichsten ist) die Fallzahl ist einfach viel zu gering, um eine zuverlässige Regressionsschätzung zu erreichen. Denn mit der kleinen Fallzahl ist natürlich auch die damit verbundene Teststärke äußerst gering (vgl. die Argumentation in Kapitel 3.2.3). Natürlich liegt im Modell auch ein Spezifikationsfehler vor, da die Multikollinearität, die durch die hohe Kovarianz zwischen der Interaktionsvariablen und den beiden Hauptvariablen entsteht (r = 0,82 bzw. 0,77), nicht beseitigt wurde (vgl. Kapitel 4.5 zur Beseitigung solcher nicht-essenzieller Multikollinearitätsprobleme). Weitere Erläuterungen zur Interpretation von Interaktionsvariablen, die aus kontinuierlichen Variablen gebildet werden, finden sich in Unterkapitel 5.2.1.
Z4.4: Kurvilinear verlaufende Funktionszusammenhänge sind in der Regressionsanalyse immer dann in linearisierter Form mit dem OLSVerfahren zu schätzen, wenn das jeweilige Regressionsmodell intrinsisch linear ist. Das gilt auch für multiplikativ wirkende Effekte. Die dabei häufig zur Linearisierung erforderlichen zusätzlichen Regressoren und Interaktionsvariablen können Multikollinearitätsprobleme erzeugen, die aber zu beseitigen sind.
4.4
Spezifikationsprobleme
Für eine Regressionsanalyse müssen Zusammenhänge, die theoretisch oder analytisch begründbar sind, als Variablenzusammenhänge in einem Regressionsmodell spezifiziert werden. Und dementsprechend muss auch die zu schätzende Regressionsgleichung bestimmt werden (vgl. Kapitel 1.2 und 2.1). Die Spezifikation eines Regressionsmodells ist die am stärksten durch theoretische und/oder analytische Annahmen beeinflusste Arbeitsphase einer Regressionsanalyse. Denn dabei müssen alle Modellvariablen bestimmt werden, und es müssen auch die mathematischen
218
4 Entdeckung und Beseitigung von Modellverstößen
Funktionen, mit denen die Variablen untereinander verknüpft werden, festgelegt werden. So lässt sich auch nur wenig Generelles zur Durchführung einer guten, d.h. theorieoder hypothesenadäquaten Modellspezifikation ausführen. Die Modellspezifikation ist eine analytische Forschungsaufgabe, deren praktische Umsetzung ganz und gar von dem zu spezifizierenden Argumentationszusammenhang abhängt. So muss im o.g. Modell zur Ausländerablehnung (vgl. Tabelle 2.3) noch vor der eigentlichen statistischen Analyse darüber entschieden werden, ob mit den Variablen „Autoritarismusskala“ und „Berufsprestige“ eine angemessene empirische Spezifikation dessen erfolgt, was mit theoretischen Konstrukten wie „autoritäre Einstellung“ oder „soziale Anerkennung“ gemeint ist. Allerdings können wir in diesem Skript, auch ohne auf die inhaltliche Substanz konkreter Regressionsanalysen eingehen zu müssen, darüber informieren, welche Konsequenzen die verschiedenen Spezifikationsfehler für die Qualität einer Regressionsanalyse haben. Spezifikationsfehler entstehen immer dann, wenn die Umsetzung von theoretischen oder analytischen Argumentationszusammenhängen in regressionsspezifische Modelle nur unvollkommen gelingt. Solche Fehler entstehen a) durch Nichtberücksichtigung einer oder mehrerer wichtiger unabhängiger Variablen, b) durch Berücksichtigung einer oder mehrerer irrelevanter unabhängiger Variablen, c) durch unkorrekte mathematische Verknüpfungen zwischen den unabhängigen Variablen und der abhängigen Y-Variablen. Die Möglichkeit c) wurde in den vorhergehenden Unterkapiteln ausführlich behandelt. Werden Variablen linear verknüpft, denen in Wirklichkeit nicht-lineare Einflussverbindungen zugrunde liegen, so kommt es zu Spezifikationsfehlern, deren Bedeutung in Kapitel 4.3 beschrieben wurde. Im Folgenden (auch in den Unterkapiteln 4.5.1 und 4.5.2) werden wir uns auf die Entstehung und Beseitigung von Spezifikationsfehlern konzentrieren, die infolge der Nichtberücksichtigung wichtiger unabhängiger Variablen entstanden sind (Fall a).
4.4 Spezifikationsprobleme
219
Generell betrachtet führen Spezifikationsfehler gleich welcher Ursache zu verzerrten Schätzwerten in der Regressionsschätzung (engl. „biased estimates“). Es besteht dann Grund zu der Annahme, dass es systematische Abweichungen zwischen den geschätzten Modellkoeffizienten und den „wahren“ Populationsparametern gibt. Die Art der Verzerrung kann man sich leicht mittels eines einfachen Gedankenexperiments verdeutlichen: Nehmen wir ein multiples Regressionsmodell, in dem alle unabhängigen Variablen einen positiven Einfluss auf Y ausüben und zudem positiv miteinander korreliert sind. In diesem Falle müssten aufgrund der Nichtberücksichtigung einer wichtigen X-Variablen die b’s überzogen geschätzt werden, da im vollständigen Modell die Effekte der verbliebenen X-Variablen um die Korrelation mit der ausgeschlossenen Variablen korrigiert worden wären (Stichwort „Auspartialisierung“, vgl. Kapitel 2.3.1). Es ist auch möglich, den Grad der Verzerrung in allgemeiner Form zu bestimmen. Für ein Regressionsmodell von der Form: Y = + 1X1 + 2X2 + 3X3 + das in der folgenden Regressionsgleichung durch Auslassen von X3 falsch spezifiziert wurde: Y = a + b1X1 + b2X2 + U ergibt sich eine zu erwartende Verzerrung von der Größe: E(b1) = 1 + 3b31 E(b2) = 2 + 3b32 Es wird damit deutlich, a) dass je bedeutender die ausgeschlossene Variable ist (3), sich die Verzerrung umso stärker erhöhen wird; b) dass je bedeutender die Korrelationen r32 und r31 sind, umso stärker die Verzerrung sein wird; c) dass die Richtung der Verzerrung vom Vorzeichen von und b abhängig ist.
220
4 Entdeckung und Beseitigung von Modellverstößen
Generell lässt sich also sagen, dass Spezifikationsfehler durch Nichtberücksichtigung von unabhängigen Variablen nur bei wichtigen unberücksichtigten Variablen und bei hoher Kovarianz bedeutend werden.
4.4.1 Strategien zur Vermeidung von Spezifikationsfehlern
Die wichtigste Strategie zur Vermeidung von Verzerrungen durch Spezifikationsfehler besteht natürlich darin, ein Regressionsmodell um evtl. unberücksichtigt gebliebene Variablen zu erweitern. Besteht jedoch keine Möglichkeit, ausgelassene Variablen in ein Regressionsmodell aufzunehmen, sei es, weil sie nicht gemessen wurden, oder sei es, weil sie prinzipiell nicht gemessen werden können, so kann versucht werden, den Spezifikationsfehler durch die Aufnahme von ProxyVariablen gering zu halten. Proxy-Variablen können in der Regressionsanalyse als Kontrollvariablen dienen, um die Effekte von ausgelassenen Variablen zu simulieren und durch Auspartialisierung von deren Kovarianzanteilen die ansonsten zu erwartenden Schätzverzerrungen zu reduzieren oder gänzlich auszuschalten. Verdeutlichen wir dies anhand unseres Beispiels zur Erklärung von Ausländerablehnung. Dazu nehmen wir an, dass zwar die Bedeutung der subjektiv wahrgenommenen Schichtzugehörigkeit für die Entstehung ausländerablehnender Einstellungen analytisch bzw. theoretisch begründet werden kann, dass aber keine Messwerte zu diesem Konstrukt vorliegen. Dann könnte als Proxy-Variable bzw. Kontrollvariable zur Vermeidung von verzerrten Schätzungen das gemessene Nettoeinkommen in das Modell aufgenommen werden. Dies geschähe nicht, weil ein theoretisch bedeutsamer Zusammenhang zwischen Einkommen und ausländerablehnenden Einstellungen vermutet wird, sondern weil das Einkommen als „ProxyVariable“ („Stellvertreter-Variable“) für die subjektive Schichtzugehörigkeit zu verwenden ist. Dies könnte z.B. durch Studien belegt werden, die einen starken Zusammenhang zwischen Einkommen und subjektiver Schichtzugehörigkeit nachgewiesen haben. Natürlich sollte der Einkommenseffekt in der Regressionsanalyse nicht als Schichteffekt interpretiert werden. Aber er kann die durch das Fehlen der subjektiven Schichtvariablen verloren gegangene Varianz ein Stück weit abfangen, und zwar umso mehr, je höher die Kovarianz zwischen der Proxy-Variablen und der eigentlich im Modell zu berücksichtigenden Variablen ist. Aus diesem Grund werden in den Sozialwissenschaften häufig zusätzliche Kontrollvariablen in die Regressionsanalyse aufgenommen, die als Proxy-Variablen die verzerrenden Effekte von nicht gemessenen oder nicht zu messenden Einflüssen
4.4 Spezifikationsprobleme
221
auffangen sollen. Hierzu zählen vor allem sozio-ökonomische Globalvariablen wie Geschlecht, Alter oder Bildung. Die Verwendung von Globalvariablen oder Proxy-Variablen als Kontrollvariablen bedeutet nicht, dass damit die Gefahr von Spezifikationsfehlern gänzlich auszuräumen ist. Diese Gefahr kann damit lediglich etwas abgemildert werden. Und die rein vorsorgliche Verwendung von Kontrollvariablen wie Alter oder Geschlecht macht auch wenig Sinn. Denn die jeweilige Globalvariable oder Proxy-Variable muss in einem logischen (und im Idealfall: in einem empirisch nachgewiesenen) Zusammenhang mit derjenigen Variablen stehen, die eigentlich in das Regressionsmodell aufgenommen werden sollte. Es ist also immer besser und auch ratsam, durch sorgfältige Operationalisierung aller argumentativ bedeutsamen Konstrukte möglichst alle wichtigen unabhängigen Variablen zu identifizieren, um sie dann empirisch messen und als Indikatorvariablen in die Regressionsanalyse einbinden zu können. Eine andere Möglichkeit, die Varianzeffekte der ausgeschlossenen bzw. nicht gemessenen Variablen zu kontrollieren oder gänzlich zu eliminieren, besteht darin, mittels Stratifizierung in der Erhebung oder im analysierten Datensatz die Varianz dieser Variablen konstant zu halten. Dazu werden die zu erhebenden bzw. zu analysierenden Beobachtungsfälle in Gruppen eingeteilt, von denen vermutet wird, dass sie hinsichtlich der zu kontrollierenden Variablen homogene Varianzen aufweisen. Kann zum Beispiel bei einem Ländervergleich der Industrialisierungsgrad als wichtiger Prädiktor in einer Regressionsanalyse nicht gemessen werden, so könnte versucht werden, diesen im Datensatz konstant zu halten, um dadurch Spezifikationsfehler zu vermeiden. Dann sollten nur solche Länder in die Analyse einbezogen werden, von denen vermutet wird, dass sie einen möglichst homogenen Industrialisierungsgrad aufweisen. Dieses Verfahren erfordert allerdings einiges an Vorwissen über die entsprechenden Zusammenhänge, das häufig nicht zur Verfügung steht. Es gibt ein mittlerweile klassisches Beispiel, bei dem ein Spezifikationsfehler zu großen Schwierigkeiten bei der Interpretation einer Regressionsschätzung geführt hat. Robinson hatte die Daten des 1930er Zensus in den USA dazu benutzt, den Analphabetismus mit Hilfe der Variablen „Auslandsgeborener vs. Inlandsgeborener“ zu erklären. In seinem bivariaten Modell erhielt er einen signifikanten Regressionskoeffizienten von 0,07, der besagte, dass Auslandsgeborene eine etwas höhere Wahrscheinlichkeit als Inlandsgeborene haben, auch Analphabeten zu sein. Zusätzlich berechnete Robinson dieses Modell auf einer anderen Aggregationsstufe. Er analysierte auf der Ebene der amerikanischen Bundesstaaten (womit er die Ebene einzelner Personen verließ) den Prozentsatz an Analphabeten in Abhängigkeit vom jeweiligen Bevölkerungsanteil an Auslandsgeborenen. Der geschätzte Regressionskoeffizient hatte auf dieser Analyse-Ebene einen Wert von –0,29.
222
4 Entdeckung und Beseitigung von Modellverstößen
Nun könnte die Frage gestellt werden, ob es auf Staatsebene einen größeren und zudem auch noch gedrehten Effekt der entsprechenden X-Variablen gibt. Jedoch ist das zweite Ergebnis verzerrt und Folge eines Spezifikationsfehlers. Es lässt den Einfluss des jeweiligen, staatlich-organisierten Schulsystems auf die Ausbildung der Einwanderer-Kinder unberücksichtigt, wobei auch noch eine positive Korrelation zwischen der Rate der Auslandsgeborenen und des besuchten staatlichen Schulsystems besteht (im Jahre 1930 lebten die meisten Einwanderer in den mittleren Atlantik-Staaten und den nördlichen Zentral-Staaten). Hanushek/Jackson (1977: 84f) haben versucht, diese Variablen zu messen und zusätzlich in das Regressionsmodell einzubringen. Mit zusätzlichen Kontrollvariablen (Anteil der 7- bis 13-jährigen Schulkinder an der Gesamtbevölkerung, Anteil der schwarzen, mexikanischen und indianischen Bevölkerung) kann der Spezifikationsfehler weitgehend zurückgedrängt werden. Der Regressionskoeffizient für den Einfluss des Auslandsgeborenenanteils wird wieder positiv und weist einen Wert von 0,12 auf.
4.4.2 Ermittlung von Spezifikationsfehlern (A3)
Zur Entdeckung von Spezifikationsfehlern gibt es keine gesicherte Methode. Wenn die unberücksichtigt gebliebenen Variablen nicht theoretisch oder analytisch bestimmt werden können, ist es schwierig, auf statistischem Wege gut verwendbare Hinweise auf die Existenz von Spezifikationsfehlern zu erhalten. Als Hinweis auf mögliche Fehlspezifikationen kann ein Verstoß gegen die Residuenannahme A3 gewertet werden (A3: Cov(XiUi) = 0). Denn wenn das geschätzte Regressionsmodell vom wahren Modell abweicht, so werden die Residuen sehr wahrscheinlich mit einer oder mehreren unabhängigen Variablen (sog. Störvariablen) korreliert sein. Denn weil die Residuen all diejenigen Faktoren umfassen, die ebenfalls Y beeinflussen, aber nicht explizit spezifiziert sind, kann auch eine einzige X-Variable, die aus dem Modell ausgeschlossen wurde, aber einen starken Einfluss auf Y ausübt, einen großen Anteil der Varianz in U ausmachen. Die Verteilung der Residuen kann dann mit einer X-Variablen, die im Modell enthalten ist, kovariieren, wenn diese X-Variable auch mit der ausgelassenen Variablen zusammenhängt (was zudem eine Bedingung für die Existenz von verzerrten Schätzwerten ist, vgl. Kapitel 4.4). Eine solche Kovarianz würde über eine beobachtbare Korrelation zwischen X und U feststellbar sein. Im Streudiagramm zwischen U und ˆ (für multiple Modelle) müsste in X (für bivariate Modelle) oder zwischen U und Y diesem Fall eine auffällige Regelmäßigkeit der Residuen beobachtbar sein. Die folgende Abbildung 4.9 zeigt ein solches Streudiagramm. Darin ist leicht zu erkennen, dass die Residuen mit größer werdenden X-Werten anwachsen und es somit eine positive Korrelation zwischen U und X gibt. Dies kann ein deutlicher Hinweis auf eine fehlende X-Variable und somit auf einen potenziellen Spezifika-
4.4 Spezifikationsprobleme
223
tionsfehler sein. Aber auch andere systematische Verteilungsmuster von U können ihre Ursache in Fehlspezifikationen des Regressionsmodells haben. Abbildung 4.9: Residuenverteilung als Folge eines Spezifikationsfehlers
Bohrnstedt/Carter (1971: 128) haben ein Simulationsexperiment gemacht, um den Zusammenhang zwischen der Korrelation von X mit U und dem Ausmaß eines Schätzfehlers des Regressionskoeffizienten (byx) nachzuweisen. Die Ergebnisse zeigt die folgende Tabelle 4.2. Tabelle 4.2: Ausmaß der Schätzfehler von bxy in Abhängigkeit von rxu yx
=
0,30
byx
=
0,34 0,38 0,42 0,46 0,26 0,22 0,18 0,14
rxu
= 0,0 -
0,2 0,4 0,6 0,8 0,2 0,4 0,6 0,8
224
4 Entdeckung und Beseitigung von Modellverstößen
In der ersten Zeile von Tabelle 4.2 wird der wahre Parameter des Effekts von X auf Y benannt. Er beträgt yx = 0,30 und es gibt in diesem Modell auch keine Korrelation von X mit U (rxu = 0,00). Der wahre Parameter (yx = 0,30) verändert sich, wenn die Korrelation rxu ansteigt. Mit größer werdender Korrelation wird der Regressionskoeffizient massiv verzerrt (die Kovarianz zwischen Y und X und die Varianz von X wurden im Experiment konstant gehalten). Leider liefert das beschriebene Testverfahren nicht in jedem Fall einen gültigen Hinweis auf existierende Spezifikationsfehler. Ob sich Fehlspezifikationen in einer Korrelation zwischen X und U ausdrücken, hängt u.a. ganz davon ab, ob die ausgelassene Variable eine dominierende Rolle in der Varianz von U spielen kann. Wird ihr Einfluss in U von gegenläufigen Einflussvariablen kompensiert, gibt es keine entsprechende Korrelation trotz bestehender Spezifikationsfehler. So beträgt in unserem Einkommensbeispiel, das sicherlich nicht ideal spezifiziert ist, die entsprechende Korrelation rxu = 0,17 und ist somit eher zu vernachlässigen. Bei der Berechnung der Korrelation zwischen X und U muss darauf geachtet werden, dass U nur mit seinen absoluten Werten in die Rechnung einbezogen wird (d.h. negative Zahlen müssen in positive Zahlen transformiert werden). Ansonsten bringt es die OLS-Technik mit sich, dass rxu immer den Wert „0“ erhält. In SPSS ist dies durch eine einfache Anweisung zu erreichen. Die ursprüngliche Residuenvariable (z.B. kann dies in SPSS „zre_1“ sein, vgl. Beginn von Kapitel 4) wird benutzt, um eine neue Variable zu erzeugen (hier „nres“ genannt), die die absoluten Werte von „zre_1“ trägt (und damit nur noch positive Zahlen aufweist): „COMPUTE nres=ABS(zre_1).“ Die Korrelation zwischen U (hier: „nres“) und X (hier: „alter“) kann dann berechnet werden mittels: „CORR alter nres.“
Z4.5: Spezifikationsfehler führen zu verzerrten Regressionsschätzungen. Sie können nur bedingt statistisch ermittelt werden (durch diesbezügliche Residuenanalysen). Deshalb muss jedes Regressionsmodell auch argumentativ (analytisch) auf mögliche Spezifikationsfehler überprüft werden. Zudem gibt es (in eingeschränktem Maße) statistische Strategien zur vorsorglichen Bekämpfung von Spezifikationsfehlern, die durch Nichtberücksichtigung wichtiger X-Variablen entstehen können.
4.5 Multikollinearität 4.5
225
Multikollinearität
Im Idealfalle sollte in einem multiplen Regressionsmodell jede X-Variable nur die Y-Variable aber nicht die anderen X-Variablen beeinflussen. Alle X-Variablen sollten voneinander unabhängig sein. In der Forschungspraxis ist es jedoch kaum möglich, ein Regressionsmodell zu spezifizieren, dessen X-Variablen unabhängig voneinander sind. In aller Regel werden sich zwei oder mehrere X-Variablen gegenseitig beeinflussen. Wenn dann die wechselseitige Beeinflussung auch noch in linearer Weise erfolgt und somit eine lineare Abhängigkeit zwischen den exogenen Variablen besteht, spricht man von „Kollinearität“ bzw. von „Multikollinearität“. Eine Kollinearität zwischen X-Variablen ist dann gegeben, wenn eine X-Variable als lineare Funktion von einer anderen X-Variablen bestimmbar ist. Ist eine unabhängige Variable als lineare Funktion von mehreren anderen X-Variablen bestimmbar, ist eine Multikollinearität zwischen diesen Variablen gegeben. Im Falle von zwei linear abhängigen X-Variablen (Kollinearität) ließe sich demnach die folgende Gleichung schreiben: Xi1 = a + bXi2 + Ui Wie stark die lineare Abhängigkeit und damit die Kollinearität zwischen zwei Variablen ist, hängt von der Größe des U-Faktors der obigen Gleichung ab. Je größer U, desto geringer ist der Einfluss von X2 auf X1. Wäre die Fehlergröße U in der obigen Gleichung gleich 0, so wäre der extremste Fall von Kollinearität gegeben: die Werte von X1 würden durch die Werte von X2 determiniert. Glücklicherweise ist dieser extreme Fall eher die Ausnahme denn die Regel. Normalerweise ist die lineare Abhängigkeit zweier Variablen nicht perfekt, so dass dann auch der Pearsonsche Korrelationskoeffizient als Maß für die lineare Abhängigkeit zwischen zwei Variablen kleiner |1,00| ist. Der Zustand einer vollständigen Abwesenheit von Multikollinearität zwischen den X-Variablen eines Regressionsmodells wird als „Orthogonalität“ bezeichnet. Wenn die unabhängigen Variablen keinerlei gemeinsame Varianzanteile aufweisen, verhalten sie sich orthogonal zueinander (vgl. Kapitel 2.3.2). In diesem Falle wären auch die partiellen Regressionskoeffizienten eines multiplen Regressionsmodells identisch mit den unkontrollierten Regressionskoeffizienten der vielen bivariaten Modelle, die man aus dem multiplen Modell herauslösen könnte. Eine multiple Regressionsschätzung mit auspartialisierten bzw. kontrollierten Koeffizientenschätzungen ist also nur notwendig, wenn die X-Variablen untereinander korrelie-
226
4 Entdeckung und Beseitigung von Modellverstößen
ren. Jedoch ist auch ein Zustand perfekter Orthogonalität in der Regressionsanalyse sehr selten. In der Forschungspraxis ist ein gewisses Ausmaß an Multikollinearität zwischen den Modellvariablen kaum zu vermeiden. Deshalb ist üblicherweise nicht danach zu fragen, ob ein Regressionsmodell überhaupt durch Multikollinearität gekennzeichnet ist, sondern wie hoch die (unausweichliche) Kollinearität/Multikollinearität zwischen den X-Variablen ist, und ob sie der Regressionsschätzung gefährlich werden kann. Die Multikollinearität ist eines der heikelsten Probleme in der Regressionsanalyse. Das betrifft nicht nur ihre Konsequenzen und die Möglichkeiten des Umgangs mit ihr, sondern auch ihre Entstehung. Denn Multikollinearität kann sowohl Folge von Spezifikationsfehlern als auch Folge einer sehr sorgfältig durchgeführten Modellspezifikation sein. Sie tritt immer dann auf, wenn es nicht möglich ist, nur solche Variablen als X-Variablen eines Regressionsmodells zu bestimmen, die relativ zu allen anderen X-Variablen einen großen Anteil unabhängiger Variation aufweisen. Eine solche unabhängige Variation können Variablen jedoch nur aufweisen, wenn sie einen empirischen Messbereich und diesbezügliche Messwerte besitzen, die absolut unabhängig von denjenigen der anderen Modellvariablen sind. Dementsprechend kann die Multikollinearität eine Folge von Spezifikationsfehlern sein, nämlich dann, -
wenn es nicht gelungen ist, Variablen zu bestimmen, die auch eigenständige Messbereiche aufweisen. Beispielsweise werden zwei Variablen wie das „Ausmaß individuellen TV-Konsums“ und das „Ausmaß individuellen Zeitungskonsums“ sicherlich signifikant miteinander korrelieren. Denn beide haben eine große Schnittmenge bezüglich ihrer jeweiligen Messbereiche, da sie sehr wahrscheinlich gemeinsamer Ausdruck der latenten Variablen „individueller Medienkonsum“ mit deren spezifischen soziodemographischen Determinationen sind;
-
wenn qualitative Variablen nicht korrekt in Dummy-Variablen überführt wurden (dazu mehr in Kapitel 5.1);
-
wenn eine bestimmte Modellvariable aus mehreren anderen Variablen im Modell gebildet wurde und alle beteiligten Variablen simultan in das Regressionsmodell aufgenommen wurden (z.B. als Interaktionsvariablen, Regressoren nicht-linearer Effekte oder Index-Variablen).
4.5 Multikollinearität
227
Die Existenz hoher Multikollinearität kann aber nicht nur eine Folge sorgloser, sondern auch eine Folge sorgfältiger Modellspezifikation sein. Dies gilt insbesondere dann, wenn eine große Anzahl unabhängiger Variablen in die Regression einbezogen wird. Denn je größer die Anzahl der X-Variablen, desto größer ist die Wahrscheinlichkeit, dass diese Variablen untereinander einen gewissen Anteil abhängiger Variation besitzen. Es ist dann zu entscheiden, ob die Multikollinearität stichprobenspezifisch oder ein Kennzeichen der Population sein könnte. Ist die Multikollinearität messspezifisch, so kann sie dadurch entstehen, dass nicht genügend Informationen über den unabhängigen Variationsanteil von Variablen vorliegen (z.B. kann der Stichprobenumfang zu klein sein), oder dass Variablenwerte fehlerhaft gemessen wurden. Ist die Multikollinearität jedoch ein Kennzeichen der Population, so muss sie auch im Modell spezifiziert werden. Es kann dann z.B. eine Interaktionsvariable erforderlich werden, die den Zusammenhang zwischen TV-Konsum und Zeitungskonsum misst (dazu mehr in Kapitel 4.5.2). Große gemeinsame Schnittmengen im Messbereich von Variablen findet man vor allem bei hoch aggregierten Daten (z.B. nationale Geburtenrate, Analphabetismus, staatliche Ausgabenvolumina, prozentualer Stimmenanteil in Wahlbezirken). Bei derartigen Variablen besteht zumeist eine gegenseitige Abhängigkeit, der durch ihre Zugehörigkeit zu einer allseits Einfluss ausübenden Kontextvariablen entsteht (dies kann z.B. die historische Gesellschaftsform oder die jeweilige Staatsform sein). In gleicher Weise sind Zeitreihenvariablen multikollinearitätsgefährdet, bei denen ein im Hintergrund wirkender Entwicklungstrend (auf gesellschaftlicher, staatlicher oder anderer Ebene) eine Gemeinsamkeit der Variablenwerte und damit eine lineare Abhängigkeit entstehen lässt. Werden solche Variablen in Regressionsanalysen einbezogen, ist besondere Vorsicht geboten. Doch auch bei allen anderen Analysen sollten evtl. vorhandene Multikollinearitätsprobleme berücksichtigt werden. So entsteht z.B. schnell eine hohe Multikollinearität, wenn soziodemographische Globalvariablen wie z.B. Alter, Bildung oder Geschlecht simultan in eine Regressionsschätzung einbezogen werden, da diese als Proxy-Variablen sehr viele unterschiedliche und damit auch zusammenhängende Sachverhalte betreffen können. Warum ist aber überhaupt eine lineare Abhängigkeit der unabhängigen Modellvariablen für die Ergebnisse einer Regressionsschätzung gefährlich? Zunächst lässt sich beruhigend feststellen, dass im Fall von Multikollinearität die Regressionsschätzungen nach der OLS-Technik weiterhin als unverzerrt gelten
4 Entdeckung und Beseitigung von Modellverstößen
228
können (im Sinne einer prinzipiellen Eigenschaft). Denn aus r12 0 folgt nicht notwendigerweise eine Kovarianz zwischen X und U. Demnach gilt Annahme A1 auch weiterhin und die OLS-Schätzung bleibt unverzerrt (vgl. Ergänzung 3.4). Die Folgen von Multikollinearität sind jedoch höchst beunruhigend, wenn man ihren Einfluss auf die Varianz der geschätzten Regressionskoeffizienten betrachtet. Dies können wir leicht an der folgenden Gleichung erkennen: im trivariaten Modell (eine Y-Variable, zwei X-Variablen) berechnet sich die Varianz von b nach der Formel:
Var(b1 )
2 N (Var(Xi )(1 r12 )) 2
(vgl. Gleichung 3.6 auf Seite 128)
Daraus folgt: je größer der absolute Wert von r12 ist, umso kleiner ist die Differenz von (1 – r122). Und je kleiner diese Differenz ist, umso kleiner wird der Nenner in Gleichung 3.6, was wiederum zur Folge hat, dass dann der gesamte Quotient (und damit die Varianz von b) umso größer wird. Die Differenz (1 – r122) entspricht dem „Toleranz-Wert“ (engl. „tolerance“) einer Regressionsvariablen (vgl. auch Kapitel 4.5.1). Die Toleranz einer bestimmten Variablen ergibt sich aus der Differenz zwischen einem Wert von 1,00 und dem Bestimmtheitsmaß (Determinationskoeffizient) der Regression dieser X-Variablen auf alle anderen unabhängigen X-Variablen: (1 – R2). Je kleiner der Toleranz-Wert wird, umso kleiner ist der Nenner der Varianzformel und umso größer wird der Varianzwert insgesamt sein. Dies bedeutet für die geschätzten OLS-Regressionskoeffizienten, dass sie zwar weiter die prinzipielle BLUE-Eigenschaft aufweisen, d.h. dass sie unter allen unverzerrten Schätzungen die kleinstmögliche Varianz haben, nur ist ihre Varianz in einer konkreten Regressionsanalyse nicht klein, sondern groß (absolut betrachtet). Und ihre Größe steigt mit dem Ausmaß von Multikollinearität. Das heißt, je größer die lineare Korrelation zwischen X1 und X2 ist, desto größer ist das Ausmaß an Multikollinearität, und desto größer ist die Varianz der Regressionsschätzung. Was bedeutet aber eine große absolute Varianz der geschätzten Regressionskoeffizienten? Sie bedeutet, dass ein einmal geschätzter Regressionswert äußerst instabil ist. Je größer die Varianz, desto größer ist seine Instabilität und umso größer ist seine Sensibilität hinsichtlich minimalster Veränderungen in den Ausgangsbedingungen der Regressionsanalyse.
4.5 Multikollinearität
229
Instabile Schätzungen haben zur Folge, - dass große Veränderungen in b eintreten können, wenn nur eine einzige Variable dem Modell hinzugefügt oder aus dem Modell ausgeschlossen wird; -
dass große Veränderungen in b eintreten können, wenn nur wenige Beobachtungsfälle ausgeschlossen werden (u.U. reicht ein einziger Beobachtungsfall);
-
dass die geschätzten Einflussrichtungen (d.h. die Vorzeichen der b’s) leicht veränderlich sind;
-
dass theoretisch und empirisch bedeutsame Effekte große Standardfehler besitzen und nur bei großen Einflussstärken signifikant werden können;
-
dass standardisierte Regressionskoeffizienten auch Werte größer als ±1,00 (absolut) annehmen können, wenn aufgrund der Multikollinearität die Standardabweichung von X im Verhältnis zur Standardabweichung von Y unverhältnismäßig hoch wird (vgl. Gleichung 2.26 auf Seite 71 zur Berechnung standardisierter Regressionskoeffizienten);
-
dass der Determinationskoeffizient trotz nicht-signifikanter Effekte sehr groß werden kann.
Natürlich sind auch andere Gründe für eine große Varianz der b’s möglich. Wie die Varianzformel zeigt, ergibt sich ebenfalls eine hohe Varianz von b, wenn die XVariable eine kleine Variation hat oder wenn 2 (die Varianz der Residuen) groß ist. Eine hohe Multikollinearität tritt als Varianzverursacher zu diesen Faktoren stets ergänzend hinzu. Die möglichen Schwankungen der geschätzten Regressionskoeffizienten (von einer Stichprobe zur anderen) müssen natürlich auch Konsequenzen hinsichtlich der diesbezüglichen Signifikanztests haben. Tatsächlich kann als Folge hoher Multikollinearität die Größe des Standardfehlers unkalkulierbar anwachsen, was zu einer Unzuverlässigkeit des t-Tests führt. Denn durch einen großen Standardfehler wird das Konfidenzintervall ausgeweitet und dann kann H0 möglicherweise nicht zurückgewiesen werden, obwohl die betreffenden b’s einen relevanten Einfluss der jeweiligen X-Variablen anzeigen. Natürlich gilt dies sinngemäß auch für die Anwendbarkeit der „Daumenregel“, nach der bei 5%igem Signifikanzniveau ein b mindestens doppelt so groß sein muss, wie sein Standardfehler (vgl. Ergänzung 3.7).
4 Entdeckung und Beseitigung von Modellverstößen
230
Das Ausmaß der Verzerrung des Standardfehlers durch hohe Multikollinearität kann an einem Ergebnis der bereits zuvor zitierten Monte-Carlo-Simulation von Hanushek/Jackson (1977: 88) verdeutlicht werden. Tabelle 4.3 zeigt die Unverzerrtheit der Koeffizientenschätzungen (zweite und vierte Spalte von links), während sich mit zunehmender Multikollinearität die Standardfehler der b’s extrem vergrößern (dritte und fünfte Spalte). Dabei ist eine deutliche Sprungstelle der Veränderung bei einem Korrelationskoeffizienten zu erkennen, der größer als 0,69 wird. Erst ab diesem Grenzbereich ist ein starkes Anwachsen des Standardfehlers zu beobachten. In anderen Modellen mag sich dies verschieben. In der Praxis der Regressionsanalyse wird jedoch häufig ein Grenzwert von ca. |0,8| benutzt (vgl. dazu auch die Erläuterungen zur „Toleranz“ im nachfolgenden Abschnitt). Tabelle 4.3: Zusammenhang von Multikollinearität und Standardfehler r23
b2
0,09 0,29 0,50 0,69 0,91 0,93
2,038 1,982 2,027 2,129 2,055 2,001
Standardfehler von b2 0,805 0,845 0,905 1,230 2,345 3,162
b3 1,030 0,923 0,988 0,981 0,941 1,069
Standardfehler von b3 0,726 0,785 0,923 1,107 2,293 3,111
Das hier beobachtete starke Anwachsen des Standardfehlers ist zusätzlich darauf zurückzuführen, dass im Falle von hoher Multikollinearität die geschätzten b’s untereinander korrelieren. Deshalb sollten unter diesen Bedingungen auch Signifikanztests der separierten Einflussstärken vermieden werden. Ein F-Test ist jedoch nach wie vor möglich (vgl. Kapitel 3.3.2). Dieser Test bleibt von Multikollinearitätsproblemen in jeder Hinsicht verschont, so dass der Erfolg der Gesamtschätzung auch bei Multikollinearität inferenzstatistisch überprüft werden kann.
4.5.1 Ermittlung von Multikollinearität Eine Multikollinearität ist in vielen Fällen schwer zu entdecken. Es gibt jedoch Techniken, welche die Multikollinearitätsdiagnose erleichtern können. Jedoch sollte noch vor Einsatz dieser Techniken die theoriegerechte Spezifikation des jeweiligen Regressionsmodells überprüft werden (vgl. dazu Kapitel 4.4).
4.5 Multikollinearität
231
Zur Entdeckung einer vorhandenen Multikollinearität sind Residuen-Streudiagramme nicht verwendbar, da sie nichts über lineare Abhängigkeiten zwischen unabhängigen Variablen aussagen. Hilfreich ist die Analyse der Korrelationsmatrix aller exogenen X-Variablen. Sie vermittelt jedoch nur im Fall von Modellen mit zwei unabhängigen Variablen eindeutige Informationen zur Entdeckung einer linearen Abhängigkeit. Ansonsten erbringen hohe Korrelationskoeffizienten weder einen notwendigen noch einen hinreichenden Hinweis auf die Existenz von Multikollinearität. Denn in multiplen Modellen können lineare Abhängigkeiten zwischen zwei oder mehreren Variablen auch erst nach Auspartialisierung (Kontrolle) weiterer X-Variablen bedeutsam werden. Im Folgenden werden einige formale Testverfahren vorgestellt, die in SPSS für die Diagnose von Multikollinearität zur Verfügung stehen. Hierzu zählen die Berechnung und Interpretation 1) von bivariaten Korrelationen aller X-Variablen; 2) von Maßzahlen, die auf einer multivariaten Regression jeder einzelnen XVariablen auf alle anderen X-Variablen beruhen (Toleranz bzw. VIF); 3) von Konditionsindex und Varianzzerlegung; 4) von bivariaten Korrelationen der Regressionskoeffizienten; 5) von Stabilitätstests der Einflussstärken, Einflussrichtungen und Signifikanztests bei leichten Modifikationen des Regressionsmodells (vornehmlich bei Nichtberücksichtigung einzelner X-Variablen). ad 1.) Diese Möglichkeit und ihre Einschränkungen hatten wir bereits oben angesprochen, weshalb wir sie hier nicht weiter behandeln wollen. ad 2.) Eine lineare Abhängigkeit auch mehrerer X-Variablen untereinander kann durch Regression einer jeden X-Variablen auf jeweils alle anderen X-Modellvariablen getestet werden. Hierzu muss für jede X-Variable eine lineare Regressionsgleichung geschätzt werden, bei der die jeweilige X-Variable nunmehr die abhängige Variable darstellt und jeweils von den restlichen X-Variablen kausal beeinflusst wird. Je höher dann der jeweilige Determinationskoeffizient ist, desto größer ist das Multikollinearitätsproblem.
232
4 Entdeckung und Beseitigung von Modellverstößen
SPSS kann dieses Vorgehen automatisieren, so dass bei einem Modell mit mehreren X-Variablen nicht jede einzelne Regression einer jeden X-Variablen auf alle anderen X-Variablen berechnet werden muss. Dabei gibt SPSS als Maßzahl für die lineare Abhängigkeit die „Toleranz“ bzw. den „VIF“ (Varianz-Inflations-Faktor) aus. Die Toleranz bzw. der VIF kann auch als Maßzahl der Eigenständigkeit einer jeden X-Variablen interpretiert werden. Die Toleranz ist nichts anderes als die Differenz „1 - R2 “. Das R2 stammt dabei aus der Regression der entsprechenden X-Variablen auf alle anderen X-Variablen des Modells. Damit weist die Toleranz einen Wertebereich von 0,00 bis 1,00 auf, wobei „0“ bedeutet, dass die Varianz der entsprechenden X-Variablen vollständig durch die anderen X-Variablen ausgeschöpft wird und die X-Variable selbst keinen, von den anderen X-Variablen unabhängigen Varianzanteil besitzt. Entsprechend besagt ein Toleranz-Wert von „1“, dass kein Varianzanteil der X-Variablen durch die anderen X-Variablen ausgeschöpft wird und die X-Variable im Modell als vollständig eigenständige Variable betrachtet werden kann. Als recht weicher Grenzwert (Daumenregel) zur Beurteilung der Toleranz gilt ein Wert von 0,10 (also 10% eigenständiger Varianzanteil), der nicht unterschritten werden sollte. Fällt der Toleranz-Wert unter diesen Schwellenwert, so ist die Multikollinearität dermaßen hoch, dass (spätestens jetzt) der entsprechenden Modellschätzung nicht mehr getraut werden kann. Wir würden einen weniger weichen Grenzwert von 0,20 bis 0,25 empfehlen (dies entspricht einem gemeinsamen Varianzanteil von ca. 75% bis 80%, d.h. einer bivariaten (bei zwei X-Variablen) bzw. multiplen (bei mehr als zwei X-Variablen) Korrelation von ca. 0,87 bis 0,89). Die Maßzahl „VIF“ (Varianz-Inflations-Faktor) entspricht der reziproken Transformation der Toleranz (1/Toleranz). Folgerichtig folgt aus einem hohen VIF eine hohe Multikollinearität und damit Instabilität der unstandardisierten und standardisierten Regressionskoeffizienten. Ein verbreiteter Schwellenwert zur Interpretation des VIF beträgt 10,00. Demnach indizieren Werte über 10 ein schwerwiegendes Multikollinearitätsproblem. Wir würden auch hier einen strikteren Grenzwert von ca. 5,00 empfehlen. Die folgende Tabelle 4.4 zeigt die Multikollinearitätsstatistik für unser Interaktionsbeispiel (aus Kapitel 4.3.2), bei dem Ausländerablehnung in Abhängigkeit von Autoritarismus, Berufsprestige und der Interaktionsvariablen „Autoritarismus × Berufsprestige“ modelliert wurde. Wie man erkennen kann, verweisen die drei
4.5 Multikollinearität
233
Toleranz-Werte (alle weit unter 0,10) und die drei VIF-Werte (alle weit über 10,00) auf massive Multikollinearitätsprobleme. Dies ist auch nicht weiter verwunderlich, denn der Interaktionsterm wurde aus den beiden anderen X-Variablen gebildet. Alle Modelle mit Interaktionsvariablen weisen immer dann hohe Multikollinearitäten auf, wenn die Komponenten der Interaktion ebenfalls als X-Variablen in die Regressionsschätzung aufgenommen werden. Im nachfolgenden Abschnitt werden wir jedoch zeigen, wie dieses Problem zumindest bei der Schätzung von Interaktionseffekten beseitigt werden kann. In Tabelle 4.4 ist auch noch eine weitere unerwünschte Konsequenz hoher Multikollinearität zu erkennen: Der standardisierte Regressionskoeffizient des Prädiktors „Autoritarismus“ ist größer als 1,00 geworden und übersteigt damit seine zulässige Obergrenze. Dies ist, wie zuvor bereits erwähnt, ein Multikollinearitätseffekt, bei dem die Standardabweichung von X im Verhältnis zur Standardabweichung von Y unverhältnismäßig hoch wird (vgl. Gleichung 2.26 zur Berechnung standardisierter Regressionskoeffizienten). Auch dies veranschaulicht, wie stark sich Multikollinearitätsprobleme auf die Stabilität der Regressionsschätzung auswirken können. Tabelle 4.4: Toleranz und VIF in der SPSS-Ausgabe Koeffizientena
Modell 1
(Konstante) Interaktion Autoritarismus * Berufsprestige Autoritarismus Berufsprestige
Nicht standardisierte Koeffizienten Standardf B ehler 43,574 26,833
Standardisie rte Koeffizienten Beta
Kollinearitätsstatistik T 1,624
Signifikanz ,156
Toleranz
VIF
,006
,019
,520
,308
,769
,023
42,646
-1,615 -,154
1,803 ,299
-1,014 -,525
-,896 -,515
,405 ,625
,052 ,065
19,134 15,476
a. Abhängige Variable: aa
In SPSS lassen sich die Maßzahlen „VIF“ und „Toleranz“ dadurch abrufen, dass im Untermenü „Statistiken…“ des Regressionsmenüs die Option „Kollinearitätsdiagnose“ ausgewählt wird. Alternativ dazu kann der Regressionssyntax-Befehl erweitert werden, indem dort nach „/STATISTICS“ noch die Anweisung „TOL“ hinzugefügt wird.
ad 3.) In der SPSS-Regressionsanalyse werden bei Anwahl der Option „Kollineraritätsdiagnose“ neben den Maßzahlen „VIF“ und „Toleranz“ (s.o.) auch noch weitere Analyse-Ergebnisse zur Multikollineraritätsdiagnose ausgegeben (bei SPSSSyntax-Steuerung ist dazu neben dem Befehlszusatz „TOL“ (s.o.) auch der Zusatz
234
4 Entdeckung und Beseitigung von Modellverstößen
„COLLIN“ erforderlich). Dies sind die folgenden statistischen Kennzahlen: Eigenwert, Konditionsindex und Varianzanteile. Um diese zu berechnen wird die Korrelationsmatrix der unabhängigen Variablen in so viele orthogonale Dimensionen zerlegt, wie unabhängige Variablen vorliegen. Dabei sind die orthogonalen Dimensionen komplett unabhängig voneinander und teilen keine gemeinsame Varianz. Diese Art der Varianzzerlegung ist auch bekannt als Hauptkomponentenanalyse (vgl. als einführende Literatur: Kim/Mueller 1978). Die dabei anfallenden Eigenwerte geben an, welchen Betrag der Gesamtvarianz aller X-Variablen jede Dimension ausschöpft. Sind alle X-Variablen unkorreliert, so beträgt der Eigenwert pro Dimension „1,00“. Je höher die Korrelation unter den X-Variablen ist, desto mehr Varianz wird durch die erste Dimension („Hauptkomponente“) ausgeschöpft, d.h. desto höher ist der Eigenwert der ersten Dimension und umso geringer ist derjenige der übrigen Dimensionen. Eigenwerte nahe null verweisen also auf Multikollinearitätsprobleme. Der Konditionsindex wird als Wurzel aus dem Quotienten des maximalen Eigenwertes und des modellspezifischen Eigenwertes berechnet. Nach Belsley/Kuh/ Welch (1980) verweist ein Konditionsindex mit Werten zwischen 10 und 30 auf mittlere Multikollinearitätsprobleme und mit Werten über 30 auf hohe Multikollinearitätsprobleme. ad 4.) Eine weitere Möglichkeit zur Entdeckung der Multikollinearität in einem Regressionsmodell besteht darin, die Korrelationen zwischen den Regressionskoeffizienten (nicht zwischen den Variablen!) zu betrachten. Eine hohe Korrelation zwischen zwei Koeffizienten indiziert ein Multikollinearitätsproblem dieser Koeffizienten und folgerichtig auch der entsprechenden X-Variablen. In unserem Interaktionsbeispiel (s.o.) liegen die Interkorrelationen der drei Koeffizienten oberhalb von |0,9| und verweisen damit auf ein massives Multikollinearitätsproblem. Zur Ausgabe der bivariaten Kovarianzen und Korrelationen zwischen den Regressionskoeffizienten kann der SPSS-Regressionssyntax-Befehl erweitert werden, indem nach „/STATISTICS“ die Anweisung „BCOV“ (steht für „bivariate covariances“) hinzugefügt wird.
ad 5.) Zur Aufdeckung von Multikollinearität kann auch die mögliche Instabilität multikollinearer Modellschätzungen genutzt werden und ein „Stabilitätstest“ durchgeführt werden. Dabei werden die Ausgangswerte der Regression leicht verändert und dann beobachtet, ob sich dadurch die Regressionsergebnisse deutlich verändern. Zur Modifikation der Regressionsschätzung werden insbesondere einzelne XVariablen aus dem Regressionsmodell herausgenommen. Wenn sich daraufhin starke Veränderungen in den geschätzten Regressionskoeffizienten der übrigen X-
4.5 Multikollinearität
235
Variablen ergeben (Einflussstärke, Signifikanz oder Effektrichtung), so kann dies auf Multikollinearitätsprobleme hindeuten. Zu diesem Verfahren haben Chatterjee/Price (1977: 156f) eine interessante Fallstudie vorgelegt. Darin wurde der Umsatz (Y) einer Firma in Abhängigkeit von ihren Ausgaben für Werbeanzeigen (X1), für generelle Werbeausgaben (public promotion) (X2) und für Verkaufsausgaben (X3) untersucht. Um dabei auch langfristige Wirkungen feststellen zu können, wurden ergänzend zu X1 und X2 auch Messwerte dieser beiden Variablen berücksichtigt, die ein Jahr zurücklagen (X1-t, X2-t). Tabelle 4.5 zeigt die bivariaten Korrelationskoeffizienten zwischen den X-Variablen und die geschätzten Regressionskoeffizienten. Keine der Korrelationen hat einen Wert, der größer als 0,8 ist. Von daher würden wir hier nach Verfahren 1 (s.o.) keine Multikollinearität (oder keine bedeutsame Multikollinearität) diagnostizieren. Jedoch offenbart sich eine starke Multikollinearität, wenn das Modell leicht verändert wird. Dazu wurde im vorliegenden Beispiel eine unabhängige Variable (X1) aus dem Regressionsmodell herausgenommen. Die zeitlich verzögerten Variablen verändern nun ihre Einflussrichtung und der Regressionskoeffizient der PromotionsAusgaben halbiert sich (vgl. Tabelle 4.5), was auf eine starke Multikollinearität im Modell verweist. Welcher Art die lineare Abhängigkeit ist, die für die Multikollinearitätseffekte verantwortlich zu machen ist, enthüllt dieses Testverfahren freilich nicht. Dies festzustellen, bleibt allein analytischer Einsicht vorbehalten. Es muss allerdings bei Anwendung eines Stabilitätstests beachtet werden, dass bei Auftreten von Instabilitäten eine Multikollinearität zwar wahrscheinlich, aber nicht notwendig ist. Deshalb sollten stets mehrere der hier vorgestellten Testverfahren eingesetzt werden. Tabelle 4.5: Stabilitätstest zur Diagnose von Multikollinearität Regressionskoeffizienten
Korrelationsmatrix
X1 X2 X3 X1-t X2-t
X1 1,00
X2 -0,36 1,00
X3 -0,13 0,06 1,00
X1-t -0,14 -0,32 -0,17 1,00
X2-t -0,50 -0,30 0,21 -0,36 1,00
5,36 8,37 22,52 3,85 4,13
Regressionskoeffizienten (Testmodell) ----3,83 22,52 -3,85 -4,13
236
4 Entdeckung und Beseitigung von Modellverstößen
4.5.2 Beseitigung von Multikollinearität Beim Umgang mit Multikollinearitätseffekten sollte man zwischen essenzieller und nicht-essenzieller Multikollinearität unterscheiden (vgl. Cohen/Cohen et al. 2003: 202f). Essenzielle Multikollinearität liegt vor, wenn X-Variablen substanziell bzw. inhaltlich hoch miteinander korrelieren. Diese Form der Multikollinearität ist besonders schwer zu bereinigen. Nicht-essenzielle Multikollinearität ist hingegen dann gegeben, wenn die lineare Abhängigkeit zwischen Modellvariablen im Forschungsprozess selbst hergestellt wird. Sie entsteht z.B., wenn X-Variablen alleine aufgrund ihrer Skalierung hoch miteinander korrelieren, wie es bei der Analyse von Interaktionseffekten der Fall ist (vgl. Kapitel 4.3.2). Zur nicht-essenziellen Multikollinearität gehören auch lineare Variablenzusammenhänge, die stichprobenbedingt auftreten. Es liegen dann nicht genügend Informationen über die unabhängigen Effekte einzelner X-Variablen vor, so dass die diesbezüglichen Schätzungen instabil werden. In diesem Fall zielt die einfachste und wirkungsvollste Maßnahme zur Beseitigung von Multikollinearitätsproblemen auf ein „Mehr“ an Informationen. Dies lässt sich erreichen: a) durch bessere Messungen; b) durch eine Vergrößerung der Fallzahl; c) durch die Berücksichtigung von zusätzlichen Annahmen/Informationen über die zu berechnenden b’s im Schätzverfahren. Letzteres erfordert spezielle Schätzmethoden, die hier nicht behandelt werden können. Und die Maßnahmen a) und b) sind häufig aus praktischen Gründen nicht umzusetzen. Denn insbesondere wenn die Erhebungsphase einmal abgeschlossen ist, können in aller Regel keine neuen oder zusätzlichen Daten erhoben werden. Was wäre in diesem Falle also zu tun? Die Regressionspraxis behilft sich zumeist mit einer der fünf folgenden Methoden: 1) Die lineare Abhängigkeit wird durch Neuspezifikation des Modells behoben, d.h. eine oder mehrere Variablen werden aus dem Modell ausgeschlossen. 2) Die X-Variablen, die in linearer Abhängigkeit zueinander stehen, werden zu einer Index-Variablen zusammengefasst (evtl. mit Faktoren- oder Hauptkomponentenanalyse). 3) Eine der X-Variablen, zwischen denen die Multikollinearität besteht, wird um die gemeinsamen Varianzanteile bereinigt. 4) Der Einsatz alternativer Schätzverfahren (z.B. Ridge Regression). 5) Die X-Variablen werden vor der Regressionsschätzung mittelwertzentriert im Falle von Modellen mit interaktiven oder kurvilinearen Effekten.
4.5 Multikollinearität
237
ad 1) Die Strategie des Variablenausschlusses kann an einem Beispiel zur Erklärung des prozentualen Stimmenanteils von Juan Peron bei den Präsidentschaftswahlen von Argentinien im Jahre 1946 verdeutlicht werden (nach: Lewis-Beck 1980: 62f). Als erklärende Variablen dienten: der Anteil von Arbeitern in städtischen Wahlgebieten (X1) sowie in ländlichen Wahlgebieten (X2), der Anteil von Angestellten und anderen Nicht-Arbeitern in städtischen Wahlgebieten (X3) sowie in ländlichen Gebieten (X4) und der Anteil von Einwanderern (X5). Die entsprechende Modellschätzung erbrachte die folgenden unstandardisierten Regressionskoeffizienten:
ˆ = 0,52 + 0,18 X1 – 0,10 X2 – 0,57 X3 – 3,57 X4 + 0,29 X5 Y (0,43) (0,41) (0,43) (2,54) (0,07) Im Ergebnis erwies sich nur der Einfluss von X5 als statistisch signifikant (Signifikanzniveau: 5%, Determinationskoeffizient der Gesamtschätzung: R2 = 0,24). Die Toleranz-Werte lagen für X1 bei 0,02, für X2 bei 0,01, für X3 bei 0,02, für X4 bei 0,25 und für X5 bei 0,68. Zumindest die Variablen X1, X2 und X3 wiesen dementsprechend also eine hohe Multikollinearität auf. Wenn im Beispiel nun X2 als diejenige X-Variable mit dem niedrigsten ToleranzWert aus dem Regressionsmodell ausgeschlossen wird, so ergibt sich folgende Schätzung:
ˆ = 0,42 + 0,28 X1 – 0,47 X3 – 3,07 X4 + 0,30 X5 Y (0,07) (0,10) (1,41) (0,07) In dieser neu spezifizierten Modellschätzung erweisen sich alle geschätzten Koeffizienten als signifikant und alle Toleranz-Werte liegen über 0,60. Mithin bestehen im reduzierten Modell keine gravierenden Multikollinearitätsprobleme mehr. So erfolgreich eine Konterstrategie durch Variablenausschluss auch ist, sie ist dennoch äußerst bedenklich. Was im Beispiel nach Ausschluss von X2 vorliegt, ist ein neues Modell, das wenig mit dem ersten zu tun hat. Wird das Modell mit allen fünf unabhängigen Variablen als richtig spezifiziert angesehen, so ist die Konsequenz des Ausschlusses von X2 ein Spezifikationsfehler. Und dieser Fehler ist umso bedeutender, je stärker die lineare Abhängigkeit der ausgeschlossenen X2-Variablen von den anderen Variablen ist. Als Folge eines solchen Spezifikationsfehlers kann eine verzerrte Schätzung aller Regressionskoeffizienten im reduzierten Modell entstehen (vgl. Kapitel 4.4). Daher ist ein derartiges Vorgehen nur äußerst sorgfältig einzusetzen. Je stärker der theoretische Rückhalt eines einmal spezifizierten
238
4 Entdeckung und Beseitigung von Modellverstößen
Modells ist, umso deutlicher wird nach der Modellreduktion der dann entstandene Spezifikationsfehler hervortreten. Denn generell gilt: Ein Informationsmangel kann nur in Ausnahmefällen dadurch beseitigt werden, dass eine zusätzliche Informationsreduktion vorgenommen wird. ad 2) Sinnvoller, aber auch aufwändiger als ein Variablenausschluss, ist der zweite, oben genannte Verfahrensweg. Dieser nutzt die sich überschneidenden Messbereiche bei multikollinearen Modellen und konstruiert neue Variablen, welche die Messbereiche von vorher separat gemessenen Variablen zusammenfassen. Dazu gehört z.B. die Kombination von Variablen zu Indizes. Beispielsweise können die eigenständigen Variablen „Radio-Konsum“, „TV-Konsum“ und „Zeitungs-Konsum“, welche überlappende Messbereiche aufweisen, zu einem neuen Index „Mediengebrauch“ zusammengefasst werden. Dies kann u.a. durch Berechnung eines additiven Indexes geschehen, wofür auch weiterentwickelte Methoden wie z.B. Hauptkomponentenanalysen, explorative oder konfirmatorische Faktorenanalysen verwendet werden können (vgl. Cohen/Cohen et al. 2003: 428f). ad 3) Wenn die Multikollinearität durch gemeinsame Varianzanteile von zwei oder mehreren X-Variablen entsteht, kann sie auch beseitigt werden, indem die Varianz einer der beteiligten X-Variablen um die gemeinsamen Varianzanteile bereinigt wird. Dies geschieht dadurch, dass in einer separaten Regressionsschätzung die lineare Abhängigkeit der X-Variablen voneinander geschätzt wird (durch Regression von Xk auf Xj) und nur die Residuen der abhängigen X-Variablen als empirische Messwerte dieser X-Variablen im ursprünglichen Regressionsmodell benutzt werden. Ein solches Verfahren haben wir in Kapitel 2.3.1 detailliert beschrieben. ad 4) Ein weiterer Ausweg im Umgang mit stichprobenbedingter Multikollinearität ist das Ausweichen auf andere Schätzverfahren als die OLS-Technik, was außerhalb des vorliegenden Skripts liegt. Diese Schätzverfahren liefern in der Regel modifizierte Ergebnisse, die nicht unverzerrt sind, die jedoch weit geringere Varianzen aufweisen. Dazu gehört z.B. die Ridge-Regression (vgl. Chatterjee/Price 1977: 175-192). ad 5) Bislang hatten wir über die Beseitigung stichprobenbedingter Multikollinearität gesprochen. Ein weiterer Fall nicht-essenzieller Multikollinearität tritt häufig bei der Schätzung von Regressionsmodellen auf, die sowohl mehrere X-Variablen als auch eine oder mehrere Kombination(en) von diesen X-Variablen als unabhängige Variablen enthalten. Hierzu zählt die Schätzung von Modellen mit Interaktionseffekten (vgl. Kapitel 4.3.2) und kurvilinearen Effekten (vgl. Kapitel 4.3.1).
4.5 Multikollinearität
239
Dies kann, wie in Unterkapitel 4.5.1 gezeigt, zu erheblichen spezifikationsbedingten Multikollinearitätsproblemen führen. Nachfolgend wird eine Strategie zur Vermeidung von Multikollinearitätsproblemen bei Schätzung von Modellen mit Interaktionseffekten vorgestellt, die sehr einfach durchzuführen ist. Diese Strategie kann auch auf die Schätzung von Modellen mit kurvilinearen Effekten übertragen werden. Sie besteht im Wesentlichen darin, dass die kontinuierlichen X-Variablen noch vor Konstruktion des Interaktionsterms zentriert werden. Wir wollen dies an einem Beispiel erläutern: Im Modell zur Erklärung von Ausländerablehnung (AA) hatten wir Multikollinearitätsprobleme mit der Interaktionsvariablen „Autoritarismus (X1) × Berufsprestige (X2)“ festgestellt (vgl. Abschnitt 4.3.2). Die entsprechende Modellgleichung lautet:
ˆ = a + b1X1 + b2X2 + b3X1×X2 Y Zur Vermeidung der damit gegebenen Multikollinearitätsprobleme sollten die XVariablen (nicht aber die Y-Variable) vor der Bildung des Interaktionsterms (X1×X2) zentriert werden. Dies geschieht, indem die betreffenden Variablen (X1, X2) für jeden Beobachtungsfall neue Werte erhalten, die als Differenz zwischen empirisch gemessenem Wert und dem arithmetischen Mittel aller Messwerte gebildet werden ( X1i X1 bzw. X 2i X 2 ) (vgl. dazu auch Ergänzung 2.1). Ein solches Vorgehen wird „Zentrieren“ genannt, weil die Variablen anstatt ihrer ursprünglich beobachteten Variablenwerte nunmehr als neue Variablenwerte die positiven und negativen Abstände zu ihrem jeweiligen arithmetischen Mittelwert (der nach der Zentrierung 0,00 beträgt) aufweisen. In unserem Beispiel wird zur Zentrierung der Variablen „Autoritarismus“ (nach Drehung dieser Variablen, vgl. Kapitel 4.3.2) ein arithmetisches Mittel von 14,6 und zur Zentrierung von „Berufsprestige“ ein arithmetisches Mittel von 93,78 benutzt. Die zentrierten Variablen werden dann gebildet als: AAi, zentriert = AAi – 14,6 PRi, zentriert = PRi – 93,78 Die Interaktionsvariable kann dann durch Multiplikation der zentrierten Variablen erzeugt werden: INT(AA, PR) = AAi, zentr. × PRi, zentr. Wie der folgenden Tabelle 4.6 zu entnehmen ist, berichtet die Kollinearitätsstatistik nach Zentrierung der Variablen ganz im Unterschied zum unzentrierten Modell
4 Entdeckung und Beseitigung von Modellverstößen
240
(vgl. Tabelle 4.4) keinerlei Multikollinearitätshinweise (vgl. Toleranz und VIF in Tabelle 4.6). Und auch der standardisierte Regressionskoeffizient des Prädiktors „Autoritarismus“ nimmt nunmehr einen plausiblen Wert von kleiner 1,00 an.6 Unverändert bleibt der unstandardisierte Regressionskoeffizient der Interaktionsvariablen, der demjenigen im unzentrierten Modell entspricht. Allerdings gibt es Unterschiede zwischen den Regressionskoeffizienten der Haupteffekte von zentrierter und unzentrierter Schätzung, wenn die Modelle auch Interaktionsterme enthalten (der a-Koeffizient unterscheidet sich in jedem Fall zwischen zentrierter und unzentrierter Schätzung). Tabelle 4.6: SPSS-Resultate einer Modellschätzung mit Interaktionseffekt bei Verwendung zentrierter Variablen Koeffizientena
Modell 1
(Konstante) Interaktion Autoritarismus (zentriert) * Berufsprestige (zentriert) Autoritarsmus (zentriert) Berufsprestige (zentriert)
Nicht standardisierte Koeffizienten Standardf ehler B 13,707 1,983
Standardi sierte Koeffizient en Beta
Kollinearitätsstatistik T 6,911
Signifikanz ,000
Toleranz
VIF
,006
,019
,081
,308
,769
,978
1,023
-1,057
,435
-,663
-2,430
,051
,899
1,113
-,067
,079
-,228
-,844
,431
,914
1,094
a. Abhängige Variable: aa
Die Regressionsschätzung ergibt also folgendes Ergebnis:
ˆ = 13,71 – 1,06 X1 – 0,07 X2 + 0,01 X1×X2 Y Wie können die Regressionskoeffizienten der zentrierten Schätzung nun interpretiert werden? -
Der a-Koeffizient informiert über die Höhe der erwarteten Ausländerablehnung, wenn Autoritarismus und Berufsprestige einen durchschnittlichen Wert aufweisen (und dieser durchschnittliche Wert ist aufgrund der Zentrierung gleich null).
6 Achtung: Bei den standardisierten Schätzergebnissen von Regressionen mit zentrierten Variablen ist die Konstante nicht immer null (wie sie es stets bei standardisierten Schätzungen mit nicht-zentrierten Variablen ist).
4.5 Multikollinearität -
241
Die unstandardisierten b-Koeffizienten können im zentrierten Fall folgendermaßen interpretiert werden: Der b-Koeffizient berichtet die Veränderung in Y, die nach Anstieg der X-Variablen um eine empirische Einheit zu erwarten ist, wenn die weiteren X-Variablen einen Wert von null annehmen und folgerichtig bei ihrem arithmetischen Mittel liegen. Dies bedeutet in unserem Beispiel, dass bei einem Anstieg des Berufsprestiges um eine empirische Einheit und bei einem durchschnittlichen Grad von Autoritarismus die Ausländerablehnung um 0,07 Skalenpunkte abfällt.
Sollten Interaktionseffekte zu schätzen sein, besteht der große Vorteil zentrierter Variablen darin, dass aufgrund der Zentrierung ein jeder Interaktionsterm sowie die einzelnen Variablen, aus denen dieser gebildet wird, in das Regressionsmodell aufgenommen werden können, ohne Multikollinearitätsprobleme zu verursachen. Und dann kann relativ zuverlässig überprüft werden, ob der Interaktionseffekt unabhängig von den Haupteffekten der einzelnen X-Variablen einen Einfluss ausübt oder nicht. Würde man stattdessen, was im Prinzip auch möglich wäre, das Multikollinearitätsproblem dadurch zu lösen versuchen, dass man die Variablen, aus denen der Interaktionsterm gebildet wird, aus dem Regressionsmodell herausnimmt, so könnte die Unabhängigkeit des Interaktionseffekts von den Effekten seiner X-Komponenten nicht mehr überprüft werden.
Z4.6: Als Kollinearität/Multikollinearität wird der Grad von gegenseitiger linearer Abhängigkeit zwischen den unabhängigen Variablen eines Regressionsmodells bezeichnet. Eine hohe Multikollinearität kann zu weit reichenden Instabilitäten von Schätzwerten führen (bezüglich Einflussstärke und Einflussrichtung) und auch die Durchführung von Signifikanztests sinnlos machen. Die Diagnose von Multikollinearität ist schwierig, so dass stets mehrere Diagnosemethoden eingesetzt werden sollten. Erprobte Techniken zur Beseitigung stehen nur beschränkt zur Verfügung. Der häufig praktizierte Variablenausschluss kann zu gravierenden Spezifikationsfehlern führen. Stattdessen sollte versucht werden, betreffende XVariablen zu Indizes zusammenzufassen. Im Fall von statistisch gebildeten X-Variablen (Regressoren), z.B. bei Interaktionsvariablen, empfiehlt es sich, die betreffenden Ausgangsvariablen noch vor Konstruktion der statistischen Terme zu zentrieren.
242 4.6
4 Entdeckung und Beseitigung von Modellverstößen Streuungsungleichheit (Heteroskedastizität) (A1)
In vielen Regressionsanalysen wird die Annahme der Streuungsgleichheit (oder: Homoskedastizität) der Residuen nicht erfüllt (vgl. Annahme „A1“ in Kapitel 3.1.2). Dann variiert die Residuenvarianz in Abhängigkeit von bestimmten Charakteristika der Beobachtungsfälle oder in Abhängigkeit von Ausprägungen einzelner X-Variablen und es liegt eine Streuungsungleichheit (Heteroskedastizität) der Residuen vor. Was bedeutet das? Betrachten wir als Beispiel den Zusammenhang zwischen dem Einkommen von Familien und ihren Konsumausgaben. Je geringer das Einkommen ist, desto geringer wird der familiäre Entscheidungsspielraum über die Möglichkeiten der Geldverwendung sein. Die Kosten der Lebenshaltung erfordern ganz einfach einen bestimmten Geldbetrag, und wenn sich das Einkommen diesem Betrag annähert, so gibt es nichts darüber zu entscheiden, ob das zur Verfügung stehende Geld besser auf einem Konto festgelegt werden sollte oder nicht. Bei Familien mit hohem Einkommen ist das anders. Einige können und werden sich für eine hohe Konsumrate entscheiden, andere eher für eine hohe Sparrate. Dementsprechend werden höhere Einkommensgruppen höhere Variationen in ihren Konsumausgaben aufweisen als untere Einkommensgruppen. Damit kann aber auch bei einer Regression individueller Konsumausgaben auf die Zugehörigkeit zu bestimmten Einkommensgruppen die Streuung der Regressionsresiduen für jede Einkommensgruppe nicht gleich groß sein. Mithin würde ein solches Regressionsmodell gegen die Annahme A1 verstoßen, die eine Streuungsgleichheit der Residuen bei allen X-Werten fordert (vgl. Kapitel 3.1.2). Die Gültigkeit von A1 stellt sicher, dass die OLS-Schätzmethode auch effiziente Resultate liefern kann, so dass die Resultate dieses Schätzverfahrens unter allen linearen, unverzerrten Schätzwerten die kleinstmöglichen Varianzen aufweisen (vgl. Abschnitt 3.1). Wenn gegen A1 verstoßen wird, hat das folgende Konsequenz (vgl. dazu die Ausführungen in Ergänzung 3.5): Da die Varianz der Residuen i2 bei Streuungsungleichheit keine Konstante mehr ist, kann sie auch nicht aus der Gleichung Var(b) = (gi2 i2) herausgenommen werden. Dies bedeutet, dass keine minimale Quadratsumme von g gefunden werden kann, die von der jeweiligen Varianz i2 unabhängig ist. Damit kann aber auch nicht gezeigt werden, dass die OLS-Schätzung von b identisch mit einem varianzkleinsten linearen Schätzwert ist.
Ist die Streuungsgleichheit bzw. Homoskedastizität nicht gegeben, d.h. sind die Residuenvarianzen für verschiedene X-Werte unterschiedlich (Heteroskedastizität),
4.6 Streuungsungleichheit (Heteroskedastizität) (A1)
243
so haben die geschätzten Regressionskoeffizienten verzerrte Varianzen. Da die Schätzwerte nicht mehr die kleinstmöglichen Varianzen aufweisen, ist auch nicht mehr anzunehmen, dass die Varianzen von b denen von entsprechen. Sie sind folgerichtig verzerrt. Allerdings bleiben die geschätzten b-Werte auch bei Verzerrung der b-Varianzen (infolge von Streuungsungleichheit) unverzerrt. Ihre verzerrungsfreie Schätzung wird durch einen Verstoß gegen A1 nicht betroffen (vgl. Ergänzung 3.4). Die Verzerrung der b-Varianzen beeinflusst die Konstruktion von Konfidenzintervallen. Diese können bei Streuungsungleichheit nicht mehr korrekt berechnet werden, so dass entsprechende Signifikanztests keine zuverlässigen Ergebnisse mehr liefern können. In welcher Weise die Konfidenzintervalle von einer verzerrten Varianzschätzung beeinflusst werden, hängt von der Art der Verzerrung ab. Kmenta (1971: 254ff) hat gezeigt, dass als Folge einer Verzerrung, die aufgrund einer Korrelation zwischen X und U entsteht (wie im oben erwähnten Konsum/Spar-Beispiel geschehen), eine negative Verzerrung zu beobachten ist. Die dann berechneten Standardfehler führen zu kleineren Konfidenzintervallen, so dass die Wahrscheinlichkeit, H0 verwerfen zu können (mit anderen Worten: die Teststärke des Signifikanztests), größer ist, als sie bei Abwesenheit von Streuungsungleichheit wäre. Regressionsmodelle weisen fast immer Streuungsungleichheiten auf, wenn sich ihre Variablen auf kontextuelle oder aggregierte Messbereiche beziehen. Wenn die Variablen bestimmte Eigenschaften von Staaten, Organisationen, Wahlbezirken oder Schulklassen betreffen, so handelt es sich dabei um kontextuelle Einheiten, deren Eigenschaften mit Variablen gemessen werden, die oft nicht als identische Beobachtungseinheiten anzusehen sind. Z.B. ist es möglich, dass in einigen Entwicklungsländern die Zensus-Daten weniger technisiert und durchorganisiert erhoben werden als in fortgeschrittenen Industrieländern. Die Streuungsmöglichkeit der Daten dieser Länder wäre dementsprechend größer als die anderer Länder. Ebenso ist es möglich, dass in bestimmten Typen von Organisationen alle Entscheidungsprozesse mit offeneren Ausgängen verlaufen können als in anderen. Die Variationsbreite von Entscheidungsresultaten wäre in diesen Organisationen dementsprechend größer als in davon abweichenden Organisationstypen. Auch können Aggregationsvariablen zu typischen Streuungen von Variablenwerten führen und erhöhen dadurch die Möglichkeit von heteroskedastizitiven Regressionsmodellen. Dies deshalb, weil die Messwerte dieser Variablen aggregativ ermit-
244
4 Entdeckung und Beseitigung von Modellverstößen
telt werden. So werden z.B. die Werte von nationalen Geburtenraten als Durchschnittswerte in Form einer Aggregation gewonnen. Bei ihnen hängt die Genauigkeit der Messung u.a. von der Anzahl der Einheiten ab, über die aggregiert wird. Folglich wird die Anzahl der Beobachtungsfälle auch die Streuungsbreite beeinflussen. Gleiches gilt für die Angaben über Stimmenanteile in verschiedenen politischen Wahlkreisen. Auch in diesem Fall sind nicht alle Wahlkreise automatisch gleichberechtigte Beobachtungsfälle. Denn dafür dürften sie sich nicht in bestimmten Hinsichten (z.B. hinsichtlich der Anzahl aller Wähler) deutlich voneinander unterscheiden. Grundsätzlich gilt: Immer wenn die Variationschancen von Variablenwerten in den Beobachtungseinheiten unterschiedlich verteilt sind, muss eine entsprechende Regressionsschätzung auf Streuungsungleichheit untersucht werden, und muss gegebenenfalls auf die Durchführung von Signifikanztests verzichtet werden.
4.6.1 Ermittlung von Streuungsungleichheit
Zur Diagnose von Verstößen gegen A1 lässt sich wieder die visuelle Residuenanalyse einsetzen. Mit einem Streuungsdiagramm zwischen U und X kann in bivariaten Modellen die Existenz von Heteroskedastizität recht eindeutig erkannt werden. Denn im Idealfalle (bei Gültigkeit von A1) sollten die standardisierten Residuen ohne erkennbares Muster um ihren Mittelwert „0“ streuen. Bei vorhandener Heteroskedastizität sind im Streudiagramm systematische Muster zu erkennen, wie sie in der folgenden Abbildung 4.10 dargestellt werden. Im Beispiel 4.10a wächst die Residuenvarianz mit steigenden Werten für X an (was der zu erwartenden Residuenverteilung für den Zusammenhang zwischen Familieneinkommen und Konsumausgaben im obigen Beispiel entspricht). In Beispiel 4.10b fällt die Residuenvarianz mit wachsenden X-Werten ab. In Beispiel 4.10c ist das Muster der Residuenverteilung komplizierter, verweist aber dennoch auf eine vorhandene Streuungsungleichheit. Mit wachsendem X fällt dort die Varianz der Residuen zunächst ab bis X den Wert Xi erreicht hat. Mit steigenden X-Werten, die größer als Xi sind, steigt sodann auch wieder die Varianz von U an. In Beispiel 4.10d wird das Verteilungsmuster aus Beispiel 4.10c umgedreht: dort steigt die Residualvarianz bis zum Wert Xi an und fällt danach wieder ab (auf die Schwellenwerte Xk und Xl kommen wir später zurück).
4.6 Streuungsungleichheit (Heteroskedastizität) (A1)
245
Abbildung 4.10: Residuen-Streudiagramme bei vorhandener Heteroskedastizität
k
k
i
k
l
k
i
l
Ist die Streuungsbreite bei jedem X-Wert nicht eindeutig zu erkennen, z.B. aufgrund zu geringer Fallzahlen bei jedem Xi, so können die Residuen auch gruppiert werden. Dazu werden die X-Werte innerhalb eines bestimmten Messintervalls zu einem einzigen Messwert zusammengefasst. Wenn z.B. nur wenige Haushalte bezüglich ihrer Einnahmen und Ausgaben befragt wurden, so können Einkommensgruppen gebildet werden und die Residuenvariationen der einzelnen Einkommensgruppen miteinander verglichen werden. Die folgende Abbildung 4.11 verdeutlicht ein dementsprechendes Vorgehen.
246
4 Entdeckung und Beseitigung von Modellverstößen
Abbildung 4.11: Gruppierte Residuenanalyse bei vorhandener Heteroskedastizität
Natürlich hängt die angezeigte Residuenstreuung sehr stark von der jeweiligen Gruppeneinteilung ab, und bei unterschiedlicher Gruppeneinteilung können unterschiedliche Muster im Streudiagramm entstehen. Deshalb sollte jede Gruppeneinteilung gut bedacht sein. Eine Gruppenbildung durch rein zahlenmäßige Aufteilung ist sicherlich äußerst riskant (dazu mehr im Folgenden). Schwieriger als im bivariaten Modell ist die Diagnose möglicher Streuungsungleichheiten im multiplen Modell. Im günstigsten Fall lässt sich dort eine Hypothese finden, die Aussagen darüber macht, welche Faktoren die Varianz von U beeinflussen könnten. So wäre es z.B. möglich, dass in einem Modell, das die Entwicklung der staatlichen Verteidigungsausgaben in Abhängigkeit von einem jährlichen Krisenindex und von staatlichen Steuereinnahmen erklären will, die Residuenvarianz von den jährlichen Schwankungen des Bruttosozialprodukts beeinflusst wird. Ein Streudiagramm zwischen Residuen und BSP-Entwicklung müsste dies dann aufdecken. Es ist aber auch möglich, dass inhaltliche Überlegungen zu einer bereits im Modell spezifizierten Variablen führen, die die Residuenvarianz beeinflussen könnte. Dann sollten die partiellen Residuen (Uij) gegen diese X-Variable geplottet werden und das entstehende Streudiagramm auf Varianzdifferenzen untersucht werden. Ist es nicht möglich, eine Hypothese über die Art der Verteilungsbeeinflussung zu formulieren, so sollte dennoch in der multiplen Regressionsanalyse eine Analyse der Residuen-Streudiagramme stattfinden. In diesem Fall wäre jedoch nicht ein bestimmtes Streudiagramm zwischen Uij und X zu erstellen, sondern Uij müsste
4.6 Streuungsungleichheit (Heteroskedastizität) (A1)
247
gegen jede X-Variable geplottet werden.7 Sollten in diesen Streudiagrammen spezifische Muster von der Art, wie sie in Abbildung 4.10 gezeigt werden, erkennbar sein, wäre auch ohne inhaltliche Begründung von der Existenz einer Streuungsungleichheit auszugehen. Wie bei jeder Residuenanalyse muss auch bei der Diagnose von Streuungsungleichheit die Zuverlässigkeit der Datenbasis beurteilt werden. So können z.B. gute Gründe dafür sprechen, dass ein Regressionsmodell von Heteroskedastizität betroffen sein muss, obwohl die Daten der Residuenanalyse dies nicht widerspiegeln. In solch einem Fall könnten evtl. Mess- oder Stichprobenfehler die Abwesenheit von Streuungsungleichheit erzeugen. Wenn jedoch die theoretische oder analytische Begründung für die Unausweichlichkeit von Heteroskedastizität überzeugend ist, so wird man diese in aller Regel in der Regressionsanalyse zu berücksichtigen haben (auch wenn sie in der empirischen Residuenanalyse nicht festgestellt werden kann). Ergänzend zur visuellen Residuendiagnose gibt es eine Reihe von formalen Tests zur Ermittlung von Heteroskedastizität (vgl. Cohen/Cohen et al. 2003: 130ff). In SPSS steht dazu der Levene-Test auf Varianzhomogenität zur Verfügung. Für alle diese Tests muss der jeweilige Datensatz entsprechend der Ausprägung einer bestimmten X-Variablen (oder einer externen Variablen) in einzelne Gruppen eingeteilt werden. Besteht keine Hypothese darüber, welche Variable dafür infrage kommt, so kann auch jede einzelne exogene Modellvariable benutzt werden. Ist dabei eine X-Variable dichotom oder besteht sie nur aus wenigen ordinalen Kategorien, so können die X-Variablenwerte direkt als Gruppenwerte verwendet werden. Bei kontinuierlichen X-Variablen müssen jedoch zuerst Schwellenwerte für die Gruppeneinteilung bestimmt werden. Hierzu kann ein Streudiagramm zwischen Residuen (abgetragen auf der Y-Achse) und der entsprechenden X-Variablen (abgetragen auf der X-Achse) hilfreich sein. Die Schwellenwerte werden dann dort angesetzt, wo zwischen den Gruppen deutliche Unterschiede in der Residualvarianz zu beobachten sind. In Abbildung 4.10 wurden mögliche Schwellenwerte zur Gruppierung der X-Variablen als Xk und Xl markiert.
7
In diesem Falle reduziert sich der Forschungsaufwand deutlich, wenn nicht die einzelnen „partiellen Residuen-Streudiagramme“ per Hand erstellt werden, sondern stattdessen die „partiellen RegressionsStreudiagramme“ mittels Regressionsbefehl direkt aufgerufen werden (vgl. die Ausführungen zu Beginn von Kapitel 4).
248
4 Entdeckung und Beseitigung von Modellverstößen
Zum Test auf eine Heteroskedastizität, die den Verteilungsmustern in Abbildung 4.10a und 4.10b entspricht, muss der Datensatz in zwei Gruppen entlang der Schwelle Xk eingeteilt werden. Dabei kann als Schwellenwert auch der empirische Median verwendet werden, so dass jeweils 50% aller Fälle in jeder der beiden Gruppen liegen (was auch als „Median-Split“ bezeichnet wird). Zum Test auf Heteroskedastizität entsprechend den Verteilungsmustern in Abbildung 4.10c und 4.10d sollte der Datensatz allerdings zumindest in drei Gruppen eingeteilt werden (was auch in den Abbildungen 4.10c und 4.10d mit den Schwellenwerten Xk und Xl dargestellt wird). Alternativ dazu kann der Datensatz auch in zwei Gruppen eingeteilt werden, wobei die erste Gruppen aus Werten kleiner Xk und größer Xl besteht, und die zweite Gruppe aus Werten zwischen Xk und Xl gebildet wird. Als Nullhypothese formuliert der Levene-Test eine Varianzhomogenität aller Residuen, wonach auch die gruppierten Residualvarianzen aus einer gemeinsamen Population stammen (H0: j2 = 2). Als Alternativhypothese wird dementsprechend eine Varianzheterogenität angenommen (H0: j2 2). Ist der Levene-Testwert nicht signifikant (auf einem bestimmten Signifikanzniveau, z.B. 5%), so bleibt die Nullhypothese bestehen, d.h. die Residualvarianzen können als homogen betrachtet werden und es liegt keine Heteroskedastizität vor. Wir verzichten an dieser Stelle darauf, die Berechnung der Levene-Teststatistik ausführlicher zu erläutern, zumal das Ergebnis dieses Signifikanztests in SPSS direkt ausgegeben wird (detailliertere Informationen sind in Cohen/Cohen et al. 2003: 133 zu finden). In aller Regel wird man bei der graphischen Residuenanalyse schneller und zuverlässiger eine vorhandene Heteroskedastizität erkennen können als mit dem LeveneTest, zumal auch bei Verwendung des formalen Tests oftmals eine Gruppierung kontinuierlicher X-Variablen mittels Residuendiagrammen erfolgen muss. Der Levene-Test kann jedoch dann sinnvoll sein, wenn zwar aufgrund des Residuendiagramms eine gewisse Tendenz zu einem bestimmten Verteilungsmuster nach Abbildung 4.10 zu erkennen ist, aber eine Bewertung dieser Tendenz schwer fällt. Dann kann der Levene-Test eine nützliche Entscheidungshilfe sein. In SPSS ist der Levene-Test wie folgt durchzuführen: Als Erstes müssen die standardisierten Residuen mit Hilfe des Regressionsbefehls als neue Variable abgespeichert werden. Dies wurde bereits zu Beginn von Kapitel 4 beschrieben. Sollen dann Zusammenhänge zwischen Residuenstreuung und kontinuierlichen X-Variablen analysiert werden, muss eine Gruppierungsvariable generiert werden. Beispielhaft führen wir hier einen Median-Split durch. Dazu wird als Erstes mit einem einfachen Frequencies-Befehl der empirische Median einer Variablen (hier: „xyz“) bestimmt („FRE xyz / STATISTICS= MEDIAN.“). Dann kann eine neue Gruppenvariable erstellt werden, die zwei Gruppen festlegt: eine Personengruppe mit Werten über dem Median und eine mit Werten kleiner oder gleich dem Median. Im
4.6 Streuungsungleichheit (Heteroskedastizität) (A1)
249
folgenden Beispiel steht „median“ stellvertretend für den empirischen Medianwert, der oben ermittelt wurde: COMPUTE group = -1. IF einst > median group = 0. IF einst 0,995 (bzw. > 99,5 %) Quelle: Cohen 1988: 416-419
328
Tabellenanhang
Tabelle A5
Power des F-Tests als eine Funktion von u, v und bei = 0,01
u
v
2
4
6
8
10
12
14
16
18
20
24
1
20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120
10 12 12 12 06 08 08 08 05 06 06 07 04 05 05 06 03 04 04 05 03 04 04 05 03 04 04 04 02 03 03 04 02 03 03 04 02 02 02 03 02 03 03 03 02 02 02 03 02 02 02 03
23 26 27 28 15 18 19 20 11 14 15 16 09 12 13 14 07 10 11 12 06 09 10 11 05 08 09 10 05 07 08 09 04 06 07 08 04 06 07 08 04 05 06 07 03 05 06 07 04 05 05 06
37 42 44 45 26 30 33 35 20 25 27 29 16 21 23 25 13 18 20 22 11 16 17 19 09 14 16 18 08 13 14 16 07 11 13 15 06 10 12 14 07 10 11 13 05 09 11 12 06 08 10 11
51 57 58 60 37 45 47 49 29 37 39 42 23 31 34 37 20 28 30 33 17 24 27 30 15 22 24 27 13 20 22 25 11 18 20 23 10 16 19 22 10 15 17 20 08 14 17 19 08 13 15 18
63 69 71 72 48 57 59 61 39 49 51 54 32 42 45 49 27 37 41 44 23 34 37 41 20 30 34 37 18 27 31 35 16 25 29 33 14 23 27 31 13 21 25 29 12 20 24 27 11 18 22 26
73 79 80 81 58 68 70 72 48 60 62 65 41 53 56 60 35 48 51 55 30 43 47 51 26 39 43 48 23 36 40 45 21 33 37 42 19 30 35 40 17 29 33 38 15 26 31 36 14 25 29 35
80 86 87 88 67 76 78 80 57 69 72 74 49 62 66 69 43 57 61 65 37 52 57 61 33 48 53 58 29 44 49 55 26 41 46 52 24 38 44 49 22 36 41 47 20 33 38 45 18 32 37 44
86 91 92 92 75 83 85 87 65 77 79 82 57 71 74 77 50 66 70 74 45 61 66 70 40 57 62 67 36 53 58 64 32 49 55 61 29 46 52 58 26 44 50 56 24 41 47 54 22 39 45 52
90 94 95 95 81 88 90 91 72 83 85 87 64 78 81 84 58 73 77 80 52 69 73 77 46 64 69 74 42 61 66 72 38 57 63 69 34 54 60 66 31 51 58 64 29 48 55 62 26 46 53 60
94 96 97 97 86 92 93 94 78 88 90 91 71 83 86 89 64 79 83 86 58 75 79 83 53 71 76 81 48 67 73 78 44 64 70 76 40 61 67 74 37 58 65 71 34 55 62 69 31 52 60 68
97 99 99 99 93 97 97 98 87 94 95 96 81 91 93 95 76 88 91 93 70 85 89 91 65 82 86 90 60 79 84 88 55 76 81 86 51 73 79 84 47 71 77 83 44 68 75 81 40 65 72 80
2
3
4
5
6
7
8
9
10
11
12
13
28
32
36
40
99 * * * * 96 98 99 * 99 99 * 99 * 99 * 93 96 98 99 97 99 * 98 99 * 98 * 89 93 96 98 96 98 99 * 97 98 * 98 99 * 84 90 93 96 94 97 98 99 95 98 99 * 97 99 99 * 79 86 91 95 92 96 98 99 94 97 99 * 96 98 99 * 74 82 88 92 90 94 97 99 93 96 96 99 95 98 99 * 70 78 84 89 87 93 96 98 91 95 98 99 94 97 99 99 65 74 81 86 85 91 95 97 89 94 97 98 93 96 98 99 61 70 77 83 83 89 94 96 87 93 96 98 91 96 98 99 57 66 74 80 80 87 92 95 86 92 95 97 90 95 97 99 53 62 70 77 78 85 91 94 84 90 95 97 89 94 97 99 50 59 67 74 76 84 89 93 82 89 93 96 88 93 96 98 (Forts. auf nachfolgender Seite)
Tabellenanhang
329
(Fortsetzung Tabelle A5)
u
v
2
4
6
8
10
12
14
16
18
20
24
28
32
36
40
14
20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120 20 60 120
02 02 02 03 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 01 01 01 01 01 01 01 01
04 05 05 06 03 04 05 06 03 04 04 05 03 04 04 05 03 03 03 04 02 03 03 04 02 02 03 03 02 02 02 03 02 02 02 02 02 02 02 02
05 08 09 11 05 07 09 10 04 06 07 09 04 06 07 08 04 05 06 07 03 04 05 06 03 03 04 05 02 03 03 05 02 03 03 04 02 02 02 03
08 12 14 17 07 11 13 16 06 10 11 14 05 09 10 13 05 07 09 12 04 06 07 10 03 05 06 08 03 04 04 07 03 03 04 06 02 02 02 04
10 17 21 25 09 16 19 24 08 14 17 21 07 12 15 19 06 10 13 17 05 08 10 14 04 06 08 11 03 05 06 10 03 04 05 08 02 02 03 05
13 23 28 33 12 22 26 32 10 18 22 28 09 16 20 26 07 14 17 23 06 11 14 19 05 08 10 15 04 06 08 13 03 05 07 11 02 03 04 06
17 30 35 42 15 28 33 40 13 23 29 36 11 21 26 33 09 17 22 29 07 14 18 25 05 10 13 20 04 08 11 17 04 06 08 14 02 03 04 08
20 36 43 50 19 34 41 49 15 29 36 44 14 26 32 41 11 22 28 37 08 17 22 31 06 12 17 25 05 10 14 21 04 08 11 18 03 04 05 10
24 43 50 59 23 41 48 57 18 35 43 52 16 32 39 49 13 26 34 44 10 21 27 37 07 15 20 31 06 12 17 26 05 09 13 22 03 04 06 12
29 50 58 66 27 47 55 64 22 41 49 59 19 37 46 56 15 31 40 51 12 25 33 44 08 18 24 37 07 14 20 32 05 11 15 27 03 05 07 15
38 62 70 78 35 60 68 77 29 53 62 72 25 49 59 69 20 42 52 64 15 34 44 57 11 24 33 49 08 19 28 43 07 14 21 37 03 06 09 20
47 73 80 87 44 71 78 86 36 64 73 82 32 60 70 80 26 52 63 75 19 43 55 69 13 32 41 60 11 25 36 54 08 19 28 47 04 08 12 27
55 82 88 92 52 80 86 92 44 74 82 89 39 70 79 87 32 62 73 84 24 52 65 79 16 39 52 71 13 32 45 65 10 24 35 58 04 09 15 35
63 88 92 96 60 86 90 95 51 81 88 94 46 78 86 92 38 71 81 90 29 61 73 86 20 47 61 79 15 39 53 74 11 29 43 67 05 11 18 43
70 92 96 98 67 91 95 98 59 87 93 96 53 84 91 96 44 78 87 94 34 69 80 91 23 55 70 86 18 45 62 81 13 35 51 75 06 13 22 51
15
18
20
24
30
40
48
60
120
Bemerkung: Die angegebenen Power-Werte sind als Prozentwerte zu verstehen (Beispiel: ein angegebener Wert von 10 bedeutet einen Power-Wert von 0,10 bzw. 10 %) * Power-Werte ab hier (nach rechts) sind > 0,995 (bzw. > 99,5 %) Quelle: Cohen 1988: 416-419
Literaturverzeichnis
Achen, C.H., 1982: Interpreting and Using Regression. Newbury Park. Anscombe, F.J., 1973: Graphs in Statistical Analysis. American Statistician 27: 17-21. Belsley, D.A. / Kuh, E. / Welch, R.E., 1980: Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. New York: Wiley. Baron, R. M. / Kenny, D. A., 1986: The moderator-mediator variable distinction in social psychological research: Conceptual, strategic and statistical considerations. Journal of Personality and Social Psychology 51: 1173-1182. Berry, W.D. / Feldman, S., 1985: Multiple Regression in Practice. Newbury Park: Sage. Berry, W.D., 1993: Understanding Regression Assumptions. Newbury Park: Sage. Blalock, H.M., 1964: Causal Inferences in Nonexperimental Research. Chapel Hill: University of North Carolina Press. Bortz, J., 1999: Statistik für Sozialwissenschaftler. Berlin et al.: Springer. Bohrnstedt, G.W. / Carter, T.M., 1971: Robustness in Regression Analysis. Sociological Methodology 3: 118-146. Breen, R., 1996: Regression Models. Censored, Sample Selected, or Truncated Data. Newbury Park: Sage. Chatterjee, S. / Price, B., 1977: Regression Analysis by Example. New York: Wiley. Clogg, C.C. / Petkova, E. / Haritou, A., 1995: Statistical Methods for Comparing Regression Coefficients between Models. American Journal of Sociology 100: 1261-1293. Cohen, J., 1988: Statistical Power Analysis for the Behavioural Sciences. Hillsdale / New York: Erlbaum. Cohen, J. / Cohen, P. / West, S.G. / Aiken, L.S., 2003: Applied Multiple Regression / Correlation Analysis for the Behavioral Sciences (3. Auflage). Hillsdale: Erlbaum. Draper, N.R. / Smith, H., 1981: Applied Regression Analysis (2. Auflage). New York: Wiley. Durbin, J., 1970: Testing for Serial Correlation in Least-squares Regression When Some of the Regressors are Lagged Dependent Variables. Econometrica 38: 410-421. Fox, J., 1991: Regression Diagnostics. Newbury Park: Sage. Fox, J., 1997: Applied Regression Analysis, Linear Models, and Related Methods. Newbury Park: Sage. Fox, J., 2000: Nonparametric Simple Regression. Newbury Park: Sage. Goodman, L., 1960: On the Exact Variance of Products. Journal of the American Statistical Association, December, 1960: 708-713. Hanushek, E. / Jackson, J., 1977: Statistical Methods for Social Scientists. New York: Academic Press. Hardy, M.A., 1993: Regression with Dummy Variables. Newbury Park: Sage. Holmbeck, G. N., 1997: Toward terminological, conceptual, and statistical clarity in the study of mediators and moderators: Examples from the child-clinical and pediatric psychology literatures. Journal of Consulting and Clinical Psychology 65: 599-610. Jaccard, J. / Turrisi, R. / Choi, K.W., 2003: Interaction Effects in Multiple Regression (2. Auflage). Newbury Park: Sage. Johnston, J., 1972: Econometric Methods. New York: McGraw-Hill.
332
Literaturverzeichnis
Kim, J.-O. / Mueller, C.W., 1978: Introduction to Factor Analysis: What It Is and How To Do It. Newbury Park: Sage. Klitgaard, R.E. / Dadabhoy, S. / Litkouhi, S., 1981: Regression Without a Model. Policy Sciences 13(1): 99-116. Kmenta, J., 1971: Elements of Econometrics. New York: Macmillan. Kmenta, J., 1986: Elements of Econometrics (2. Auflage). New York: Macmillan. Koutsoyiannis, A., 1977: Theory of Econometrics. London: Macmillan. Lewis-Beck, M.S., 1980: Applied Regression: An Introduction. Newbury Park: Sage. MacKinnon, D. P. / Dwyer, J. H., 1993: Estimating mediated effects in prevention studies. Evaluation Review 17: 144-158. MacKinnon, D. P. / Warsi, G. / Dwyer, J. H., 1995: A simulation study of mediated effect measures. Multivariate Behavioral Research 30: 41-62. Marsh, L.C. / Cormier, D.R., 2001: Spline Regression Models. Newbury Park: Sage. Menard, S., 2001: Applied Logistic Regression Analysis (2. Auflage). Newbury Park: Sage. Murphy, K.R. / Myors, B., 1998: Statistical Power Analysis: A Simple and General Model for Traditional and Modern Hypothesis Tests. Mahwah: Lawrence Erlbaum Associates. Muthén, L.K. / Muthén, B.O., 2002: How to Use a Monte Carlo Study to Decide on Sample Size and Determine Power. Structural Equation Modeling 9: 599-620. Olkin, I. / Finn, J. D., 1995: Correlations Redux. Psychological Bulletin 118(1): 155-164. Ostrom, C.W., 1990: Time Series Analysis: Regression Techniques (2.Auflage). Newbury Park: Sage. Pampel, F.C., 2000: Logistic Regression. A Primer. Newbury Park: Sage. Retherford, R.D. / Choc, M.K., 1993: Statistical Models for Causal Analysis. New York: Wiley. Sachs, L., 1997: Angewandte Statistik. Anwendung statistischer Methoden (8. Auflage). Berlin et al: Springer. Sahner, H., 2005: Schließende Statistik: Eine Einführung für Sozialwissenschaftler (6. Auflage). Wiesbaden: VS Verlag. Schroeder, L.D. / Sjoquist, D.L., 1986: Understanding Regression Analysis. An Introductory Guide. Newbury Park: Sage. Sobel, M. E., 1982: Asymptotic confidence intervals for indirect effects in structural equation models. S. 290-312 in: S. Leinhardt (Ed.), Sociological Methodology. Washington DC: American Sociological Association. Tacq, J., 1997: Multivariate Analysis Techniques in Social Science Research: From Problem to Analysis. Newbury Park: Sage. Urban, D., 1993: LOGIT-Analyse: Statistische Verfahren zur Analyse von Modellen mit qualitativen Response-Variablen. Stuttgart: Fischer. Urban, D., 2002: Prozessanalyse im Strukturgleichungsmodell: Zur Anwendung latenter Wachstumskurvenmodelle in der Sozialisationsforschung. ZA-Information 51: 6-37. Urban, D. / Mayerl, J., 2003: Wie viele Fälle werden gebraucht? Ein Monte-Carlo-Verfahren zur Bestimmung ausreichender Stichprobengrößen und Teststärken (power) bei Strukturgleichungsanalysen mit kategorialen Indikatorvariablen. ZA-Information 53: 41-69. Urban, D. / Mayerl, J., 2006: Der lokale Ausländeranteil wirkt als selektiver Moderator. Zur statistischen Erklärung von Ausländerablehnung. ZA-Information 59: 56-82. Wonnacott, T.H. / Wonnacott, R.J., 1977: Introductory Statistics (3. Auflage). New York: Wiley. Yamane, T., 1962: Mathematics for Econometrics: An Elementary Survey. Englewood Cliffs: Prentice-Hall.
Sachregister
a-Koeffizient, vgl. Intercept Aggregationsstufe, 221 Aggregationsvariable, 243f Alternativhypothese, 133-138, 140ff, vgl. auch Hypothese Auspartialisierung, 86ff Ausreißer, 152, 185-192, 207 Autokorrelation, 260-272
b-Koeffizient, vgl. Regressionskoeffizient Bestimmtheitsmaß, vgl. Determinationskoeffizient Beta-Koeffizient, 71, 174 BLUE-Schätzung, 120-130, 146 Bodeneffekte, 318f
Ceiling effects, vgl. Deckeneffekte Constant, vgl. Intercept Cook’s D, 188
Deckeneffekte, 318f Degrees of freedom, vgl. Freiheitsgrade Determinationskoeffizient im bivariaten Modell, 57-65, 75-77 im hierarchischen Modell, 315f im multiplen Modell, 96-100, 109-111, 228-229 korrigierter, 170 Vergleich von ~en, 164-166, 301f, 315f direkte Effekte, vgl. Mediatoranalyse DFBETAS, 189f DFFITS, 188-190 Dummy-Variable, 106f, 190, 202-204, 275293, 295-296, 298-299 Durbin-Watson-Test, 264-267
Effektstärke / -Index, 140f, 156-160, 166168 Effekt-Kodierung, 279 Effizienz, 118f, 128f
Einflussstärke, 38, 60f, 78-81, 94, 103, 107, 229, 290, 292f, 300 Erwartungswert, 116f, 224f Exzess, vgl. Kurtosis
F-Test, 153-155 zum Vergleich von Regressionsmodellen, 164ff, 314ff zur Ermittlung der Teststärke, 156f F-Verteilung, 153-155 Fallzahl, vgl. Stichprobenumfang Feedback-Schleife, 28 Fehler erster Art, 139-142 zweiter Art, 139-142, 151 Fehlervarianz, vgl. Varianz der Residuen Fehlschlüsse in der Regressionsanalyse, 317-322 Floor effects, vgl. Bodeneffekte Freiheitsgrade beim t-Test, 148f beim F-Test, 154f zum Vergleich von b-Koeffizienten, 301 zur Ermittlung der Teststärke, 156f
Gauss-Markov-Theorem, 12, 121ff Globalvariable, 221
Heteroskedastizität, 242-259 Hierarchische Regression, vgl. Regression Homoskedastizität, 242-259 Hypothese Alternativ-, 133-138, 140ff Null-, 133-138, 140ff -ntest, vgl. Signifikanztest, t-Test, F-Test
Index-Variable, 226, 236 indirekte Effekte, vgl. Mediatoranalyse Inferenzstatistik, 130-167
334 Interaktivität / Interaktionseffekt mit Dummy-Variablen, 202f, 287-289, 295-299 mit kontinuierlichen Variablen, 214217, 232f, 239-241, 295-298 Intercept / Interzept, 38, 41f, 46-48, 73, 76, 201, 240, 253, 255, 281f, 285, 314 Irrtumswahrscheinlichkeit, 134-138
Jack knifing, 183f Kausalität, 27, 294, 312 Kleinst-Quadrate-Schätzung Ordinary Least Squares / OLS, 45-51, 80ff gewichtete / WLS, 250-257 doppelstufig gewichtete / doppelstufige WLS, 268-272 Kodierung binäre, 276-279, vgl. auch dichotome Variablen und Dummy-Variable Effekt-, 279 Kontrast-, 279f von Dummy-Variablen, 276-280 Kollinearität, 225-241, vgl. auch Multikollinearität Kolmogorov-Smirnov-Anpassungstest, 194198 Konditionsindex, 231-234 Konfidenzintervall, 136f, 146ff, 284 Konsistenz, 119f, 129 Konstante, vgl. Intercept Kontrast-Kodierung, 279f Kontrollfunktion von X-Variablen, 80ff Kontrollvariable, 91-92, 220-222, 312 Korrelation multiple, 96-98, 170, 184 nullter, Ordnung 175 partielle, 175f Pearsonsche, 65-69, 319f semipartielle / Teil-, 176 Korrelationsmatrix, 82, 95, 231 Kovarianz, 67 -analyse, 289-293 Kreuzvalidierung, 184 Kriteriumsvariable, 28 Kurtosis, 194-197 Kurvi-Linearität, 202-217, vgl. auch Linearität Levene-Test, 68, 247-249
Sachregister Leverage-Index, 188 lineare Transformation, 207-213 Linearität, 36-38, 126, 202-217 intrinsische, 207-217 Kurvi-, 202-217 Nicht-, 202-217, 297 Linearkombination, 96f
MAD-Schätzung, 45 Median-Split, 248, 298, 300 Mediatoranalyse, 302ff direkte Effekte in der ~, 303f indirekte Effekte in der ~, 303f partieller Mediatoreffekt, 303 Suppressoreffekte in der ~, 305 Signifikanztets in der ~, 306ff totale Effekte in der ~, 303f totaler Mediatoreffekt, 303 -variablen/ -effekte, 93, 293f, 302ff Messfehler, 151f, 185 Messniveau, 12f, 20 binomiales, 12f, 131 metrisches, 275 qualitatives, 275-293 Minimum-Effekt-Test, 153 Mittel der Quadrate, 173, 316 mittlerer quadratischer Fehler / MQF, 118f, 316 Modell-Dilemma, 18f Modellspezifikation, vgl. Spezifikation Moderatorvariable / -effekte, 293-302 Multigruppenanalyse, 202, 299-302 Multikollinearität, 100-102, 108, 225-241 nicht-essenzielle, 217, 236-241 bei Dummy-Variablen, 278f bei Interaktionseffekten, 239-241 Mutungsbereich, vgl. Konfidenzintervall Nicht-Linearität, 202-217, 297, vgl. auch Linearität Nicht-Signifikanz, 146-153 non-rekursive Beziehungen, 28 Nonzentralitätsparameter, 156f, 167 Normalverteilung, 131-133, 143ff, 193-201 Normalverteilungsplot, 198ff Normalverteilungstest, 193f, 201 Nullhypothese, 133-138, 140ff, vgl. auch Hypothese
Sachregister OLS-Schätzung im bivariaten Modell, 45-51 im multiplen / multivariaten Modell, 80ff Ordinary Least Squares / OLS, vgl. OLSSchätzung Orthogonalität, 100ff, 225f Outlier, vgl. Ausreißer
Parameter, 16, 38, 40f Phantom-Variable, 215 Power, vgl. Teststärke P-P-Plot / P-P-Wahrscheinlichkeitsdiagramm, 198f Prädiktorvariable, 28 Proxy-Variable, 220-222 Quadratsumme, vgl. Summe der Abweichungsquadrate 2
R , vgl. Determinationskoeffizient Regressand, 28 Regression bivariate, 40-80 exponentielle, 211 hierarchische / sequenzielle, 310-317 inverse / reziproke, 212 logarithmische, 212 logistische, 212 multivariate / multiple, 80-111 quadratische / parabolische, 208-211 schrittweise, 112-114 Regression-zum-Mittelwert-Effekt / regression to the mean effect, 319-321 Regressionsfläche, 83ff Regressionskoeffizient, 41f bei Dummy-Variablen, 281-285 bivariater, 41f, 46-49 partieller, 86-90, 95, 101, 103f standardisierter, 70-80, 98f, 103-108 teilstandardisierter, 107 Vergleich von ~en, 301, 316f Regressor, 28, 215-217, 226, 241 rekursive Beziehungen, 27 Residualvarianz / Residuenvarianz, vgl. Varianz der Residuen Residuen, 43f, 122-130, 177ff untransformierte, 177-179 standardisierte, 177-179
335 studentisierte, ausgeschlossene, 177179, 188 partielle, 177-179 Residuenanalyse, 177ff, 286-287 Residuen-Streudiagramm, 179-182 Erstellung von, 180-181
Scheinbeziehung, 81 Schiefe, 194-197, 318 SEE, vgl. Standardschätzfehler Sequenzielle Regression, vgl. Regression Signifikanzniveau, 135ff Signifikanztest, 133-167, vgl. auch t-Test und F-Test der Varianzanalyse, 292 einseitiger ~, 147ff zweiseitiger ~, 135f, 147ff direkter, indirekter und totaler Effekte, vgl. Mediatoranalyse Spezifikation, 21f, 25, 36, 182f, 210ff Spezifikationsfehler / -sprobleme, 114, 125, 152, 200, 217-224 Stabilität, 185-201, 310-317 Stabilitätstest von Regressionskoeffizienten, 234f, 310-317 Standardabweichung, 67f, 70-78 Standardfehler des Regressionskoeffizienten, 108, 146153 der Schiefe, 195 der Kurtosis, 195 im hierarchischen Modell zum Vergleich von b-Koeffizienten, 316f von Dummy-Variablen-Effekten, 284 zum Vergleich von b-Koeffizienten in der Multigruppenanalyse, 301 Standardisierung, 72-75 Teil-, 106f Voll-, 107 Standardnormalverteilung, 132f Standardschätzfehler im bivariaten Modell, 58f im multiplen Modell, 101f Steigungskoeffizient, vgl. Regressionskoeffizient Steilheit, vgl. Kurtosis Stellvertreter-Variable, vgl. Proxy-Variable Stichprobenfehler, 185-201 Stichprobenumfang, 139-142, 152, 185-201, 300, 315, 319
336 Ermittlung eines sinnvollen ~s, 159-161 Störgrößen, vgl. Residuen Stratifizierung, 221 Streuung, 32-35, 51-59 Streuungsungleichheit, 242-259 Summe der Abweichungsquadrate / SAQ, 55-59 Suppressorvariable/ -effekte, 94f, 305, 309
t-Test, 146-153, 162f, 229 im hierarchischen Modell zum Vergleich von b-Koeffizienten, 316f von Dummy-Variablen-Effekten, 283f zum Vergleich von b-Koeffizienten in der Multigruppenanalyse, 301f t-Verteilung, 147ff Teilkorrelation, 176, vgl. auch Korrelation Testfehler, vgl. Fehler Teststärke / Power, 139-142 Ermittlung im bivariaten Modell, 156161 Ermittlung im multiplen Modell, 166168 Time-lags, 262 Toleranz, 228, 231-234 totale Effekte, vgl. Mediatoranalyse
Unverzerrtheit, 116-118, 125-127 Variable abhängige, 12f, 26-29 dichotome, 12f, 20, 106, 202f, 247-249, 276ff, vgl. auch Dummy-Variable endogene, 28 exogene, 28 intervenierende, 93, 293f, 302ff qualitative / kategoriale, 226, 275-278, 283f, 289
Sachregister unabhängige, 12f, 26-29 Varianz, 51-59 ausgeschöpfte / gebundene / erklärte, 55-59, 65, 75, 99f, 290f der abhängigen Variablen, 56ff, 249f, 255 der Regressionskoeffizienten, 128f, 146, 186, 262f der Residuen, 51-60, 96-103, 122-130, 242-259, 286 der unabhängigen Variablen, 128 unausgeschöpfte / ungebundene / unerklärte, 55-59, 290-291 Varianzanalyse, 172 Ko-, 289-293 Varianz-Inflations-Faktor / VIF, 232f Varianzzerlegung, 51-59, 96-103, 289-293 Variation, 51-58 Vergleich von Determinationskoeffizienten, 164-166, 302, 315f Regressionskoeffizienten, 301, 316f Regressionsmodellen, 164ff, 314f
Wahrscheinlichkeitsverteilung, 120ff, 131138 WLS-Schätzmethode, vgl. auch KleinstQuadrate-Schätzung einstufige, 250-257 doppelstufige, 268-272 Wölbung, vgl. Kurtosis
Y-Achsenabschnitt, vgl. Intercept Zeitreihe, 63, 260-272 Zentraler-Grenzwert-Satz, 119 Zentrierung von Variablen, 47, 239-241 Zufallsstichprobe, 131