Martin Weichbold · Johann Bacher · Christof Wolf (Hrsg.) Umfrageforschung
Österreichische Zeitschrift für Soziologie Sonderheft 9/2009 Herausgeber: Vorstand der Österreichischen Gesellschaft für Soziologie: Christian Fleck, Monika Kronberger, Sonja Laubichler, Beate Littig, Johanna Muckenhuber, Joachim Nemella, Harald Rohracher, Katharina Scherke
Martin Weichbold Johann Bacher Christof Wolf (Hrsg.)
Umfrageforschung Herausforderungen und Grenzen
Österreichische Zeitschrift für Soziologie Vierteljahresschrift der Österreichischen Gesellschaft für Soziologie 34. Jahrgang, Sonderheft 9, Juni 2009 Herausgeber: Vorstand der Österreichischen Gesellschaft für Soziologie: Christian Fleck, Monika Kronberger, Sonja Laubichler, Beate Littig, Johanna Muckenhuber, Joachim Nemella, Harald Rohracher, Katharina Scherke. Redaktion: Eva Buchinger, Hubert Eichmann, Eva Flicker, Johanna Hofbauer, Lorenz Lassnigg, Heinz-Jürgen Niedenzu, Franz Ofner, Dieter Reicher, Martin Weichbold, Angelika Wetterer, Meinrad Ziegler. Redaktionssprecher: Franz Ofner (Universität Klagenfurt,
[email protected]), Meinrad Ziegler (Universität Linz,
[email protected]) und Heinz-Jürgen Niedenzu für die eingehenden Manuskripte (Universität Innsbruck,
[email protected]). Rezensionsredakteur: Dieter Reicher, (Universität Graz,
[email protected]) Redaktionelle Zuschriften bitte nur an die Redaktion senden. Unverlangt eingesandte Rezensionsexemplare können nicht zurückgeschickt werden. VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH Abraham-Lincoln-Straße 46 | 65189 Wiesbaden | www.vs-verlag.de Geschäftsführer: Dr. Ralf Birkelbach (Vors.), Albrecht F. Schirmacher Gesamtleitung Anzeigen: Thomas Werner Gesamtleitung Produktion: Christian Staral Gesamtleitung Vertrieb: Gabriel Göttlinger Leserservice: Martin Gneupel, Telefon (06 11) 78 78-151; Telefax (06 11) 78 78-423; E-Mail:
[email protected] Marketing: Ronald Schmidt-Serrière M.A.,Telefon (06 11) 78 78-2 80; Telefax (06 11) 78 78-4 40; E-mail:
[email protected] Anzeigenleitung: Yvonne Guderjahn, Telefon (06 11) 78 78-155; Telefax (06 11) 78 78-4 30; E-mail:
[email protected] Anzeigendisposition: Monika Dannenberger, Telefon (06 11) 78 78-1 48; Telefax (06 11) 78 78-4 43; E-mail:
[email protected] Es gilt die Sammelpreisliste vom 01. 01. 2009. Produktion/Layout: Frieder Kumm, Telefon (06 11) 78 78-1 75; Telefax (06 11) 78 78-4 68; E-mail:
[email protected] Bezugsbedingungen 2009: Jährlich erscheinen 4 Hefte. Jahresabonnement / privat (print+online) € 65,–; Jahresabonnement / privat (nur online) € 39,–; Jahresabonnement / Bibliotheken/Institutionen (nur print) € 117,–; Jahresabonnement Studenten/Emeritus (print+online) – bei Vorlage einer Studienbescheinigung € 29,–. Alle Print-Preise zuzüglich Versandkosten. Alle Bezugspreise und Versandkosten unterliegen der Preisbindung. Kündigungen der Abonnements müssen spätestens 6 Wochen vor Ablauf des Bezugszeitraumes schriftlich mit Nennung der Kundennummer erfolgen. © VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009 VS Verlag für Sozialwissenschaften ist Teil der Fachverlagsgruppe Springer Science+Business Media. Alle Rechte vorbehalten. Kein Teil dieser Zeitschrift darf ohne schriftliche Genehmigung des Verlages vervielfältigt oder verbreitet werden. Unter diesen Vorbehalt fällt insbesondere die gewerbliche Vervielfältigung per Kopie, die Aufnahme in elektronischen Datenbanken und die Vervielfältigung auf CD-ROM und allen anderen elektronischen Datenträgern. Satz: Laudenbach, Sigmundsgasse 14, A-1070 Wien Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier. Printed in the Netherlands ISSN 1011-0070 Gedruckt mit Unterstützung des Bundesministeriums für Wissenschaft und Forschung in Wien GESIS – Leibniz-Institut für Sozialwissenschaften Stiftungs- und Förderungsgesellschaft der Paris-Lodron-Universität Salzburg Linzer Hochschulfonds (LHF) ISBN 978-3-531-16319-2
Inhaltsverzeichnis Martin Weichbold, Johann Bacher, Christof Wolf Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
9
Methodeneffekte
Tino Schlinzig, Götz Schneiderat Möglichkeiten zur Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk. Zum Potenzial von Warmkontakt und randomisierter Geburtstagsauswahl . . . . . . . . . . . .
21
Michael Häder, Mike Kühne, Tino Schlinzig Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk: Auswirkungen auf die Datenqualität . . . . . . . . . . . . . . . . .
45
Julia Simonson Klassenzimmerbefragungen von Kindern und Jugendlichen: Praktikabilität, Potentiale und Probleme einer Methode . . . . . . . . . . .
63
Monika Taddicken Methodeneffekte von Web-Befragungen: Soziale Erwünschtheit vs. Soziale Entkontextualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2
Computerbasierte Befragungen
Joachim Gerich Multimediale Elemente in der Computerbasierten Datenerhebung. Der Einfluss Auditiver und Visueller Elemente auf das Antwortverhalten in Befragungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Albert Greinöcker Der Einsatz visueller Analogskalen (VAS) in Online-Befragungen . . . 131 Jörg Blasius, Maurice Brandt Repräsentativität in Online-Befragungen . . . . . . . . . . . . . . . . . . . . . . . 157
3
Stichproben
Sabine Häder, Matthias Ganninger, Siegfried Gabler Die Stichprobenziehung für den European Social Survey: Prinzipien und Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Folkert Aust, Helmut Schröder Sinkende Stichprobenausschöpfung in der Umfrageforschung – ein Bericht aus der Praxis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Volker Hüfken Teilnahme am ISSP „Bürger und Staat 2004“ und „Nationale Identität 2003“. „Drop-off“-Erhebungen im Rahmen der Allgemeinen Bevölkerungsbefragung (ALLBUS) 2004 . . . . . . . . . . . . . . . . . . . . . . . 213 Siegfried Gabler, Sabine Häder Die Kombination von Mobilfunk- und Festnetzstichproben in Deutschland . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 Johann Bacher Analyse komplexer Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 4
Spezielle Zielgruppen und ihre Inklusion
Bettina Stadler Die Befragung von MigrantInnen in Stichprobenerhebungen . . . . . . . 275 Wolfgang Aschauer Besonderheiten und Problemlagen der quantitativen Befragung bei MigrantInnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Angela Wroblewski Berücksichtigung der Situation von Personen mit gesundheitlichen Beeinträchtigungen in Umfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Marek Fuchs Item-Nonresponse in einer Befragung von Alten und Hochbetagten. Der Einfluss von Lebensalter und kognitiven Fähigkeiten . . . . . . . . . . 333 6
5
Herausforderungen der Großforschung
Anja Kettner, Michael Stops Europäische Betriebsbefragungen über offene Stellen: Ist das Gleiche wirklich gleich? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 Michael Ruland, Marcel Raab, Benno Schönberger, Hans-Peter Blossfeld, Dirk Hofäcker, Sandra Buchholz, Paul Schmelzer GlobalIndex – Ein soziologischer Ansatz zur Messung von Globalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 Christof Wolf, Paul Lüttinger Verteilung von Proxy-Interviews im deutschen Mikrozensus . . . . . . . 395
6
Alternative Befragungstechniken
Stefanie Eifler, Daniela Thume, Rainer Schnell Unterschiede zwischen subjektiven und objektiven Messungen von Zeichen öffentlicher Unordnung („Signs of Incivility“) . . . . . . . . . 415 Georgios Papastefanou Ambulatorisches Assessment: Eine Methode (auch) für die Empirische Sozialforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 Henrik Kreutz Fortschritte bei der Auflösung der ceteris-paribus-Klausel: Was leistet die Quasi-experimentelle Frageform im Vergleich zu Vignetten? Eine methodologische Erörterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 Andreas Quatember Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten und Antwortausfällen bei heiklen Themen . . . . 499
7
7
Methodologische Grundfragen
Reinhard Bachleitner, Wolfgang Aschauer Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 Markus Pausch Eurobarometer und die Konstruktion eines europäischen Bewusstseins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 Martin Weichbold Zur Bestimmung und Sicherung der „Qualität“ von Umfragen . . . . . . 553
Autorinnen und Autoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
8
Martin Weichbold, Johann Bacher, Christof Wolf
Martin Weichbold, Johann Bacher, Christof Wolf
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung Vor mehr als einem halben Jahrhundert wagte René König die Prophezeiung, dass „das Interview in seinen verschiedenen Formen doch immer der Königsweg der praktischen Sozialforschung bleiben“ (1952, 27) werde. Die empirische Sozialforschung befand sich in Europa damals „in der Gründungsphase“ (Weischer 2004, 37), und die Situation ist mit jener von heute nur schwer vergleichbar. Dennoch scheint die Prognose von König noch immer Gültigkeit zu haben. Die Nachfrage nach Daten aus der Markt- und Sozialforschung ist enorm gewachsen und heute auch ein wichtiger ökonomischer Faktor. Das Umsatzvolumen für (kommerzielle) Markt- und Sozialforschung in Deutschland für 2007 wird auf mehr als 2 Milliarden Euro geschätzt1, davon macht die Umfrageforschung nach wie vor den Löwenanteil aus. Doch es wäre zu kurz gegriffen, nur quantitative Indikatoren für die Entwicklung der Umfrageforschung zu sehen, in den letzten Jahren haben sich auch die Rahmenbedingungen geändert, unter denen Sozialforschung heute stattfindet, aber auch die Methode selbst hat sich weiter entwickelt. Betrachtet man die Rahmenbedingungen, so ist zunächst festzustellen, dass die Anforderungen an die Umfrageforschung anders geworden sind: Ergebnisse müssen in immer kürzerer Zeit vorliegen, zumal auch ökonomische oder politische Entscheidungen rascher getroffen werden. Nationalstaatliche Grenzen werden in einem zusammenwachsenden Europa immer öfter irrelevant, und so muss auch die Umfrageforschung zusehends international und vergleichend arbeiten (vgl. Pfau-Effinger & Sakac Magdalenic & Wolf, 2009). Dabei wandeln sich die Gesellschaft(en) in Europa beständig. Neben demografischen Änderungen (wie gesellschaftliche Alterung, Migration oder Änderungen in den Lebensformen und Haushaltsstrukturen) sind es Phänomene wie zunehmende Mobilität oder eine abnehmende Bereitschaft zur Teilnahme an Umfragen (vgl. Kaase 1999, 28), die hier neue Herausforderungen schaffen. 9
Martin Weichbold, Johann Bacher, Christof Wolf
Veränderungen betreffen aber nicht zuletzt die Methode selbst. In den letzten Jahren und Jahrzehnten sind neue Befragungsformen entstanden. König bezog sich in seinen Ausführungen auf das persönliche Interview (heute würde man sagen: das Face-to-face-Interview), das in der Zwischenzeit vom Telefoninterview überflügelt wurde – zumindest was die Häufigkeit seiner Anwendung betrifft.1 Die voranschreitende Nutzung von Mobiltelefonen bringt es mit sich, dass hierbei insbesondere die Auswahlverfahren wieder zu überdenken sind. Seit einigen Jahren haben sich zudem, trotz mancher ungeklärter Fragen (etwa zur Repräsentativität), Onlinebefragungen etabliert. Generell ist die Entwicklung der empirischen Sozialforschung durch eine Technisierung und insbesondere Computerisierung geprägt (vgl. Weichbold 2005, 55). Der Einsatz von Computern als Befragungsinstrument ist nur ein letzter Schritt, auch alle anderen Phasen empirischer Sozialforschung, von der Konzeption über die Stichprobenziehung bis hin zur Datenanalyse erfolgen computergestützt, was neue Möglichkeiten mit sich bringt, aber auch eine gewisse Determination bedeutet. Besonders deutlich wird diese Veränderung im Bereich der Datenanalyse. Mit dem Computereinsatz sind neue Analyseformen wie etwa Clusteranalysen, komplexe Strukturgleichungsmodelle oder multivariate Analysen kategorialer Daten nicht nur möglich geworden, mit dem Ausmaß ihrer Anwendung werden sie auch zu Standards der Datenanalyse (vgl. Scheuch 1999, 10). Neue Forschungsdesigns bringen neue Perspektiven; Netzwerkanalysen, eine stärkere Berücksichtigung der zeitlichen Perspektive (Paneldaten, Ereignisanalysen) oder eine zunehmende Flut an prozessproduzierten Daten betreffen die Umfrageforschung zwar nicht im engeren Sinne, markieren aber relevante Entwicklungen in ihrem Umfeld (vgl. Weischer 2004, 415). Auch wenn die Befragung nach wie vor als ,Königsweg‘ der empirischen Sozialforschung gelten mag, bilden die skizzierten Veränderungen immer wieder neue Herausforderungen. Diese betreffen nicht nur die Praxis der Umfrageforschung, sondern insbesondere auch die Methodenforschung. Die Grenzen der Umfrageforschung sind dabei nicht starr, sondern verändern sich; aber wie alle Methoden hat auch die Umfrageforschung ihre Grenzen. Der vorliegende Band vereint ausgewählte Beiträge von zwei einschlägigen Tagungen, die 2008 stattgefunden haben, nämlich jener der Sektion ,Methoden der Empirischen Sozialforschung‘ der Deutschen Gesellschaft für Soziologie und jene der Sektion ,Soziologische Methoden und Forschungsdesigns‘ der österreichischen Gesellschaft für Soziologie. Nicht nur 10
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
am Umfang des Buches wird die Vielfalt der Herausforderungen für die Umfrageforschung sichtbar, auch die abgehandelten Themen zeigen die Breite der Fragestellungen und geben einen Einblick in die aktuelle Diskussion und den Forschungsstand. Bereits im ersten Block Methodeneffekte wird eine zentrale Fragestellung angesprochen: Welchen Einfluss hat die Entscheidung für eine bestimmte Befragungsform auf die Ergebnisse? Angesichts neuer Erhebungsformen (z. B. Onlinebefragungen) oder modifizierter Befragungsbedingungen hat diese Frage besondere Aktualität. Die ersten beiden Beiträge greifen diese Thematik für Telefonbefragungen, konkret für die aktuelle Problematik von Mobilfunkbefragungen auf. Tino Schlinzig und Götz Schneiderat gehen der Frage nach, wie sinkenden Ausschöpfungsraten begegnet werden kann. Dabei untersuchen sie die Teilnahmebereitschaft an Mobilfunkbefragungen und zeigen, dass eine Vorankündigung per SMS die Teilnahmebereitschaft erhöhen kann. Zudem überprüfen sie die Praktikabilität und die Effekte eines neuen Auswahlverfahrens auf Haushaltsebene – der randomisierten Geburtstagsauswahl – für Festnetzbefragungen. Michael Häder, Mike Kühne und Tino Schlinzig untersuchen Mode-Effekte bei Festnetz- und Mobilfunkbefragungen anhand von Item-Nonresponse und Erinnerungsfragen und kommen zum Schluss, dass unter Berücksichtigung bestimmter Umstände beide Verfahren durchaus parallel eingesetzt werden können. Eine andere Methode stellt Julia Simonson vor, nämlich die vor allem für die Befragung von Kindern und Jugendlichen eingesetzte Klassenzimmerbefragung. Besondere Aufmerksamkeit schenkt die Autorin dabei Fragen der Datengüte, konkret der Validität und der sozialen Erwünschtheit beim Antwortverhalten. Schließlich beschäftigt sich Monika Taddicken in ihrem Beitrag mit Methodeneffekten von Web-Befragungen im Vergleich zu schriftlicher Befragung bzw. CATI. Die festgestellten Effekte interpretiert sie dabei als Folge der eingeschränkten Kommunikationskanäle bei der computervermittelten Kommunikation im Spannungsfeld zwischen sozialer Erwünschtheit und sozialer Entkontextualisierung. Die Beiträge des zweiten Blocks, Computerbasierte Befragungen, beschäftigen sich mit den Möglichkeiten und Grenzen, die Befragungen am Computer und dabei vor allem Online-Befragungen bieten. Joachim Gerich zeigt die Möglichkeiten und Folgen der Einbindung multimedialer Elemente in der Datenerhebung. Er vergleicht den Einsatz auditiver und visueller Elemente in der computergestützten Befragung mit ,konventionellen‘ Onlinebefragungen, wobei er eine Verbesserung der Datenqualität feststellt und diese mit der höheren Zahl an Kommunikationskanälen bzw. 11
Martin Weichbold, Johann Bacher, Christof Wolf
,Social Cues‘ begründet. Albert Greinöcker präsentiert die Ergebnisse seiner Experimente mit unterschiedlichen Gestaltungsformen von Skalenfragen (und dabei insbesondere visueller Analogskalen), wobei nicht nur Unterschiede im Antwortverhalten untersucht werden, sondern über das Abbruchverhalten, die Messung von Antwortdauern sowie die Bewertung der verschiedenen Formen durch die Befragten auch deren Einsatz in der Praxis evaluiert wird. Einem zentralen Einwand gegen Online-Befragungen, nämlich der fehlenden Repräsentativität, widmen sich Jörg Blasius und Maurice Brandt. Sie schlagen für Online-Panels vor, nicht wie bisher oft üblich, Daten nachträglich zu gewichten, sondern eine geschichtete Stichprobe zu ziehen, und untermauern ihren Vorschlag durch einen Vergleich mit ALLBUS-Daten. In den fünf Beiträgen des dritten Blocks geht es um Stichproben. Sabine Häder, Matthias Ganninger und Siegfried Gabler fragen, wie die bestmögliche Stichprobe für eine allgemeine Bevölkerungsumfrage in Europa aussieht, und stellen den im European Social Survey gewählten Ansatz dar. Die AutorInnen argumentieren, dass die optimale Stichprobenstrategie für einen länderübergreifenden Survey nicht in der Wahl des gleichen Stichprobenplanes in jedem Land bestehen kann, sondern in der Wahl der für jedes Land besten Zufallsstichprobe. Der Beitrag zeigt, wie die durch unterschiedliche Stichprobendesigns entstehenden Unterschiede in den Auswahlwahrscheinlichkeiten durch Design-Gewichte ausgeglichen und wie aus diesen vergleichbare „effektive“ Stichprobenumfänge berechnet werden können. Die internationale Perspektive wird ergänzt durch einen intertemporalen Vergleich, den Folkert Aust und Helmut Schröder vorlegen. Sie untersuchen das Phänomen sinkender Ausschöpfungsquoten in der Umfrageforschung. Dazu können sie auf einen Fundus von 132 Studien zurückgreifen, die infas – Institut für angewandte Sozialwissenschaft in Bonn seit den 1990er Jahren im Bereich Sozialforschung durchgeführt hat. Die Autoren untersuchen, ob tatsächlich ein Rückgang der Ausschöpfung beobachtet werden kann und mit welchen Merkmalen der Studien die Ausschöpfungsquote variiert. Wie so häufig zeigen die Ergebnisse ein differenziertes Bild: So bestätigt sich zwar insgesamt der Befund rückläufiger Ausschöpfungsquoten, allerdings zeigt sich auch, dass dies insbesondere für allgemeine Bevölkerungsumfragen gilt, während bei Erhebungen in spezifischen Zielgruppen nach wie vor eine gute Ausschöpfung realisiert werden kann. Mit der Teilnahme an Befragungen beschäftigt sich auch Volker Hüfken. Er untersucht am Beispiel des deutschen Teils des International Social Survey Programmes (ISSP) die Bereitschaft, sog. Drop-off-Fragebögen zu beantworten, also Fragebögen, die dem Befragten im Anschluss an ein 12
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
Face-to-face-Interview ausgehändigt werden. Seine Analysen belegen u. a., dass der Item-nonresponse in der vorangegangenen Face-to-face-Befragung ein guter Prädiktor für die Nichtbeantwortung des Drop-off-Fragebogens ist. Einer ganz anders gearteten Fragestellung gehen Sabine Häder und Siegfried Gabler nach. Sie stellen sich die Frage, wie angesichts einer tendenziell sinkenden Abdeckung der Bevölkerung mit Festnetzanschlüssen und einer entsprechenden Zunahme von Personen, die ausschließlich über einen mobilen Telefonanschluss erreicht werden können, zukünftig Zufallsstichproben für telefonische Befragungen realisiert werden können. Sie zeigen in ihrem Beitrag, wie zwei Stichprobenrahmen, einer für Telefonnummern aus dem Festnetz, einer für Telefonnummern mobiler Anschlüsse, miteinander verbunden werden können. Der letzte Beitrag aus dem Block Stichproben bezieht sich nicht auf die Datenerhebung, sondern auf die Auswertung von Daten. Johann Bacher stellt in seinem Beitrag dar, wie die Eigenschaften der in der Praxis ganz überwiegend verwendeten „komplexen“ Stichprobenverfahren – also Abweichungen von einfachen Zufallsauswahlen – bei der Analyse von Daten, genauer bei der statistischen Inferenz, angemessen berücksichtigt werden können. Da die Verwendung der bis heute üblichen Standardverfahren bei Abweichungen von der Annahme einfacher Zufallsauswahlen zu Fehlschlüssen führen kann, geht es nicht einfach nur um statistische Finesse. Bacher zeigt, wie die heute in gängigen Standardstatistikprogrammen zur Verfügung stehenden Verfahren zur Berücksichtigung des Stichprobendesigns praktisch eingesetzt werden können. Der Frage, welche Probleme bei der Befragung von spezifischen Zielgruppen auftreten und wie diese gelöst werden können, widmen sich die Beiträge des vierten Blocks. Die bis vor einigen Jahren noch oft gepflegte Praxis, Personen ohne ausreichende Deutschkenntnisse aus Untersuchungen einfach auszuschließen, wird zunehmend als problematisch wahrgenommen. Von daher ist es verständlich, dass versucht wird, MigrantInnen in Umfragen einzubeziehen, auch wenn sie keine ausreichenden Deutschkenntnisse haben. Welche Anforderungen sich aus dieser Zielsetzung ergeben, erörtert Bettina Stadler am Beispiel des österreichischen Mikrozensus. Aufgrund bisheriger Erfahrungen vertritt sie die These, dass keine neuen zusätzlichen Probleme auftreten, dass aber die bekannten Probleme von Umfragen besonders deutlich sichtbar werden, wie eine sorgfältige Definition der Grundgesamtheit, die Frageformulierung und die Gestaltung der Interviewsituation. Der Beitrag von Wolfgang Aschauer geht von einer etwas anderen Ausgangssituation aus. Basis seines Beitrages ist eine Befragung von ZuwanderInnen mit Problemen am Arbeitsmarkt. Dabei untersucht er die 13
Martin Weichbold, Johann Bacher, Christof Wolf
Schwierigkeiten und Besonderheiten, die bei der Befragung von MigrantInnen auftreten können und kommt zum Vorschlag, speziell zugeschnittene Forschungsdesigns zu entwickeln. Mit der Erfassung der Situation von Personen mit gesundheitlichen Beeinträchtigungen (Behinderungen, chronischen Krankheiten oder sonstigen gesundheitlichen Beeinträchtigungen) im Rahmen von standardisierten Umfragen setzt sich der Beitrag von Angela Wroblewski auseinander. Eine besondere Herausforderung sieht sie dabei neben der Frage nach Zugangsbarrieren für bestimmte Gruppen von behinderten oder gesundheitlich beeinträchtigten Personen in der adäquaten Erfassung der Formen der Beeinträchtigungen, insbesondere aufgrund des hohen Anteils von Mehrfachbeeinträchtigungen. Dabei spielt auch das Wording für die Akzeptanz der Befragung eine besondere Bedeutung. Auf einen speziellen Aspekt der Datenqualität konzentriert sich schließlich in diesem Block der Beitrag von Marek Fuchs. Untersucht wird das Auftreten von ItemNonresponse bei Befragungen von Alten und Hochbetagten. Datenbasis ist die Berliner-Altersstudie (BASE). Die Analysen bestätigen die Ergebnisse anderer Studien dahingehend, dass mit dem Alter der Item-Nonresponse steigt. An der oft vertretenen These, dass der Alterseffekt primär durch ein rückläufiges Arbeitsgedächtnis erklärt werden kann, sind nach den Ergebnissen von Fuchs aber Zweifel angebracht. Der fünfte Block widmet sich spezifischen Herausforderungen der Großforschung, wo man vor der Notwendigkeit steht, Daten aus unterschiedlichen Erhebungskontexten miteinander zu kombinieren. Anja Kettner und Michael Stopps weisen in ihrem Beitrag auf ein großes Problem der international vergleichenden Forschung hin: Gleich bezeichnete Größen, z. B. ,Arbeitslosigkeit‘ oder ,Bruttosozialprodukt‘, werden in verschiedenen Ländern unterschiedlich definiert und operationalisiert. Am Beispiel der europäischen Statistik zur Anzahl und Struktur offener Stellen zeigen die Autoren, dass die von Eurostat veröffentlichten Angaben für Vergleiche nationaler Arbeitsmärkte und nationaler Arbeitsmarktpolitiken derzeit kaum geeignet sind. Ihre Analyse zeigt, dass nicht nur die statistischen Definitionen und die eingesetzten Methoden beträchtlich zwischen Ländern variieren, sondern auch die Qualität der erhobenen Daten. Indem die Autoren detailliert beschreiben, wo die Unterschiede zwischen Ländern liegen, leisten sie gleichzeitig einen entscheidenden Beitrag zur Harmonisierung der Datengewinnung, Datenaufbereitung und Datenanalyse für den Gegenstandsbereich „offene Stellen“. Einen anderen Aspekt von Großforschung thematisieren Sandra Buchholz, Michael Ruland, Benno Schönberger, Hans-Peter Bloßfeld, Dirk Hofäcker und Marcel Raab. Sie sehen eine der wesentlichen Herausforderungen bei der Analyse international vergleichender Umfrage14
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
daten in der angemessenen Integration länderübergreifender Makrotrends, und hier insbesondere von Prozessen länderübergreifenden sozialen Wandels („Globalisierung“). In ihrem Beitrag berichten die Autoren über die Konstruktion eines Globalisierungsindex, der als Zeitreihe auf Länderebene verfügbar ist, und zeigen, wie er als Kontextmerkmal mit Daten aus der Umfrageforschung kombiniert werden kann. Aber auch innerhalb einer Erhebung kann es notwendig sein, unterschiedliche Daten zu kombinieren: Bei Befragungen werden mitunter Fremdauskünfte durch nahe stehende Personen eingeholt. So können z. B. sowohl im deutschen als auch im österreichischen Mikrozensus andere Haushaltsmitglieder Auskünfte über nicht anwesende Haushaltsmitglieder geben. Ein Rückgriff auf Fremdauskünfte kann auch im Fall der Nichtbefragbarkeit, z. B. aufgrund von Krankheit, erforderlich sein. Ob diese Fremdauskünfte, die als Proxy-Interviews bezeichnet werden, zu Antwortverzerrungen führen, behandeln Paul Lüttinger und Christof Wolf in ihrem Beitrag am Beispiel des deutschen Mikrozensus. Sie gehen der Frage nach, wer bzw. für wen Fremdauskünfte gegeben werden. Dabei zeigen sich systematische Muster, die nahe legen, dass systematische Verzerrungen auftreten können. Alternative Befragungstechniken behandelt der sechste Block. Basis des Beitrages von Stefanie Eifler, Daniela Thume und Rainer Schnell ist das DEFECT-Projekt. Hauptziel dieser Studie war die empirische Untersuchung von Standardfehlern bei komplexen Stichproben. Inhaltlich wurden kriminalsoziologische Aspekte erfasst. In der Analyse wird auf zwei Datenquellen zurückgegriffen, nämlich Befragungs- und Beobachtungsdaten der Wohnumgebung. Untersucht wird, wie Unterschiede in diesen beiden Datenquellen erklärt werden können, wobei sich zeigt, dass verschiedene Formen der Viktimisierung dafür verantwortlich sind. Georgios Papastefanou gibt in seinem Beitrag einen systematischen Überblick über die Einsatzmöglichkeiten von ambulatorischem Assessment in der empirischen Sozialforschung. Ziel des ambulatorischen Assessments ist die objektive Erfassung von Befindens- und Verhaltensdaten durch den Einsatz von technischen Hilfsmitteln. Dadurch sollten Probleme der retrospektiven Befragung vermieden werden. In der empirischen Sozialforschung existieren bereits erste Anwendungsbeispiele, über die der Autor ebenfalls informiert. Henrik Kreutz stellt in seinem Beitrag die von ihm in den 1970er Jahren entwickelte quasi-experimentelle Befragungsmethode dar. Sie ist der Vignettentechnik ähnlich, unterscheidet sich von dieser aber elementar. Jede Person beantwortet alle Vignetten und zu jeder Vignette werden unterschiedliche Reaktionen erfasst. Dadurch ist es möglich, für jede Person eine individuelle Varianzanalyse durchzuführen, die eine Trennung von Situation und Verhal15
Martin Weichbold, Johann Bacher, Christof Wolf
tensabsichten ermöglicht. Besonderes Gewicht wird auf Interaktionseffekte von Person und Situation gelegt. Das Verfahren ermöglicht die Bestimmung homogener Teilpopulationen. Dargestellt wird auch eine Möglichkeit, Ambivalenzen sinnvoll zu untersuchen. Eine bisher wenig beachtete, statistisch aber reizvolle Methode für heikle Fragen zeigt Andreas Quatember in seinem Beitrag auf, nämlich die Methode von randomisierten Fragedesigns. Dabei zieht der Befragte nach einem vorgegebenen Designplan eine Frage – im einfachen Fall: „Gehören Sie der Gruppe A an?“ oder „Gehören Sie nicht der Gruppe A an?“ – und beantwortet diese. Dem Interviewer/der Interviewerin ist die Frage nicht bekannt, so dass ein Rückschluss auf das Verhalten oder auf Merkmale der befragten Person nicht möglich ist. Es ist also maximale Anonymität gegeben. Der Autor stellt von ihm vorgenommene Weiterentwicklungen der Methode dar und behandelt die Frage nach optimalen Befragungsdesigns. Die Beiträge im siebenten und letzten Block dieses Bandes beschäftigen sich mit methodologischen Grundfragen der Umfrageforschung. Reinhard Bachleitner und Wolfgang Aschauer fragen, inwieweit Umfrageergebnisse von der Situation, genauer von Raum, Zeit und Befindlichkeit der beteiligten Personen abhängen. Um das zu zeigen, präsentieren die Autoren ein Analyseraster, das nicht auf die Analyse soziodemographischer und sozioökonomischer Einflüsse auf die Antwortwahl abzielt, sondern mögliche Einflüsse für die getroffene Antwortentscheidung auf der Situationsebene erfasst. Das Ziel der Untersuchung ist, zu einer Theorie der Befragung beizutragen, die auf Grundlage der Frame-Selektion-Theorie (Esser, 2006) die Ergebnisse der Bias-Forschung umfassend integriert. Markus Pausch geht es in seinem Beitrag um die Funktion des Eurobarometers für die Schaffung eines europäischen Bewusstseins. Der Fokus des Beitrags liegt daher weniger auf den methodischen Details des Eurobarometers, sondern auf den für die politische Debatte relevanten Interpretationen und den Veröffentlichungen der Europäischen Kommission. Im abschließenden Beitrag geht Martin Weichbold der Frage nach, wie die Qualität einer Umfrage beurteilt werden kann. Dabei werden unterschiedliche Ansätze diskutiert, die in der Konzeption von Qualität und in der Umsetzung dieser Konzeption differieren. Der Autor stellt verschiedene Kataloge von Qualitätskriterien vor und zeigt, dass sich diese mit dem Konzept des Total Survey Error, das inhaltliche und prozessorientierte Qualitätskonzeptionen verbindet, integrieren lassen. Unser Dank gilt allen, die zum Gelingen dieses Bandes beigetragen haben. Für die finanzielle Unterstützung danken wir dem Bundesministerium für Wissenschaft und Forschung in Wien, GESIS – Leibniz-Institut für Sozialwis16
Herausforderungen und Grenzen der Umfrageforschung. Zur Einleitung
senschaften, der Stiftungs- und Förderungsgesellschaft der Paris-LodronUniversität Salzburg sowie dem Linzer Hochschulfonds (LHF). Besonderer Dank für die tatkräftige und kompetente Unterstützung bei den redaktionellen Arbeiten gebührt Frau Heidemarie Pöschko sowie Frau Sonja Schinwald, die auch die Tagung in Salzburg in hervorragender Weise organisatorisch betreut hat.
Anmerkung 1
Quelle: Arbeitskreis deutscher Sozial- und Marktforschungsinstitute,www.adm-ev.de/ zahlen.html.
Literatur Esser, H. (2006). Affektuelles Handeln: Emotionen und das Modell der Frame-Sektion. In Schützeichel, R. (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (143–174). Frankfurt am Main: Campus. Kaase, M. (Hg.) (1999). Deutsche Forschungsgemeinschaft: Qualitätskriterien der Umfrageforschung. Quality Criteria for Survey Research. Berlin: Akademie Verlag. König, R. (1952). Praktische Sozialforschung. In Ders. (Hg.), Das Interview. Formen Technik Auswertung. Köln: Kiepenheuer & Wietsch. Pfau-Effinger B., & Sakac Magdalenic, S., & Wolf, C. (Hg.) (2009). International vergleichende Sozialforschung. Ansätze und Messkonzepte unter den Bedingungen der Globalisierung. Wiesbaden: VS Verlag. Scheuch, E. K. (1999). Die Entwicklung der Umfrageforschung in der Bundesrepublik Deutschland in den siebziger und achtziger Jahren. ZUMA-Nachrichten, 45, 7–22 Weischer, C. (2004). Das Unternehmen ,Empirische Sozialforschung‘. Strukturen, Praktiken und Leitbilder der Sozialforschung in der Bundesrepublik Deutschland. München: Oldenbourg. Weichbold, M. (2005). Touchscreen-Befragungen. Neue Wege in der empirischen Sozialforschung. Frankfurt am Main: Lang.
17
1 Methodeneffekte
Tino Schlinzig, Götz Schneiderat
Tino Schlinzig, Götz Schneiderat
Möglichkeiten zur Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk Zum Potenzial von Warmkontakt und randomisierter Geburtstagsauswahl Zusammenfassung Telefoninterviews nehmen mit einem Anteil von etwa 41 Prozent an allen Befragungen in der Markt- und Sozialforschung eine bedeutsame Stellung im sozialwissenschaftlichen Methodenarsenal ein. Die Vorzüge dieses Modes gegenüber beispielsweise postalischen Befragungen sind in der Literatur hinlänglich besprochen worden. Allerdings haben Telefoninterviews ähnlich wie andere Modes mit dem Problem sinkender Ausschöpfungsquoten zu kämpfen. Insbesondere die Zunahme der über Telefon geführten kommerziellen Verkaufsgespräche leistet diesem Trend bei Befragungen über das Festnetz Vorschub. Im Folgenden werden zwei Möglichkeiten vorgestellt, dem Trend rückläufiger Responseraten entgegenzuwirken. Die Daten hierzu entstammen zwei Vorstudien und der Haupterhebung eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts zu Möglichkeiten einer parallelen CATIBefragung über Festnetz und Mobilfunk. Insgesamt wurden hierfür bundesweit knapp 3.500 Personen zufällig befragt. Zentral für dieses Projekt waren auch die Fragen nach möglichen Mode-Effekten (vgl. Häder & Kühne & Schlinzig in diesem Band) und der Ergründung eines Dual-Frame-Approaches zur Stichprobenziehung bei gleichzeitiger Nutzung von telefonischen Befragungen über das Festnetz und über den Mobilfunk (vgl. Gabler & Häder in diesem Band). Der vorliegende Beitrag referiert zum einen die Ergebnisse zur Wirkung eines Warmkontakts via Ankündigungs-SMS bei Befragungen über das Mobilfunknetz und zum anderen das Potenzial eines neuen Auswahlverfahrens auf Haushaltsebene bei Festnetzbefragungen als Alternative zu Last-/Next-Birthday-Methode und Kish-Selection-Grid. Die Befunde zeigen, dass der für die Befragung über Mobilfunk realisierte Warmkontakt und die für die Befragung auf Festnetz eingesetzte Randomisierte Geburtstagsauswahl (RGA) praktikabel sind und die Teilnahme an Telefonumfragen steigern können.
21
Tino Schlinzig, Götz Schneiderat
Abstract Possibilities to Improve Response Rates in Landline and Mobile Telephone Surveys On Effects of Prior Notices and an Alternative Within Household Respondent Selection Technique In empirical social science and market research, up to 41 per cent of all surveys are conducted via telephone. There is a broad corpus of literature that extensively discusses the advantages of this mode. However, interviews conducted by telephone as well as other modes are faced with declining response rates. Especially increasing numbers of commercial surveys and sales via telephone promote this trend. This article focuses on the potential of two instruments to increase response rates. For one thing a split ballot was deployed to examine effects of warm contacts in a mobile phone survey and for another thing alternatively to last-/next-birthday-method and kish-selection-grid a new withinhousehold respondent selection-method was introduced in a telephone survey conducted via landline. Data collected in a project financed by the German Research Foundation (DFG) concerned with telephone interviews conducted both by landline and mobile phone provide evidence that both instruments mentioned above do have the potential to increase response rates. This approach investigated a dual-frame-design (see Gabler & Häder this volume). Respondents were contacted both via mobile phone and landline. Altogether – pre-studies and main study – about 3.500 interviews could be realised. Furthermore the project focused on possible mode effects by parallel using of telephone surveys via landline phones and mobile phones (see Häder & Kühne & Schlinzig this volume).
1 Einleitung und Problemstellung Verschiedenste gesellschaftliche Akteure stützen ihre Argumentationen und Interventionen auf Daten aus sozialwissenschaftlichen Erhebungen. Dabei wird fast jede zweite Studie (etwa 41%) im Bereich der Marktforschung und Sozialwissenschaft über das Telefon realisiert.1 Die Güte dieser Daten ist daher von zentraler Bedeutung. Sie ergibt sich unter anderem aus der Qualität der realisierten Stichprobe. Als ein Indikator hierfür gilt die Höhe der Ausschöpfung als Anteil der erreichten Stichprobe am Nettoansatz (Bruttoausschöpfung). Umso problematischer ist, dass die Responseraten differenziert nach eingesetztem Mode in den letzten Jahren sinken (vgl. Curtin & Presser & Singer 2005; Däubler 2002; de Heer 1999; Schnell 1997). Besonders von Interesse ist hierbei der Anteil systematischer Ausfälle, die zu einer Verzer22
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
rung der Stichprobe führen können. Die Qualität, insbesondere von Befragungen der Allgemeinbevölkerung, leidet neben dem Anteil an nicht erreichbaren Personen sowie Personen, die nicht in der Lage sind, an einer Befragung teilzunehmen, unter einem zunehmenden Anteil von Kontaktierten, die eine Teilnahme verweigern (Non-Response). Etliche Ansätze versuchen dieser Entwicklung etwas entgegenzusetzen. So untersuchten unter anderem Blasius und Reuband (1995) das Ausschöpfung steigernde Potenzial verschieden häufiger Kontaktversuche. Hüfken (2000) diskutierte in seinem Beitrag die Konsequenzen von Kalt- und Warmkontakten für das Kooperationsverhalten. Den in den Einleitungstexten genannten Auftraggeber variierten Meier und Kollegen (2005) und reicherten diese in einem Split durch eine einfach zu beantwortende Eingangsfrage an und erreichten darüber eine signifikante Steigerung der Teilnahme. Aus der Methodendiskussion um Telefonumfragen ist bekannt (vgl. exemplarisch Meier et al. 2005; Fuchs 1994), dass die Entscheidung der Befragten, an einer Umfrage teilzunehmen, in der ersten Phase des Interviews – in der des ersten Kontaktes – fällt. Wurde in ein Interview eingewilligt, ist eine Verweigerung eher unwahrscheinlich. Große Bedeutung kommt daher Strategien zu, welche die kritische Phase zu entschärfen, Verweigerungen zu vermeiden und damit die Ausschöpfung potenziell zu erhöhen vermögen. Zwei Möglichkeiten wurden im Rahmen des hier vorgestellten DFG-Projekts erprobt. Eine mögliche Strategie stellt die vor der Erhebung versandte Ankündigung der Untersuchung dar. Üblicherweise werden hierzu ein paar Tage vor den ersten Kontaktversuchen postalisch Informationsschreiben versandt. Die neben der Befragung über Festnetz parallel erfolgte Befragung über Mobilfunk bot hierzu allerdings technisch die Möglichkeit, neue Wege zu gehen und zur Ankündigung der Studie Textmitteilungen (SMS) über Handy an potentielle Befragte zu versenden (vgl. Steeh & Buskirk & Callegaro 2007; Steeh & Piekarski 2008, 439 ff.). Der dabei eingesetzte Split sollte die Frage beantworten, ob und falls ja, in welchem Ausmaß sich Unterschiede hinsichtlich der Responseraten durch den Einsatz eines solchen Warmkontaktes bei den beiden Handy-Substichproben ergeben und wie dies ggf. zu erklären ist. Eine weitere Strategie, von der vermutet werden kann, dass sie die prekäre Einstiegssituation zu entschärfen und darüber hinaus die Ausschöpfung tendenziell zu erhöhen vermag, stellt eine alternative Methode zur Auswahl der Zielperson auf Haushaltsebene dar. Erstmalig eingesetzt wurde die von Siegfried Gabler (GESIS-Mannheim) entwickelte sogenannte ,Randomisierte Geburtstagsauswahl‘ (RGA). Diese berührt einen Problemkreis, der innerhalb der Methodendiskussion um Telefonumfragen über das Festnetz be23
Tino Schlinzig, Götz Schneiderat
kannt ist, nämlich die Auswahl auf Haushaltsebene bei Zufallsstichproben (vgl. Gaziano 2005; Salmon & Nicols 1983; Kish 1949, 1965; Troldahl & Carter 1964). Die bisher bekannten Verfahren, Last- und Next-Birthday-Methode sowie Kish-Selection-Grid u. a., sind stichprobentheoretisch problematisch vor allem für Surveys, die in regelmäßigen Abständen in gleichen Zeiträumen Erhebungen durchführen. Darüber hinaus provozieren sie Verweigerungen der kontaktierten Personen. Den Befragten wird der Hintergrund einer zusätzlichen Auswahl auf Haushaltsebene offenbar nicht deutlich bzw. werden Nachfragen des Interviewers nach Haushaltsinterna – etwa nach der Anzahl der Personen im Haushalt, deren Alter und dergleichen – von den Kontaktierten als Zumutung betrachtet (vgl. Fuchs 1994, 167). Diese Problematik kann die RGA sicherlich nicht gänzlich ausräumen. Ihr entscheidender Vorteil ist jedoch, dass sie unterschiedliche Inklusionswahrscheinlichkeiten der Stichprobenelemente besser ausgleicht als bisher verwendete Methoden. Dieser Aspekt ist für die folgende Diskussion jedoch von untergeordneter Bedeutung. Im Fokus dieses Artikels steht vielmehr die Frage, ob dieses auf den ersten Blick komplexe Verfahren praktisch einsetzbar ist, d. h. mehr Abbrüche befördert oder gar eine Ausschöpfung steigernde Wirkung entfalten kann. Letzteres ist wahrscheinlich, wenn davon ausgegangen wird, dass vergleichsweise komplexe Eingangsfragen eher stimulierend als abschreckend auf die Befragten wirken und die Bindung der Kontaktierten an die Interaktion mit dem Interviewer steigern.
2 Untersuchung Die hier vorgestellten Ergebnisse entstammen dem von der Deutschen Forschungsgemeinschaft (DFG) von 2006 bis 2008 geförderten und durch den Lehrstuhl für Methoden der empirischen Sozialforschung der Technischen Universität Dresden in Zusammenarbeit mit der GESIS-Mannheim ausgeführten Projekt ,Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz‘ (vgl. Häder & Häder 2009). Ausgangspunkt ist die seit 2003 rückläufige Ausstattung der Haushalte mit Festnetzanschlüssen in Deutschland, während der Anteil der exklusiven Mobilfunknutzer steigt (vgl. Glemser 2007, 11). Dieser Anteil wurde beim ersten Treffen der Arbeitsgruppe Mobilsample im Jahre 2005 auf sieben bis acht Prozent geschätzt (vgl. Mobilsample 2005). Eine aktuelle Erhebung im Rahmen des EUROBAROMETER (2008) weist bereits einen Anteil von 11 Prozent aus.2 Erfahrungen aus anderen europäischen Ländern, etwa aus Finnland (61 Prozent) oder der 24
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Tschechischen Republik (64 Prozent), lassen vermuten, dass sich in Deutschland die Verdrängung des Festnetzes zugunsten der mobilen Telekommunikation in Zukunft eher beschleunigen wird. Die Aussagekraft von Bevölkerungsumfragen, deren Ergebnisse ausschließlich über das Festnetz gewonnen werden, muss daher immer mehr infrage gestellt werden. Ausgehend von dieser Problematik beschäftigt sich dieses Projekt mit der Möglichkeit, Telefonbefragungen in einem Mixed-Mode-Ansatz aus Mobilfunkund Festnetzanschlüssen durchzuführen und damit ein entsprechendes Design zu ergründen. Dies berührt verschiedene Problemkreise. Neben der Konstruktion eines geeigneten Auswahlrahmens für Handynummern, der im Gegensatz zum Festnetzanschluss nicht auf ein Listenverzeichnis aufbauen kann, und der Analyse von Modeeffekten zwischen Mobilfunk- und Festnetzbefragungen (vgl. hierzu die Beiträge von Gabler & Häder und Häder & Kühne & Schlinzig in diesem Band sowie eine detaillierte Darstellung bei Häder & Häder 2009) wendeten sich die Untersuchungen dem Problem sinkender Ausschöpfungsquoten bei Telefonumfragen zu.
2.1 Theoretischer Ausgangspunkt Etliche Untersuchungen haben Maßnahmen zum Gegenstand, welche die Bereitschaft der kontaktierten Personen zur Teilnahme an Befragungen beeinflussen sollen (vgl. Groves et al. 2006, 2004). Neben beispielsweise der Rolle der Thematik der Untersuchung, dem Einfluss des Auftraggebers, der Bedeutung von Kontaktzeiten, der Anzahl der Kontaktversuche und dem Einfluss geschulter Interviewerinnen und Interviewer ist bekannt, dass eine vorab getätigte schriftliche Ankündigung einer Studie die Teilnahmebereitschaft der Befragten zu beeinflussen vermag (vgl. Schneiderat & Schlinzig 2009; Steeh & Buskirk & Callegaro 2007; Mann 2005; Goldstein & Jennings 2002; Hüfken 2000, 11 ff.; Friedrichs 2000, 171 ff.; Frey & Kunz & Lüschen 1990; Groves & Snowden 1987; Dillman & Gallegos & Frey 1976). Die Teilnahme an einer Befragung und die Verweigerung lassen sich im Sinne der sozialen Austauschtheorie als Orientierung an individuellen Nutzen und Kosten modellieren (vgl. Gouldner 1960). Die Entscheidungsfindung für eine Handlungsalternative wird hierbei durch einen Ausgleich von Individualnutzen im Austausch der Akteure begriffen. Gleichsam wird das Teilnahmeverhalten der Befragten auch hierbei als ein Abwägungsprozess konzeptualisiert zwischen wahrgenommenen Vorteilen, Kosten und der Erwartung, dass längerfristig der Nutzen die Kosten übersteigt (vgl. Dillman 1991, 2000). Ziel muss daher sein, die wahrgenommenen Kosten zu verringern 25
Tino Schlinzig, Götz Schneiderat
und den erwarteten Nutzen zu steigern. Einen gangbaren Weg stellt dabei die Stärkung des Vertrauens der Befragten in die Erhebung und den Auftraggeber und das Angebot, auf zusätzliche Informationen bereits vor der Befragung zurückgreifen zu können, dar. Die Ankündigung einer Studie mittels Übermittlung einer SMS an die potentiellen Befragten als positiver, nichtmonetärer Anreiz vermag dies zu leisten. Der Vorkontakt und die Möglichkeit, weitere umfassende Informationen zu erhalten, können eine reziproke Verpflichtung seitens der Zielpersonen evozieren. Zu erwarten ist, dass die Kontaktierten der Bitte der Interviewerinnen und Interviewer um Teilnahme an der betreffenden Studie eher nachkommen, als dies ohne einen Warmkontakt der Fall wäre. Zudem kann eine Ankündigungs-SMS die Teilnahme an einer Befragung insofern begünstigen, als dass bei dem Kontaktversuch durch eine Interviewerin oder einen Interviewer – und damit verknüpft die Nennung des ausführenden Instituts und des Titels der Studie – die vorab erhaltenen und dadurch memorierten Informationen durch die Kontaktierten aktualisiert werden. Anderseits ist die Teilnahme an einer Befragung nicht in jedem Falle an bewusst geführte Abwägungsprozesse gebunden. Aufgrund der kurzen Einleitungsphase eines telefonischen Interviews wird bei der Informationsverarbeitung durch die Befragten schnell und effizient auf Urteilsheuristiken zurückgegriffen (Stroebe & Jonas & Hewstone 2002, 147). Die Wahrscheinlichkeit der Anwendung solcher Heuristiken ist auch in der Tendenz begründet, sich konsistent zu verhalten (vgl. Meier et al. 2005, 41). Das Abschlagen der Bitte um ein Interview nachdem bereits Fragen beantwortet wurden, würde ein inkonsistentes Verhalten bedeuten. Meier und Kollegen (2005) haben sich diesen Fakt zu Nutze gemacht, indem sie Einleitungstexten leicht zu beantwortende Fragen hinzufügten. Es ist zu erwarten, dass die Beantwortung dieser Frage zu Beginn des Interviews das Commitment an die Teilnahme erhöhen kann, sodass weniger Personen verweigern (vgl. ebd., 50). Ein solches Verhalten könnte durch die Befragten auch dann gezeigt werden, wenn bereits in der Kontaktphase des Interviews eine kleine, kognitiv vergleichsweise anspruchsvolle Aufgabe durch die kontaktierten Personen gelöst wird, wie dies bei der Ermittlung der Zielperson auf Haushaltsebene für Befragungen über das Festnetz notwendig ist. Gemäß der Theorie rationalen Handelns entscheiden sich Akteure in bestimmten Situationen für eine Handlungsoption, wenn – verglichen zu anderen Handlungsmöglichkeiten – die Kosten dieser, die sich ihrerseits aus Transaktions- und Opportunitätskosten zusammensetzen, relativ geringer ausfallen als der vermutete Nutzen (vgl. Esser 1986, 41). Diese Kalkulation fällt bei vielen Personen denkbar knapp aus, was zur Konsequenz hat, dass 26
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
diese Personen hinsichtlich ihrer Teilnahme indifferent sind und diese unter anderem von externen Faktoren abhängig machen. Neben der Erfüllung von Höflichkeitsnormen gegenüber dem Anrufenden sowie der höheren Bereitschaft, wissenschaftlichen Auftraggebern von Telefonumfragen Auskunft zu geben, steigern vor allem Abwechslung und neuartige Erfahrungen das Interesse an Befragungen (vgl. Esser 1986, 39). Anders als bei Festnetzbefragungen ist bei der Befragung über Handy mit geringerem Unit-Non-Response zu rechnen. Diese Annahme scheint insofern nahe liegend, als dass Befragungen über das Mobilfunknetz – abgesehen von Werbeanrufen des eigenen Mobilfunkanbieters – eher selten vorkommen, wie unsere Ergebnisse weiter unten zeigen können. Ein Over-Surveying und damit eine gewisse Sättigung, wie es aus Befragungen über das Festnetz bekannt ist, kann hier zunächst ausgeschlossen werden. Es ist zu vermuten, dass die Bitte um ein Interview via Handy ein gewisses Überraschungsmoment in sich birgt. Telefonbefragungen über das Handy sind vergleichsweise neu und versprechen damit einen Grad an Exklusivität und Verbindlichkeit seitens der befragenden Forschungseinrichtung. Hinzukommt, dass Mobilfunknummern in den aller wenigsten Fällen in öffentlich einsehbaren Listen eingetragen und damit zugänglich sind. In der Regel werden Handynummern durch die Nutzerinnen und Nutzer selbst an Dritte weitergereicht, d. h. die anrufenden Teilnehmerinnen und Teilnehmer sind zumeist bekannt. Insofern ist auch der Anruf einer unbekannten Interviewerin beziehungsweise eines unbekannten Interviewers – zumindest bisher – eher die Ausnahme und daher für die Angerufene oder den Angerufenen unerwartet. Es ist zu vermuten, dass das Interesse der Zielpersonen an der Umfrage durch dieses ,Versprechen‘ auf Abwechslung und Neuigkeit befördert wird und damit (zur Zeit) zu höheren Ausschöpfungen führen kann.
2.2 Studiendesign des DFG-Projektes Die diesem Artikel zugrunde liegenden Daten speisen sich außerdem aus zwei Vorstudien mit Pretest-Charakter. Die beiden Vorstudien, die von Oktober 2006 bis Juni 2007 im Feld waren, beschränkten sich ausschließlich auf bundesweite Befragungen über das Festnetz (Vorstudie 1: n = 920 und Vorstudie 2: n = 399). Für die Hauptstudie wurden im Telefonlabor des Zentrums für Sozialwissenschaftliche Methoden der Technischen Universität Dresden (ZSM) parallel über Mobilfunk und das Festnetz CATI-Interviews geführt. Die Interviews wurden sowohl für die beiden Vorstudien als auch für die Hauptstudie vorwiegend durch Studierende der Technischen Univer27
Tino Schlinzig, Götz Schneiderat
sität Dresden durchgeführt.3 Bevor die Studie ins Feld ging, erhielten die Interviewerinnen und Interviewer durch Personal des ZSM eine umfangreiche Schulung zur Durchführung von Telefoninterviews mit dem CATISystem. Die Befragten der Hauptstudie wurden für diese Dual-Frame-Erhebung aus zwei verschiedenen Auswahlrahmen rekrutiert (vgl. Gabler & Häder in diesem Band; Häder & Gabler & Heckel 2009). Die Ziehung der Stichprobe für die Festnetzbefragung erfolgte auf der Grundlage des an der GESISMannheim entwickelten und in der Literatur als Gabler-Häder-Design bekannten Auswahlrahmens für Telefonstichproben (vgl. Gabler & Häder 2002; Gabler & Häder 1999). Für die Entwicklung einer Handystichprobe wurde ein modifiziertes RDD-Design eingesetzt (vgl. Häder & Gabler & Heckel 2009). Insgesamt konnten im Rahmen der Haupterhebung 1.009 Interviews über Festnetz und 1.162 Befragungen über Mobilfunk realisiert werden.
2.3 Die eingesetzten Instrumente Um die ausschöpfungssteigernde Wirkung eines Warmkontaktes bei Mobilfunkbefragungen auszuloten, wurden im Voraus SMS-Textnachrichten an einen Teil der Nummern des Samples versandt. Die Prüfung der Praktikabilität und Wirkung eines neu entwickelten Auswahlverfahrens zur Bestimmung der Zielperson auf Haushaltsebene der Festnetzstichprobe erfolgte mittels eines Splits über die Feldzeit der Vorstudien und der Hauptstudie des DFG-Projekts hinweg.
Mixed-Mode-Ansatz Bekannt ist, dass je nach eingesetztem Mode unterschiedliche Ausschöpfungsraten erzielt werden können (vgl. Fuchs 2002; Porst 1998, 17; Schnell 1997; Fuchs 1994). Wenngleich der parallele Einsatz von Mobilfunk und Festnetz für bundesweite Befragungen im Rahmen dieses Projektes primär zur Lösung von Noncoverage- und Sampling-Errors (vgl. Gabler & Häder in diesem Band) und zur Ergründung möglicher Mode-Effekte (vgl. Häder & Kühne & Schlinzig in diesem Band) eingesetzt wurde, galt es mit diesem Mixed-Mode auch mögliche Differenzen hinsichtlich des Response-Verhaltens der Befragten zu ergründen. 28
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Warmkontakt Studien zur Steigerung der Ausschöpfung konnten zeigen, dass – im Unterschied zu ,kalt‘ kontaktierten Personen – signifikant mehr Personen an der Befragung teilnehmen, wenn diese im Voraus durch eine Ankündigung über das Forschungsvorhaben und den bevorstehenden Kontaktversuch informiert wurden (vgl. Goldstein & Jennings 2002; Hüfken 2000; Frey & Kunz & Lüschen 1990; Dillman & Callegos & Frey 1976). Inwiefern die durch einen Vorkontakt erzielte Ausschöpfungssteigerung mit einer Erhöhung der Datenqualität einhergeht, steht auf einem anderen Blatt (vgl. Stoop 2005; Hüfken 2000, 11 ff.) und kann an dieser Stelle nicht weiter diskutiert werden. Ein postalischer Vorabkontakt im Rahmen von Telefonumfragen setzt voraus, dass die Adressen der Elemente des Samples bekannt sind. Das angewandte Design für Festnetzstichproben nach Gabler & Häder (2002, 1999) bietet diese Möglichkeit nicht bzw. nur für einen Teil der im Auswahlrahmen enthaltenen Nummern. Auch das genutzte RDD-Verfahren im Falle der Mobilfunkstichprobe erlaubt keinen Zugang zu den Adressdaten der potentiellen Befragten. Allerdings bot sich hier die Möglichkeit, im Voraus via SMS (Short Message Service) über die Studie zu informieren. Eingesetzt wurde ein Split, bei dem etwa 2/3 der Mobilfunknummern des Samples eine solche Ankündigung erhielten. Der Wortlaut der SMS folgte diesem Text: Das Institut für Soziologie der Technischen Universität Dresden wird Sie bald zum Mobilfunk befragen und dankt vorab für Ihre Teilnahme. www.tu-dresden.de/ handy. Die Mitteilungen waren auf 160 Zeichen begrenzt. Der Versand der SMS wurde über einen Internet-Dienstleister realisiert. Als Absenderkennung wurde eine Mobilfunknummer übermittelt. Dies bot den kontaktierten Personen die Möglichkeit, Anmerkungen und Fragen zurückzusenden. Die Ankündigung der Studie gab der Zielperson zudem die Gelegenheit, sich über die angegebene URL vor der eigentlichen Erhebung mit zusätzlichen Informationen auseinander zu setzen.4 Dort konnten Interessierte weiterführende Hinweise zur Stichprobenziehung, zu den Zielen, zum Thema der Befragung, zur Projektleitung und Kontaktdaten für eventuelle Nachfragen erhalten. Die Teilnahme konnte vor diesem Hintergrund insofern im Voraus abgewogen werden. Dies kann sich vorteilhaft auf die Bereitschaft zur Teilnahme auswirken. Genauso so gut kann jedoch eine solche Abwägung auch zuungunsten der Teilnahme ausfallen. So bietet eine Ankündigung für die potenziellen Befragten auch die Möglichkeit, Kontaktversuche abzuwehren und die Teilnahme an einer Umfrage zu verweigern. Dies wird insbesondere dann möglich, wenn die Telefonnummer der anrufenden Interviewerin oder des anrufenden Interviewers übermittelt wird, wie im Fall der hier diskutier29
Tino Schlinzig, Götz Schneiderat
ten Studie geschehen (Rufnummernübermittlung)5. Allerdings lässt sich vermuten, dass die Kontaktierten eine Teilnahme eher selten aufgrund der identifizierten Rufnummer verweigern (vgl. hierzu auch Curtin & Presser & Singer 2005, 92). Zudem sind die übermittelte Nummer der Ankündigungs-SMS und die der Interviewerin oder des Interviewers nicht identisch. Insofern konnte dieses Problem umgangen werden. Unklar bleibt jedoch, ob alle per SMS angesprochenen Handys technisch in der Lage waren, die versandten SMS anzuzeigen. Dies konnte im Rahmen der hier besprochenen Studie nicht eruiert werden. Die Übertragungsberichte des SMS-Providers hierzu sind in Teilen widersprüchlich. Der Erhalt der Textnachricht konnte ausschließlich durch die Nachfrage der Interviewerin oder des Interviewers verifiziert werden.6 Die Interviewerinnen und Interviewer waren vor den Erhebungen über den Versand der SMS informiert. Allerdings erhielten sie vor den eigentlichen Interviews keine Informationen darüber, ob die zu kontaktierende Person bereits durch die Ankündigung über den bevorstehenden Anruf im Bilde war. Insofern kann vermutet werden, dass die Verbesserung der Teilnahmebereitschaft der Respondentinnen und Respondenten nicht auf ein verändertes Verhalten der Interviewerinnen und Interviewer zurückzuführen ist. Dem Vorteil einer möglichen Ausschöpfungssteigerung stehen allerdings auch Kosten gegenüber. Der Preis pro SMS betrug in alle deutschen Netze 0,08 EUR. Bei einer Anzahl von 14.060 versandten SMS bedeutet das Mehrkosten in Höhe von etwa 1.125,– EUR. Ins Verhältnis gesetzt mit postalischen Vorankündigungen, fällt die Bilanz wiederum zugunsten des SMS-Versands aus. Für den Versand einer solchen Kurznachricht spricht zudem ihr Potenzial, den Handy-Auswahlrahmen um Rufnummern zu verringern, die aufgrund des Übertragungsberichtes zweifelsfrei als ,nicht geschaltet‘ identifiziert werden können (vgl. auch Steeh & Piekarski 2008; Steeh et al. 2007). Dies würde schlussendlich die Effizienz von Umfragen über Mobilfunk positiv beeinflussen, da weniger Kontaktversuche ins Leere verlaufen und damit weniger Versuche auf ein realisiertes Interview entfallen würden. Hierzu besteht allerdings noch Forschungsbedarf (vgl. Häder et al. 2009).
Randomisierte Geburtstagsauswahl Bei der verwandten Festnetzstichprobe handelt es sich zunächst um eine Haushaltsstichprobe. Auf Ebene der kontaktierten Haushalte muss die Zielperson in der Einleitungsphase des Interviews ermittelt werden, da Kontaktperson und Zielperson nicht notwendigerweise identisch sein müssen. Alternativ zu den gängigen Verfahren wurde in der Hauptstudie des Projektes 30
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
ein neues Verfahren erprobt, die Randomisierte Geburtstagsauswahl (RGA) (vgl. Schneiderat & Schlinzig 2009). Hierbei werden die Kontaktpersonen in der Screeningphase der Interviews zunächst darum gebeten, anzugeben, welche Person in dem betreffenden Haushalt vor bzw. nach einem randomisierten Geburtsdatum, welches der Telefonnummer im Sample zufällig zugeordnet wurde, als letztes oder als nächstes Geburtstag hat.7 Diese Abfrage hat einen entscheidenden Vorteil. Bei der Last- oder Next-Birthday-Methode haben etliche Personen der Grundgesamtheit keine positive Auswahlwahrscheinlichkeit. Eine Zufallsauswahl innerhalb des Haushalts ist damit nicht mehr gegeben. Dies ist insbesondere von Bedeutung für Studien wie dem European Social Survey (ESS), die in einem bestimmten Zyklus zu einem sich wiederholenden Zeitraum Befragungen durchführen. Eine mögliche Lösung wäre die Variation der Frage, wer als nächster Geburtstag hat oder als letzter Geburtstag hatte. In einem Zweipersonenhaushalt wäre hierüber die Zufälligkeit der Auswahl hergestellt. Anders sieht es jedoch bei Haushalten mit mehr als zwei Mitgliedern aus. Von denen hätten wiederum nur zwei eine positive Auswahlwahrscheinlichkeit. Mit der RGA hat zumindest jede Person im Haushalt eine positive Wahrscheinlichkeit, in die Auswahl zu gelangen. Die auf den ersten Blick recht aufwändige Prozedur lässt vermuten, dass die kontaktierten Personen bereits in der besonders prekären Einleitungsphase des Interviews ihre Teilnahme verweigern. Von Interesse dürften daher mögliche Differenzen in den Ausschöpfungen zwischen der in den Vorstudien verwendeten Last-Birthday-Methode und der RGA sein. Unterschiede können auch im direkten Vergleich zwischen Vor- und Hauptstudie beobachtet werden. Leider liegen an dieser Stelle keine Erkenntnisse darüber vor, inwiefern auf Grundlage dieses Verfahrens zum einen zuverlässige Angaben durch die Befragten gemacht worden sind und zum anderen die Auswahl korrekt verstanden wurde. Hierzu besteht noch Forschungsbedarf. Denkbar wäre es, hierzu Informationen über die Zusammensetzung der Haushalte mit den durch die Zielpersonen angegebenen Daten zu vergleichen (vgl. hierzu Fuchs 1994, 167).
3 Ergebnisse Im Folgenden werden die Befunde zur Kooperationsbereitschaft beim Warmkontakt und der Randomisierte Geburtstagsauswahl dargestellt. Die Kooperationsbereitschaft stellt nach Koch (1997) nur eine Art von Non-Response dar. Bei den Analysen soll davon ausgegangen werden, dass die ver31
Tino Schlinzig, Götz Schneiderat
wendeten Verfahren Warmkontakt durch SMS und Randomisierte Geburtstagsauswahl nur Einfluss auf den persönlichen Kontakt zwischen Interviewerin oder Interviewer und Kontaktperson bzw. Zielperson haben, nicht aber auf die anderen Arten der systematischen Ausfälle (mangelnde) Erreichbarkeit und Befragungsfähigkeit.8 Wie bereits diskutiert, stellen die ersten Sekunden des Telefonates den stärksten Indikator für die Teilnahme am Interview bzw. den Abbruch dar. Während die Zielperson durch die Ankündigungs-SMS schon vorinformiert ist, kann die Randomisierte Geburtstagsauswahl die Bereitschaft der Kontaktperson sensibilisieren und möglicherweise eher den Zugang zur Zielperson eröffnen. Aus den oben genannten Gründen werden daher die Erreichbarkeit und die Befragungsfähigkeit bei den Darstellungen der Befunde nicht berücksichtigt. Ein Einwand gegen dieses Vorgehen wäre, dass Personen, nachdem sie die SMS bekommen haben, die Dresdner Vorwahl recherchieren (unsere Rufnummer wurde bei der Befragung übermittelt) und nach der Zustellung der SMS ankommende Anrufe mit der besagten Vorwahl wegdrücken, nicht abnehmen oder das Gerät ganz ausschalten. Diese Annahme findet sich aber in unseren Daten nicht bestätigt.
Warmkontakt Die Ankündigung der Befragung per SMS wurde jeweils am Vortag eines Erhebungstags an 1.000 Telefonnummern versendet, die dann ins CATI-System eingespielt und abtelefoniert wurden. Durch diese Methode wurde ein zeitnaher Anrufversuch ermöglicht. Falls die Person nicht erreichbar war, ist die Telefonnummer entsprechend den Dispositionsvorgaben im System administriert worden (Wiedervorlage oder Ablage). Wie aus der Tabelle 1 ersichtlich, steigert die SMS-Ankündigung die Kooperationsbereitschaft um etwa 7,5 Prozent. Insofern unterscheiden sich diese Befunde von denen, die bei Steeh und Piekarski (2008) diskutiert werden. Es wurde auch untersucht, wie lange die Kontaktaufnahme dauert, also die Zeit, die zwischen der Begrüßung am Telefon und dem Start des Interviews vergeht. Die Dauer der Kontaktaufnahme ist im Mittel bei den Personen, die eine Ankündigungs-SMS erhalten haben, um etwa 10 Sekunden gegenüber dem Kaltkontakt kürzer. Die vergleichsweise lange Kontaktaufnahme im Festnetz kann mehrere Aspekte haben. Ein wichtiger Grund könnte in der dem Interview vorgeschalteten Haushaltsauswahlstufe liegen. 32
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Tabelle 1: Kooperationsbereitschaft mit und ohne SMS-Ankündigung in der Hauptstudie (Angaben in Prozent) und Dauer der Kontaktphase (Mittelwerte) Zugangsmode
Handy
Handy mit SMS
Festnetz
Kooperationsbereit Nicht kooperationsbereit
34,90 65,10
42,25 57,75
29,50 70,50
n gesamt
1.189
1.768
3.420
Dauer der Kontaktphase Mittelwerte in Sekunden
49,73
38,68
87,37
Die Qualität einer jeden sozialwissenschaftlichen Erhebung ist die Frage nach einer möglichst genauen Abbildung der Gesamtpopulation. Damit anhand der erhobenen Daten Rückschlüsse auf und zuverlässige Aussagen über die Grundgesamtheit der untersuchten Population gemacht werden können, sollte die Zufallsstichprobe die Grundgesamtheit in allen Merkmalen möglichst adäquat abbilden. Ziel des Dual-Frame-Ansatzes aus Festnetz und Handystichprobe ist es, die Grundgesamtheit besser abzubilden als mit nur einer Substichprobe. Im Folgenden wird aber nur der Split mit und ohne Ankündigungs-SMS in der Handysubstichprobe gegenüber den Referenzdaten Mikrozensus 2006 dargestellt, nicht die Kombination beider Substichproben, die erwartungsgemäß eine bessere Abbildung der Gesamtpopulation hat (Befunde hierzu in Graeske & Kunz 2009). Tabelle 2: Randverteilungen demographischer Variablen im Mikrozensus 2006 und in der Hauptstudie bei Split mit und ohne Ankündigungs-SMS (in Prozent)
Geschlecht Weiblich Männlich n
Mikrozensus 2006
Handy
Handy mit SMSAnkündigung
Festnetz
51,2 48,8 70.786
42,4 57,6 415
41,8 58,2 747
57,8 42,2 1.009
33
Tino Schlinzig, Götz Schneiderat
Alter 16–19 Jahre 20–29 Jahre 30–39 Jahre 40–49 Jahre 50–59 Jahre 60–69 Jahre 70+ n Schulabschluss Hauptschulabschluss (8. Klasse) POS/Realschule (10. Klasse) Fachabitur/ Abitur ohne allgemeinen Schulabschluss n
5,9 15,3 17,1 20,4 16,4 15,3 15,5 66.819
6,5 26,9 19,9 26,2 15,8 8,5 2,6 386
3,3 25,7 22,9 26,2 16,2 6,3 2,8 717
4,7 14,6 18,0 23,6 17,6 15,0 11,3 951
42,8 28,6 25,2
17,1 30,9 51,3
18,4 39,0 41,4
21,2 33,2 45,0
3,4 68.082
0,8 392
1,3 713
0,7 912
Familienstand verheiratet, mit Ehepartner/in zusammenlebend verheiratet, von Ehepartner/in getrennt lebend ledig geschieden verwitwet n
53,3
42,2
42,8
55,2
2,1 29,3 7,1 8,2 70.786
2,4 43,0 9,8 2,7 377
3,5 43,1 9,4 1,1 712
1,7 26,8 8,4 7,9 1.063
1 Person 2 Personen 3 Personen 4 Personen 5 und mehr Personen n
22,0 36,9 18,6 15,7 6,7 70.786
19,4 29,2 21,8 21,5 8,0 376
20,1 32,4 19,8 18,0 10,3 716
16,8 35,1 21,0 16,5 10,6 1.063
Gewichteter Datensatz; ohne: Schüler, keine Angabe, weiß nicht.
Während hier keine Alters- und Geschlechtsunterschiede zwischen den Teilpopulationen warmer und kalter Erstkontakt festzustellen sind, unterscheiden sich die Teilpopulationen bei Schulabschluss und Haushaltsgröße. Dabei wird bei Warmkontakt die Grundgesamtheit hinsichtlich des Merkmales Schulabschluss und Haushaltsgröße etwas besser abgebildet. 34
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Randomisierte Geburtstagsauswahl Die Randomisierte Geburtstagsauswahl wurde erstmalig auf der Mobilsample-Tagung der GESIS in Mannheim am 21. 11. 2006 vorgestellt. Von den dort vertretenen akademischen und kommerziellen Sozialforscherinnen und Sozialforschern wurde vehemente Kritik an der Implementierung dieses Auswahlverfahrens geübt. Auch wenn die RGA aus statistischen Motiven begründbar sei, könne sie aber weder Interviewer/innen noch Befragten zugemutet werden, so die einhellige Diskussionsmeinung. Im Zeitraum vom 13. November 2006 bis zum 29. Januar 2007 wurde im Rahmen des DFG-Projekts eine erste Vorstudie, eine bundesweite Befragung von 940 Personen über das Festnetz, durchgeführt. Insgesamt konnten 920 vollständige Interviews realisiert werden. Ab Januar 2007 wurde testweise der Split von RGA und Last-Birthday implementiert, so dass für die folgenden Analysen nur ein Teil der Daten der ersten Vorstudie zur Verfügung stehen. Der Split9 sollte Lerneffekte bei der Rekrutierung von Interviews ausschließen und uns zuverlässige Daten liefern, ob diese neue Haushaltsauswahl überhaupt praktikabel ist.10 Zunächst zeigt sich, dass weder die Interviewerinnen und Interviewer noch die Befragten besondere Probleme mit der neuen Haushaltsauswahl hatten. Dies spiegelt sich dann auch in den Daten wider. Überraschenderweise schien die neue Methode sogar zu einer besseren Ausschöpfung zu führen, wie die Steigerung von knapp 2 Prozentpunkten in Tabelle 3 belegt. Auch wenn die Steigerung bei den Fallzahlen nicht signifikant ist, führt die Randomisierte Geburtstagsauswahl nicht, wie zuvor befürchtet, zum zahlenmäßigen Einbruch bei den Interviews. Tabelle 3: Kooperationsbereitschaft bei Split Last-Birthday und RGA (Vorstudie 1)
Zugangsmode: Festnetz
Kein Split 13. 11. bis 18. 12. 2006
Split (50 : 50) 4. 1. 2007 bis 29. 1. 2007
Last-Birthday
Last-Birthday
RGA
Kooperationsbereit Nicht kooperationsbereit
28,10 71,90
28,32 71,68
30,20 69,80
n gesamt
2.327
452
457
Ungewichteter Datensatz
35
Tino Schlinzig, Götz Schneiderat
Der Kontaktperson wird in der Einleitung eine kognitiv anspruchsvollere Frage gegenüber dem Last-Birthday-Verfahren gestellt. Bei Last-Birthday muss sie vom gegenwärtigen Zeitpunkt zurückdenken, während sie bei dem gestellten willkürlich über das Jahr verteilten Datum, die Geburtstage und -monate aller Haushaltsmitglieder gedanklich durchgehen und dann die jeweilige Zielperson ermitteln muss. Durch die aufwendigere Informationssuche wird die Kontaktperson länger beschäftigt und kann weniger schnell das Telefonat abbrechen. Somit wird die Interaktion über die ersten kritischen Sekunden gehalten. Gleichzeitig hat die komplexere Geburtstagsfrage eine Tür öffnende Funktion (Foot-in-the-door technique). Die Kontaktperson wird aufgewertet und vermittelt eher den Zugang zur Zielperson. In diesem Zusammenhang stellt sich die Frage, ob sich die Daten innerhalb der RGA verändern, wenn die Kontaktperson gleich die Zielperson ist oder wenn die Kontaktperson nur vermittelt, selbst aber nicht am Interview teilnehmen darf. Die Daten zeigen, dass es keine Rolle spielt, ob die Zielperson die Kontaktperson ist oder nicht. Kontrolliert man Geschlecht und Alter hinsichtlich unterschiedlicher Ausschöpfung bei der Randomisierten Geburtstagsauswahl und der Last-Birthday-Auswahl, zeigen sich keine signifikanten Veränderungen. Auch bei der Bildung unterscheiden sich die Merkmale zwischen den Auswahlmethoden nicht signifikant, bei der RGA sind die Haupt- und Realschüler besser abgebildet und bei der Last-Birthday-Methode die Abiturienten. Als Referenz dient jeweils der Mikrozensus. Tabelle 4: Randverteilungen demographischer Variablen im Mikrozensus 2006 und in der Vorstudie 1 bei Last-Birthday und RGA (in Prozent)
Mikrozensus 2006
Kein Split 13. 11. bis 18. 12. 2006
Split (50 : 50) 4. 1. 2007 bis 29. 1. 2007
Last-Birthday
Last-Birthday
RGA
Geschlecht Weiblich
51,2
59,9
60,0
57,3
Männlich
48,8
40,1
40,0
42,7
70.786
669
140
131
n Alter
36
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
16–19 Jahre 20–29 Jahre 30–39 Jahre 40–49 Jahre 50–59 Jahre 60–69 Jahre 70+ n
Schulabschluss Hauptschulabschluss (8. Klasse) POS/ Realschule (10. Klasse) Fachabitur/Abitur ohne allgemeinen Schulabschluss n
5,9 15,3 17,1 20,4 16,4 15,3 15,5 66.819
6,1 18,6 18,5 18,6 14,4 12,5 11,3 639
4,4 14,0 17,6 19,1 22,8 8,1 14,0 136
2,4 13,7 21,8 21,0 17,7 14,5 8,9 124
42,8
18,9
20,0
19,5
28,6 25,2
33,1 46,5
26,9 50,8
42,4 35,6
3,4 68.082
1,5 593
2,3 130
2,5 118
Familienstand verheiratet, mit Ehepartner/in zusammenlebend verheiratet, von Ehepartner/in getrennt lebend ledig geschieden verwitwet n
53,3
44,7
50,0
44,9
2,1 29,3 7,1 8,2 70.786
3,9 36,3 8,0 7,2 640
0,0 36,6 3,7 9,7 134
10,2 30,7 8,7 5,5 127
1 Person 2 Personen 3 Personen 4 Personen 5 und mehr Personen n
22,0 36,9 18,6 15,7 6,7 70.786
27,3 32,5 16,1 17,3 6,6 639
29,1 29,9 21,6 14,2 6,7 136
22,8 41,7 21,3 9,4 3,9 126
Ungewichteter Datensatz; ohne: Schüler, keine Angabe, weiß nicht.
37
Tino Schlinzig, Götz Schneiderat
4 Diskussion Warmkontakt Ankündigungen haben Ausschöpfung steigernde Wirkung, so auch in der hier vorgestellten Studie. Den Gesprächen zwischen Interviewer/innen und Befragten in der Kontaktphase war zu entnehmen, dass viele Befragte bereits informiert waren, sich die Internetseite zum Projekt angesehen hatten oder es beabsichtigten. Aber durch die Ankündigung, so die Erfahrung unserer Interviewerinnen und Interviewer, waren auch die Argumente für Verweigerung bereits im Vorfeld zurechtgelegt. Es ist zu vermuten, dass die Entscheidung für Teilnahme und Nichtteilnahme reflektierter als beim Kaltkontakt sind. Dies wurde aber nicht getestet. Vorab getätigte Versuche, eine solche finanziell vergleichsweise günstige Lösung für das Festnetz zu realisieren, scheiterten. Vor allem die begrenzten technischen Möglichkeiten der meisten (älteren) Telefonapparate sprachen gegen den Einsatz eines solchen Instruments, da in diesem Fall der Empfang der Kurzmitteilungen über eine computererzeugte Sprachausgabe erfolgt. Die Qualität dieser Ausgabe ist zum jetzigen Stand nicht zufrieden stellend. Anders bei moderneren SMS-fähigen Endgeräten: Diese ermöglichen die Übertragung und den Empfang von Kurzmitteilungen in Textform. Mit steigendem Verbreitungsgrad dieser Technologien könnte es sich hierbei um einen gangbaren Weg für den Warmkontakt bei Telefonstudien über Festnetz handeln. Nachdem man bei telefonischen Befragungen bedingt durch den Auswahlrahmen weder Vorabbriefe noch materielle Incentives per Post mehr verschicken kann, bieten die neuen Kommunikationstechnologien wieder bessere Möglichkeiten für die Umfragepraxis. Die SMS ist im Mobilfunk flächendeckend verbreitet. Multimedia Messaging Service (MMS) und Bezahlsysteme am Handy können zukünftig bei telefonischen Befragungen den Warmkontakt ggf. gekoppelt mit kleinen monetären Incentives zu verbessern helfen. Mobilfunkbefragungen erreichen nach den derzeitigen Erkenntnissen höhere Ausschöpfungen als die Festnetzbefragungen (siehe Tabelle 1). Dies hat mehrere Gründe; neben der Möglichkeit des Warmkontaktes ist besonders der Überraschungsmoment hervorzuheben: Da es in Deutschland bisher kaum Umfragen über das Mobilfunknetz gab, wird diese Art der Kontaktaufnahme nicht sofort abgewehrt, sondern eher mit Erstaunen und positiver Resonanz quittiert. Schließlich entfällt im Handybereich die nicht ganz unproblematische Haushaltsauswahl. 38
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Randomisierte Geburtstagsauswahl Ausgangspunkt war die von Siegfried Gabler entwickelte Haushaltsauswahl. Da statistische Erwägungen für den Einsatz sprechen, jedoch die Praktikabilität von Experten stark bezweifelt wurde, zielte der Split in der Vorstudie 1 auf den Vergleich beider Auswahlverfahren, d. h. auf die erwartete Verschlechterung der Ausschöpfung, nicht aber auf eine möglicherweise signifikante Verbesserung. Daher lässt sich mit Hilfe von 273 Interviews noch kein Nachweis einer Verbesserung der Ausschöpfung durch den Einsatz der RGA führen. Ein Split mit entsprechend größeren Fallzahlen müsste dies weiterverfolgen. Auch wenn die Randomisierte Geburtstagsauswahl bei diesem Test zu keiner signifikanten Steigerung der Ausschöpfung führte, hat sie jedoch neben den auswahltheoretischen Erwägungen auch praktische Vorzüge. Sie ist als neue Auswahlmethode eine Abwechslung für die Interviewerinnen und Interviewer, die jeweils den Einleitungstext immer neu anpassen müssen, und stellt eine Aufwertung für die Kontaktperson (kognitiv anspruchsvoller) dar. Sie ist, so die Erwartung, durch das Nachdenken weniger auf Verweigerung eingestimmt. Auch in der Vorstudie 2 und in der Hauptstudie konnte die Randomisierte Geburtstagsauswahl erfolgreich nun als alleinige Auswahlmethode angewendet werden.
Anmerkungen 1 2
3
Laut ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. In der Hauptstudie wurden 14,5 Prozent exklusive Mobilfunknutzerinnen beziehungsweise Mobilfunknutzer ermittelt, die aber zum Teil über eine virtuelle Festnetznummer, wie sie von mehreren Mobilfunkanbietern vermarktet wird, erreichbar sind, so dass der Anteil von Personen, die auch über über keine Festnetznummer erreichbar sind, bei 11,7 Prozent liegt. Für die Vorstudien I und II telefonierten ausschließlich Studierende der Soziologie unentgeltlich im Rahmen eines Methodenpraktikums. An der Vorstudie I waren insgesamt 46 Interviewer/innen beteiligt. 27 davon waren weiblich und 19 männlich. Die Vorstudie II wurde von 22 Interviewer/innen bestritten – 15 Frauen und 7 Männer. Die Interviewerpopulationen der Vorstudien und der Hauptstudien waren bis auf wenige Ausnahmen rein personell nicht identisch. Für die Hauptstudie wurden sowohl Studierende verschiedener Fachrichtungen als auch bereits graduierte Soziologinnen und Soziologen und universitätsexterne Interviewerinnen und Interviewer rekrutiert. Insgesamt telefonierten hierfür entgeltlich 26 Frauen und 8 Männer. 27 davon befanden sich noch im Studium. Ein Interviewer hatte gerade sein Abitur abgelegt. Drei Frauen waren bereits im Fach Soziologie diplomiert. Der Interviewerstab war über die gesamte Feldzeit betrachtet häufig personellen Wechseln unterworfen.
39
Tino Schlinzig, Götz Schneiderat
4
5
6 7
8
9
10
40
Zum einen ist dies darauf zurückzuführen, dass etliche studentische Interviewerinnen und Interviewer kurzfristig ihre Tätigkeit aufgrund zeitlicher Engpässe aufgeben mussten. Zum anderen war für die Gruppe der Nicht-Studierenden die Höhe der Entlohnung (4,– EUR/Std. + 2,– EUR/Interview) maßgeblich. Etwa ein Drittel der Interviewerinnen und Interviewer der Hauptstudie gab an, erste Erfahrungen mit Telefoninterviews gesammelt zu haben. Über den Erfahrungsgrad der Interviewerinnen und Interviewer der Vorstudien liegen keine Informationen vor. Alle drei Interviewergruppen wurden gleichermaßen vor den Erhebungen und während der Feldzeit durch Mitarbeiter und studentische Hilfskräfte des Lehrstuhls geschult. Die Ausgabe der Zugriffsstatistiken der Seiten weisen für die Feldzeit allerdings einen zu vernachlässigenden Traffic aus. Insofern würde eine Ausschöpfungssteigerung weniger für die weiterführenden Informationen selbst sprechen, als vielmehr für die Möglichkeit, diese abzurufen, und damit auf den vertrauensbildenden Charakter dieser Option. Den Interviewerplätzen im CATI-Labor sind jeweils einzelne Apparatenummern zugeordnet. Rückrufe durch Befragte wurden automatisch an die Supervisorin oder den Supervisor weitergeleitet. Die Wiedervorlage der Telefonnummern der Samples erfolgte nicht stringent an ein und dieselbe Interviewerin beziehungsweise an ein und denselben Interviewer, sondern an den jeweils nächst freien Interviewerplatz. Insofern ist es möglich, dass bei mehrmaligen Kontaktversuchen verschiedene Nummern auf dem Display der kontaktierten Personen erscheinen. Allein die Vorwahl für Dresden (0351) bleibt konstant. Dies würde eine Identifikation des befragenden Instituts für die Kontaktierten erleichtern und eine Verweigerung ggf. begünstigen. Indikator im Fragebogen: Haben Sie vor dieser Befragung eine Ankündigungs-SMS erhalten, die über unsere Studie informiert? Einleitungstext der Hauptstudie über Festnetz: Guten Tag/Abend, mein Name ist . . . Ich rufe von der Technischen Universität Dresden an. Die Universität führt eine wissenschaftliche Befragung zum Thema Telefoniergewohnheiten durch und Ihr Haushalt wurde dafür zufällig ausgewählt. Es dauert nur wenige Minuten. Wegen des Prinzips der Zufallsauswahl müsste ich diejenige Person in Ihrem Haushalt befragen, die [randomisiert] vor/nach dem TT.MM. als letztes/als nächstes Geburtstag hat und mind. 16 Jahre alt ist. Sind Sie das? Einleitungstext der Vorstudie I – Split (50–50) Last-Birthday und RGA über Festnetz: Guten Abend, mein Name ist . . . Ich rufe von der Technischen Universität Dresden an. Die Universität führt eine wissenschaftliche Befragung zum Thema Telefoniergewohnheiten durch und Ihr Haushalt wurde dafür zufällig ausgewählt. Es dauert nur wenige Minuten. Wegen des Prinzips der Zufallsauswahl müsste ich diejenige Person in Ihrem Haushalt befragen, die als letztes bzw. [randomisiert] vor/nach dem TT.MM. als letztes/ als nächstes Geburtstag hat und mind. 16 Jahre alt ist. Sind Sie das? Eine differenzierte Ausschöpfungsübersicht kann hier aus Platzgründen nicht gegeben werden. Die Ausschöpfung zur Vorstudie findet sich bei: Schneiderat & Schlinzig 2009 und zur Hauptstudie bei: Häder & Häder & Graeske & Kunz & Schneiderat 2009. Alle Telefonnummern ab Januar 2006 wurden zufällig geteilt (50% Last-Birthday/ 50% als letztes oder nächstes + randomisierte Geburtstage) und der Interviewerin beziehungsweise dem Interviewer mit dem Einleitungstext eingespielt. Falls der Test nicht funktioniert, würde die RGA nicht in der Hauptstudie angewendet werden. Aus: unveröffentlichtes Protokoll zur Tagung Mobilsample.
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk
Literatur AAPOR Cell Phone Task Force (2008). Guidelines and considerations for survey researchers when planning and conducting RDD and other telephone surveys in the U. S. with respondents reached via cell phone numbers. New Orleans: 63th Annual Conference. AAPOR (2006). Standard definitions: Final dispositions of case codes and outcome rates for surveys. 4th edition. Lenexa, Kansas: AAPOR. ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. (2008). Zahlen über den Markt für Marktforschung, Ausgabe 3/2008. Abgerufen am 03.11.2008, Website: http://www.adm-ev.de/zahlen.html. Blasius, J., & Reuband, K.-H. (1995). Telefoninterviews in der empirischen Sozialforschung: Ausschöpfungsquoten und Antwortqualität. ZA-Informationen, 37, 64–87. Curtin, R., & Presser, S., & Singer, E. (2005). Changes in telephone survey nonresponse over the past quarter century. Public Opinion Quarterly, 69(1), 87–98. Däubler, T. (2002). Nonresponseanalysen der Stichprobe F des SOEP. Abgerufen am 22.04.2008, von DIW Materialien Berlin Website: http://www.diw-berlin.de/documents/publikationen/73/38830/diw_rn02-05-15.pdf. de Heer, W. (1999). International response trends: Results of an international survey. Journal of Official Statistics, 15(2), 129–142. Deutschmann, M., & Häder, S. (2002). Nicht-Eingetragene in CATI-Surveys. In S. Gabler & S. Häder (Hg.), Telefonstichproben. Innovative Entwicklungen und Anwendungen in Deutschland (68–84). Münster: Waxmann. Dillman, D. A. (1991). The design and administration of mail surveys. Annual Review of Sociology, 17(1), 225–249. Dillman, D. A. (2000). Mail and internet surveys. The tailored design method. New York: Wiley. Dillman, D. A., & Callegos, J. G., & Frey, J. H. (1976). Reducing refusal rates for telephone interviews. Public Opinion Quarterly, 40(1), 66–78. Esser, H. (1986). Über die Teilnahme an Befragungen. ZUMA-Nachrichten, 18, 38–47. Eurobarometer (2008). E-Communications Household Survey. Special Eurobarometer 293/Wave 68.2 – TNS opinion & social. Abgerufen am 30.06.2008, Website: http:// ec.europa.eu/public_opinion/archives/ebs/ebs_293_full_en.pdf. Frey, J. H., & Kunz, G., & Lüschen G. (1990). Telefonumfragen in der Sozialforschung. Opladen: Leske + Budrich. Friedrichs, J. (2000). Effekte des Versands des Fragebogens auf die Antwortqualität bei einer telefonischen Befragung. In V. Hüfgen (Hg.), Methoden der Telefonumfragen (171–182). Wiesbaden: Westdeutscher Verlag. Fuchs, M. (1994). Umfrageforschung mit Telefon und Computer. Weinheim: Psychologie Verl. Union.
41
Tino Schlinzig, Götz Schneiderat Fuchs, M. (2002). Eine CATI-Umfrage unter Handy-Nutzern. Methodische Erfahrungen aus einem Vergleich mit einer Festnetzstichprobe. In S. Gabler & S. Häder (Hg.), Telefonstichproben. Methodische Innovationen und Anwendungen in Deutschland (121–137). Münster: Waxmann. Gabler, S., & Häder, S. (1999). Erfahrungen im Aufbau eines Auswahlrahmens für Telefonstichproben in Deutschland. ZUMA-Nachrichten, 44, 45–61. Gabler, S., & Häder, S. (2002). Idiosyncrasies in telephone sampling – The case of Germany. International Journal of Public Opinion Research, 14(3), 339–345. Gaziano, C. (2005). Comparative analysis of within-household respondent selection techniques. Public Opinion Quarterly, 69(1), 124–157. Glemser, A. (2007). Mobilfunknutzung in Deutschland. Eine Herausforderung für die Stichprobenbildung in der Markt- und Sozialforschung. In S. Gabler & S. Häder (Hg.), Mobilfunktelefonie – Eine Herausforderung für die Umfrageforschung. ZUMA-Nachrichten Spezial, 13, 7–24. Goldstein, K. M., & Jennings, M. K. (2002). The effect of advance letters on cooperation in a list sample telephone survey. Public Opinion Quarterly, 66(4), 608–617. Gouldner, A. W. (1960). The norm of reciprocity: A preliminary statement. American Sociological Review, 25(2), 161–178. Graeske, J., & Kunz, T. (2009). Stichprobenqualität der Cella-Studie unter Berücksichtigung der Mobile-onlys. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 57–70. Groves, R. M., & Snowden, C. (1987). The effects of advance letters on response rates in linked telephone surveys. In American Statistical Association (Ed.), Proceedings of the survey research methods section (633–638). Alexandria, VA: American Statistical Association. Groves, R.M., & Fowler, F. Y. Jr., & Couper, M., & Lepkowsky, J. M., & Singer, E., & Tourangeau, R. (2004). Survey Methodology. New Jersey: Wiley. Groves, R. M., & Couper, M. P., & Presser, S., & Singer, E., & Tourangeau, R., & Acosta, G. P., & Nelson, L. (2006). Experiments in producing non-response bias. Public Opinion Quarterly, 70(5), Special Issue 2006, 720–736. Häder, M., & Häder, S. (Hg.) (2009). Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag. Häder, S., & Häder, M., & Graeske, J., & Kunz, T., & Schneiderat, G. (2009). Realisierung der Stichprobe. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 71–82. Häder, S., & Gabler, S., & Heckel, C. (2009). Stichprobenziehung für die CELLA-Studie. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 21–49. Hüfken, V. (2000). Kontaktierung bei Telefonumfragen. In: V. Hüfken (Hg.), Methoden in Telefonumfragen (11–31). Opladen: Leske + Budrich.
42
Erhöhung der Teilnahmebereitschaft bei Telefonumfragen über Festnetz und Mobilfunk Kish, L. (1949). A procedure for objective respondent selection within the household. Journal of American Statistical Association, 44, 380–387. Kish, L. (1965). Survey sampling. New York: John Wiley & Sons. Koch, A. (1997). Teilnahmeverhalten beim ALLBUS 1994. Soziodemographische Determinanten von Erreichbarkeit, Befragungsfähigkeit und Kooperationsbereitschaft. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 49(1), 98–122. Mann, Ch. B. (2005). Do advance letters improve preelection forecast accuracy? Public Opinion Quarterly, 69(4), 561–571. Meier, G., & Schneid, M., & Stegemann, Y., & Stiegler, A. (2005). Steigerung der Ausschöpfungsquote von Telefonumfragen durch geschickte Einleitungstexte. ZUMANachrichten, 57, 37–56. Mitteilung über die Gründung der Arbeitsgruppe MOBILSAMPLE (2005). ZUMA-Nachrichten, 56, 111–116. Abgerufen am 22.09.2005, Website: http://www.gesis.org/Publikationen/Zeitschriften/ZUMA_Nachrichten/documents/pdfs/56/13_gabler.pdf. Porst, R. (1998). Im Vorfeld der Befragung. Planung, Fragebogenentwicklung, Pretesting. ZUMA-Arbeitsberichte, 98/02. Salmon, C.T., & Nicols, J.S. (1983). The next-birthday method of respondent selection. Public Opinion Quarterly, 47(2), 270–276. Schneiderat, G., & Schlinzig, T. (2009). Teilnahmebereitschaft und Teilnahmeverhalten bei Telefonumfragen der Allgemeinbevölkerung über das Mobilfunknetz. In M. Häder & S. Häder (Hg.), Telefonumfragen über das Mobilfunknetz. Wiesbaden: VS Verlag, 83–97. Schnell, R. (1997). Non-Response in Bevölkerungsumfragen. Opladen: Leske + Budrich. Statistisches Bundesamt Wiesbaden (2007). Abgerufen am 12.03.2007, Website: https:// www-genesis.destatis.de. Steeh, C., & Buskirk, T. D., & Callegaro, M. (2007). Using text messages in U. S. mobile phone survey. Field Methods, 19(1), 59–75. Steeh, C., & Piekarski, L. (2008). Accomodating new technologies: Mobile and VoIP communication. In J. L. Lepokowski (Ed.), Advances in telephone survey methodology (423–448). Hoboken, New Jersey: John Wiley & Sons. Stroebe, W., & Jonas, K., & Hewstone, M. (2002). Sozialpsychologie: Eine Einführung. 4. Auflage. Berlin: Springer. Troldahl, V., & Carter, R. (1964). Random selection of respondents within households in phone surveys. Journal of Marketing Research, 1(2), 71–76.
43
Michael Häder, Mike Kühne, Tino Schlinzig
Michael Häder, Mike Kühne, Tino Schlinzig
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk: Auswirkungen auf die Datenqualität Zusammenfassung Der Artikel schildert ausgewählte Ergebnisse eines Projektes, bei dem es um die Implementierung von Mobilfunkbefragungen in das sozialwissenschaftliche Methodenarsenal geht. Dazu wurde ein Mixed-Mode-Design mit gleichzeitiger Nutzung von telefonischen Befragungen über das Festnetz und über den Mobilfunk entwickelt und bei etwa 2.100 Personen umgesetzt. Der Fokus des Artikels liegt auf der Suche nach Mode-Effekten. Als Grundlage wird ein kognitionspsychologisches Paradigma zur Erklärung des Antwortverhaltens bei Befragungen herangezogen. Mode-Effekte werden vor allem mit Hilfe von Item-Non-Response sowie mittels Erinnerungsfragen aufzuspüren versucht. Aber auch die Anwesenheit Dritter während der Befragung sowie die Nähe des erfragten Sachverhalts zur Befragungssituation finden Beachtung. Es zeigt sich schließlich, dass eine parallele Anwendung beider Modes nicht zu unüberbrückbaren Differenzen im Antwortverhalten der Zielpersonen führen.
Abstract Mode Effects in Telephone Surveys via Landline Phones and Mobile Phones: Effects on the Quality of Data The article presents selected results of a project that dealt with the establishment of mobile phone surveys as a data gathering method in social science. For that purpose a mixed-mode design was developed that implied parallel use of telephone surveys via landline phones and mobile phones. About 2.100 people participated. The article focuses on mode effects. A paradigm of cognition psychology was used as the basis to explain response behaviour in surveys. The authors attempt to discover mode effects with the help of item-non-response and memory questions. The presence of a third person during the survey as well as the similarity between question content and question mode of a survey are considered by the authors. Results show that the parallel use of both modes does not lead to insurmountable differences in the response behaviour of the target group.
45
Michael Häder, Mike Kühne, Tino Schlinzig
1 Einleitung und Fragestellung1 Telefonische Befragungen, die Mobilfunknutzerinnen und Mobilfunknutzer ausschließen, sind inzwischen nicht mehr dazu geeignet, empirische Aussagen zur Allgemeinbevölkerung der Bundesrepublik zu liefern (vergleiche dazu auch die Beiträge von S. Häder & Gabler und von Schlinzig & Schneiderat in diesem Band sowie die zusammenfassende Darstellung bei Häder & Häder 2009). Diese Tatsache sowie die zahlreichen Möglichkeiten, die telefonische Interviews nach wie vor bieten, führten zu dem Versuch, Befragungen auch über das Mobilfunknetz im sozialwissenschaftlichen Methodenarsenal zu implementieren. Dazu kommt ein Mixed-Mode-Ansatz zum Einsatz. Eng mit dieser neuen Strategie verbunden ist die Frage nach der Vergleichbarkeit der mit zwei unterschiedlichen Instrumenten gewonnenen Daten. Es ist bereits seit längerem bekannt, dass zwei Befragungen, die sich an dieselbe Grundgesamtheit richten und die dabei dieselben Frageformulierungen benutzen, nicht zwingend auch zu denselben Befunden führen müssen, vor allem dann, wenn sie sich verschiedener Erhebungsmodes bedienen. Dies wurde erstmals bei einer Untersuchung festgestellt, bei der 44 Prozent der Respondentinnen und Respondenten bei einem persönlichmündlichen Interview ihre Gesundheit als „exzellent“ einschätzten. Dem stehen nur 37 Prozent der Befragten gegenüber, die diese Antwort im Rahmen eines telefonischen Interviews gaben. Noch geringer war dieser Wert – mit nur 30 Prozent – bei den postalischen Befragungen (vergleiche Hochstim 1967). Die Problematik der Mode-Effekte wurde bisher vor allem in Bezug auf persönlich-mündliche, telefonische, postalische und für über das Internet abgewickelte Befragungen diskutiert. Mittlerweile existieren für diese Erhebungsverfahren zahlreiche Befunde – vergleiche unter anderem Srinivasan & Hanway (1999), Dillman (2000, 217 ff.), Tourangeau & Smith (1996), Groves et al. (2004), Christian & Dillman & Smyth (2008), Béland & St-Pierre (2008, 298 f.) Tucker & Lepkowski (2008, 6 ff.) sowie zahlreiche weitere Arbeiten. Inwieweit sich Unterschiede in den Daten zwischen telefonischen Befragungen über das Festnetz und über den Mobilfunk innerhalb eines Mixed-Mode-Designs mit ansonsten identischen Instrumenten erwarten lassen, ist jedoch ein noch weitgehend unbearbeitetes Problem. Bei Mixed-Mode-Erhebungen stellt sich konkret die Frage, ob sich Unterschiede im Antwortverhalten als Folge von unterschiedlichen Bedingungen bei der Datenerhebung zwischen den verwendeten Verfahren ergeben. Da46
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
mit stellt sich weiterhin die Frage, welche Mode-Effekte bei der parallelen telefonischen Befragung über das Festnetz und über den Mobilfunk vermutet werden können. Es wird also zu untersuchen sein, welche Unterschiede zwischen den beiden Modes, vermittelt über welche Instanzen, zu welchen Unterschieden im Antwortverhalten der Zielpersonen führen. Der vorliegende Beitrag nimmt auf der Basis von Ergebnissen eines Mixed-Mode-Designs verschiedene Analysen vor (weitere Befunde finden sich bei Häder & Kühne 2009, 165 ff.). Dazu ist den Zielpersonen ein identischer Fragebogen sowohl über das Festnetz als auch über den Mobilfunk präsentiert worden. Bevor die Studie sowie ausgewählte empirische Ergebnisse dargestellt und diskutiert werden, soll beschrieben werden, aufgrund welcher Aspekte mit dem Auftreten von Mode-Effekten gerechnet werden kann und ebenso, welche Aspekte gegen ein solches Auftreten sprechen.
2 Vergleich der beiden Modes Unter Berücksichtigung der aktuellen Trends in der Nutzung von Telefonen – unter anderem ist ein steigender Anteil an Haushalten zu verzeichnen, die ausschließlich über ein Mobilfunktelefon zu erreichen sind und über keinen Festnetzanschluss verfügen (Glemser 2007) – müssen in Ergänzung zu Festnetzbefragungen auch Befragungen über Mobilfunk geführt werden, um einen möglichst großen Teil der Bevölkerung erreichen zu können. Allerdings sind damit, wie oben bereits angesprochen, unter Umständen Modeeffekte verbunden. Modeeffekte zwischen den Befragungen am Festnetz bzw. per Mobilfunk waren bisher kaum Gegenstand empirischer Forschung. Grundlage für einen systematischen Zugang zur Analyse der Modeeffekte sind insbesondere die spezifischen Unterschiede und Gemeinsamkeiten beider Modes, die im Folgenden kurz dargestellt werden.
2.1 Unterschiede in der Datenerhebung Einschränkungen in der Vergleichbarkeit von Daten, die mit unterschiedlichen Erhebungsmodes gewonnen wurden, waren bereits häufiger Gegenstand der Umfrageforschung. Für Unterschiede insbesondere zwischen Festnetz- und Mobilfunkbefragungen existieren bisher allerdings kaum empirische Befunde. Die Analyse dieser Mode-Effekte stellt deshalb momentan ein noch weitgehend unerforschtes Feld dar (vergleiche Tucker & Lepkowski 47
Michael Häder, Mike Kühne, Tino Schlinzig
2008, 19 f.). Prospektiv lassen sich einige unterschiedliche Voraussetzungen für die Befragungen benennen: • Festnetz- und Mobilfunkbefragungen können jeweils in unterschiedlichen räumlichen und sozialen Umgebungen stattfinden. Dies stellt zunächst nur eine Möglichkeit dar, da Mobilfunkbefragungen prinzipiell auch in der Wohnung der Zielperson erfolgen können. Denkbar und wahrscheinlich ist jedoch, dass die Zielpersonen am Mobilfunktelefon in sehr verschiedenen Räumen beziehungsweise Umgebungen erreicht werden. • Bei beiden Modes muss mit unterschiedlichen technischen Voraussetzungen für die Kommunikation gerechnet werden. So dürften Festnetzbefragungen in der Regel technisch ohne Probleme vonstatten gehen. Bei Mobilfunkbefragungen sind beispielsweise Probleme mit der Netzabdeckung (relevant vor allem bei Befragungen während Auto- und/oder Zugfahrten), mit der Energieversorgung des Mobilfunkgerätes und mit der Sprachqualität nicht völlig unwahrscheinlich. • Auch die Erreichbarkeit der Zielperson unterscheidet sich danach, ob diese über das Festnetz oder über den Mobilfunk kontaktiert worden ist. Während ein Festnetzkontakt die Zielperson in der Regel nur zuhause erreichen kann, ist es prinzipiell weltweit möglich, jemanden auf seinem Mobiltelefon zu kontaktieren. • Die Auswahl der Zielperson im Haushalt kann bei den Befragungen über das Festnetz randomisiert erfolgen (zum Beispiel mit Hilfe der Last-BirthdayMethode). Bei der Mobilfunkbefragung wird die kontaktierte Person auch um eine Teilnahme an der Befragung gebeten. Hier sind Kontakt- und Zielperson identisch. Die fehlende Randomisierung in der Kontaktphase bei der Befragung über Mobilfunk könnte ebenfalls zu Unterschieden zwischen den Modes führen. • Die Grundgesamtheit, aus der die Stichprobe für beide Modes gezogen wurde, ist unter Umständen nicht völlig identisch. Befragungen über das Festnetz richten sich an Personen, die in Privathaushalten leben. Bei Mobilfunkbefragungen können beispielsweise auch Anstaltsbewohnerinnen und Anstaltsbewohner befragt werden. Auch dies kann allerdings wiederum zu Effekten führen.
2.2 Gemeinsamkeiten in der Datenerhebung Neben den Unterschieden bei der Nutzung beider Modes lässt sich eine Reihe von Argumenten anführen, die für eine relativ gute Vergleichbarkeit der Ergebnisse sprechen. Dies gilt vor allem vor dem Hintergrund von 48
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Mode-Effekten, die bei telefonischen, postalischen und persönlich-mündlichen Befragungen zu erwarten sind. Folgende Prämissen lassen vermuten, dass die Unterschiede zwischen telefonischen Befragungen über das Festnetz und über den Mobilfunk nicht allzu groß ausfallen: • Dieselben Interviewerinnen und Interviewer werden sowohl für die Befragung über das Festnetz als auch über den Mobilfunk eingesetzt. Sie können damit – anders als etwa bei telefonischen versus persönlich-mündlichen Befragungen – als Quelle für unterschiedliche Effekte ausgeschlossen werden. • Beide Modes unterliegen den gleichen Supervisionsprinzipien im Labor. Alle Interviews werden vom gleichen Erhebungsinstitut durchgeführt. • Effekte, die durch unterschiedliche Sponsoren auf das Teilnahme- und/ oder auf das Antwortverhalten wirken können, sind damit zu negieren. • Der Fragebogen ist in beiden Modes identisch. Die Indikatoren werden den Zielpersonen jeweils in der gleichen Reihenfolge präsentiert. Es besteht für sie beispielsweise nicht die Möglichkeit, den Fragebogen zunächst durchzublättern und sich über die verschiedenen Fragestellungen vorab zu informieren. • Die Bemühungen, potenziell ausgewählte Personen zur Teilnahme an einem Interview zu bewegen, sind in beiden Modes nahezu identisch. Für mögliche Rückrufe und für die erforderlichen Konvertierungsversuche gelten jeweils dieselben Regeln in den beiden Modes. • Die Feldzeit ist in beiden Modes ebenfalls nahezu identisch. Unterschiede durch den besonderen Einfluss zwischenzeitlicher tagespolitischer Ereignisse auf nur einen der beiden Modes sind deshalb äußert unwahrscheinlich. • Schließlich handelt es sich um nur einen Kommunikationskanal, über den alle Befragungen abgewickelt wurden. Unter Berücksichtigung der genannten Aspekte sowie auf der Basis einer größtmöglichen Standardisierung können Unterschiede zwischen den beiden Modes zwar nicht völlig ausgeschlossen werden, jedoch ist zu erwarten, dass deren Umfang begrenzt ist. Daraus ergibt sich wiederum eine größere Vergleichbarkeit der erhobenen Daten sowie nicht zuletzt eine Legitimation des gesamten Ansatzes.
2.3 Unterschiede im Antwortverhalten Die bereits genannten Unterschiede zwischen telefonischen Befragungen über den Mobilfunk und über das Festnetz ziehen möglicherweise Mechanismen nach sich, die auf das Antwortverhalten der Zielpersonen wirken 49
Michael Häder, Mike Kühne, Tino Schlinzig
können. Es besteht mittlerweile Konsens darüber, dass Befragte vier Schritte durchlaufen, um eine geschlossene Frage zu beantworten: das Verstehen der Frage, das Abrufen der für die Beantwortung der Frage notwendigen Informationen aus dem Gedächtnis, das Beurteilen der abgerufenen Informationen und das Kommunizieren des Ergebnisses der Urteilsbildung anhand der Selektion einer der vorgegebenen Antwortoptionen (vergleiche zum Beispiel Sudman & Bradburn & Schwarz 1996; Schwarz 2008, 374 ff.). Allerdings verweisen zahlreiche empirische Befunde darauf, dass es neben diesem idealen Phasenmodell auch alternative Modelle zur Beschreibung der Antwortgenerierung gibt (Tourangeau & Rips & Rasinski 2005). Vor dem Hintergrund der Komplexität des Antwortprozesses und des damit für die Zielperson verbundenen Aufwands erscheint es unrealistisch, dass die Befragten tatsächlich stets alle Schritte der Antwortgenerierung für jede Frage eines Fragebogens durchlaufen. Das Auftreten von Response-Sets wie beispielsweise Zustimmungstendenzen und die Tendenz zur Wahl der Mittelkategorie deuten auf sogenannte Abkürzungen bei der Antwortfindung hin (Tourangeau 2005, 254). Zur Beschreibung und Erklärung eben dieser Abkürzungen schlagen Krosnick und Alwin (1987) im Rückgriff auf das psychologische Modell paralleler Verarbeitungswege (Petty & Cacioppo 1986; Chaiken & Yaacov 1999) das Konzept des Optimizing beziehungsweise des Satisficing vor. Während beim Optimizing alle erforderlichen Schritte für die Bildung einer Antwort unternommen werden, kommt es beim Satisficing bei den Zielpersonen zu einer nur oberflächlichen, kognitiven Bearbeitung der Frage. Dies hat wiederum einen Einfluss auf die Qualität der Antwort. Die Hypothese liegt nahe, dass vor allem bei ungünstigen Bedingungen im Umfeld der Zielperson infolge von Zeitdruck oder bei technischen Problemen solche Satisficing-Strategien eingesetzt werden. Insgesamt lässt sich beim Satisficing im Vergleich zum Optimizing eine geringere Datenqualität aufgrund einer höheren Anfälligkeit beispielsweise gegenüber Kontexteffekten erwarten. Es ist deshalb unter anderem mit folgenden Effekten zu rechnen: • Vor allem wenn es darum geht, Mode-Effekte beim Einsatz von persönlich-mündlichen und telefonischen Befragungen zu diskutieren, werden Unterschiede in den Erinnerungsleistungen und damit in der Antwortqualität thematisiert (vergleiche Noelle-Neumann, & Petersen 2000, 183 ff.). Aber auch in diesem Kontext ist nicht auszuschließen, dass es beispielsweise aufgrund einer stärkeren Ablenkung durch die Umgebung bei Mobilfunkbefragungen oder durch die Anwesenheit Dritter zu schlechteren Erinnerungsleistungen kommen kann. 50
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
• Zu Item-Non-Response kann es – ähnlich wie bei anderen Befragungsmodes – auch bei telefonischen Befragungen kommen, wenn sich die Zielpersonen noch keine Meinung zu einem Sachverhalt gebildet haben und den weniger aufwendigen Weg des Satisficing vorziehen. Als Ursachen für Item-Non-Response gelten: ein ungenügendes Verständnis des Anliegens der jeweiligen Frage, fehlende Informationen bei den Zielpersonen, um eine Antwort zu generieren, ein Mangel an Motivation, um entsprechende Informationen aus dem Gedächtnis abzurufen (vergleiche Krosnick 2002) oder auch schlicht ein Fehler der Interviewerin oder des Interviewers, die beziehungsweise der eventuell vergessen hat, der Zielperson eine Frage zu stellen. Folgt man beispielsweise Groves und Kollegen, so kann auch das Phänomen der sozialen Erwünschtheit zum Item-Non-Response führen (vergleiche Groves et al. 2004, 189). 3 Forschungsfrage Da Mobilfunkbesitzer potentiell häufiger in komplizierten Situationen um ein Interview gebeten werden, liegt die Vermutung nahe, dass sie bei der Antwortfindung häufiger zu Satisficing-Strategien greifen. Insofern sind bei Personen, die über den Mobilfunk befragt wurden, schwächere Erinnerungsleistungen, höhere Quoten von Item-Non-Response sowie eine stärkere Ablenkung durch die Anwesenheit Dritter während des Interviews zu erwarten beziehungsweise zumindest nicht auszuschließen. Außerdem lässt sich vermuten, dass unter Verwendung von Satisficing-Strategien bei der Antwortfindung Kontexteffekte stärker wirken. Das sollte unter anderen dazu führen, dass Einstellungsfragen mit einem direkten Bezug (zum Beispiel zur Mobilfunknutzung oder zum Handykauf) systematisch anders beantwortet werden als Fragen ohne direkten Bezug zum Sachverhalt (zum Beispiel Einstellungsfragen zum Freizeitverhalten, zu Hobbys oder allgemeiner Zufriedenheit).
4 Empirische Untersuchung Grundlage der hier vorgestellten Ergebnisse ist das durch die Deutsche Forschungsgesellschaft geförderte Projekt „Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz“. Innerhalb dieses Projektes wurde sowohl über das Festnetz als auch über den Mobilfunk eine Umfrage zum 51
Michael Häder, Mike Kühne, Tino Schlinzig
Thema „Telefoniergewohnheiten“ durchgeführt (das Projekt wird ausführlich dargestellt in Häder & Häder 2009). Ein Schwerpunkt des Projekts war die Analyse von Modeeffekten bei Mobilfunk- und Festnetzbefragungen. Im Mittelpunkt stand dabei die Analyse von Unterschieden des Antwortverhaltens von Personen, die am Festnetz oder die via Mobilfunk befragt wurden (eine Beschreibung dieser Befunde geben Häder & Kühne 2009, 165 ff.). Zur Beantwortung der Fragestellung wurden diverse Split-Ballots in beiden Modes benutzt, um mögliche Effekte ausmachen zu können. Einige davon wurden aus in der Literatur bekannten Arbeiten entlehnt. Die Bemühungen gingen prinzipiell dahin, ein Design zu entwickeln, dass es erlaubt, sowohl das Vorhandensein als auch die Stärke möglicher Effekte zwischen den beiden Modes aufzudecken.
4.1 Erhebungsdesign und Stichprobe Beide Befragungen erfolgten mit Hilfe des CATI-Systems am Sozialwissenschaftlichen Methodenzentrum der Technischen Universität Dresden mit denselben Interviewerinnen und Interviewern und den gleichen Supervisionsprinzipien. Die Nummernfolgen der zu kontaktierenden Personen wurden auf dem gleichen Weg rekrutiert. Auch die Feldzeit der Datenerhebung war für beide Modes nahezu identisch. Es wurden schließlich 1.009 zufällig ausgewählte Personen über das Festnetz und 1.162 Respondenten über den Mobilfunk mit den gleichen Instrumenten befragt. Grundlage der Stichprobenziehung für die Befragung über das Festnetz war das Gabler-Häder-Design (Gabler & Häder 1998). Für die Auswahl der Teilnehmerinnen und Teilnehmer für die Mobilfunkbefragung wurde ein modifiziertes RDD-Verfahren verwendet (siehe dazu Hädler & Gabler & Heckel 2009, 21 ff.).
4.2 Operationalisierung Die Beantwortung der Forschungsfragen erfolgt erstens über das Abfragen von vergangenen Ereignissen, zweitens mit Hilfe der Auswertung der aufgetretenen Antwortverweigerung und drittens anhand von Unterschieden im Antwortverhalten zwischen den Modes bei Fragen mit und ohne Nähe zum Sachverhalt Mobilfunk. Zusätzlich wird kontrolliert, inwieweit die Anwesenheit Dritter einen Einfluss auf die Befunde hat. Dabei sind die folgenden Wege eingeschlagen worden. 52
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Erinnerungsleistung: Um die Erinnerungsleistungen der Zielpersonen in beiden Modes zu vergleichen, wurde folgendes an die Methode des Paraphrasing angelehnte Vorgehen praktiziert: Die Personen wurden zu neun verschiedenen Aspekten befragt.2 Sie sollten jeweils angeben, ob sie diese entweder als verzichtbar oder als unverzichtbar ansehen. Jedes Item wurde einzeln abgefragt. Um das für Telefonbefragungen typische Response-Set des Recency-Effektes zu neutralisieren, wurde die Reihenfolge der neun Items permutiert. Im Anschluss an diese neun Fragen wurden die Befragten gebeten, sich zu erinnern und diejenigen der neun Aspekte zu nennen, an die sich noch erinnern können. Die Erinnerungsleistung beträgt damit im Maximum neun und im Minimum null. Item-Non-Response: Item-Non-Response wurde ebenfalls anhand dieser neun Fragen gemessen. Wurde von den Befragten explizit keine Angabe gemacht oder auf die weiß-nicht-Kategorie3 ausgewichen, ging die Antwort als Item-Non-Response in die Auswertung ein. Der Index für den Item-Non-Response beträgt damit ebenfalls im Maximum neun und im Minimum null.4 Nähe zum Thema Mobilfunk: Um den Bezug zum Thema variieren zu können, wurde auf die Items der Erinnerungsleistung zurückgegriffen. Dabei wird allen Items außer v18_5 kein direkter Bezug unterstellt. Differenzen im Antwortverhalten zwischen den Modes sollten sich also nur bei dem Item mit der Frage zum Handykauf (v18_5) ergeben. Anwesenheit Dritter: Es wurde erfragt, ob sich andere Personen während der Befragung in unmittelbarer Nähe der jeweils befragten Person befanden. Außerdem wurde erhoben, ob es sich bei diesen Personen um Verwandte, Freunde und Bekannte oder Fremde gehandelt hat. Diese Differenzierung wird in den folgenden Analysen keine weitere Beachtung finden. Es wird nur unterschieden, ob Dritte während der Befragung anwesend waren (dichotom: ja oder nein).
5 Ergebnisse 5.1 Deskriptive Darstellung zur Erinnerungsleistung In Tabelle 1 werden die deskriptiven Ergebnisse zur Erinnerungsleistung dargestellt. Für jedes Item ist aufgeführt, wie viele der befragten Personen sich je Mode an die einzelnen Aspekte erinnern konnten. Am häufigsten wurde sich in beiden Modes an den Sachverhalt erinnert, ein neues Auto kaufen zu können. Am seltensten konnten sich die Befragten an die Frage er53
Michael Häder, Mike Kühne, Tino Schlinzig
innern, ob sie es für verzichtbar oder unverzichtbar halten, finanzielle Rücklagen für das Alter schaffen zu können. Tabelle 1: Erinnerungsleistungen der Befragten (in Prozent) Fragegegenstand . . .
Festnetz
Mobilfunk
Wie oft erinnert (n)
Wie oft erinnert (n)
Zweiwöchige Urlaubsreise pro Jahr
59,1
(619)
56,3
(633)
Abgenutzte Möbel durch neue ersetzen zu können
50,8
(532)
52,1
(585)
Markenartikel kaufen zu können
28,2
(295)
31,6
(355)
Bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können
47,5
(497)
44,5
(500)
Ein neues Handy zu kaufen
58,9
(616)
62,9
(707)
Finanzielle Rücklagen für das Alter schaffen zu können
16,6
(173)
14,7
(165)
Einmal im Jahr Verwandte/ Bekannte zum Essen einladen zu können
55,0
(576)
62,8
(706)
Ein neues Auto kaufen zu können
62,8
(657)
68,0
(764)
Hobbys ausüben zu können
15,7
(164)
19,4
(218)
5
gewichteter Datensatz
Insgesamt wurde sich im Durchschnitt an vier erfragte Sachverhalte erinnert (Mittelwert = 4,1). 120 Personen konnten sich an keinen der Sachverhalte erinnern und fünf der 2.171 Personen erinnerten sich an alle abgefragten Aspekte. Es wurde auch erfasst, ob Personen andere als die genannten Sachverhalte anführten. Insgesamt haben sieben Personen mindestens einen Aspekt genannt, der nicht Gegenstand der vorangegangenen neun Fragen war. 128 Personen haben diese Frage komplett verweigert.
5.2 Deskriptive Darstellung des Item-Non-Response Eine Übersicht zum Auftreten von Item-Non-Response bei dieser Fragebatterie veranschaulicht die Tabelle 2. 54
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Tabelle 2: Item-Non-Response bei den Fragen zu verzichtbaren und unverzichtbaren Dingen im Leben (in Prozent) Fragegegenstand . . .
Festnetz
Mobilfunk
Item-NR (n)
Item-NR (n)
Zweiwöchige Urlaubsreise pro Jahr
1,1
(11)
0,9
(10)
Abgenutzte Möbel durch neue ersetzen zu können
1,8
(19)
2,8
(31)
Markenartikel kaufen können
1,8
(19)
1,7
(20)
Bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können
4,0
(42)
4,9
(55)
Ein neues Handy zu kaufen
0,3
(3)
0,8
(9)
Finanzielle Rücklagen für das Alter schaffen zu können
2,0
(21)
1,5
(17)
Einmal im Jahr Verwandte/ Bekannte zum Essen einladen zu können
0,4
(4)
1,1
(12)
Ein neues Auto kaufen zu können
1,8
(19)
1,7
(20)
Hobbys ausüben zu können
0,7
(7)
1,1
(13)
gewichteter Datensatz
Am häufigsten fehlen die Antworten auf das Item „bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können“ in beiden Modes. Im Durchschnitt wurde eine der neun Fragen verweigert (der Mittelwert beträgt 1,3 und der Median liegt bei 1). Insgesamt werden sowohl bei der Erinnerungsleistung als auch beim Item-Non-Response Unterschiede zwischen den Modes sichtbar. Insgesamt erscheint der Anteil an Verweigerungen am Mobilfunk etwas höher.
5.3 Effekte des Erhebungsmodes auf die Erinnerungsleistung Es ist anzunehmen, dass es Unterschiede im Teilnahmeverhalten zwischen beiden Erhebungsmodes gibt. Damit muss weiterhin in Rechnung gestellt werden, dass Unterschiede zwischen den Modes nicht aufgrund eines tat55
Michael Häder, Mike Kühne, Tino Schlinzig
sächlichen Mode-Effekts entstehen, sondern auf die unterschiedliche Struktur der Befragten zurückzuführen sind. Damit ist es erforderlich, eine Kontrolle solcher Größen mit Hilfe multivariater Verfahren vorzunehmen. Als Kontrollvariablen finden Alter, Geschlecht und Bildung6 als klassische soziodemographische Variablen sowie die Anwesenheit Dritter in den Modellen Berücksichtigung. Erinnerungsleistung In einem Modell werden verschiedene Indikatoren zur Kontrolle des Befundes zur Erinnerungsleistung herangezogen, unter anderem auch die Anwesenheit Dritter während der Befragung (siehe Tabelle 3). Tabelle 3: Ergebnisse einer linearen Regression zur Erklärung der Anzahl erinnerter Gegenstände aus den vorangegangenen neun Fragen, unstandardisierte Regressionskoeffizienten (standardisierte Regressionskoeffizienten7) Konstante Modus (RK = Festnetz) Anwesenheit Dritter (RK = Dritte anwesend) Bildungsjahre Geschlecht (RK = männlich) Alter
3,52*** –0,04 –0,01 0,10 (0,18)*** 0,42*** –0,03 (–0,27)***
R2 n
0,1 2.071
* p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Wie zu sehen ist, besitzt der Modus keine Erklärungskraft für die Anzahl der erinnerten Aspekte aus den vorangegangenen Fragen. Die Erinnerungsleistungen werden lediglich vom Alter, der Bildung – dies ist bis hierhin kaum eine Überraschung – und dem Geschlecht (Frauen zeigen eine bessere Erinnerungsleistung!) beeinflusst. Auch die Anwesenheit Dritter bleibt – als zunächst kritisch bewerteter Umgebungsindikator – ohne eine signifikante Wirkung. Grundlegende mit der Mobilfunkbefragung gegenüber der Festnetzbefragung einhergehende Probleme – wie sie eingangs nicht ausgeschlossen werden konnten – sind damit auch an dieser Stelle nicht empirisch festzustellen gewesen. 56
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Man muss davon ausgehen, dass bei einem Verzicht auf Mobilfunkbefragungen ein bestimmter Personenkreis (vor allem jüngere und höher gebildete Personen) für sozialwissenschaftliche Umfragen gar nicht oder nicht mehr ohne weiteres erreicht werden könnten (Glemser 2007). Weiterhin muss man in Rechnung stellen, dass gerade dieser Personenkreis bei einer Umfrage besondere Erinnerungsleistungen zu vollbringen in der Lage ist. Dies schließlich würde bedeuten, dass der Umfrageforschung bei einem (weiter andauernden) Verzicht auf Mobilfunkbefragungen eine besonders attraktive Subpopulation verloren ginge. Item-Non-Response Ein ähnliches Vorgehen wird nun bei der näheren Betrachtung des ItemNon-Response‘ gewählt. Die Ergebnisse werden in Tabelle 4 gezeigt. Tabelle 4: Ergebnisse einer linearen Regression (Beta) zur Erklärung der Häufigkeit des Item-Non-Response bei neun ausgewählten Indikatoren, unstandardisierte Regressionskoeffizienten (standardisierte Regressionskoeffizienten) Konstante
0,03
Modus (RK = Festnetz)
0,03
Anwesenheit Dritter (RK = Dritte anwesend)
–0,01
Bildungsjahre
0,01 (0,02)
Geschlecht (RK = männlich)
–0,12***
Alter
0,01 (0,10)***
R
0,01
2
n
2.071
* p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Die Beta-Koeffizienten signalisieren, dass bei den Mobilfunkbefragungen – unter der Kontrolle weiterer Indikatoren – nicht mit mehr Non-Response zu rechnen ist als bei den Festnetzbefragungen. Die Anwesenheit Dritter bleibt ebenfalls ohne einen Effekt. Ein gewisser Effekt geht vom Alter aus: Die NonResponserate steigt mit dem Alter an. Auch das Geschlecht zeigt eine Wirkung (Frauen beantworten die Fragen vollständiger). 57
Michael Häder, Mike Kühne, Tino Schlinzig
5.4 Einstellungsfragen mit und ohne direkten inhaltlichen Bezug An dieser Stelle erscheint im Rahmen der Suche nach Mode-Effekten noch ein anderer Aspekt nennenswert. So könnte die im Moment der Befragung ausgeführte Tätigkeit – bei den Mobilfunkbefragungen das augenblickliche Handytelefonieren – einen Einfluss auf das Antwortverhalten haben, wenn sich der Gegenstand der Frage mehr oder weniger direkt auf eben diese Tätigkeit bezieht. Es wird also im Mobilfunkmodus wiederum ein Kontexteffekt nicht ausgeschlossen, der bewirkt, dass sich aufgrund der momentanen Tätigkeit an jene Informationen stärker beziehungsweise vorrangig erinnert wird, die mit der eben ausgeübten Tätigkeit in Verbindung stehen. Dies betrifft in unserem Zusammenhang die Vorgabe „ein neues Handy zu kaufen“ (v18_5). Dass sich ein solcher Effekt ebenfalls am Festnetz ergibt, kann nicht ausgeschlossen werden. Allerdings ist davon auszugehen, dass aufgrund der „traditionellen“ Telefonbefragung über das Festnetz ein solcher Effekt eher gering ist. Mithilfe eines Regressionsmodells wird überprüft, ob an dieser Stelle ein solcher Einfluss vorliegt. Alle anderen acht Vorgaben besitzen einen solchen Bezug nicht, weshalb auch kein Einfluss erwartet wird. Das Ergebnis zeigt Tabelle 5. Tabelle 5: Ergebnisse binär logistischer Regressionen – Exp(B) – zur Erklärung des Antwortverhaltens bei Einstellungs-Items mit und ohne inhaltlichen Bezug zum Mobilfunk Variablen
8
V18_1 V18_2 V18_3 V18_4 V18_5 V18_6 V18_7 V18_8 V18_9
Konstante
0,81
0,58
0,61
0,84
0,50
2,39
1,07
0,76
4,78**
Mode
0,97
1,04
0,99
0,90
1,60** 1,02
1,01
0,89
0,86
Bildungsjahre
1,04** 0,95** 0,94** 1,09*** 0,90*** 1,08** 1,01
0,95*** 1,07**
Geschlecht
0,82
0,82*
0,95
0,70** 1,07
0,62*** 1,40*
0,87
0,94
1,01
1,16
0,86
0,97
1,04
1,35**
1,00
1,01** 1,01*
1,01** 1.00
1,00
1.00
1,01*
0,97***
0,01
0,04
0,02
0,00
0,02
0,05
Anwesenheit Dritter Alter
0,01
Nagelkerkes R
2
0,02
0,90
0,05
0,90
1,35**
n: 2.171 * p = 0,1, ** p = 0,05, *** p = 0,01; gewichteter Datensatz
Tatsächlich tritt an dieser Stelle der erwartete Effekt auf: Bei der Einstellungsfrage, die einen direkten Bezug zur gegenwärtigen Tätigkeit der be58
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
fragten Person aufweist (v18_5), tritt auch ein Mode-Effekt auf. Bei allen anderen Einstellungsfragen kann kein solcher Einfluss nachgewiesen werden. Weiterhin ist interessant, dass bei der Anwesenheit Dritter lediglich in einem Fall ein Effekt aufgetreten ist. Dieser Effekt wirkt allerdings unabhängig vom Erhebungsmodus. Mit anderen Worten: Hier hat die Anwesenheit dritter Personen sowohl bei der Festnetzbefragung als auch bei der Mobilfunkbefragung eine Wirkung auf das Antwortverhalten.
6 Diskussion Der Anteil an Personen, die telefonisch ausschließlich über Mobilfunk erreichbar sind, ist in den letzten Jahren stark gestiegen. Der Anteil dieser Gruppe an Mobilfunknutzerinnen und Mobilfunknutzern führte zu dem Versuch, telefonische Befragungen ebenfalls über den Mobilfunk durchzuführen. Eng verbunden mit der Befragung über den Mobilfunk ist die Frage nach der Vergleichbarkeit der Daten mit Befragungen, die über das Festnetz geführt wurden. In dieser Arbeit wurden Ergebnisse eines solchen MixedMode-Designs vorgestellt. Zunächst lassen sich anhand des empirischen Materials durchaus Unterschiede zwischen den Modes ausmachen. Diese kommen aber – das zeigen die multivariaten Analysen – vor allem aufgrund des Einflusses von Drittvariablen zustande. Diese – und nicht etwa wahre Mode-Effekte – können dann für Unterschiede im Antwortverhalten verantwortlich gemacht werden. Die Erinnerungsleistung wird vom Mode nicht signifikant beeinflusst. Die Stärke der Erinnerung an abgefragte Sachverhalte ist in dem vorgestellten Modell von Alter, Geschlecht und Bildung abhängig. Bei der Analyse des Item-Non-Response ergeben sich neben Alters- und Geschlechtseffekten ebenfalls keine Mode-Effekte. Personen, die am Handy befragt wurden, verweigerten bei den analysierten Fragen genauso häufig wie Personen, die am Festnetz befragt wurden. Nicht unerwartet wurde ein Zusammenhang zwischen dem Inhalt einer Frage und dem Befragungsmode sichtbar, wenn sich die Einstellungsfrage auf den Mobilfunk bezog. Aus einigen Ergebnissen ergibt sich weiterer Forschungsbedarf. Einstellungsfragen ohne Bezug zur Thematik Mobilfunk erwiesen sich beispielsweise als resistent gegenüber dem Einfluss der Erhebungsmodi. Etwas anders sahen die Ergebnisse bei Fragen aus, die – mehr oder weniger direkt – das Thema Mobiltelefonieren aufgriffen. Hierzu besteht auch aus theoreti59
Michael Häder, Mike Kühne, Tino Schlinzig
scher Sicht noch ein gewisser Erklärungsbedarf. Die gesamte Befundlage kann aber prinzipiell die Bemühungen bestärken, telefonische Befragungen über das Mobilfunknetz in das sozialwissenschaftliche Methodenarsenal aufzunehmen. Zu Beginn des zugrunde liegenden Projektes war es weitgehend unklar, ob telefonische Befragungen über den Mobilfunk überhaupt einen sozialwissenschaftlich gangbaren Weg darstellen könnten. Aufgrund verschiedener Überlegungen schien hier Skepsis durchaus angebracht zu sein. Diese Befürchtungen können in dieser Pauschalität nun als widerlegt angesehen werden. Die Befunde unserer Studie belegen, dass telefonische Befragungen auch über den Mobilfunk durchaus zu einem probaten sozialwissenschaftlichen Instrument entwickelt werden können.
Anmerkungen 1 2
3
4
5
6 7
8
60
Wir danken den Herausgebern und einem anonymen Gutachter für die konstruktive Kritik und die hilfreichen Anmerkungen. Im Einzelnen wurden abgefragt v18_1: eine zweiwöchige Urlaubsreise pro Jahr, v18_2: abgenutzte Möbel durch neue ersetzen zu können, v18_3: Markenartikel kaufen zu können, v18_4: bei Lebensmitteln auf Qualität und nicht auf den Preis achten zu können, v18_5: ein neues Handy zu kaufen, v18_6: finanzielle Rücklagen für das Alter schaffen zu können, v18_7: einmal im Jahr Verwandte/Bekannte zum Essen einladen zu können, v18_8: ein neues Auto kaufen zu können sowie v18_9: Hobbys ausüben zu können. Die Kategorie „weiß nicht“ wurde den Zielpersonen bei keiner Frage als Antwortoption explizit angegeben. Erst wenn die Befragten keine substantielle Antwort geben konnten oder wollten, wurde diese Option offeriert. Die Antwortoption „weiß nicht“ wurde während der Befragung nicht explizit als potentielle Antwortoption angeboten, aber bei Nennung durch die Befragten als „weiß nicht“ codiert. Die Untersuchungsanlage der Studie macht eine Designgewichtung der Daten erforderlich, unter anderem zum Ausgleich der unterschiedlichen Inklusionswahrscheinlichkeiten. Diese ist im Einzelnen beschrieben bei Häder & Häder. Die Bildung wurde über die absolvierten Bildungsjahre operationalisiert. Ob weitere Personen außer den Befragten anwesend waren, wurde bei der Erhebung ermittelt. Die standardisierten Regressionskoeffizienten werden nur für die metrischen Variablen ausgewiesen. Die Interpretation für dichotome Variablen wäre statistisch nicht sinnvoll, da Dummy-Variablen nicht um eine Standardabweichung erhöht werden können. Die Aufschlüsselung der Variablennamen befindet sich in der Fußnote 2.
Mode-Effekte bei telefonischen Befragungen über Festnetz und Mobilfunk
Literatur Béland, Y., & St-Pierre, M. (2008). Mode effects in the Canadian community health survey: A comparision of CATI and CAPI. In J. M. Lepkowski et al. (Eds.), Advances in telephone survey methodology (297–314). New York: John Wiley & Sons. Chaiken, S., & Yaacov, T. (1999). Dual-process theories in social psychology. New York: Guilford Press. Christian, L. M., & Dillman, D. A., & Smyth, J. D. (2008). The effects of mode and format on answering to scalar questions in telephone and web surveys. In J. M. Lepkowsky et al. (Eds.), Advances in telephone survey methodology (250–274). New York: John Wiley & Sons. Dillman, D. A. (2000). Mail and internet survey: The tailored design method. New York: John Wiley & Sons. Glemser, A. (2007). Mobilfunknutzung in Deutschland. Eine Herausforderung für die Stichprobenbildung in der Markt- und Sozialforschung. In S. Gabler & S. Häder (Hg), Mobilfuntelefonie – Eine Herausforderung für die Umfrageforschung. Spezialband 13 (25–37). Mannheim: GESIS-ZUMA. Groves, R. M., & Fowler, F. Y. Jr., & Couper, M., & Lepkowsky, J. M., & Singer, E., & Tourangeau, R. (2004). Survey methodology. New York: John Wiley & Sons. Häder, S., & Gabler, S. (1998). Ein neues Stichprobendesign für telefonische Umfragen in Deutschland. In S. Gabler & S. Häder & J. H. P. Hoffmeyer-Zlotnik (Hg.), Telefonstichproben in Deutschland (69–88). Opladen: Westdeutscher Verlag. Häder, M., & Häder, S. (Hg.) (2009). Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung. Wiesbaden: VS Verlag für Sozialwissenschaften. Häder, M., & Kühne, M. (2009). Mode-Effekte. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung (165–251). Wiesbaden: VS Verlag für Sozialwissenschaften. Häder, S., & Gabler, S., & Heckel, C. (2009). Der Auswahlrahmen. In M. Häder & S. Häder (Hg.), Telefonbefragungen über das Mobilfunknetz. Theoretisches Konzept, Design und Umsetzung einer neuen Strategie zur Datenerhebung (21–49). Wiesbaden: VS Verlag für Sozialwissenschaften. Hochstim, J. R. (1967). A critical comparison of three strategies of collecting data from households. Journal of the American Statistical Association, 62, 976–989. Krosnick, J., & Alwin, D. F. (1987). An evaluation of a cognitive theory of response-order effects in survey measurement. Public Opinion Quarterly, 51, 201–219. Noelle-Neumann, E., & Petersen, T. (2000). Das halbe Instrument, die halbe Reaktion. Zum Vergleich von Telefon- und Face-to-Face Umfragen. In V. Hüfken (Hg.), Methoden in Telefonumfragen (183–200). Opladen: Westdeutscher Verlag. Petty, R. E., & Cacioppo, J. T. (1986). Communication and persuasion: Central and peripheral routes to attitude change. New York: Springer.
61
Michael Häder, Mike Kühne, Tino Schlinzig Schwarz, N. (2008). The psychology of survey response. In W. Donsbach & M. W. Traugott (Eds.), The SAGE handbook of public opinion research (374–387). California: Sage. Srinivasan, R., & Hanway, S. (1999). A new kind of survey mode difference: Experimental results from a test of inbound voice recognition and mail surveys. St. Pete Beach, Florida: Meeting of the American Association for Public Opinion Research. Sudman, S., & Bradburn, N. M., & Schwarz, N. (1996). Thinking about answers: The application of cognitive processes to survey methodology. San Francisco: Jossey-Bass. Tourangeau, R., & Rips, L. J., & Rasinski, K. (2005). The psychology of survey response. Cambridge: Cambridge University Press. Tourangeau, R., & Smith, T. (1996). Asking sensitive questions: The impact of data collection, question format, and question context. Public Opinion Quarterly, 60, 275–304. Tucker, C., & Lepkowski, J. M. (2008). Telephone survey methods: Adapting to change. In J. M. Lepkowsky et al. (Eds.), Advances in telephone survey methodology (3–26). New York: John Wiley & Sons.
62
Julia Simonson
Julia Simonson
Klassenzimmerbefragungen von Kindern und Jugendlichen: Praktikabilität, Potentiale und Probleme einer Methode* Zusammenfassung Thema des Beitrags ist die Methode der Klassenzimmerbefragung bei Kindern und Jugendlichen. Einleitend werden zunächst einige Besonderheiten von Klassenzimmerbefragungen im Vergleich zu anderen Befragungsformen betrachtet. Im Anschluss daran wird mit der KFN-Schüler/innenbefragung 2005 eine Beispielstudie vorgestellt, anhand derer zwei zentralen Punkten der Datengüte nachgegangen wird: der Validität von Befragtenangaben am Beispiel von Schulnoten sowie dem Ausmaß sozial erwünschten Antwortverhaltens.
Abstract Classroom Surveys among Children and Adolescents: Practicability, Potentials, and Problems of a Survey Method This paper deals with the method of classroom surveys among children and adolescents. Introductory, some distinctive features of classroom surveys in comparison to other survey modes are considered. Subsequently, with the KFN School Survey 2005 an example is presented and two key points of data quality are examined: First, the validity of the answers of respondents exemplified by school grades and second, the extent of social desirability.
1 Einleitung Von Klassenzimmerbefragungen spricht man in der Regel, wenn mehrere Personen, die sich wie eine Schulklasse in einem Raum befinden, simultan an einer Befragung teilnehmen (Planck 1959). Meist werden die Befragungen schriftlich durchgeführt, aber auch computergestützte Varianten sind prinzi63
Julia Simonson
piell möglich. Anwesend ist normalerweise eine Person, die Fragebögen verteilt, die Befragung anleitet, Ausfüllhinweise gibt und für Rückfragen zur Verfügung steht. Die Klassenzimmerbefragung kann damit als Hybridform zwischen schriftlicher und mündlicher Befragung angesehen werden, wobei die Gemeinsamkeiten mit der schriftlichen Befragung überwiegen und sie deswegen häufig auch als Unterform von dieser verstanden wird. Ihr besonderes Potential entfalten Klassenzimmerbefragungen bei der Befragung von Gruppen, die sich ohnehin an einem Ort befinden bzw. leicht zu einem solchen eingeladen werden können, wie Schulklassen, Seminarteilnehmer/innen in Universitäten oder Mitarbeiter/innen in Abteilungen eines Unternehmens.1 Häufig wird die Methode zur Befragung von Kindern und Jugendlichen und hier insbesondere zur Erforschung von Jugenddelinquenz und -gewalt eingesetzt (Baier & Pfeiffer & Windzio & Rabold 2006; Fuchs 1997; Fuchs & Lamnek & Lüdtke 1996; Mansel 2001; Mansel & Hurrelmann 1998; Oberwittler & Blank & Köllisch & Naplava 2001; Steffgen & Russon 2003; Tillmann & Holler-Nowitzki & Holtappels & Meier & Popp 1999). Einzelne methodische Aspekte dieser Erhebungsform wurden dabei zwar mehrfach thematisiert (so z. B. von Köllisch & Oberwittler 2004; Kreuzer & Görgen & RömerKlees & Schneider 1992; Naplava & Oberwittler 2002; Oberwittler & Naplava 2002), in den einschlägigen Lehrbüchern zur empirischen Sozialforschung sowie zu Befragungen wird die Methode allerdings allenfalls am Rande erwähnt (z. B. Diekmann 1998; Schnell & Hill & Esser 2005; Scholl 2003). Im folgenden Beitrag sollen zunächst einige Besonderheiten von Klassenzimmerbefragungen bei Kindern und Jugendlichen im Vergleich zu anderen Befragungsformen betrachtet werden. Im Anschluss daran wird mit der vom Kriminologischen Forschungsinstitut Niedersachsen (KFN) 2005 durchgeführten Schüler/innenbefragung eine Beispielstudie vorgestellt, anhand derer mit der Validität von Befragtenangaben sowie dem Ausmaß sozial erwünschten Antwortverhaltens zwei zentralen Punkten der Datengüte nachgegangen wird.
2 Methodische Besonderheiten von Klassenzimmerbefragungen bei Kindern und Jugendlichen Ein Vorteil von Klassenzimmerbefragungen gegenüber anderen Befragungsformen ist zunächst die gute Erreichbarkeit der Kinder und Jugendlichen: Wird die Befragung während der Schulzeit durchgeführt, können in der Regel alle am Befragungstag anwesenden Schüler/innen angesprochen wer64
Klassenzimmerbefragungen von Kindern und Jugendlichen
den. D. h., auch sonst schwer erreichbare Gruppen, wie Kinder oder Jugendliche aus bildungsfernen Familien, können befragt werden (Oberwittler & Naplava 2002). Durch die simultane Befragung mehrerer Schüler/innen ergeben sich darüber hinaus hohe Einsparpotentiale hinsichtlich Zeit und Kosten. Als ein weiterer Vorzug sind die in der Regel verhältnismäßig hohen Ausschöpfungsquoten zu nennen, da die Motivation der Schüler und Schülerinnen während der Schulzeit an einer Befragung teilzunehmen verständlicherweise deutlich höher ist als wenn die Befragung in der Freizeit stattfindet. Kosten und Nutzen von Teilnahme bzw. Verweigerung verteilen sich damit grundsätzlich anders als bei vielen anderen Befragungsformen: Während z. B. bei haushaltsbasierten Befragungen aus Sicht der Befragten durch die zur Verfügung gestellte freie Zeit Kosten der Teilnahme anfallen, entstehen bei Klassenzimmerbefragungen eher Kosten durch die Nichtteilnahme, da diese in der Regel nicht nur gegen die Erwartungen des/der Interviewers/ in, sondern auch die der Lehrkraft und Mitschüler/innen durchgesetzt werden muss (Oberwittler & Naplava 2002). Schul- und Klassenlisten ermöglichen die Ziehung mehrstufiger Zufallsauswahlen. Darüber hinaus besteht die Möglichkeit, neben den Informationen der Schüler/innen auch Informationen über die Schule oder die Klasse durch Lehrkräfte oder andere Befragungspersonen zu erheben und diese später mit den Schüler/innendaten zu verknüpfen. Natürlich sind diese Vorzüge nicht ohne gleichzeitige Einschränkungen zu haben: Zu berücksichtigen ist zunächst, dass Befragungen im Schulkontext in der Regel vorab von den zuständigen Kultusministerien genehmigt werden müssen. Auch für die Benachrichtigung bzw. Erlaubnis der Eltern ist eine gewisse Zeit einzuplanen. Darüber hinaus ist es zwar möglich, die Stichprobengröße aufgrund der Befragung ganzer Klassen bei ähnlichem Kostenaufwand gegenüber anderen Befragungsvarianten deutlich zu steigern, allerdings muss damit auch die Clusterung der Daten in Kauf genommen werden. Wird diese bei der Analyse nicht berücksichtigt, kann es durch falsch geschätzte Standardfehler zu verzerrten Ergebnissen, insbesondere bei der Interpretation von Signifikanztests, kommen (vgl. z. B. Snijders & Bosker 1999). Durch den Einsatz von Mehrebenenmodellen oder speziellen Routinen für komplexe Auswahlen, wie sie mittlerweile in einigen Statistikprogrammen wie z. B. Stata implementiert sind, lässt sich dieses Problem aber weitgehend lösen. Ein Problem können mit dem Zugang verbundene selektive Ausfälle von Befragungspersonen sein. Auch wenn durch Klassenzimmerbefragungen an Schulen generell eine hohe Befragtenzahl erreicht werden kann und die 65
Julia Simonson
Ausschöpfungsquote meist höher als bei anderen Befragungsformen ist, werden nur diejenigen Schüler und Schülerinnen angesprochen, die am Befragungstag die Schule besuchen. Wer häufig krank ist oder oft die Schule schwänzt, gelangt also mit geringerer Wahrscheinlichkeit in die Stichprobe. Gerade wenn es wie im später vorgestellten Beispiel um abweichende Verhaltensweisen von Schülern/innen geht, ist der Ausfall der letzteren Gruppe jedoch problematisch, da Schuleschwänzen zum einen selbst eine Form niedrigschwelligen abweichenden Verhaltens darstellt, dessen Ausmaß in der Stichprobe damit unterschätzt werden dürfte, und andererseits nachweislich mit anderen Formen jugendlicher Devianz korreliert ist. Notwendig ist also eine Überprüfung des Anteils der durch Schwänzen ausfallenden Personen und – bei hohem Ausfall – eine Nachbefragung derselben, sofern davon ausgegangen wird, dass die zu untersuchenden Sachverhalte mit Schuleschwänzen korrelieren. Weitere Einschränkungen ergeben sich aus der Befragungssituation, die Raum für von der Anwesenheit einer Lehrkraft und Mitschülern/innen ausgehende Effekte bietet. Durch die gleichzeitige Befragung mehrerer Personen kann im Vergleich zur Einzelbefragung eine Beschränkung der Anonymitätswahrnehmung gegeben sein. Diese Problematik kann durch das Auseinandersetzen der Befragten oder das Aufstellen von Sichtblenden (z. B. Schulranzen), zwar entschärft werden,2 ganz lösen lässt es sich wohl aber nicht, so dass insbesondere bei heiklen Fragen sozial erwünschte Antworten oder Antwortverweigerungen möglich sind (Beebe & Harrison & McRea & Anderson & Kerson 1998; Oberwittler & Naplava 2002). Allerdings deuten bisherige Befunde (Köllisch & Oberwittler 2004; Naplava & Oberwittler 2002; Oberwittler & Naplava 2002) darauf hin, dass Prävalenzraten selbstberichteter Delinquenz bei Klassenzimmerbefragungen höher ausfallen als bei persönlich-mündlichen Interviews, soziale Erwünschtheit also eine vergleichsweise geringe Rolle spielt. Ausgehend von den dargestellten Überlegungen soll im folgenden Erfahrungsbericht auf der Grundlage der KFN-Schüler/innenbefragung zwei zentralen Punkten der Datengüte nachgegangen werden. Zum einen wird untersucht, inwieweit die Angaben der Schüler/innen als valide gewertet werden können. Hierfür werden Angaben zu den Schulnoten von Viertklässlern/innen den Angaben ihrer Lehrkräfte gegenübergestellt. Zum anderen wird überprüft, in welchem Maße sozial erwünschtes Antwortverhalten ein Problem darstellt.
66
Klassenzimmerbefragungen von Kindern und Jugendlichen
3 Die KFN-Schüler/innenbefragung: Anlage und Durchführung der Befragung Das KFN führt seit 1998 wiederholt Befragungen von Schülern und Schülerinnen durch, um Informationen über das Ausmaß und die Struktur devianten Verhaltens zu gewinnen. Auch im Jahre 2005 wurden Kinder (Viertklässler/innen, N = 6.142) und Jugendliche (Neuntklässler/innen, N = 17.021) befragt. Dabei wurden unterschiedliche ländliche und städtische Gebiete Deutschlands sowie ein Bundesland (Thüringen) einbezogen (Baier & Pfeiffer & Windzio & Rabold 2006; Baier & Rabold & Pfeiffer & Windzio 2006). Dieses Vorgehen bietet die Möglichkeit, Vergleiche zwischen den einbezogenen Gebieten zu ziehen. Da diese allerdings nicht im Rahmen einer Zufallsauswahl gezogen wurden, sind über die Gebiete hinaus, also z. B. auf Bundesebene, keine verallgemeinernden Aussagen möglich.3 Da für das Aufzeigen methodischer Besonderheiten ebenso wie für den Nachweis genereller Zusammenhänge keine repräsentative Stichprobe zwingend ist, erscheint diese Einschränkung im vorliegenden Fall jedoch vernachlässigbar. Innerhalb der Befragungsgebiete wurden entweder auf der Basis von Schullisten nach Schulformen geschichtete, zweistufige Klumpenauswahlen (1. Stufe: Schulen, 2. Stufe: Klassen) gezogen, oder es erfolgte eine Vollerhebung. Im Rahmen der Befragungen in den vierten Klassen wurden in Dortmund, Kassel, München, Oldenburg, Peine, Stuttgart und Thüringen Klumpenstichproben und in Schwäbisch-Gmünd, Soltau-Fallingbostel, Belm und Wallenhorst Vollerhebungen, bezogen auf die neunte Jahrgangsstufe in Dortmund, München, Stuttgart und Thüringen Klumpenstichproben, in Kassel, Oldenburg, Peine, Schwäbisch-Gmünd, Soltau-Fallingbostel und Lehrte Vollerhebungen angestrebt. In Lehrte wurde nur in neunten Klassen, in Belm und Wallenhorst nur in vierten Klassen erhoben. Die Erhebungen fanden von Februar bis April 2005 statt. Die Befragung wurde im Klassenverband in standardisierter Weise durch eine geschulte Interviewperson durchgeführt. Um eine möglichst anonyme Erhebungssituation zu schaffen, wurden die Befragten – wenn möglich – auseinander gesetzt. Darüber hinaus wurde auf die Freiwilligkeit der Teilnahme und die Anonymität der Befragung hingewiesen. Alle Schüler/innen bekamen einen schriftlichen Fragebogen (neunte Klasse: 27 Seiten, vierte Klasse: 16 Seiten). In den neunten Klassen wurden die ersten fünf Seiten des Fragebogens von der Interviewperson nacheinander als Overhead-Folie aufgelegt, die Fragen laut vorgelesen und den Jugendlichen jeweils Zeit gegeben, die Fragen für sich zu beantworten. Die restlichen Seiten sollten sie dann alleine ausfüllen. 67
Julia Simonson
In den vierten Klassen wurden alle Seiten des Fragebogens als Folie aufgelegt und die Fragen laut vorgelesen. Die Kinder bekamen dabei jeweils im Anschluss an eine Frage genügend Zeit zum Ausfüllen. Insgesamt nahm die Befragung in beiden Jahrgangsstufen durchschnittlich zwei Schulstunden in Anspruch. In der Regel war der Klassenlehrer oder die Klassenlehrerin während der Befragung anwesend, hielt sich jedoch zurück und griff nur ein, wenn es zu Disziplinproblemen kam. Darüber hinaus sollten die Lehrkräfte einen speziellen Lehrer/innenfragebogen ausfüllen, in dem u. a. nach nicht anwesenden Schülern/innen und Charakteristika der Schule gefragt wurde. Einsicht in die ausgefüllten Schüler/innenfragebögen bekamen die Lehrkräfte nicht. Hauptthemen der Befragung waren abweichende Verhaltensweisen, Opfererfahrungen, Freizeitgestaltung, Medienkonsum sowie die schulische Einbindung. Da es bei allen Fragen auch darum ging, möglichen Ursachen nachzugehen, wurden außerdem Fragen zum Erziehungsverhalten der Eltern, zur Herkunft und zum Bildungsniveau der Eltern sowie zu Persönlichkeitseigenschaften und Einstellungen in die Fragebögen aufgenommen. Insbesondere bei dem in vierten Klassen eingesetzten Fragebogen wurde auf eine kindgemäße Formulierung der Fragen und Antwortvorgaben geachtet. Um das Ausmaß sozial erwünschter Antworttendenzen abschätzen zu können, wurde in den Fragebogen der neunten Klassen eine Kurzskala zur Messung sozialer Erwünschtheit integriert. Tabelle 1 gibt einen Überblick über die Ausfälle und Rückläufe. Der Anteil der Absagen von Schulen bzw. Klassen ist bei beiden Befragungen mit jeweils über 15% recht hoch. Allerdings kann vermutet werden, dass diese Absagen nicht zu inhaltlichen Verzerrungen führen, da die Nichtteilnahme nicht von den Befragten selbst ausging. Ausschlaggebend waren meist organisatorische Gründe (Überschneidungen mit Projektwochen, Prüfungen, Klassenfahrten, Pflichtpraktika etc.), die nicht systematisch mit den Befragungsinhalten zusammenhängen. Diese Ausfälle wurden somit als stichprobenneutral gewertet. Problematischer scheinen die Ausfälle durch am Befragungstag abwesende Schüler/innen, da diese sich unter Umständen systematisch von den Anwesenden unterscheiden. Hier sind die Anteile in beiden Klassenstufen annähernd gleich groß. Die gleichzeitige Befragung der Lehrkräfte ergab, dass jene bei etwa jedem/r zehnten fehlenden Schüler/in angaben, dass es sich um ein unentschuldigtes Fehlen handelte. Die Verzerrung dürfte also eher gering sein. Einen deutlichen Unterschied zwischen beiden Befragungen gibt es bei den Teilnahmeverweigerungen. Hier ist der Anteil in den 68
Klassenzimmerbefragungen von Kindern und Jugendlichen
vierten Klassen, bei denen die Eltern anders als in den neunten Klassen explizit der Befragung zustimmen mussten, deutlich höher. Der Ausfall durch nicht verwertbare Fragebögen ist bei beiden Klassenstufen sehr gering. Insgesamt konnten in beiden Klassenstufen sehr hohe Ausschöpfungsquoten erreicht werden. Tab01 Tabelle 1: Rücklaufquoten 4. Klasse
Personen
9. Klasse
Anteil an Anteil an Bruttostich- bereinigter Bruttostichprobe (in %) probe (in %)
Personen
Anteil an Anteil an Bruttostich- bereinigter Bruttostichprobe (in %) probe (in %)
Bruttostichprobe
8.568
100,00
–
22.572
100,00
–
Absagen von Klassen/Schulen
1.334
15,57
–
3.436
15,22
–
Bereinigte Bruttostichprobe
7.234
84,43
100,00
19.136
84,78
100,00
am Befragungstag abwesende Schüler/innen
624
7,28
8,63
1.727
7,65
9,02
Teilnahmeverweigerung (Eltern/ Schüler/innen)
462
5,39
5,97
283
1,25
1,48
6
0,07
0,08
105
0,47
0,55
6.142
71,69
84,90
17.021
75,41
88,95
Nicht verwertbare Fragebögen Nettostichprobe
Eine hohe Ausschöpfungsquote ist allerdings noch keine hinreichende Bedingung für eine unverzerrte Stichprobe. Zu fragen ist darüber hinaus, ob die Stichprobe die Grundgesamtheit in relevanten Merkmalen, z. B. hinsichtlich der besuchten Schulformen abbilden kann. In Tabelle 2 ist die Verteilung der befragten Neuntklässler/innen auf die unterschiedlichen Schulformen den Anteilen gegenübergestellt, die laut Angaben der Schulämter die jeweilige Schulform besuchen. Da sich die vorhandenen Schulformen zwischen den westdeutschen Befragungsgebieten und dem einzigen ostdeutschen Befragungsgebiet Thüringen stark unterscheiden, werden diese an dieser Stelle gesondert aufgeführt.4 Deutlich wird, dass die in der Stichprobe erreichte Verteilung auf die Schulformen die Verteilung in der Grundgesamtheit jeweils relativ gut widerspiegelt. Schüler/innen von Gesamt69
Julia Simonson
schulen sind in beiden Gebieten leicht überrepräsentiert, wohingegen Gymnasiasten/innen in den Stichproben etwas schwächer vertreten sind, als es eigentlich zu erwarten wäre. Tab02 Tabelle 2: Verteilung der Neuntklässler/innen auf Schulformen in Stichprobe und Grundgesamtheit (in %) Westdeutsche Befragungsgebiete
Thüringen
SP
GG
SP
GG
Hauptschule Realschule Gymnasium Gesamtschule Haupt- und Realschule/Regelschule Schule in freier Trägerschaft
20,60 24,24 27,55 14,82 4,61 8,17
22,71 23,89 30,60 11,51 2,72 8,57
– – 31,21 4,41 62,32 2,06
– – 33,59 2,48 61,46 2,47
N
14.301
28.418
2.720
27.524
SP: Nettostichprobe, GG: Grundgesamtheit
Sowohl bei den Viert- als auch bei den Neuntklässlern/innen konnte eine annähernde Gleichverteilung der Geschlechter innerhalb der Stichproben erreicht werden (Viertklässler: 49,84% Jungen, Neuntklässler: 49,29% Jungen). Das durchschnittliche Alter entspricht mit 10,32 bzw. 15,09 Jahren dem für die einbezogenen Jahrgangsstufen erwartbaren Alter.
4 Validität der Angaben der Viertklässler/innen am Beispiel der Schulnoten Im Folgenden soll die Gültigkeit der Angaben anhand der von den Viertklässlern/innen angegebenen Schulnoten überprüft werden. Da in der vierten Klasse für alle Kinder die Schulnoten des letzten Zeugnisses in den Fächern Deutsch, Mathematik, Sachkunde und Sport sowohl aus der Perspektive der Kinder als auch der Lehrkräfte erhoben wurden, ergibt sich die Möglichkeit des direkten Vergleichs beider Angaben. Unterstellt wird, dass die Angaben der Lehrkräfte korrekt sind, da diesen bereits im Vorfeld der Befragung mitgeteilt wurde, dass sie die Noten der Schüler/innen in den angege70
Klassenzimmerbefragungen von Kindern und Jugendlichen
benen Schulfächern berichten sollten und daher ein Klassenbuch, Notenverzeichnis oder Ähnliches dabei haben sollten. Im Ergebnis sind die Übereinstimmungen in allen vier Fächern relativ hoch.5 Bezogen auf die Deutschnote gab es zu 85,84% Übereinstimmungen zwischen den Angaben der Lehrer/innen und Kinder. Selbst wenn man die zufällig deckungsgleichen Angaben berücksichtigt, ist noch eine hohe Übereinstimmung zu verzeichnen (Cohens Kappa: 0,80).6 9,91% der Schüler/innen geben eine bessere Deutschnote an, 4,25% eine schlechtere. Insgesamt 1,11% „verschätzen“ sich um mehr als eine Note nach oben oder unten. Ganz ähnlich ist das Bild im Fach Mathematik. Hier gab es zu 87,88% Übereinstimmungen (Kappa: 0,83), 8,89% der Schüler/innen gaben eine bessere Note an, 3,23% eine schlechtere. Auch hier wich bei 1,11% die selbst angegebene Note um mehr als eine ganze Note von der Angabe der Lehrer/innen ab. In den Fächern Sachkunde und Sport gab es 84,34% bzw. 88,10% Übereinstimmungen (Kappa: 0,77 bzw. 0,81), 10,39% (7,91%) der Schüler/innen gaben bessere Note an, 5,27% (3,99%) eine schlechtere. 1,29% (0,79%) „verschätzen“ sich um mehr als eine Note. Die Ergebnisse zeigen zwar, dass es insgesamt ein hohes Maß an Übereinstimmungen gibt, diese aber offenbar nicht zufällig sind. Wäre dies der Fall, müssten in etwa gleich viele Kinder bessere bzw. schlechtere Schulnoten berichten. Tatsächlich werden aber von den Kindern häufiger bessere Noten angegeben. Zu fragen ist, ob sich Kinder, die bessere Schulnoten berichten, systematisch von anderen unterscheiden. Im Rahmen multivariater logistischer Mehrebenenmodelle wurde überprüft, wie sich verschiedene Eigenschaften der Kinder auf die Wahrscheinlichkeit, eine bessere Schulnote zu berichten, auswirken.7 Dabei werden zwei Annahmen geprüft. Versteht man das Berichten besserer Schulnoten als eine Form sozial erwünschten Antwortverhaltens, so kann vermutet werden, dass insbesondere Personen mit Anerkennungsdefiziten zum Berichten besserer Noten neigen. Angenommen werden kann, dass Kinder, die bereits Deprivationserfahrungen wegen ihrer ethnischen oder sozialen Herkunft machen mussten, aufgrund daraus resultierender Anerkennungsdefizite eher anfällig für sozial erwünschte Antworten sind. Eine Voraussetzung ist allerdings, dass die Befragten bereits bestimmte Normen hinsichtlich der sozialen Erwünschtheit internalisiert haben (Reinecke, 1991). Angenommen wird, dass Kinder höher gebildeter Eltern schulbezogene Leistungsnormen in stärkerem Maße internalisiert haben und daher eher bessere Noten angeben. Als Indikator für die Bildung der Eltern wurde in die vorliegenden Modelle eine auf der Grundlage der Lehrer/inneneinschätzung gebildete Variable einbezogen, die angibt, ob die Eltern über eine niedrige (unter 71
Julia Simonson
zehn Jahre Schulbesuch) oder höhere Bildung verfügen. Da nicht für alle Kinder solche Lehrer/inneneinschätzungen vorliegen, ist der Ausfall durch fehlende Werte hier mit 23,3% sehr hoch.8 Als Indikator für den sozialen Status wurde die aus Schüler/innenangaben generierte Information einbezogen, ob derzeit mindestens ein Elternteil von Arbeitslosigkeit betroffen ist. Tab03 Tabelle 3: Erklärungsmodell für das Berichten besserer Schulnoten (binär logistisches Mehrebenenmodell, abgebildet: Effektkoeffizienten eb) Deutsch
Mathematik
Sachkunde
Sport
Note der Lehrkraft (z) Geschlecht: männlich ethnische Herkunft: türkisch ehemalige Sowjetunion andere deutsch Alter in Jahren (z) positive Schuleinstellung (z) Arbeitslosigkeit der Eltern niedrige Bildung der Eltern
2,71*** 1,05
2,65*** 1,84***
4,10*** 1,02
3,61*** 1,25†
0,73 0,99 0,98 Ref. 0,92 1,17* 0,82 0,92
0,79 1,28 1,04 Ref. 0,97 1,07 0,74 1,04
0,72 0,78 0,93 Ref. 0,92 1,12† 0,90 1,07
0,95 1,18 1,01 Ref. 1,19 0,97 1,15 0,91
Varianz Ebene 2 Pseudo R2 (Maddala) Ni (Schüler/innen) Nj (Klassen)
0,40 0,07 4.458 273
0,38 0,08 4.470 273
0,63 0,10 4.405 271
0,46 0,06 4.424 272
abhängige Variable: Berichten besserer Schulnote (1 = ja, 0 = nein), z: am Klassenmittelwert zentriert, unter Kontrolle der Erhebungsgebiete, *** signifikant pKorruption< abgrenzt.
3 Quasi-experimentelle Fragen als Forschungstechnik der Wahl für die Ursachenforschung in der Soziologie Die herkömmliche Form der Sozialforschung eignet sich nur für Deskriptionen eines jeweils empirisch schon gegebenen Zustandes, ohne dass durch sie gesicherte Grundlagen für theoretische Erklärungen geschaffen werden. Die bis heute vorherrschende Form der Sozialforschung verwechselt das Handeln in der jeweils konkret gegebenen historischen Situation mit den analytisch sich ergebenden Verhaltensreaktionen, die die gleichen Menschen als Reaktionen auf unterschiedliche Situationen und Konstellationen entwickeln. Daher fehlt ihr oft die Möglichkeit, die Intentionen der Individuen einerseits und die Wirkungen der sozialen Zwänge andererseits voneinander zu unterscheiden. Genau dies leistet aber die Quasi-experimentelle Frageform. In theoretischer Hinsicht kann sie dabei auf wesentliche Vorarbeiten aufbauen. Hier sind in erster Linie die Arbeiten von Vilfredo Pareto (1971) einerseits und von Robert K. Merton (1963, 1976) andererseits zu nennen. Insgesamt fußt sie auf der pragmatistischen Methodologie von Charles S. Peirce (1877/1985).
3.1 Ophelimität und das Phänomen der Interaktion von Wirkungen in individuellen Präferenzordnungen Vilfredo Pareto hat sich bei der Definition der „Ophelimität“ mit statistischen Interaktionseffekten in einer Weise auseinander gesetzt, die für uns bedeutsam ist (Pareto, 1971). Das Wort Ophelimität dürfte in seinem ersten Teil von der griechischen Bezeichnung für „Schlange“ abgeleitet sein. Demnach würde es sich um „einen sich schlängelnden Grenzwert“ handeln. Eigentlich eine treffende Bezeichnung für einen Interaktionseffekt. Pareto verwendet den Begriff „Ophelimität“ an Stelle des vieldeutigen, ja irreführenden Begriffs ,Nutzen‘. Als „elementare Ophelimität“ bezeichnet er jene Freude bzw. Lustempfindung, die eine bestimmte Quantität eines 478
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Gegenstandes erzeugt, der im Besitz eines Akteurs ist („totale Ophelimität“), bzw. die Lustempfindung, die durch die kleinste Quantität des Gegenstandes erzeugt wird, welche zu der Menge dieses Gegenstandes hinzugefügt wird, welche bereits im Besitz des Akteurs ist („elementare Ophelimität“). Die Menge, die bereits besessen wird, kann dabei auch gleich 0 sein. Als „elementare Ophelimität“ bezeichnet Pareto mithin den Grenzwert, d. h. die Lustempfindung, die einer beliebig kleinen (unendlich kleinen) Menge des Gegenstandes, die dem aktuellen Besitz hinzugefügt wird, entspricht. Dabei wird die Größe der Lustempfindung durch diese (unendlich kleine) Menge dividiert, so dass die Ophelimität jeweils dem Vielfachen dieser kleinsten Menge entspricht. Bei Berücksichtigung des Preises spricht Pareto von „gewichteter elementarer Ophemilität“. Nachfolgend wird sein Beispiel, das sich auf Fragen des Konsums bezieht, wiedergegeben. Die analytischen Einsichten, die hier gewonnen werden, sind aber allgemeiner Natur und lassen sich auf das Handeln insgesamt beziehen. Wenn nun mehrere voneinander abhängige Güter A, B, C, . . . zur Diskussion stehen, dann wird der Lustgewinn, der durch den um eine kleine Menge von A vermehrten Konsum erzeugt wird, um so größer sein, je geringer der aktuelle Mangel an den übrigen Gütern B, C, . . . ist. Diese Konsumpräferenzen für verschiedene Güter können zwar durchaus voneinander unabhängig sein, dies ist aber keineswegs der Normalfall. Die üblicherweise auftretende Situation ist die Abhängigkeit des Konsums bzw. des Gebrauchs. Diese kann nun nicht nur in der oben geschilderten Weise, sondern in zwei unterschiedlichen Weisen gegeben sein, nämlich: 1. Die Größe der Lustempfindung beim Konsum des einen Gegenstandes ist abhängig von der Lustempfindung durch den Konsum anderer Gegenstände. Dies wurde weiter oben bereits erläutert. 2. Der eine Gegenstand, der Lustempfindungen erzeugt, kann im Prinzip aber auch durch andere Gegenstände zumindest angenähert substituiert werden. Die Abhängigkeit der Größe der Lustempfindung beim Konsum des einen Gutes kann dabei wiederum durch zwei verschiedene Umstände beeinflusst werden: (a) Die Lustempfindung kann von den konkreten Lebensbedingungen („situative Bedingungen“) abhängig sein, in denen der Konsum bzw. der Gebrauch des Gegenstandes sich vollzieht. (b) Die Lustempfindung kann sich nur einstellen, wenn mehrere Güter gemeinsam konsumiert bzw. gebraucht werden können. Diese Güter werden komplementäre Güter genannt. 479
Henrik Kreutz
Zunächst die Diskussion des Falles (a): Es geht hier also um zwei Güter, die beide die Lustempfindungen der handelnden Person steigern. In diesem Fall führt Pareto einen schwachen Interaktionseffekt ein, der dadurch bewirkt ist, dass eine Steigerung der Menge des Gegenstandes A um eine Einheit unter der Bedingung, dass 11 Einheiten vom Gegenstand B vorhanden sind, einen größeren, also einen zusätzlichen Lustgewinn bewirkt, als wenn nur über 10 Einheiten von B verfügt wird. In Paretos Beispiel beträgt der Lustgewinn durch Hinzufügen eines Gegenstandes von A im Fall, dass zugleich 10 Einheiten von B vorhanden sind, 0,4. Die Lustempfindung nimmt dabei von 5,0 auf 5,4 zu. Ihr Anstieg per Einheit von A ist für den Fall, dass zugleich 11 B vorhanden sind, aber erheblich größer, nämlich +0,9. Der Lustgewinn steigt hierbei von 5,2 auf 6,1. Bei einer rein additiven Wirkung wären 5,0 + 0,4 + 0,2 = 5,6 zu erwarten. Daher ergibt sich ein Interaktionseffekt in der Größe von 0,5 Einheiten. Die situative Komponente ist im Beispiel Pareto höchst einfach konstruiert: Sie besteht in der Menge der zur Verfügung stehenden Gegenstände vom Typus B. Das Hinzufügen einer Einheit jedes der beiden Güter hat also unter allen Bedingungen eine nachweisbar positive Wirkung, wenngleich diese je nach Situation unterschiedlich groß ist. Die Konstellation der Komplementarität – also der Fall (b) – bewirkt nur bei Vermehrung beider Güter eine nennenswerte subjektive Verbesserung. Wird nur eines der beiden Güter vermehrt, so bleibt der Effekt so geringfügig, dass er kaum von einem Messfehler unterschieden werden kann. Im Unterschied zum ersten Fall von Interaktion der Wirkungen sind hier die situativen Variablen nicht unabhängig voneinander, sondern nur dann in nennenswerter Weise wirksam, wenn sie beide eine Erhöhung aufweisen. Während man im ersten Fall davon sprechen konnte, dass die Wirkung der einen Variablen durch die jeweils andere verstärkt wird, liegt nun der Fall vor, dass eine nennenswerte Wirkung nur bei Zusammentreffen beider Veränderungen auftritt. Zu unterscheiden von diesen beiden Formen der Interaktion ist die bei Substituierbarkeit der Güter gegebene Konstellation. Konträr zur zweiten Konstellation bewirkt im Fall der Substituierbarkeit der Güter eine Vermehrung der zweiten Art von Gütern eine Verminderung der Wirkung der Vermehrung der Güter der ersten Art. Da die beiden Güter substituierbar sind, kann ein interner Ausgleich eintreten, so dass ein Teil des Zuwachses von A dazu dient, einen Zuwachs von B zu substituieren und umgekehrt. Die Wirkung ist somit nicht daran gebunden, dass die Mengen beider Güter vermehrt werden, sie tritt vielmehr schon in voller Stärke auf, wenn auch nur ein Gut einen bedeutenden Zuwachs verzeichnet. Der relative Zuwachs 480
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
durch die Vermehrung auch des zweiten Gutes wird hier – relativ gesehen – sogar vermindert. Zahlenmäßig bedeutet dies in Paretos Beispiel, dass das Hinzufügen von einem A eine Steigerung des Lustgewinns von 5,0 auf 5,9 bewirkt und ein zusätzliches Element von B eine Steigerung von 5,0 auf 6,0 herbeiführt. Die gleichzeitige Steigerung von A und B um eine Einheit ruft aber nicht eine Lustempfindung von 6,9 (5,0 + 0,9 + 1,0 = 6,9) hervor, sondern lediglich eine auf 6,1. Fügt man lediglich 1 A oder 1 B hinzu, dann erhält man praktisch die gleiche Wirkung wie wenn man zugleich 1 A + 1 B einsetzt. Die Erörterung, die Pareto hier für seine Theorie wirtschaftlicher Gleichgewichtsprozesse gibt, ist mithin auch für unser Problem voll zutreffend: Rationales Handeln lässt sich ohne explizite Berücksichtigung solcher Interaktionseffekte nicht hinreichend genau definieren. Für die weitere Diskussion von Interaktionseffekten ist diese Unterscheidung in 1. situative Abhängigkeit (leichte Verstärkung durch das Vorliegen einer anderen Variablen), 2. Komplementarität (Wirkung nur, wenn beide Variablen vorliegen), 3. Substituierbarkeit (die Wirkung der einen Variablen ersetzt die der anderen Variablen) daher höchst wertvoll, auch wenn sie nicht erschöpfend sein dürfte. Bei der Diskussion und statistischen Untersuchung der Beziehung zwischen Variablen sollten aber zumindest Fragen bezüglich jeder der drei erstgenannten Effekte explizit gestellt werden, um statistische Interaktionen inhaltlich richtig deuten zu können. Die verschiedenen Formen der Abhängigkeit zwischen Elementen der Situation des Handelns müssen daher erfasst und spezifiziert werden, wenn man das Handeln der Akteure zutreffend erklären will. Als zwei weitere Formen der Interaktion der Wirkungen lassen sich bereits ad hoc spezifizieren: 4. Sammlereffekte 5. negative Rückwirkung Die 4. Form der Abhängigkeit dieser Art dürfte z. B. dann gegeben sein, wenn die zur Frage stehenden Güter einer gemeinsamen übergreifenden Einheit angehören. Ein allgemein verständliches Beispiel dürfte dann gegeben sein, wenn die einzelnen Gegenstände zu einer umfassenden Sammlung gehören. Eine solche Sammlung (z. B. von Briefmarken oder Münzen) stellt eine Einheit dar, die zur Frage stehenden Gegenstände können in diese Sammlung passen oder nicht, sie können unabhängig von der Sammlung mehr oder weniger Tauschwert besitzen oder sie können auch zusammengenommen bereits eine vollständige Sammlung darstellen. Dabei stellt die vollständige Sammlung im Regelfall einen weitaus größeren Wert dar als die 481
Henrik Kreutz
Summe aller Einzelwerte. In ähnlicher Weise lässt sich negative Rückwirkung leicht erklären: Schokolade mag gut schmecken, ebenso Senf. Beides zusammen dürfte aber für die Mehrheit ungenießbar sein. Die positive Wirkung eines Gutes stellt sich in diesem Fall nur ein, wenn das andere Gut gar nicht oder nur in extrem geringen Mengen vorhanden ist. Jede Steigerung des Gegenstandes B verringert somit den Lustgewinn, der durch den Gegenstand A erzielt wird, und vice versa. Die Soziologie wird diese Zusammenhänge, die statistische Interaktionen zur Folge haben und die hier nur exemplarisch verdeutlicht werden können, in Zukunft systematisch explorieren und analysieren müssen, wenn sie zu klaren Diagnosen kommen will. Über die Ophelimität eines Gutes kann mithin jeweils nur im Zusammenhang mit der anderer Güter etwas ausgesagt werden. Eine solche Aussage bezieht sich zudem auch immer nur auf individuelle Präferenzen. Ophelimität impliziert mithin, dass der Nutzen von Gütern und Dienstleistungen nicht isoliert bestimmt werden kann, sondern auch jeweils von der Gesamtkonstellation abhängig ist. Zu ihrer Bestimmung muss daher die jeweilige Situation in allen ihren relevanten Aspekten bestimmt werden. Die Quasi-experimentelle Frageform entspricht diesem theoretischen Verständnis. Einerseits wird auch bei der Quasi-experimentellen Frage jeweils nicht nur eine Variable isoliert zur Bewertung vorgegeben, sondern jeweils eine Kombination aus mehreren Variablen. Andererseits wird eine mögliche Kombination nicht nur indirekt betrachtet, sondern die systematische Variation aller möglichen bzw. einer gemäß der Logik experimenteller Designs getroffenen Auswahl von Kombinationen. Damit dürfte die Notwendigkeit des Ansatzes der Quasi-experimentellen Frage theoretisch und methodologisch hinreichend begründet und einige ihrer Implikationen verständlich geworden sein. Die Quasi-experimentelle Frageform erlaubt es nämlich, die unterschiedlichen Arten der Kombination von Wirkungen empirisch direkt zu erfassen. Das Handeln wird so in unterschiedlichen Kontexten und nicht nur abstrakt – etwa losgelöst von den situativen Gegebenheiten – erfasst. Damit wird aber auch der Handlungsspielraum fassbar, innerhalb dessen die konkrete Ausformung des individuellen Handelns erfolgt.
3.2 Psychische und gesellschaftliche Ambivalenz Die vorherrschende Auffassung unterstellt heute auch in der Sozialforschung ungeprüft die Eindeutigkeit menschlicher Präferenzen und Zielsetzungen. Dies gilt für die Sozialwissenschaften und noch mehr für die Wirt482
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
schaftswissenschaften. Es gilt geradezu als Voraussetzung von „Rationalität“, dass man weiß, was man will. Präferenzen mögen zunächst vage empfunden werden, bei hinreichender Rationalität lassen sich aber alle Zielvorstellungen vor der Handlung präzisieren. Dies ist die dominierende Ansicht. Die Psychologie und insbesondere die Psychoanalyse weiß das freilich anders: Hier ist die menschliche Ambivalenz ein offenes Geheimnis. Gemäß ihrer Erfahrung wollen viele Menschen das eine tun, aber das andere nicht lassen. An die Stelle des >Entweder-oder< tritt das >Sowohl als auchSoziologischer Ambivalenz< und >Psychologischer Ambivalenzdouble bind< genannt wird: Was man auch macht, ist falsch! Entweder man schmälert den Unternehmenserfolg oder man unterläuft das Gesetz. Man ist also versucht, das eine zu tun, nämlich weiterhin erfolgreich Aufträge einzuwerben, und gleichzeitig dem neuen Gesetz Genüge zu tun. Genau dies hat nun diesen Weltkonzern nach weniger als 10 Jahren in existenzbedrohende Schwierigkeiten gebracht und zu einem Auswechseln der Führungsschicht im Management geführt. Diese Soziologische Ambivalenz hat dabei zwei Dimensionen: einerseits eine kognitive und andererseits eine evaluative, also emotional-bewertende. Ein 483
Henrik Kreutz
Akteur kann seine Einschätzungen spezifizieren und klar herausarbeiten. Er kann aber auch sich und andere darüber im Unklaren lassen, in seinen Urteilen diffus bleiben oder den Standpunkt einnehmen, dass zu wenig an Information vorliegt, so dass (noch) keine Entscheidung gefällt werden kann. Letzteres kann dabei tatsächlich der Fall gewesen sein, es kann aber auch eine Strategie darstellen, die darin besteht, sich einfach nicht festlegen zu lassen. Sofern die Sachlage kognitiv geklärt ist, kann auch eine klare Bewertung erfolgen. Aber auch unklare Situationsdiagnosen schließen natürlich bewertende Stellungnahmen nicht aus. Letztere können aber leicht manipuliert werden und werden daher häufig inkonsistentes Handeln bedingen. Ein adäquates Maß für die Unsicherheit im Fall der kognitiven Unzulänglichkeit der Situationsdiagnose ist mit dem Entropiemaß der Informationstheorie gegeben. Für einen Akteur, der sich zwischen zwei Möglichkeiten entscheiden muss, lautet dieses Maß: H = – (p log p + q log q) Dieses Maß eignet sich also dazu, auch das Ausmaß des Informationsverlustes, das durch Ambivalenz insgesamt entsteht, vergleichbar zu machen und so abzuschätzen. Eine weitergehende Differenzierung von Soziologischer Ambivalenz und Psychologischer Ambivalenz ist damit aber noch nicht geleistet. Bevor diese Differenz bestimmt werden kann, ist das Gesamtausmaß von Ambivalenz zu bestimmen. Da in unserem Beispiel der Wahlkampfspende zwei aufeinander folgende binäre Entscheidungen getroffen werden, lassen sich folgende drei Einzelentscheidungen unterscheiden (siehe Übersicht 2). Übersicht 2: Antwortmöglichkeiten für die vorgegebenen Vignetten zur Erfassung der Situation der Wahlkampfspende Reaktion auf die vorgegebene Situation
eindeutig
positiv
484
nicht eindeutig
negativ
Zurückweisen der Situation als irrelevant
Ausweichen vor einer Festlegung
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
In unserer Pilotstudie haben wir u. a. 14 Vignetten zur Beurteilung von Situationen, die korruptes Handeln beinhalten könnten, vorgegeben. Ein Hauptzweck dieser Vignetten richtet sich auf die Erfassung genau dieser Soziologischen Ambivalenz. Die Antwortvorgaben zur Beurteilung der 14 Situationen gemäß 4 vorgegebenen Dimensionen umfassen jeweils 3 Möglichkeiten. Eine von diesen ist die Beurteilung hinsichtlich Korruptheit der geschilderten Handlung. Dabei wurden folgende verbalen Vorgaben: „korrupt“, „nicht korrupt“ und „lässt sich nicht entscheiden“ verwendet. Als weitere mögliche Reaktionen der Befragten sind Nichtbeantwortung der spezifischen Antwortvorgaben sowie das Ankreuzen von beiden inhaltlichen Alternativen im Sinn von (je nach Situation) „einerseits korrupt, andererseits aber nicht“ zu nennen. Die beiden letztgenannten Möglichkeiten waren nicht vorgegeben, erfolgten aber spontan. Schließlich ergab sich noch die Reaktionsmöglichkeit, die gesamte Frage nicht zu beantworten. Den Befragten war es also möglich, verschiedene Formen der Ambivalenz in unterschiedlicher Weise zum Ausdruck zu bringen. Wie die Ergebnisse zeigen, wurde auch reichlich davon Gebrauch gemacht. Dass Ambivalenz in empirischen Ergebnissen nicht durchgängig aufscheint, ist offensichtlich nicht in der Sache, sondern in der Vorgefasstheit der Meinungen der Forscher begründet, die ihre Daten von jeglicher Ambivalenz „bereinigen“. Sieht man aber der Tatsächlichkeit solcher massenhaften Reaktionen ins Auge, anstatt sie einfach zu verdrängen, dann ist die Verwendung von imaginären Zahlen bei der Kodierung der Antworten nicht nur angemessen, sondern auch unumgänglich. Im konkreten Fall könnte die Quantifizierung der verbalen Reaktionen z. B. folgende Form annehmen: Einfache ambivalente Reaktion Ablehnung der Handlung Ambivalenz unter Vorbehalt gegen die Fragestellung Zustimmung zu der Behauptung In unserer Pilotstudie entspricht dieser Zuordnung: >lässt sich nicht entscheiden< Nichtbeantwortung sowie alle mehrdeutigen Antworten
i = √–1 i2 = –1 i3 = (–1)i i4 = +1 =i = (–1)i
Diese Zuordnung geschieht hier arbiträr und ist nur in explorativer Absicht geschehen. An dieser Stelle soll lediglich die Bedeutung des imaginären Bereiches insgesamt aufgezeigt werden. Die explizit zustimmenden und ablehnenden Antworten lassen sich dabei selbstverständlich als reelle Zahlen abbilden. Die Repräsentation der Gesamtheit der Antworten, die in drei ver485
Henrik Kreutz
schiedenen Populationen gesammelt wurden, kann dementsprechend durch komplexe Zahlen erfolgen. Die imaginären Werte bilden im konkreten Fall alles andere als eine nur geringfügige Ambivalenz ab. Es ist auch daher geboten, diese auch inhaltlich zu berücksichtigen. Daher soll abschließend dann noch gezeigt werden, dass die in diesen Werten abgebildete Ambivalenz wesentlich für die Bereitschaft zur Korruption ist. Zentral für die valide Verwendung von komplexen Zahlen ist die Beziehung zwischen ihren reellen und imaginären Komponenten. Der inhaltliche Ansatz für die Modellierung der Transformation von Dispositionen in Handlungen einerseits und derjenigen von Pro- und Kontra-Orientierungen andererseits basiert auf der These, dass es sowohl die Prozesse der inhaltlichen Intensivierung von Überzeugungen als auch umgekehrt ihrer Deeskalation sind, die diese Wandlungen hervorrufen. Eine Vielzahl von Ereignissen ist sowohl durch Vorteile als auch durch Nachteile für den Handelnden gekennzeichnet, ebenso verhält es sich mit seinen Beziehungen zu individuellen und kollektiven Akteuren. Die so entstehende Ambivalenz motiviert zunächst zu Handlungen, die die Inkonsistenz beseitigen sollen. Gelingt dies aber auf direktem Weg nicht, dann ist Verdrängung der Widersprüche sehr wahrscheinlich. Diese Verdrängung führt dann äußerlich gesehen zwar häufig zu eindeutigen Optionen für oder auch gegen die anstehende Sache. Die widerstrebenden Gefühle und Absichten werden dabei aber im realen Handeln übergangen und sinken in das Unterbewusstsein ab. In der empirischen Forschung bedeutet dies, dass es nicht genügt, Dispositionen je für sich zu erheben, sondern dass auch dem Prozess der >Verfestigung unserer Überzeugungen< – wie es der Pragmatist Charles S. Peirce (1985 [1877]) und vor ihm schon Heinrich von Kleist (1964/1805) genannt hat – durch Explorationen, Beobachtungen und Experimente systematisch nachgegangen werden muss (Kreutz 2003). In der nachfolgenden Tabelle sind Ergebnisse der schon beschriebenen Korruptionsforschung wiedergegeben, bei der die Ambivalenz ansatzweise, aber noch nicht differenziert genug erfasst ist, da die Potenzen i und i3 hierbei nicht von einander unterschieden werden konnten.
486
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Tabelle 3: Darstellung der Antwortverteilungen bei der Beurteilung der Korruptheit einer Wahlkampfspende der Gewerkschaft für einen sozialdemokratischen Parlamentarier auf der Basis der Logik komplexer Zahl Korruption: Rotarier (n = 35) Studierende (n = 37) Experten (n = 45)
Reelle Reaktionen: nicht gegeben liegt vor (i²) (i4) 0,51 0,36 0,65
0,09 0,27 0,21
Imaginäre Reaktionen: Ambivalenz (i und i³) 0,40 0,38 0,14
Lesehilfe: 51% der Rotarier vertreten in diesem Fall die Auffassung, dass Korruption nicht gegeben ist, 9% behaupten das Gegenteil. 40% äußern sich ambivalent.
Zur Interpretation der Ergebnisse ist es unerlässlich, dass wir uns zunächst den >gesellschaftlichen Tatbestand< im Sinne von Emile Durkheim (1961[1895]) verdeutlichen: In der Bundesrepublik ist eine Wahlkampfspende im Jahr 2006 durchgehend üblich und an sich nicht strafbar. Nur wenn die finanzielle Unterstützung an die Bedingung einer späteren Vorteilsgewährung gebunden wäre, ergäbe sich ein strafrechtlich relevanter Tatbestand. Daher ist es verständlich, dass zwei Drittel der Experten vom positiven Recht ausgehend das Vorliegen von Korruption für diesen Fall verneinen. Umgekehrt ist die weite Verbreitung von Ambivalenz bei den Rotariern ebenfalls nachzuvollziehen, da sie in ihrer Mehrheit die Praxis kennen und von informellen Absprachen in vielen solchen Fällen wissen. Die ebenfalls häufige Ambivalenz bei Studierenden dürfte dagegen ihrer generellen Unerfahrenheit in Dingen des praktischen Wirtschaftslebens geschuldet sein. Ohne genauere Kenntnis des Einzelfalles ist hier keine valide Diagnose möglich. Aber selbst bei genauer Kenntnis der Vorgänge: Wie ist stilles Einverständnis nachweisbar? Und im Zweifel steht das Recht auf der Seite des Angeklagten. Eben deshalb ist es keineswegs von vornherein klar, wie eine Wahlkampfspende einzuordnen ist. Daher ist die methodologische Innovation der empirischen Forschung gefragt: Liegt Ambivalenz vor, dann sind empirische Verlaufsstudien zu fordern, die klären können, ob Korruption durch eine solche Spende eingeleitet wurde. Ebenso lässt sich durch systematische Explorationen klären, ob i oder i3 auf der Ebene von Kognitionen und Handlungsabsichten vorliegt. Für eine Diagnose und erst recht für die Prognose der gesellschaftlichen Entwicklung wird die empirische Gesellschaftsforschung aber genau diese Unterscheidung treffen müssen. 487
Henrik Kreutz
4 Die Varianz im Verhalten von unterschiedlichen Personen und die Varianz des Verhaltens der gleichen Personen, je nach den unterschiedlichen Situationen, in denen sie sich befinden Die Quasi-experimentelle Frage dient in erster Linie der empirischen Trennung von Unterschieden zwischen Situationen und von Unterschieden zwischen Personen. Dass diese Trennung nicht so einfach ist, liegt an den Interaktionseffekten zwischen den Einflüssen, die von Situationen ausgehen, einerseits und den persönlichen Absichten der Handelnden andererseits. Verschiedene Personen reagieren auf die gleiche Situation in unterschiedlicher Weise, und unterschiedliche Situationen bedingen bei den gleichen Personen unterschiedliche Reaktionen. Im vorigen Abschnitt haben wir eine von den vier Vignetten, die zu unserer Quasi-experimentellen Frage gehören, herausgegriffen und gesehen, dass diese bei den drei Populationen – Rotarier, Experten und Studierende – in unterschiedlichem Ausmaß Ambivalenz erzeugen. Auch Soziologische Ambivalenz tritt nicht bei allen Mitgliedern der Gesellschaft in der gleichen Weise auf, sondern so wie die strukturelle Lagerung der Personen es nahe legt. Nunmehr wollen wir untersuchen, inwieweit diese Ambivalenz von der Akteurskonstellation in der Situation der Wahlkampfspende abhängig ist. Tabelle 4: Ausmaß der Ambivalenz in den Beurteilungen von Wahlkampfspenden in Situationen mit unterschiedlichen Konstellationen von Akteuren Wahlkampfspenden von Seiten von.... ... Unternehmern ... Gewerkschaften Korruptionsverdacht Geber: Nehmer: Geber: Nehmer: (Unternehmer) (Parlamentarier) (Gewerkschaft) (Parlamentarier) gegenüber dem: Rotarier Studierende Experten
Ambivalenz bei der Beurteilung der Handlung 0,26 0,26 0,40 0,43 0,30 0,35 0,38 0,35 0,11 0,07 0,14 0,11
Rotarier Studierende Experten
Ambivalenz bei der Reaktion („strafwürdig“?) 0,20 0,26 0,37 0,40 0,38 0,35 0,49 0,43 0,09 0,11 0,05 0,09
Lesehilfe: 40% der Rotarier beurteilen in der Konstellation „Geber: Gewerkschaft“ und „Nehmer: Parlamentarier“ die Handlung des Gebers ambivalent.
488
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Es gibt mithin eine nicht unbeträchtliche Varianz hinsichtlich der Ambivalenz gegenüber einer Reihe von Situationen. Dies sowohl hinsichtlich der Situationsdefinitionen als auch der Reaktionen bzw. geforderten Sanktionen. Vor allem bei der Reaktion auf die Aktivitäten der Gewerkschaft besteht beträchtliche Ambivalenz. Dass Unternehmerverbände nicht ganz ohne Bezug zu den Interessen ihrer Mitglieder Lobbying betreiben, wird offensichtlich eher hingenommen. Bei den Gewerkschaftsinteressen dürfte das Eigeninteresse der Funktionäre mittlerweile eher Verdacht erregen und die Legitimität von Wahlkampfspenden aus Mitgliedsbeiträgen in Frage stellen. Dem Anspruch nach sind Gewerkschaften parteiunabhängig und daher erscheinen parteibezogene Wahlkampfspenden vielen als problematisch. Dies auch dann, wenn sie eine starke Vertretung von Arbeitnehmerinteressen legitimerweise wünschen. Auch hierbei ist mithin die gesellschaftliche Verursachung der Ambivalenz deutlich erkennbar. Diese Daten zeigen, dass die Vernachlässigung von Ambivalenz systematische Verzerrungen der Analyse bedingt. Wenn etwa nur 5% der Experten hinsichtlich der Frage der Strafwürdigkeit von Parteispenden seitens von Gewerkschaftsorganisationen ambivalent sind, dagegen rund 50% der Studierenden, dann ist es unzulässig, die Daten von dieser Ambivalenz zu „ bereinigen“ und nur die eindeutigen Antworten zu berücksichtigen. Die inhaltlichen Stellungnahmen der beiden Populationen werden durch eine solche „Bereinigung“ unvergleichbar. Dies zeigt die Maßzahl für Entropie: Für 49% Ambivalenz ergibt sich H = 0,30, für 5% dagegen nur H = 0,085!
5 Das Problem der Heterogenität von Populationen und die situationsabhängige Varianz der Dispositionen und Verhaltensweisen auf der Picoebene1 Als bezeichnet man eine einmalige Struktur des Zusammenhangs von variablen Merkmalen. So sind z. B. Fingerabdrücke individuell. Im psychischen und gesellschaftlichen Bereich ist Individualität sehr viel schwerer nach zu weisen. Zugleich wird Individualität zwar nicht selten für die eigene Person beansprucht, aber auch umgekehrt häufig in aggressiver Weise abgelehnt, wie der Konformitätsdruck in totalitären Institutionen zeigt. Ein besonders deutlicher Beispiel ist hier der Wahlspruch der Nationalsozialisten: „Du bist nichts, Dein Volk ist alles!“ Eine Struktur muss natürlich genügend differenziert sein, um hinreichend viele unterschiedliche 489
Henrik Kreutz
Ausprägungen aufzuweisen, die es ermöglichen, dass Individualität verwirklicht werden kann. So z. B. ringen bildende Künstler um ihren eigenen, unverwechselbaren Stil. Vielen gelingt es tatsächlich. Aber eben deshalb gibt es in Europa seit der Renaissance den Wandel der Stilmittel und der künstlerischen Geltung. Im Folgenden wollen wir wieder das einfache Beispiel der Wahlkampfspenden thematisieren, um Quasi-experimentelle Fragen auch von dieser Seite her zu diskutieren. Unser quasi-experimentelles Design umfasst dabei 16 Vignetten zu je 3 vorgegebenen Antwortmöglichkeiten. Wir haben eine Untersuchungspopulation von insgesamt 116 Personen, die aus drei verschiedenen Teilpopulationen besteht. Diesen stehen 316 = 43.046.721 Antwortmöglichkeiten gegenüber, also genug Platz für die Individualität von 116 Menschen. Dennoch zeigte es sich, dass spontan weitere Antwortvarianten von den Befragten eingeführt wurden, sodass schließlich insgesamt 7 unterschiedliche Reaktionsweisen kodiert werden mussten. Wenn wir von diesen seltenen spontanen Ergänzungen absehen und uns hier zunächst auf die 4 Vignetten einer einzigen Quasi-experimentellen Frage, also auf eine einzige Beurteilungsdimension und auf die vorgegebenen drei Antwortmöglichkeiten beschränken, dann ist der Entfaltungsraum mit 81 Möglichkeiten für unsere Population eingeschränkt: Bei Gleichverteilung entfallen durchschnittlich 1,4 Personen auf jede Möglichkeit. Dies ist nicht allzu restriktiv. Wichtiger noch als diese Frage nach dem Entfaltungsraum ist aber hier, ob die gegebenen Situationsvariablen von den Befragten gemäß der gleichen Logik kombiniert werden oder unterschiedliche Muster von solchen Kombinationen auftreten. Welche Muster dieser Art sind der Möglichkeit nach überhaupt gegeben? 1. Alle 16 Vignetten werden in der gleichen Weise beantwortet, also keine Situationsvarianz: M1 = 3. 2. Verschiedene Ausprägungen von linearen Beurteilungsmustern, d. h., die Antworten richten sich nur nach den zwei Variablen, die in jeder der gestellten Fragen enthalten sind, nämlich a) Unternehmer oder Gewerkschaftsorganisation und b) sozialdemokratischer oder konservativer Kandidat. In diesem Fall ergeben sich insgesamt M2 = 12 mögliche Muster. 3. Interaktive Kombination der zwei Situationsvariablen, wobei ebenfalls zwei Ausprägungen gegeben sind, die aber jeweils anders kombiniert werden. Also z. B. wenn die Kombination als Geber und <sozialdemokratischer Abgeordneter> als Nehmer und in gleicher Weise die Gewerkschaft als Geber und ein konservativer 490
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Abgeordneter als Nehmer nicht als „korrupt“ bezeichnet werden, die „parallelen“ Paarungen aber sehr wohl, dann ist eine solche interaktive Verknüpfung gegeben. In diesem Fall gibt es M3 = 6 mögliche Muster. 4. Interaktive Kombinationen, bei denen je Vignette jeweils 3 Antworten gleich ausfallen und nur eine abweicht. Hierfür gibt es M4 = 24 Möglichkeiten. 5. Die Verwendung von allen 3 Antwortmöglichkeiten bei der Beantwortung einer Vignette. Hierfür stehen 36 Möglichkeiten zur Verfügung. Insgesamt ergeben sich mithin 81 mögliche Antwortmuster. Bei Pareto (1971) haben wir bereits gesehen, wie wichtig diese Erforschung der Möglichkeiten ist, damit die Logik der jeweiligen Situation adäquat nachvollzogen werden kann. Dies bestätigt sich wiederum in diesem konkreten Fall. Es ist keineswegs so, dass unser Alltagsdenken den Möglichkeitshorizont für unsere Handlungen systematisch erkundet. Tabelle 5: Tatsächliche Häufigkeit der Verwendung der 81 möglichen individuellen Antwortmuster bei der Beantwortung der Quasi-experimentellen Frage nach Korruptheit von Wahlkampfspenden an Kandidaten bestimmter Parteien n
in %
1. Muster: nur situationsunabhängige Antworten
66
56,9
2. Muster: nur lineare Zusammenhänge
27
23,3
4. Muster*: interaktive Kombination bei 3 gleichen Antworten und einer abweichenden Antwort je Beurteilung
23
19,8
116
100
* Die theoretisch möglichen Antwortmuster 3 und 5 kommen empirisch nicht vor.
Das Linearergebnis ist selbst schon überraschend: Es kommen empirisch nur 3 Arten von Antwortmustern vor. 57% halten an einer einzigen Überzeugung, ganz unabhängig von der Situation, fest. Weitere 23% folgen in ihrer Antwort einer linearen Kombination der situativen Faktoren. Die restlichen 20% nehmen eine interaktive Verknüpfung vor, sodass sie nur eine einzige Konstellation anders beurteilen als die drei anderen. Damit entfallen 80% der tatsächlichen Optionen auf nur 24% der theoretisch möglichen Kombinationen. Bei dieser erheblichen Reduktion von möglicher ge491
Henrik Kreutz
sellschaftlicher Komplexität sind aber zwei wesentliche Umstände zu bedenken: Einerseits bezieht sich diese Analyse nicht auf den gesamten Aussagenverband, sondern nur das Attribut „korrupt“. Die drei anderen („demokratisch“, „allgemein“, „strafwürdig“) wurden hierbei nicht beachtet. Bezieht man alle 4 Attribute des Aussagenverbandes mit ein, dann reduziert sich der Anteil der situationsunabhängigen und linear kombinierenden Aussagen auf weniger als 50% der Urteile. Die gesellschaftliche Realität ist mithin sehr viel komplexer, als es das lineare Modell, das üblicherweise in der multivariaten Analyse verwendet wird, vermuten lässt. Andererseits ist zu berücksichtigen, dass auch in den linearen Kombinationen imaginäre Antwortdimensionen stecken. Diese sind hier nicht gesondert ausgewiesen, sie sind aber auch quantitativ bedeutsam. Eine lineare Kombination, die auch imaginäre Werte einschließt, ist aber als solche nur durch komplexe Zahlen abbildbar.
Drei verschiedene Logiken beherrschen das Feld: 1. Situationsunabhängige Beurteilung der Korruption (57%) 2. Lineare Kombination der Situationsvariablen (23%) 3. Interaktionseffekt, eine Situation wird abgehoben (20%) Mischt man diese drei Populationen, dann erzeugt man Heterogenität. Diese macht gültige statistische Analysen unmöglich, anstatt inhaltlich relevanter Ergebnisse erhält man in diesem Fall nur Artefakte. Eine adäquate Auswertungsstrategie muss daher von den drei Populationen ausgehen und diese getrennt je für sich analysieren. Nur in dem Fall, dass die drei parallelen Analysen analoge Ergebnisse liefern, kann wieder eine Zusammenfassung der Population erfolgen. Im entgegengesetzten Fall hat man im Sinne eines pragmatistischen Vorgehens abduktiv neue Kollektive und Konstellationen entdeckt, die bisher nicht bekannt waren.2 Parallel zu einer explorativen Weiterführung mittels multivariater Analyse ist die Überprüfung der Homogenität auf die übrigen Vignetten auszudehnen, so dass die neuen Populationsabgrenzungen besser abgesichert werden können. Alle diese Schritte überschreiten den Rahmen dieses kurzen Beitrages.3 Hier kam es nur darauf an, die Logik des Vorgehens transparent werden zu lassen und an einem Beispiel zu verdeutlichen.
492
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
6 Zusammenfassende Diskussion der Ergebnisse: die Quasiexperimentelle Frageform als Forschungstechnik im Rahmen der pragmatistischen Methodologie Im vorliegenden Beitrag wird gezeigt, dass sowohl das theoretische Konzept der Ophelimität von Vilfredo Pareto als auch das der Soziologischen Ambivalenz von Robert K. Merton sich als tragfähige und einander ergänzende Grundlagen für eine neue Methodologie der empirischen Sozialforschung erweisen. Die Verbindung von Erkenntnissen der Politischen Ökonomie und des Soziologischen Funktionalismus erlaubt Innovationen auch auf dem Gebiete der Forschungstechniken, die echte Fortschritte v. a. hinsichtlich der Validität der empirischen Daten beinhalten. Pareto setzte das Konzept der Ophelimität an die Stelle des Nutzenbegriffes, weil Nutzen nicht direkt messbar ist und Präferenzen immer nur im Rahmen von spezifischen Situationen ihre Geltung haben. Situationen sind aber durch eine Mehrzahl von Variablen bestimmt, die z. T. komplex, also überadditiv zusammenwirken. Entsprechend gibt es daher auch nicht den Nutzen irgendeines Gutes an sich, sondern immer nur seine Ophelimität im Rahmen eines Kontextes, der durch die Wirkung einer Mehrzahl von Variablen bestimmt ist. Über Pareto hinausgehend genügt es aber nicht, jeweils nur die Wirkung der Veränderungen von zwei Variablen auf eine dritte zu analysieren, sondern es gilt jeweils eine Gesamtkonstellation zu erfassen, in der sowohl die Situation als auch die Reaktionen der betroffenen Akteure in ihrem Zusammenhang analysiert werden. Es genügt dabei auch nicht, einfach die Interaktion von Variablen zu konstatieren, vielmehr ist es erforderlich, genau zu spezifizieren, um welche Ausprägung von nichtlinearem Zusammenhang es sich handelt und wie dieser zustande kommt. Dazu ist es erforderlich, zunächst den Aussagenverband im Sinne von C. F. v. Weizsäcker (1985) zu spezifizieren, in dessen Rahmen die einzelnen Variablen generiert werden. So wurde in dem empirischen Beispiel, das im vorliegenden Artikel analysiert wurde, das Phänomen der Korruption untersucht. Diese Untersuchung der Korruption wurde dabei in einem Aussagenverband vorgenommen, in dem auch die allgemeine Verbreitung, ihre Auswirkung auf die Demokratie sowie ihre Strafwürdigkeit mit enthalten sind. Die Form der Quasi-experimentellen Frage kann diesen Anforderungen Genüge leisten. Im Ergebnis zeigt sie, dass zumindest signifikante Teile der jeweiligen Population auf dieselbe Veränderung einer Variablen je nach Kontext, in dem diese stattfindet, jeweils anders reagieren. Die hinreichende Abbildung der Dispositionen und Präferenzen dieser Personen kann 493
Henrik Kreutz
daher nicht allgemein durch einen einzigen und eindeutigen Zahlenwert geleistet werden, sondern nur durch komplexe Zahlen erfolgen, die neben der manifesten Verhaltenswirklichkeit auch die virtuelle Ebene der Absichten und Bedenken charakterisieren können. Auch eine Reduktion der komplexen gesellschaftlichen Wirklichkeit auf Handlungen individueller Akteure nützt hier nichts, da zumindest ein bedeutender Teil der Individuen die Widersprüchlichkeiten und Konflikte internalisiert hat und diese in seinen Entscheidungen und Handlungen immer wieder reproduziert. Eben aus diesem Grund erhält das Konzept der Soziologischen Ambivalenz große Bedeutung für die empirische Forschung und ihre Methodologie, da es verhindert, dass Individuen auf der Basis von Forschungsartefakten eineindeutig festgelegt werden. Soziologische Ambivalenz impliziert, dass Menschen unterschiedliche Optionen in sich vereinigen und je nach ihrer Rolle und je nach den Gegebenheiten der Situation anders handeln können. Dieser theoretischen Sicht entsprechend erfolgt die empirische Analyse mit Hilfe der Quasi-experimentellen Frageform in zwei Schritten. Im ersten Schritt wird die innere Varianz der Individuen analysiert. Gleichzeitig erfolgt die empirische Erfassung der äußeren Handlungswirklichkeit und ihrer strukturellen gesellschaftlichen Einbindung. In einem zweiten Schritt wird der empirisch ermittelte innere und äußere Handlungsspielraum jedes Individuums mit der Mesoebene der Verteilung der Präferenzen und der Handlungsweisen innerhalb von Populationen in Verbindung gebracht. Dies beinhaltet einen empirischen Test der Population auf ihre Homogenität hin. Insofern die Individuen nicht der gleichen Handlungslogik folgen, ist fast jede von ihnen gebildete Population in sich heterogen. Erweist sich nun eine Population als in sich heterogen, dann ist es notwendig, die Analyse zu partialisieren und die betreffende Gesamtheit für die weitere Analyse in Teilpopulationen aufzuteilen, die je für sich homogen sind. Herkömmliche statistische Analyseverfahren setzen die Homogenität von Populationen voraus. Üblicherweise wird diese einfach unterstellt und nicht empirisch geprüft. Die Quasi-experimentelle Frageform erlaubt es nun, diese unerlässliche Voraussetzung nicht nur zu prüfen, sondern sie auch gegebenenfalls durch Partialisierung herzustellen. Da dieser theoretische Ansatz es erlaubt, Widersprüche und Ambiguität in den Individuen zuzulassen und nicht einfach dogmatisch zu verdrängen, liefert er auch die entsprechenden empirischen Daten, deren Verarbeitung den Gebrauch von komplexen Zahlen erfordert, da nur diese einen imaginären und einen reellen Bereich zu unterscheiden erlauben. Empirische Forschungen mit Hilfe von Quasi-experimentellen Fragen verbinden in theoretischer Hinsicht mithin die Konzepte der Ophelimität, der 494
Fortschritte bei der Auflösung der ceteris-paribus-Klausel
Soziologischen Ambivalenz, der Heterogenität bzw. der Homogenität und der Komplexen Zahlen miteinander zu einem eigenständigen Ansatz für die Empirische Sozialforschung. Insgesamt folgt diese Forschungslogik der Methodologie der Pragmatistischen Soziologie im Anschluss an die Arbeiten von Charles S. Peirce, der mit Recht die Schlussform der Retroduktion, die er fallweise auch Abduktion nannte, als Königsweg der empirischen Forschung angesehen hat.
Anmerkungen * 1
2
3
Die Arbeit ist aus dem von der Staedtler-Stiftung geförderten Forschungsprojekt hervorgegangen. Vgl. dazu z. B. die auf die verwendeten Methoden bezogene Metaanalysen in Kreutz (1973, 1981). Die Untersuchung hat dabei auch die Picoebene zu analysieren. Das Individuum hat im Laufe seiner Sozialisation eine Reihe von Akteuren und deren Beziehungen zueinander internalisiert, sodass auch die Mehrebenenanalyse nicht beim Individuum als letzter Einheit Halt machen kann. Die systematische und genaue Erforschung der Möglichkeiten steht an Wichtigkeit der Aufdeckung von Tatsachen nicht nach. Erst die Konfrontation der Tatsachen mit den Möglichkeiten erlaubt, die Validität und Prognosefähigkeit der empirischen Forschung auf eine gesicherte Grundlage zu stellen. Ausgeführt wird diese empirische Analyse in der Arbeit von Kreutz und Rögl (1994) sowie für die Korruptionsforschung im Projektbericht für die Staedtler–Stiftung, die 2009 publiziert wird.
Literatur Ainslie, G. (1992). Picoeconomics. The strategic interaction of successive motivational states within the person. Cambridge: Cambridge University Press. Alexander, G. S., & Becker, H. J. (1978). The use of vignettes in survey research. Public Opinion Quarterly, 42, 93–104. Andersson, S. (2002). Corruption in Sweden. Umea: Umea-University. Bacher, J. (1988). Auswertungsstrategien für unvollständige quasi-experimentelle Fragestellungen. In H. Kreutz (Hrsg.), Pragmatische Soziologie (317–326). Opladen: Leske und Budrich. Cook, T. D., & Campbell, D. T. (1979). Quasi-experimentation: design and analysis issues for field settings. Boston: Houghton Mifflin. Durkheim, E. (1961) [1895] Die Regeln der Soziologischen Methode. Neuwied: Luchterhand.
495
Henrik Kreutz Gibbons, K. M. (1999). Variations in attitudes toward corruption in Canada. In A. J. Heidenheimer et al., (Eds.), Political Corruption (763–780). Brunswick, London: Transaction Publishers. Jekeli, I. (2002). Ambivalenz und Ambivalenztoleranz. Osnabrück: Der Andere Verlag. Kreutz, H. (1972). Soziologie der empirischen Sozialforschung. Stuttgart: Emke. Kreutz, H. (1973). Youth and social change. A methodological review of European youth research 1960–1970. (2 Bände). Straßburg: Europarat. Kreutz, H. (1981). Jugend und Politik. Ein Resümee der Forschung 1965–1980. Wien, Hannover: IAS. Kreutz, H. (1994). The End of „General Linear Reality“: The complex interaction of individual cognition, collective consciousness and action. Angewandte Sozialforschung, 18, 281–305. Kreutz, H. (2003). Explikation der pragmatischen Erkenntnistheorie von Charles S. Peirce. In T. Meleghy & H. J. Niedenzu (Hrsg.), Soziale Evolution (267–296). Wiesbaden: VS Verlag. Kreutz, H. (2005a). Situation, Konstellation und Disposition: ihre empirische Differenzierung mittels „quasi-experimenteller Fragen“. Methodologische Ergebnisse einer Erhebung über den Wert des menschlichen Lebens. Angewandte Sozialforschung, 23, 171–192. Kreutz, H. (2005b). „Das sieht doch jeder: die Erde ist flach!“ Von Glaubensgewissheiten und wahrheitsoffenen Gesprächen: Pragmatizismus oder Rationalismus als Leitlinie. Angewandte Sozialforschung, 23, 200–212. Kreutz, H. (2007). „Ils vont tuer le capitalisme!“ – diese bedenkenlosen Manager werden den Kapitalismus noch umbringen! Forschungsbericht 2006 des Lehrstuhls für Soziologie und Sozialanthropologie Nürnberg, WISO, 9–30. Kreutz, H., & Fürnschuß, G. (1971). Chancen der Weiterbildung. Wien: Bundesverlag. Kreutz, H., & Fürnschuß, G. (1973). Jugend und Zukunft. In L. Rosenmayr & H. Kreutz (Hrsg.), Rollenbewertungen der weiblichen Jugend (339–419). Wien: Bundesverlag. Kreutz, H., & Plank, F. (1988). Zweistufige varianzanalytische Auswertung quasi-experimenteller Fragen. In H. Kreutz (Hrsg.), Pragmatische Soziologie (305–316), Opladen: Leske und Budrich. Kreutz, H., & Rögl, H. (1994). Die umfunktionierte Universitätsreform. Eine empirische Untersuchung auf der Basis von Dokumentenanalysen, „oral history“ und quasiexperimentellen Verfahren. Wien: Universitätsverlag. Meleghy,T., & Heyt, F. D.(Hrsg.) (1997). Die Wissenschaftslehre Karl Raimund Poppers und die Entwicklung der Sozialwissenschaften. Angewandte Sozialforschung, 20(Heft 3/4), 1–128. Merton, R. K., & Barber, E. (1963). Sociological ambivalence. In E. A. Tiryakian (Ed.), Sociological theory, values and sociological change (pp 91–120). New York: Free Press.
496
Fortschritte bei der Auflösung der ceteris-paribus-Klausel Merton, R. K., & Barber, E. (1976). Sociological ambivalence. In R. K. Merton (Ed.), Sociological ambivalence and other essays (pp 3–108). New York: The Free Press. Pareto, V. (1971). Manual of Political Economy. New York: Kelley. Peirce, C. S. (1985). [1877] Die Festigung unserer Überzeugungen. In E. Walter (Hrsg.), Die Festigung unserer Überzeugungen und andere Schriften (42–59), Berlin: Ullstein. Room, P. H. (1979). Vignette analysis: Uncovering the normative structure of complex judgements. In R. K. Merton, J. S. Coleman & P. H. Rossi (Eds.), Qualitative and Quantitative Social Research (171–186). New York: Free Press. Rossi, P., & Nock, S. (Eds.) (1982). Measuring social judgements: The factorial survey approach. Beverly Hills: Sage. Savage, L. J. (1967/1954). Historical and Critical Comments on Utility. In W. Edwards & A. Tversky (Eds.), Decision Making (pp 96–110). Hammondsworth: Penguin. Steiner, P. M., & Atzmüller, C. (2006). Experimentelle Vignettendesigns in faktoriellen Surveys. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 119–140. Von Kleist, H. (1964/1806). Über die allmähliche Verfertigung der Gedanken beim Reden. Gesammelte Werke. Band 5 (53–58). München: dtv. Von Weizsäcker, C. F. (1985). Aufbau der Physik. München: Hanser.
497
Andreas Quatember
Andreas Quatember
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten und Antwortausfällen bei heiklen Themen Zusammenfassung Nonresponse und Falschantworten beeinträchtigen die Qualität von Schätzern in Stichprobenerhebungen. Randomisierte Befragungsdesigns sind bei heiklen Themen (wie Gewalt in der Familie, Drogenmissbrauch, Sexualverhalten etc.) eine die Nonresponse- und Falschantwortrate reduzieren helfende Alternative zur direkten Befragung der Items. Das Charakteristikum dieser Strategien ist es, dass ein Befragungsdesign verwendet wird, welches es dem Interviewer unmöglich macht, die von den Respondierenden gegebene Antwort einer bestimmten Frage zuzuordnen. Die Idee dabei ist, dass auf diese Weise den zu Interviewenden weitestgehend die Angst vor einem ihnen unangenehmen „Outing“ genommen werden kann und so dafür gesorgt wird, dass sie doch wahrheitsgetreu antworten. Die Arbeit stellt die Problemstellung dar, beschreibt eine Vereinheitlichung der randomisierten Befragungsdesigns (siehe: Quatember 2007) für Anzahl- und Anteilschätzungen, entwickelt die daraus resultierenden Schätz- und Teststrategien und demonstriert dies an einem Beispiel zum Thema „Körperliche Gewalt in der Familie“.
Abstract New Developments of Statistical Methods for the Reduction of Incorrect Answers and Nonresponse in the Case of Sensitive Topics Nonresponse and untruthful answering affect negatively the quality of estimators in sample surveys. Randomized response designs provide an opportunity to reduce both the nonresponse and the untruthful answering rate in surveys on violence within families, drug usage, sexual behaviour etc. compared to the direct questioning on the topics. These designs are characterized by the fact that
499
Andreas Quatember
it is impossible for an interviewer to identify the question on which the respondent has given his or her answer. The idea is to take away the respondent’s fear of an embarrassing outing and in this way to guarantee that the interviewee answers truthfully on the randomly selected question. The paper discusses the problem, describes the standardization of the randomized questioning designs (Quatember 2007) for the estimation of frequencies and proportions, develops the resulting estimation and testing strategies and demonstrates the usage in an example on physical violence within families.
1 Einführung Antwortausfälle in Stichprobenerhebungen beeinträchtigen die Aussagekraft der statistischen Schlussfolgerungen genau dann, wenn sich die Gruppe der Nichtantwortenden bei der betreffenden Fragestellung von der Gruppe der Antwortenden unterscheidet. Bezeichnen wir mit U eine Grundgesamtheit an Erhebungseinheiten vom Umfang N und mit UA eine Teilgesamtheit von NA Elementen aus U, deren Elemente sich dadurch auszeichnen, dass sie einer Klasse A eines interessierenden kategorialen Merkmals angehören (z. B. zur Gruppe derjenigen aus der Gesamtheit der über 16-jährigen Bevölkerung, die im vergangenen Jahr Drogen konsumiert haben). Soll nun mittels der Daten aus einer uneingeschränkten (oder einfachen) ohne Zurücklegen gezogenen Zufallsstichprobe s vom Umfang n der Umfang NA bzw. die relative Größe πA = NA/N dieser Teilgesamtheit geschätzt werden, so bezeichnen wir mit x den „Zugehörigkeitsindikator“ mit den Ausprägungen ì1, wenn i ÎU A , xi = í î0 sonst. bei der i-ten Erhebungseinheit (i = 1, 2, . . . N). Bei direkter Befragung zur Zugehörigkeit zu UA wird πA geschätzt durch = π dir A
1 ×åx s i n
(1)
(Σs bezeichnet die Aufsummierung über alle Elemente von s), die relative Größe dieser Gruppe in der Stichprobe, und NA analog durch
N A = N × π Adir .
(2)
Bei auftretenden Antwortausfällen (z. B. durch die heikle Thematik) wird die Stichprobe s zerlegt in eine Teilmenge r der nr Respondierenden („response 500
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
set“) und eine Teilmenge m der nm Nichtrespondierenden („missing set“). Die Teilmenge r wird ferner zerlegt in die Menge u der Falschantwortenden („untruthful set“) und die Menge t der wahrheitsgetreu Antwortenden („truthful set“). Dadurch wird auch der Summand in (1) aufgespalten (im Nachfolgenden werden nur mehr Schätzer für πA betrachtet, weil sich die Schätzer für NA einfach durch Multiplikation des πA-Schätzers mit N ergeben): = π dir A
1 æ ö . ×ç å x + å x + å x ÷ u m i iø n è t i
(3)
Ignoriert man dies, in dem man versucht, den interessierenden Parameter πA durch π rA =
1 1 × å xi = × r nr nr
(å x + å x ) t
i
u
i
(4)
allein auf Basis der Respondierenden zu schätzen („available cases analysis“), so zieht dies unweigerlich eine Verzerrung des Schätzers nach sich, sofern sich die Mitglieder der Menge t von den Nichtantwortenden beim interessierenden Merkmal unterscheiden und die Menge u nicht leer ist. Dies wiederum führt zu Konfidenzintervallen, die den Parameter nicht mit der erwünschten Sicherheit überdecken bzw. zu einer Erhöhung der Fehlerwahrscheinlichkeiten beim statistischen Testen von Hypothesen. Betrachten wir folgendes Beispiel: Durch eine einfache Zufallsstichprobe vom Umfang n = 1.000 aus der österreichischen Bevölkerung über 16 Jahren – operationalisiert etwa durch die in Österreich lebende Wohnbevölkerung – soll die relative Größe πA der Gruppe UA der im vergangenen Jahr Drogen konsumiert habenden Personen ermittelt werden. Wegen des heiklen Themas würde die direkte Fragestellung („Haben Sie im vergangenen Jahr Drogen konsumiert?“) die Gesamtstichprobe s aufteilen in eine Gruppe t derer, die wahrheitsgetreu antworten (hauptsächlich Personen, die nicht zu UA gehören), eine weitere Gruppe u derer, die nicht wahrheitsgetreu antworten (hauptsächlich Personen, die zu UA gehören und das Gegenteil behaupten), und eine Menge m von Nichtrespondierenden (denen das Thema insgesamt zu heikel oder persönlich ist). Eine Schätzung der relativen Größe der interessierenden Bevölkerungsgruppe durch (4) würde demnach den wahren Anteil unterschätzen. Von Seiten der statistischen Methodik lässt sich auf das Auftreten von Nonresponse auf zweierlei Arten vernünftig reagieren. Entweder man versucht, πA ausschließlich auf Basis der Menge r durch differenziertere Hoch501
Andreas Quatember
gewichtung der darin aufgetretenen Merkmalsausprägungen als in (4) zu schätzen („Gewichtungsanpassung“), oder man verwendet Hilfsinformationen über die Nichtrespondierenden, sofern solche Informationen vorliegen, um den dritten Summanden in (2) zu schätzen („Imputation“) (siehe zu Gewichtungsanpassung etwa: Groves et al. 2002, 275–302, und zu Imputation etwa: Little & Rubin 2002, 59–74). Trotz des nachweislichen Erfolgs dieser Methoden können sich die damit errechneten Stichprobenergebnisse natürlich nicht (ganz) mit der Qualität von solchen messen, die auf tatsächlich gemachten Beobachtungen basieren. Auch das bei heiklen Themen auftretende Problem der Falschantworten bleibt durch diese Methoden unberücksichtigt. Sowohl in der Psychologie als auch in der empirischen Sozialforschung werden Methoden entwickelt, die die Nonresponse- und Falschantwortrate in einem erträglichen Rahmen halten sollen (vgl. etwa Groves et al. 2002, 103–196). Bei heiklen Themen (z. B. Gewalt in der Familie, Sexualverhalten, Drogen- oder Alkoholmissbrauch) kann auch die statistische Methodik durch randomisierte Befragungsdesigns dazu beitragen, bei persönlichen Interviews Nonresponse und Falschantworten auf ein auch bei nichtsensitiven Themengebieten nicht zu vermeidendes Niveau zu drücken. Die Anwendung ist in der Literatur wohldokumentiert (vgl. beispielsweise: Goodstadt & Gruson 1975; Tezcan & Omran 1981; Fisher et al. 1992; Lara et al. 2004).
2 Randomisierte Befragungsdesigns 1965 veröffentlichte Stanley L. Warner (1965) seine Idee eines Befragungsdesigns, das gewährleisten soll, dass sich die Interviewten bei heiklen Themen nicht vor einem Interviewer bloß stellen müssen. Betrachten wir als Beispiel die Grundgesamtheit U der österreichischen Wohnbevölkerung ab 16 Jahren und bezeichnen wir mit UA die Teilmenge der im letzten Jahr Drogen konsumiert habenden Personen. Warners Design ist so aufgebaut, dass der zu befragenden Person im Gegensatz zur direkten Befragung zum Thema nur mit einer Wahrscheinlichkeit p1 < 1 die Frage nach der Zugehörigkeit zu UA gestellt wird, wohingegen sie mit der verbleibenden Wahrscheinlichkeit p2 = 1 – p1 die Frage nach der Zugehörigkeit zur zu UA komplementären Gruppe UAc („nicht-UA“) erhält (UAc = U – UA) (siehe Abbildung 1). Die Idee ist es, dass dadurch, dass der Interviewer bzw. die Interviewerin über jene Frage, die tatsächlich beantwortet wurde, im Unklaren gelassen wird, 502
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
der/die Befragte die Angst davor verliert, wahrheitsgetreu zu antworten. Voraussetzung ist natürlich, dass die Interviewten das Befragungsdesign und die sich daraus ergebenden Konsequenzen in Hinblick auf den Schutz ihrer Privatsphäre durch eine einschlägige Erläuterung verstehen. Abbildung 1: Warners Befragungsdesign
p1
UA?
p2
UAc?
UA: Drogenkonsum im vergangenen Jahr UAc: Kein Drogenkonsum im vergangenen Jahr
Die Zufallsvariable y zeigt an, ob eine befragte Person i mit „ja“ oder „nein“ geantwortet hat: ì1, wenn i jaantwortet , yi = í î0 sonst. Die Wahrscheinlichkeit πy für eine „ja“-Antwort ist bei Warners Design gegeben durch: πy = pi · πA + p2 · (1 – πA ). Formt man dies nach πA um und ersetzt man in der Gleichung die Wahrscheinlichkeit πy durch ihren Schätzer, das ist die relative Häufigkeit π y an „ja“-Antworten in der Stichprobe, so erhält man den Schätzer = π W A
π y – p 2
p1 – p 2
(5)
(p1 ≠ p2) für πA. Dieser ist unverzerrt bei Zutreffen der Annahme, dass wegen des die Privatsphäre der Respondierenden schützenden Befragungsdesigns wahrheitsgetreu geantwortet wird. Dessen theoretische Varianz besteht aus der Varianz bei direkter Befragung ohne Nonresponse und einem „Strafterm“ und sieht für uneingeschränkte Zufallsstichproben ohne Zurücklegen folgendermaßen aus: 503
Andreas Quatember
V (π WA )=
π A × (1– π A ) n
×
N– n N– 1
+
p 1 × (1– p 1 )
(6)
n × (2p – 1) 1 Strafterm 2
(Kim & Flueck 1978, 347). Der „Strafterm“ gibt den Genauigkeitsverlust an, den man im (unfairen) Vergleich zu einer direkten Befragung mit vollem Response erleidet, wenn man Warners Befragungsdesign anwendet, um Nonresponse und Falschantworten zu vermindern. Als Gegenleistung erhält man einen bei Zutreffen der Annahmen unverzerrten Schätzer. Diese Varianz lässt sich unverzerrt schätzen durch:
V (π WA )=
) π W × (1– π W A A n– 1
×
N– n N
+
p 1 × (1– p 1 ) n × (2p 1 – 1)
2
.
(7)
Für das Beispiel aus Abschnitt 1 ergeben sich bei p1 = 0,8 und einem Anteil an „ja“-Antworten in der Stichprobe (n = 1.000) von 0,272 ein Schätzer π W = 0 ,12 und eine Varianzschätzung von V ( π W ) ≈ 5,50 · 10–4 . A A Die Kunst ist es natürlich, die Wahrscheinlichkeiten p1 und p2 so zu bestimmen, dass sich die Interviewten in Hinblick auf ihrer Privatsphäre so geschützt fühlen, dass sie tatsächlich wahrheitsgetreu antworten, da das Antwortverhalten natürlich massiv von diesen Wahrscheinlichkeiten abhängt. p1 = 1 etwa entspricht der direkten Befragung zum heiklen Thema und führt somit zur höchsten Rate an Nonresponse plus Falschantworten. Geht p1 von 1 in Richtung 0,5, so nimmt der Schutz der Privatsphäre zu und demnach die Rate an Nonresponse plus Falschantworten immer mehr ab. Dafür wird die Schätzung nach (5) immer ungenauer (siehe (6)). Die Bestimmung jener optimalen (= größten) Wahrscheinlichkeit p1, die die minimale Nonresponserate gewährleistet, kann aus Erfahrungen mit dem Verfahren und/ oder durch empirische Untersuchungen erfolgen (vgl. hierzu etwa: Gupta et al. 2002). Seit Warner (1965) wurde immer wieder versucht, das Befragungsdesign durch Veränderungen in den Vorgehensweisen effizienter zu gestalten. Quatember (2007) vereinheitlichte die Ansätze mit unterschiedlichen Alternativfragen auf folgende Weise (siehe Abbildung 2): Den Befragten wird mit einer Wahrscheinlichkeit p1 die Frage nach der Zugehörigkeit zu UA gestellt, mit p2 die Frage nach der Zugehörigkeit zu UAc, mit p3 die Frage nach der Zugehörigkeit zu einer Gruppe UB, die weder mit der Zugehörigkeit zu UA statistisch zusammenhängt noch irgendwie sensitiv ist (z. B. „Haben Sie in den ersten 504
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
drei Monaten des Jahres Geburtstag?“). Ferner kann der/die Respondierende noch mit einer Wahrscheinlichkeit p4 instruiert werden, einfach mit „ja“ und mit p5, einfach mit „nein“ zu antworten (0 ≤ pi ≤ 1; Σ pi ≤ 1). All dies ist möglich, um die Frage bzw. Instruktion, auf die geantwortet wurde, für die Interviewer zum Schutz der Privatsphäre der Respondierenden zu verschleiern. Abbildung 2: Quatembers (2007) vereinheitlichtes Befragungsdesign
p1
p5
UA?
„nein!“ p4
p2 p3
UAc?
„ja!“ UB?
UA: Drogenkonsum im vergangenen Jahr UAc: Kein Drogenkonsum im vergangenen Jahr UB: Geburtstag in einem der ersten drei Monate eines Jahres
Die relative Größe πB von UB und die Wahrscheinlichkeiten p1 bis p5 sind die frei bestimmbaren Designparameter des vereinheitlichten randomisierten Befragungsdesigns. Die Wahrscheinlichkeit für eine „ja“-Antwort ist nun πy = p1 · πA + p2 · (1 – πA) + p3 · πB + p4. Daraus lässt sich abermals durch einfache Umformung und Ersetzen von πy durch π y (siehe Abschnitt 1) der unverzerrte Schätzer π A =
π y – p 2 – p 3 × π B – p 4
(8)
p1 – p 2
(p1 ≠ p2) für πA gewinnen. Dessen theoretische Varianz ist bei uneingeschränkter Zufallsauswahl ohne Zurücklegen:
V (π A ) =
π y × (1– π y )
n × (p 1 – p 2 )
2
–
π A × (1– π A )
n
×
n –1 N –1
(9)
(vgl. Quatember 2007, 4 ff.). 505
Andreas Quatember
Es gibt 16 verschiedene Befragungsdesigns, das sind die 16 möglichen Kombinationen der Frage nach der Zugehörigkeit zu UA mit den anderen vier Fragen bzw. Instruktionen als Spezialfälle der Vereinheitlichung. Einige davon wurden bereits als eigene Techniken veröffentlicht, andere sind in Quatember (2007) erstmalig publiziert worden. Ist etwa p1 = 1, so liegt das direkte Befragungsdesign vor. Gilt 0 < p1 < 1 und p2 = 1 – p1, dann entspricht dies Warners Design. Das Befragungsdesign mit von null verschiedenen Wahrscheinlichkeiten p1, p3 und p4 beispielsweise, das also aus den Fragealternativen nach Mitgliedschaft zu UA, UB und der Instruktion besteht, „ja“ zu antworten, wurde bislang noch nicht veröffentlicht, soweit der Autor dieses Aufsatzes Kenntnis davon hat (vgl. Quatember 2007, 5). Setzt man in (9) für πy den Anteil an „ja“-Antworten π y in der Stichprobe und für πA den Schätzer π A nach (8) ein, so erhalten wir eine asymptotisch unverzerrte Schätzung für die theoretische Varianz nach (9). Damit lässt sich dann bei ausreichend großen Stichprobenumfängen und für große Grundgesamtheiten bei uneingeschränkter Zufallsauswahl ohne Zurücklegen ein approximatives Konfidenzintervall zur Sicherheit 1 − α angeben: π A ±u1– a / 2 ×
p y × (1– p y )
n × (p 1 – p 2 )
2
–
p A × (1– p A )
(10)
N
(mit u1−α/2, dem (1−α/2)-Quantil der Standardnormalverteilung). Zum Testen von Hypothesen über π A auf einem Signifikanzniveau α = 0,05 gelten folgende Entscheidungsregeln: Bei zweiseitiger Fragestellung mit den Hypothesen H0: πA = πA*
und
H1: πA ≠ πA*
ist für ausreichend große Stichprobenumfänge die Region
R = π A ± u1– α / 2 × *
π y × (1– π y* )
n × (p 1 – p 2 )
2
–
π A∗ × (1– π A* )
N
(11)
mit πy = p1 · πA* + p2 · (1 – πA*) + p3 · πB + p4 die Beibehaltungsregion der Nullhypothese. Bei einseitiger Fragestellung mit den Hypothesen H0: πA ≤ πA* oder 506
und
H1: πA > πA*
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
H0: πA ≥ πA*
und
H1: πA < πA*
sind die Beibehaltungsregionen gegeben durch die obere Schranke π A * + u1– α ×
π y × (1– π y )
n × (p 1 – p 2 )
2
–
(
π ∗A × 1– π ∗A
)
N
(12)
bzw. durch die untere Schranke π A – u1– α × *
π y × (1– π y )
n × (p 1 – p 2 )
2
–
(
π ∗A × 1– π ∗A
N
)
(13)
Soll zum Beispiel mit Warners Befragungsdesign auf einem Signifikanzniveau von 0,05 die Behauptung überprüft werden, dass mehr als 10 Prozent der Bevölkerung über 16 Jahren im vergangenen Jahr Drogen konsumiert haben (H1: πA > 0,1), so ist die Beibehaltungsregion der Nullhypothese, die das Gegenteil behauptet, gegeben durch (12). Deren obere Schranke bei n = 1.000 entspricht somit 0,139, und wegen π W = 0 ,12 (siehe oben) wird A die Nullhypothese beibehalten. Es stellt sich nun natürlich die Frage nach der effizientesten Vorgehensweise, also nach jener Wahl der Designparameter, die die größte Genauigkeit des Schätzers (8) hervorbringt.
3 Genauigkeitsbetrachtungen Es ist offenkundig, dass die Wahl der in diesem Sinne optimalen Designparameter massiv vom Grad der Sensitivität des interessierenden Merkmals beeinflusst wird. Ist ein Merkmal nicht sensitiv, dann ist die direkte Befragung (Designparameter p1 = 1) zum Untersuchungsgegenstand die effizienteste Vorgehensweise, weil bei allen anderen Wahlen für die Designparameter des standardisierten randomisierten Befragungsdesigns die Privatsphäre der respondierenden Person in gewisser Weise geschützt und dieser Schutz durch eine Genauigkeitsverminderung bezahlt wird. Liegt jedoch ein heikles Thema vor, dann werden bei direkter Befragung Antwortausfälle bzw. Falschantworten auftreten, deren Ausmaß bei Verwendung einer randomisierten Befragungstechnik mit p1 < 1 geringer ausfallen wird. Bislang nicht berücksichtigt wurde bei den Effizienzvergleichen in der Literatur (vgl. etwa den Überblick in Tracy & Mangat 1996), dass diese 507
Andreas Quatember
Vergleiche natürlich nur für Befragungsdesigns mit gleichem Schutz der Privatsphäre, also gleichem Nonresponserisiko, erfolgen können. Die Bestimmung der optimalen Designparameter hat demnach auf Kennzahlen zu basieren, die den Grad des Schutzes der Privatsphäre messen, den eine bestimmte Wahl der Designparameter bietet. Quatember (2008) verwendet dazu die von Leysieffer & Warner (1976) vorgeschlagenen Kennzahlen. λ1 sei dabei der Quotient aus den bedingten Wahrscheinlichkeiten dafür, wahrheitsgetreu mit „ja“ zu antworten, wenn man tatsächlich zur Gruppe UA und wenn man zu UAc gehört: λ1 =
P(ja | i ÎU A ) P(ja | i ÎU A C )
,
(14)
λ0 andererseits sei der Quotient der bedingten Wahrscheinlichkeiten dafür, wahrheitsgetreu mit „nein“ zu antworten, wenn man tatsächlich zur Gruppe UAc und wenn man zu UA gehört: λ0 =
P(nein | i ÎU A C ) P(nein | i ÎU A )
.
(15)
Je stärker diese Kennzahlen von 1 abweichen, desto geringer ist der Schutz der Privatsphäre, der durch das gewählte Befragungsdesign gewährleistet wird. Für das direkte Befragungsdesign gilt: λ1 = λ0 = ∞. Es gilt also, aus früheren Erhebungen abzuleiten oder empirisch zu bestimmen, wie diese Verhältnisse λ1 und λ0 bei einem bestimmten Merkmal beschaffen sein müssen, damit die Privatsphäre der Respondierenden gerade noch geschützt ist. Mit diesen so festzulegenden Kennzahlen lassen sich Gleichungen optimaler Effizienz für die Designparameter ableiten (siehe: Quatember 2008).
4 Ein Beispiel Betrachten wir wieder – wie zu Beginn in Abschnitt 2 – die Grundgesamtheit U der Wohnbevölkerung über 12 Jahre eines Landes und die Teilgesamtheit UA jener Personen, denen von Familienmitgliedern im vergangenen Jahr körperliche Gewalt angetan wurde. Zu schätzen sei πA, die relative Größe dieser Gruppe. Das Thema ist als insgesamt sensitiv einzustufen, wenngleich die Zugehörigkeit zu UA natürlich deutlich heikler als jene zu UAc ist. Die Subpopulation UB bestehe aus allen Elementen dieser Grundgesamtheit, deren Geburtstag in einen der ersten drei Monate eines Jahres fällt. 508
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
Nehmen wir für den Parameter πB den Wert 0,25 an. Als Stichprobenumfänge wählen wir 250, 500 und 1.000. Auf der Basis früherer Untersuchungen legen wir die optimalen Kennzahlen für den Schutz der Privatsphäre mit λ1 = 3 und λ0 = 7 fest. Das heißt, dass wir dann wahrheitsgetreue Antworten erwarten können, wenn durch das Befragungsdesign gewährleistet ist, dass die Wahrscheinlichkeit für eine „ja“-Antwort (bzw. für eine „nein“-Antwort) bei tatsächlicher Zugehörigkeit zur Gruppe UA (UAc) höchstens das 3-fache (7-fache) der Wahrscheinlichkeit desselben Ereignisses bei Zugehörigkeit zu UAc (UA) ist. Aus der Lösung der Effizienzgleichungen in Quatember (2008) lassen sich beispielsweise die in Tabelle 1 angegebenen Befragungsdesigns errechnen, die bei der angegebenen Wahl der Designparameter alle die gleiche varianzminimale Performance liefern. Tabelle 1: Beispiele für die varianzoptimale Wahl der Designparameter p1
p2
0,7 0,6 0,6 0,65 0,65 0,6 0,65
0,1 0 0 0,05 0,05 0 0,05
p3 0 2/15 0 1/15 0 0,1 0,04
p4 0,2 4/15 0,3 7/30 0,25 0,275 0,24
p5
πB
0 0 0,1 0 0,05 0,025 0,02
– 0,25 – 0,25 – 0,25 0,25
Die Schwankungsbreite der Stichprobenergebnisse für all diese Befragungsdesigns liegt bei ± 10,2 (bei n = 250), ± 7,3 (bei n = 500) bzw. ± 5,1 Prozentpunkten (bei n = 1.000). Die direkte Befragung bietet keinerlei Schutz der Privatsphäre, was sich bei diesem heiklen Thema wohl in einer deutlichen Unterschätzung des Parameters πA manifestieren würde. Sie ist daher nicht zu gebrauchen. Warners Design schützt zwar die Privatsphäre der Befragten, aber die der Zugehörenden zu UA genauso stark wie die der Zugehörenden zu UAc. Da die Zugehörigkeit zu UAc in unserem Beispiel deutlich weniger sensitiv ist, wird dieser übertriebene Schutz durch einen Genauigkeitsverlust bezahlt, der auch dieses Befragungsdesign nicht auf der Liste (in Tabelle 1) der optimalen Designs aufscheinen lässt. Jene optimalen Designs, die die Frage nach UB nicht beinhalten, benötigen die Untergruppe UB nicht, was durch einen Strich in der letzten Spalte von Tabelle 1 verdeutlicht wird. Um eine möglichst geringe Varianz zu erzielen, muss unter Einhaltung der Bedingungen in Hinblick auf die Privatsphäre mit der größtmöglichen 509
Andreas Quatember
Wahrscheinlichkeit p1 die eigentlich interessierende Frage nach der Zugehörigkeit zu UA gestellt werden. Da die heikleren „ja“-Antworten stärker als die nicht so heiklen „nein“-Antworten zu schützen sind, wird die Instruktion „ja“ zu antworten mit der nächst größeren Wahrscheinlichkeit versehen. Bei gleich bleibendem λ1 und sich weiter vergrößerndem λ0 (Zugehörigkeit zu UAc wird weniger heikel) ergeben sich für die in der ersten Zeile von Tabelle 1 dargestellte Strategie die in Tabelle 2 enthaltenen Design-Parameter mit der höchsten Genauigkeit: Tabelle 2: Beispiele für die varianzoptimale Wahl der Designparameter der ersten Strategie aus Tabelle 1 bei wachsendem 0 und 1 = 3 λ0
p1
p2
p4
7
0,7
0,1
0,2
17
0,68
0,04
0,28
27
0,675
0,025
0,3
∞
2/3
0
1/3
Da die möglichen „nein“-Antworten immer weniger zu schützen sind, nehmen die Summen für p1 und p4 zu. Im Extremfall einer nicht heiklen Zugehörigkeit zur Gruppe UAc ist diese Summe 1 und es ergibt sich ein Befragungsdesign, das nur mehr aus der Frage nach Zugehörigkeit zur Gruppe UA („Gewalt angetan“) und der Instruktion „ja“ zu antworten besteht. In diesem Fall ist es nämlich nicht mehr notwendig, auch die „nein“-Antwort zu schützen. Welches der objektiv gleich effektiven Befragungsdesigns schließlich tatsächlich verwendet wird, ob ein einfacheres wie das erste in Tabelle 1 mit den Alternativen der Fragen nach UA und UAc bzw. der Instruktion „ja“ zu antworten oder ein komplexeres wie das letzte, das alle 5 Frage- bzw. Instruktionsmöglichkeiten umfasst, liegt im subjektiven Ermessen des Anwenders.
5 Zusammenfassung und Ausblick Randomisierte Antworttechniken sind der Beitrag der Statistik zur Senkung der Nonresponse- bzw. Falschantwortraten bei Stichprobenerhebungen zu heiklen Themen. Bei kluger Durchführung lässt sich der Genauigkeitsverlust gegenüber direkter Befragung in Grenzen halten. Dieser ist tatsächlich nur 510
Neue Entwicklungen bei statistischen Methoden zur Verringerung von Falschantworten
ein scheinbarer, da die direkte Befragung durch die Angst der Befragungsperson vor einem unangenehmen, Konsequenzen nach sich ziehenden Outing gegenüber einem Interviewer verzerrte Schätzer liefert. Die in diesem Aufsatz besprochene Standardisierung solcher Techniken bietet dem Anwender/der Anwenderin dieser Befragungsdesigns die Möglichkeit, aus objektiv messbar gleichwertigen Methoden die subjektiv auf die Erhebung passende Alternative auszuwählen. Dieses Verfahren lässt sich mit den herkömmlichen Formeln sofort auf geschichtete Zufallsstichproben und andere Stichprobenverfahren umlegen (siehe zu Stichprobenverfahren etwa: Särndal et al. 1992). In der praktischen Anwendung wird natürlich entgegen unseren Annahmen die Nonresponse- bzw. Falschantwortrate nicht unter ein unabhängig von der Sensitivität der Thematik jedenfalls auftretendes Mindestniveau gesenkt werden können. Je nach Größe dieser Rate kann darauf unterschiedlich reagiert werden: Ist sie vernachlässigbar klein (d. h. nur einige wenige Prozent), so darf sie genauso ignoriert werden wie in dem Fall, dass zwischen der Antwortbereitschaft und dem Untersuchungsgegenstand kein statistischer Zusammenhang besteht. Übersteigt der Nonresponse ein tolerierbares Ausmaß bzw. besteht offensichtlich ein Zusammenhang zwischen der Antwortbereitschaft und der Thematik der Befragung, dann sollten die eingangs erwähnten Methoden der Gewichtungsanpassung bzw. Imputation in Hinblick auf vernünftige Parameterschätzungen in die Schätzphase der Erhebung mit eingebaut werden. Die dann entstehende Problematik der Schätzung der Genauigkeit der Stichprobenergebnisse führt zum Beispiel zur Betrachtung von Replikationsmethoden wie das Bootstrap- oder das Jackknifeverfahren oder zur Multiplen Imputation (vgl. etwa: Groves et al. 2002, 289–328; Little & Rubin 2002, 75–96).
6 Anerkennung Der Autor möchte sich sowohl bei den beiden Gutachtern für ihre interessanten Vorschläge und Hinweise anerkennend bedanken als auch bei den Organisatoren der Tagung „Grenzen und Herausforderungen der Umfrageforschung“ für die Möglichkeit, seine Forschungsergebnisse zu präsentieren.
511
Andreas Quatember
Literatur Fisher, M., & Kupferman, L. B., & Lesser, M. (1992). Substance Use in a School-Based Clinic Population: Use of the Randomized Response Technique to Estimate Prevalence. Journal of Adolescent Health, 13, 281–285. Goodstadt, M. S., & Gruson, V. (1975). The Randomized Response Technique: A Test on Drug Use. Journal of the American Statistical Association, 70(352), 814–818. Groves, R. M., & Dillman, D. A., & Eltinge, J. L., & Little, R. J. A., (Eds.) (2002). Survey Nonresponse. New York: Wiley & Sons. Gupta, S., & Gupta, B., & Singh, S. (2002). Estimation of sensitivity level of personal interview survey questions. Journal of Statistical Planning and Inference, 100, 39–247. Kim, J.-M., & Elam, M. E. (2005). A two-stage stratified Warner’s randomized response model using optimal allocation. Metrika, 61, 1–6. Kim, J.-I., & Flueck, J. A. (1978). Modifications of the randomized response technique for sampling without replacement. Proceedings of the Section on Survey Research Methods of the American Statistical Association, 346–350. Lara, D., & Strickler, J., & Olavarrieta, C. D., & Ellertson, C. (2004). Measuring Induced Abortion in Mexico. Sociological Methods & Research, 32(4), 529–558. Leysieffer, F. W., & Warner, S. L. (1976). Respondent Jeopardy and Optimal Designs in Randomized Response Models. Journal of the American Statistical Association, 71(355), 649–656. Little, R. J. A., & Rubin, D. B. (2002). Statistical analysis with missing data (2. Auflage). New York: Wiley & Sons. Mangat, N. S., & Singh, R. (1990). An alternative randomized response procedure. Biometrika 77(2), 439–442. Quatember, A. (2007). A standardized technique of randomized response. IFAS Research Paper Series 2007(28). Abgerufen am 22.10.2008, Website: http://www.ifas.jku.at/ e2550/e2756/index_ger.html. Quatember, A. (2008). A Recommended Practice Manual for the Standardized Randomized Response Strategy. IFAS Research Paper Series 2007(31). Abgerufen am 22.10.2008 , Website: http://www.ifas.jku.at/e2550/e2756/index_ger.html. Särndal, C.-E., & Swensson, B., & Wretman, W. (1992). Model Assisted Survey Sampling. New York: Springer. Tezcan, S., & Omran, A. R. (1981). Prevalence and Reporting of Induced Abortion in Turkey. Studies in Family Planning, 12, 262–271. Tracy, D. S., & Mangat, N. S. (1996). Some Developments in Randomized Response Sampling during the Last Decade – A Follow Up of Review by Chaudhuri and Mukherjee. Journal of Applied Statistical Science, 4(2/3), 147–158. Warner, S. L. (1965). Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 60, 63–69.
512
7 Methodologische Grundfragen
Reinhard Bachleitner, Wolfgang Aschauer
Reinhard Bachleitner, Wolfgang Aschauer
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung Zusammenfassung Raum, Zeit und Befindlichkeit gestalten die Befragungssituation und können das Antwortverhalten massiv beeinflussen. Orte der Befragung wirken als Filter im Sinn einer Auswahl von Befragten und erzeugen Befindlichkeiten, da Befragungsorte Atmosphären vermitteln. Zusätzlich beeinflussen sowohl der Zeitpunkt (günstig vs. ungünstig) als auch der Zeitraum der Untersuchung die Urteile je nach dem Stimmungs- und Meinungsbild der Befragten. Um eine erste empirische Prüfung dieser Annahmen zu gewährleisten, wurde ein experimentelles Untersuchungsdesign mit Studierenden entwickelt und angewendet. Sowohl in der hier vorgestellten Studie als auch in weiteren Erhebungen konnten signifikante situationsspezifische Einflüsse auf die Antwortwahl identifiziert werden. Die erhaltenen und teilweise mit beachtlichen Effekten ausgestatteten Antwortentscheidungen stützen das vorgestellte Modell der „Situationsspezifität der Befragung“. Diese Erkenntnisse über den Einfluss von Raum, Zeit und Befindlichkeit sollen sowohl bei der Planung und Durchführung einer Umfrage als auch bei der Auswertung der Daten Berücksichtigung finden.
Abstract Space, Time and Mood and Their Role in Specific Situations of Survey Research Space, time and mood play a role in structuring a questioning situation and may strongly influence the response behaviour. Physical spaces serve as a filter for selecting samples of respondents and influence their mood due to specific atmospheres. Furthermore, the scheduling of questioning (perceived as favourable vs. unfavourable) and the time period of the survey exercise an effect on the mood and the patterning of opinions of the respondents. We developed and conducted an experimental survey with students to empirically evaluate these primary assumptions. Significant situation specific influences could be identified in this study as well as in other surveys. The considerable effects on the decisions of the respondents confirm the predicted model of “situation specificity” in surveys. These findings about the influence of space, time and mood conditions should be taken into account with regard to the conception of survey designs, the procedures during fieldwork, and data analysis.
515
Reinhard Bachleitner, Wolfgang Aschauer
1 Einleitung Innerhalb der Umfrageforschung werden die „Situationsspezifität“ von Befragungen und ihr Einfluss auf die Antwortentscheidungen nach wie vor eher marginal behandelt.1 Sie soll daher im Mittelpunkt des Beitrags stehen, der insgesamt der Artefaktforschung („Bias-Forschung“) zuzuordnen ist. Betrachten wir einleitend – in der hier gebotenen Kürze – den Stand der Artefaktforschung, die heute auf eine über 80-jährige Tradition zurückblicken kann (vgl. zur historischen Entwicklung Hilgers 1997, 22–68), so zeigen die einzelnen Forschungsbereiche einen unterschiedlichen Entwicklungsstand: Während die klassische Bias-Forschung eher stagniert, nehmen die Analysen zu Methodenvergleichen – bedingt durch den Technologieschub – stark zu. Der Forschungsstand der Bias-Forschung, der in einen internen und externen Artefaktkreis differenziert werden kann (vgl. Hilgers 1997), kann folgendermaßen charakterisiert werden: • Die umfassenden Befunde zum Einfluss und zum Nachweis von Artefakten (Artefaktquellen) zeigen wenig Einheitlichkeit sowie auffallende Widersprüchlichkeiten.2 • Diese Widersprüchlichkeiten werden vor allem mit den unterschiedlichen Operationalisierungen innerhalb der Prüfungsverfahren und einem uneinheitlichen Set von Determinationsvariablen im Untersuchungsdesign begründet.3 • Die heterogene Ansammlung von Einflussgrößen sowie die unterschiedliche Etikettierung der Determinanten werden auf eine nur schwach ausgearbeitete „Theorie der Befragung“ zurückgeführt. Welche Schlussfolgerungen und weiterführenden Überlegungen lassen sich aus dieser Kurzdiagnose ziehen? Die uneinheitlichen Befunde innerhalb der Artefaktforschung könnten auch darauf hinweisen, dass ein dahinter stehender (weiterer) „Mechanismus“ existiert, der das Verhalten der Befragten beeinflusst. Dieser „unbekannte“ Faktor ist trivialerweise nicht im Bereich der analysierten UVs angesiedelt, die ja ohnedies immer weiter ausdifferenziert und ergänzt werden. Vielmehr dürfte – so unsere These – die übergeordnete Artefaktquelle im Bereich der Befragungssituation, und zwar konfundiert mit dem Frageinhalt zu finden sein. Dabei wirkt nicht der jeweilige Inhalt der Frage an sich, sondern die Relation von Inhalt und Befragtem, die durch die Zentralität (Bedeutung der Frage für den Befragten) gemessen werden kann. 516
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Auf der Suche nach anderen Determinationsgrößen vermuten wir aufgrund zahlreicher empirischer Analysen (vgl. Bachleitner & Weichbold 2007; Bachleitner & Aschauer 2008) diese auf einer übergeordneten Ebene mit Raum, Zeit und Befindlichkeit identifizieren zu können.
2 Zielvorstellung Die Zielsetzungen des Beitrags sind nun mehrdimensional: Es soll ein Analyseraster präsentiert werden, das nicht auf die Analyse soziodemographischer und sozioökonomischer Einflüsse auf die Antwortwahl abzielt („Jagd nach UVs“), sondern auf der Situationsebene mögliche Einflüsse für die getroffene Antwortentscheidung erfasst. Zusätzlich sollen Wege aufgezeigt werden, wie die Determinanten der Befragungssituation für die Praxis der Umfrageforschung operationalisiert werden können, um diese in die Auswertungsstrategie mit einbeziehen zu können. Die Situationsspezifität setzt sich nach unserem Verständnis aus Raum-, Zeit- und Befindlichkeitsdeterminanten (R-Z-B-Einflüssen) zusammen, die in den Frame-Selection Ansatz (Esser 2006) einfließen könnten. Es soll also eine Integration der Bias-Forschung (hier der R-Z-B-Determinationen) in die Frame-Selection-Theorie erfolgen, um zumindest in ersten Konturen eine Theorie der Befragung zu skizzieren. Auf Basis dieser theoretischen Überlegungen und der empirischen Analysen wurden einzelne Hypothesen entwickelt, wie R-Z-B-Determinanten auf das Antwortverhalten wirken. Der empirische Abschnitt des Beitrags stellt einzelne Beispiele vor, die für die Entwicklung der Hypothesen maßgeblich waren. Zusätzlich werden die Ergebnisse eines Experiments vorgestellt, die eine erste Prüfung der Thesen erlauben und wichtige Hinweise zur weiteren Erforschung der R-Z-B-Determinanten liefern.
3 Die Effekte von Raum, Zeit und Befindlichkeit im Umfrageprozess Bevor wir auf diese Zielsetzungen eingehen, soll die Frage thematisiert werden, warum gerade Raum, Zeit und Befindlichkeit als Einflussdeterminanten ausgewählt wurden, existieren doch im Bereich der kognitiven Einflüsse auf das Antwortverhalten eine Vielzahl von bereits identifizierten und analysierten Artefaktquellen (vgl. z. B. Esser 1975, 1982; Kriz 1981; Hilgers 1997; 517
Reinhard Bachleitner, Wolfgang Aschauer
Reuband 1998; Atteslander et al. 2006; Sudman et al. 1996; Bungard & Lück & Miller 2005). Der Auswahl von „Raum“, „Zeit“ und „Befindlichkeit“ als Determinationsgrößen im Befragungsprozess liegen nun mehrere Überlegungen zugrunde. • Einmal das Faktum, dass sich jede Handlung – wenngleich dies trivial sein mag – in einem räumlichen und zeitlichen Kontext vollzieht, und zwar unter Beteiligung von Emotionen, wie hier der unmittelbaren situativen Befindlichkeit. • Zum zweiten ist aus der sozialpsychologisch-experimentellen Literatur bekannt, dass gerade Raum-, Zeit- und situative Befindlichkeitszustände (momentane Gefühlszustände, Stimmungen etc.) sich deutlich auf das Verhalten aus- und auf dieses auch einwirken. So zeigt sich etwa, dass bei verschiedenen Tests die Artefaktquellen nicht nur in den Messgeräten (z. B. elektrische Störfelder etc.) liegen können, sondern auch in situativen und personalen/motivationalen Bedingungsfaktoren zu verorten sind. Die für unsere Problemstellung relevanten experimentellen Ergebnisse zeigen, dass vor allem Raumparameter wie Raumhelligkeit, Geräuschpegel, Temperatur etc., aber auch die momentanen Stimmungslagen relevant werden können (vgl. insbesondere Eid 1995 sowie Schwarz & Cloore 2003). • Drittens waren es auch die eher inhaltsleeren Erklärungsansätze zum Befragtenverhalten, die sich alle auf eine abstrakte Modellebene beziehen und wenig Relevanz für unmittelbare Umsetzbarkeit bzw. Verwertbarkeit im Rahmen der Umfragen anbieten. So meinte auch Esser (1990, 232) schon: „Unbefriedigend ist bei all diesen Erklärungsversuchen geblieben, dass es sich um nicht viel mehr als um mehr oder weniger vage Orientierungshypothesen handelt, bei denen die gesamten Variablen, Funktionen und Parameter auch nicht ansatzweise bekannt sind oder auch nur benannt worden wären.“ Bedauerlicherweise nennt auch er im weiteren Verlauf keine konkreten Variablen, die den Prozess der Handlungswahl bei Befragungen determinieren; er benennt und beschreibt lediglich die möglichen Prozesse: Kognition der Situation, Evaluation der Handlungsfolgen sowie die Selektion einer bestimmten Handlung. Was aber konkret in Rahmen von Kognition, Evaluation und Selektion, und zwar inhaltlich vom Befragten ver- und bearbeitet wird und welche Umsetzungsvarianten sich für Umfragen daraus ergeben, bleibt im Allgemeinen und Abstrakten stehen. Das heißt nun insgesamt: Gezeigtes Befragungsverhalten, insbesondere das Antwortverhalten ist nicht transsituational konsistent und temporal stabil, sondern eher situational bedingt und zeitinstabil. Vor allem die drei überge518
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
ordneten Faktoren „Raum – Zeit – Befindlichkeit“, die in sich weiter ausdifferenziert werden können, gestalten die Befragungssituation entscheidend mit. Wenn wir uns auf Basis dieser Einflussgrößen einer Theorie der Befragung annähern, so müssen im Kontext der Situationsspezifität einzelne aufeinander bezogene Schritte als zusammenhängender Prozess aufgefasst werden. Wir differenzieren hier zwischen drei Phasen der Befragung: dem Selektionsprozess, dem Reaktionsprozess und dem abschließenden Aggregationsprozess. In allen Phasen spielen Raum, Zeit und Befindlichkeitsaspekte eine entscheidende – wenngleich unterschiedlich wirksam werdende – Rolle.4 Die folgende Matrix gibt einen Überblick, welche Effekte auftreten können: Abbildung 1: Analyseraster zu den Determinanten Raum, Zeit und Befindlichkeit Dimensionen Raum
Zeit
Befindlichkeit
Selektionsebene
Datengewinnung an unterschiedlichen Befragungsorten (z. B. private Orte vs. öffentliche Orte)
Erhebungsphase über einen längeren Befragungszeitraum
Auswahl von Befragungsorten, die mit unterschiedlichen Emotionen/ Befindlichkeiten verbunden sind (z.B. Warteorte, Trauerorte, Erlebnisorte)
Reaktionsebene
Effekte durch die identitäts- und meinungsbildende Wirkung des Raumes
Effekte auf die Antwortvergabe durch externe Ereignisse während des Erhebungszeitraums
Effekte der Befindlichkeit auf das Urteil des Befragten je nach Frageinhalt
Forderungen innerhalb der Interpretations-/Aggregationsebene
Berücksichtigungen von Effekten durch Befragungsort, verstärkte raumbezogene Interpretation der Daten
Berücksichtigung von Effekten durch Befragungszeitpunkt/ Erhebungszeitraum
Berücksichtigung der Effekte der Befindlichkeit auf die Antwortvergabe sowie der Zentralität des Frageinhalts für den Befragten
Mögliche Einflüsse von Raum, Zeit und Befindlichkeit sind durch Beispiele illustriert, die Erforschung der Effekte steht jedoch erst am Anfang. Zusätzlich werden Forderungen innerhalb der Interpretations- und Aggregations519
Reinhard Bachleitner, Wolfgang Aschauer
ebene von Befragungsdaten formuliert, die in der künftigen Artefaktforschung berücksichtigt werden sollten. Bevor empirisch auf diese Effekte eingegangen wird, sollen die drei Einflussfaktoren für die Umfrageforschung kurz dargestellt werden.
3.1 Raum: Begriff, Konzepte und Funktionen und die Relevanz bei Umfragen Raum als komplexer Begriff (Region, Ort, Stelle) und als mehrdimensionales Konzept (absolut vs. relational) besitzt in den aktuellen sozialwissenschaftlichen Diskursen verstärkt Konjunktur. Die „Raumvergessenheit“ gehört der Vergangenheit an, und die ehemals anzutreffende „Raumblindheit“ – vor allem im Kontext von Theoriebildungen – führt derzeit in der Soziologie zu einer Gegenbewegung, nämlich zu einer Etablierung einer „Soziologie des Raums“ (z. B. Schroer 2006; Döring 2008). Diese Relevanz von Raum hat nun mehrfache Bedeutung innerhalb von Umfragen, vollzieht sich doch jede Befragung a) im Raum (= „Befragungsort“), b) können Fragen raumbezogene Inhalte aufweisen (= „raumbezogenes Wissen“) c) besitzen Befragte eine raumbezogene Identität (= „räumliche/regionale/ kulturelle Identität“), es besteht eine raumspezifische Zuordnungsrelevanz für die Befragten. Betrachten wir hier nur die Einflussmöglichkeiten des Befragungsortes auf die Antwortwahl näher. Ad a) Befragungsorte können in einem ersten Differenzierungsansatz folgendermaßen typisiert werden: • „private Orte“ (z. B. Haushaltsbefragungen, telefonische Befragungen über Festnetz oder Mobilnetz, privater Internetanschluss etc.) • „öffentliche Orte“ (Samplingpoints können etwa Warteorte wie Airport und Bahnhof; Konsumorte, Ereignisorte wie Museen, Messen etc., Trauerorte u. ä. sein) • „berufsbezogene Orte“ (Arbeitsplatz, Schule, Universität oder berufsbezogene Veranstaltungsorte wie Kongresse etc.) Jeder dieser Orte hat seine spezifischen Merkmale bzw. Besonderheiten, seien es z. B. Rhythmen, Dichte und Leere, assoziierte Stimmungen etc. Das heißt, wir haben je nach Ort und konfundiert mit Zeit und eingesetzter Befragungsmethode unterschiedliche Effekte auf die Wahrnehmung der Befragungssituation. 520
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Analog gehen raumrelevante Determinanten auch in die Stichprobe ein oder zeigen sich über die raumbezogenen Inhalte und werden letztlich in der raumbezogenen Auswertung der Daten (Aggregation) relevant.
3.2 Zeit: Begriff, Konzept, Funktion und Relevanz in der Umfrageforschung Zeit als abstrakter Begriff und grundlegende Kategorie sozialen Handelns hat unterschiedlichste Inhalte und höchst subjektive Konnotationen: Individuelle Zeitstrukturen, subjektives Zeitempfinden und Zeitbewusstsein sowie die kulturrelevanten Dimensionen von Zeit sind dabei entscheidend für den Umgang mit Zeit und letztlich der Zeitwahrnehmung (vgl. Baur 2005). Befragungsabläufe und Befragungshandlungen unterliegen nun wie alle Handlungen in mehrfacher Hinsicht dem Faktor Zeit (z. B. Revers 1995). Im Konkreten sind dies: a) der Zeitpunkt der Befragung, b) die Zeitdauer, die die Befragung in Anspruch nimmt, sowie c) der Zeitrahmen, über welchen sich die gesamte Umfrage erstreckt. ad a) Der gewählte Zeitpunkt der Befragung kann sich nun aus Sicht der Befragten als günstig/ungünstig erweisen und erzeugt dabei entsprechende Emotionen. ad b) Die Zeitdauer der Befragung, also die Länge des Interviews bzw. Fragebogens, ist ebenfalls eine entscheidende Variable für die Teilnahmemotivation, Abbruchsraten, Verweigerungen (Item-non-response) etc. ad c) Der gewählte Zeitrahmen, in welchem die Befragung abläuft, ist insofern von Bedeutung, als innerhalb dieses Zeitrahmens Ereignisse, Vorkommnisse, politische Entscheidungen etc. stattgefunden haben können, die vor oder auch nach der Befragung eingetreten sind und somit die abgefragten Meinungen und Bewertungen deutlich beeinflussen können. Je kürzer der gewählte Befragungszeitrahmen, desto konsistenter fällt der Bedingungsrahmen für die Meinungsbildung aus.
3.3 Befindlichkeit: Begriff, Struktur, Funktion, Relevanz in der Umfrageforschung Mit dem „emotional turn“ (vgl. z. B. Schützeichel 2006) sind Emotionen auch für die Soziologie relevant geworden. Bisher eher nur marginal und kaum in ihren Bedeutungen für Handlungen analysiert, ist heute die emotionale Vergesellschaftung der Individuen von zentraler Bedeutung geworden. 521
Reinhard Bachleitner, Wolfgang Aschauer
Handlungstheorien erleben den „emotional turn“, und Emotionen finden sich heute gemeinsam mit Kriterien der „Rationalität“ (Wohlbegründetheit) in den Erklärungsmodellen vertreten, wenngleich bereits in der Weber’schen Typologie der Handlungsorientierungen Emotionen (Affekte) verankert und thematisiert sind.5 Emotionen, Affekte, Stimmungen, Befindlichkeit sind nuancierte begriffliche Abstufungen von Gefühlen, die all unsere Handlungen begleiten, wenngleich nicht jede Emotion zu einer Handlung führt. Hingegen ist jede durchgeführte Handlung mit Emotion verbunden, die dann als Resultat dieser Handlung gilt (vgl. Mees 2006, 112). Emotionen sind innere Dispositionen, die Handlungsdispositionen bedingen und evaluativen Charakter haben (positiv/negativ; stark/schwach) (vgl. z. B. Schnabel 2005, 182). Im Wesentlichen werden zwei Wege der Emotionsentstehung unterschieden: • Die aktuelle Einschätzung von Ereignissen, Personen, Objekten, Situationen führt zur Bildung von emotionalen Zuständen bei bewertenden Personen. • Die Wiederherstellung von emotionalen Ereignissen, die bereits erlebt worden sind („wiederhergestellte Emotionen“), die kognitiv vermittelt werden. Bezogen auf die Antworthandlung bedeutet dies in einem ersten Zugang: Die aktuelle Befindlichkeit des Befragten ist das anteilsmäßige Resultat aus einem subjektiven Bewertungsvorgang von mehreren situativen und ineinander verwobenen Komponenten, die auch als „Intensitätsindikatoren“ für die Entstehung und Veränderung der „mitgebrachten“ Befindlichkeit gelten können. Ein entscheidender Unterschied zwischen Stimmungen und Emotionen ist darin zu sehen, dass Stimmungen nicht objektspezifisch sind, sondern eher diffus. Für uns wesentlich ist auch noch die Differenz von Stimmung und Befindlichkeit. Befindlichkeiten schließen auch noch Körpergefühle (Wohl-/Missbefinden) mit ein. Stimmungen beeinflussen nun gemeinsam mit Körperzuständen und situativen Empfindungen den aktuellen emotionalen Zustand, den wir hier als „Befindlichkeit“ bezeichnen und der im Mittelpunkt unseres Interesses steht. Diese Befindlichkeit beeinflusst – so unsere Annahme – die nachfolgenden Urteile (vgl. dazu auch Schwarz & Clore 2003, „Stimmung-als-Information-Hypothese“). abb02 Zusammenfassend gilt: Die unspezifische „Stimmung“ wird ergänzt durch situative Emotionen, bestehend aus Stimmung, Körpergefühlen und Empfindungen und bildet daraus die individuelle aktuelle „Befindlichkeit“. 522
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 2: Kategorisierung von Gefühlen Gefühle
affektive Gefühle
dispositional affektive Persönlichkeitseigenschaften wie z.B. Jähzorn
Empfindungen
aktuell affektive Gefühlszustände
Stimmungen
nicht-affektive Gefühle
dispositional nicht-affektive Fähigkeiten („Ballgefühl“) und Charaktereigenschaften („Pflichtgefühl“)
aktuell nicht-affektive Eindrücke bzw. Unsicheres Wissen: Gefühl der Gewissheit oder Vertrautheit
Körpergefühle
„Befindlichkeit“
Quelle: Mees 2006, 106 und eigene Ergänzungen
4 Zur Situationsspezifität der Befragung (Befragungsverhalten) Die „Situationsspezifität“ von Handlungen bzw. die „Definition der Situation“ ist ein durchgehendes und zentrales Konzept der verschiedenen Rational-Choice-Ansätze (vgl. z. B. Esser 1996; Stachura 2006). Im Kontext des Befragungsverhaltens hat sich insbesondere der SEU-Ansatz (d. h. die utilitaristische Werterwartungstheorie) durchgesetzt, wobei es hier vor allem um die Erklärung von Antworttendenzen der Befragten im Zusammenhang mit Prozessen „Sozialer Erwünschtheit“ geht (vgl. z. B. Esser 1990, 2001; Braun 2006). 523
Reinhard Bachleitner, Wolfgang Aschauer
Der Prozess der Handlungswahl (Antwortwahl) wird dabei aus drei Komponenten rekonstruiert, die Braun in Anlehnung an Essers Dreiteilung in Kognition/Evaluation/Selektion näher konkretisiert (vgl. Braun 2006, 7): • „Der Wahrnehmung und Interpretation der Situation. • Der Evaluation der Handlungskonsequenzen. • Der Selektion derjenigen Handlungsalternative, die eine Maximierung des subjektiv erwarteten Nettonutzens verspricht.“ Ausgehend von diesen Modellannahmen wird nun hier ein Ansatz zur „Situationsspezifität“ entwickelt, der diese einmal ergänzt und zum anderen mit konkreten Inhalten füllt. Der Entscheidungsprozess für die Antwortwahl innerhalb der „Situationsspezifität“ von Befragungen ist also ein mehrstufiger, in welchem die Befindlichkeit in allen drei Phasen eine entscheidende Rolle zukommt: • (A): Die Wahrnehmung und Interpretation der Raum-, Zeit- und Sozialparameter (soziale Umwelt) einschließlich der gewählten Befragungstechnik (Modi) erfolgt in Abhängigkeit von der individuellen Befindlichkeit. • (B): Die Bewertungen der Frage, also das Einordnen des Frageinhalts und themas sowie das Erinnern und Assoziieren mit existierenden Eigenerfahrungen (Selbstevaluierung) erfolgt wiederum in Abhängigkeit von individuellen Befindlichkeiten und verändert diese zugleich. • (C): Die Selektionsprozesse und die Entscheidung für eine Antwortkategorie (Antwortwahl) erfolgt ebenfalls in Abhängigkeit von der jeweiligen situativen und individuellen Befindlichkeit.6 abb03 Als theoretisches Integrationsmodell bietet sich das Modell der Frame-Selektion (= MdFS, eine aktuelle Weiterentwicklung der „Definition der Situation“) an, es geht von zwei Annahmen aus: „Erstens ist jedes Handeln von einer rahmenden Definition der Situation bestimmt, und zweitens kann es zu Unterschieden im Grad der rationalen Durchdringung kommen. (. . .). Die Reaktion in einer Situation besteht daher aus zwei simultan erfolgenden Selektionen: die Selektion eines gedanklichen Modells der Situation einerseits (hier A und B, d. V.) und die des Modus der Informationsverarbeitung bei der weiteren Selektion des Handelns andererseits (hier C, d. V.). Die gedanklichen Modelle sind die Frames, unter denen die Akteure die Situation definiert sehen.“ (Esser 2006, 147 f.).7 Bezogen auf die Situation der Befragung bedeutet dies zusammenfassend nochmals: Befragte definieren die „Situation der Befragung“ und bilden einen „Befragungs-Frame“ (Modell der Situation nach Raum-, Zeit-, Sozial- und Modiaspekten); zugleich verorten sie Fragethema und Frageinhalt in diesem 524
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 3: Modell der Situationsspezifität der Befragung
I. Raum
Zeit
Frageinhalt
II.
Befindlichkeit
III.
Situationsspezifität / Framing
(Kognition) Antwortwahl
Frame aufgrund der subjektiven Zentralität unterschiedlich und entscheiden sich schließlich für die subjektiv „wahre“ (= insgesamt situativ determinierte) Antwort. Jeder dieser „Framingschritte“ vollzieht sich unter Beteiligung der affektuellen Aspekte, da eine außeralltägliche Situation vorliegt, in welcher die aktuelle Befindlichkeit des Befragten zum Tragen kommt (vgl. dazu das affektuelle Handeln und Emotionen bei Esser 2006).
5 Zur empirischen Überprüfung der einzelnen Annahmen 5.1 Hypothesenentwicklung zum Einfluss der Situationsspezifität Basierend auf den theoretischen Überlegungen zum Einfluss von Raum, Zeit und Befindlichkeit auf das Befragtenverhalten führten wir eine sekundäranalytische Auswertung bestehender Umfragedaten durch, wo Raum-, Zeitund Befindlichkeitsparameter integriert wurden. Die Ergebnisse zeigen klar, dass der Einfluss zeitlicher (z. B. Wahrnehmung des Befragungszeitpunkts) 525
Reinhard Bachleitner, Wolfgang Aschauer
und räumlicher Indikatoren eher gering bleibt, während die Befindlichkeit des Befragten einen deutlicheren Effekt auf die Antwortvergabe ausübt.8 Zusätzlich zeigen erste Ergebnisse (vgl. Bachleitner & Weichbold 2007) eine Verbindung zwischen dem Bedeutungsgehalt der Fragen und des Befindlichkeitseffekts auf. Je höher der Bedeutungsgehalt der Frage, desto stärker ist der Effekt der Befindlichkeit als Einflussvariable. Eine hohe Ausprägung der „Zentralität“ bedeutet tendenziell einen hohen Grad an Auseinandersetzung mit dem Gegenstand, sodass die subjektiven Überzeugungen durch die Befindlichkeit weiter „überhöht“ werden können. Bei geringer Zentralität kann geringeres Wissen aufgrund meist allgemeiner Fragestellungen angenommen werden; dies führt zu persönlicher Distanzierung in den Antwortreaktionen und somit zu schwächeren Effekten. Eine Evaluationsstudie mit PatientInnen des Unfallkrankenhauses in Salzburg demonstrierte des Weiteren, dass die Befindlichkeit vor allem auf Bewertungsfragen (z. B. Prozess- und Effektdaten der Behandlung) einen Einfluss ausübt, während bei Faktenfragen (Strukturdaten, z. B. Nutzung des Buffets, Lesbarkeit der Patienteninformation) nur geringe Effekte auftreten. Auf Basis dieser ersten empirischen Erkenntnisse sollen nun einzelne Hypothesen formuliert und im Kontext eines experimentellen Untersuchungsdesigns geprüft werden. Die Forschungen konzentrieren sich dabei auf die Reaktionsebene und behandeln schwerpunktmäßig den Einfluss der Befindlichkeit auf die Antwortvergabe je nach Frageinhalt und verwenden das konstruierte Modell zur Situationsspezifität als Basis der Untersuchung. Aus den Erkenntnissen der Frame-Selection-Theorie, den Annahmen zur Situationsspezifität der Befragung sowie aus den ersten empirischen Erkenntnissen zur Thematik können drei Hypothesen abgeleitet werden: 1. Die Befindlichkeit zeigt bei der Antwortvergabe den stärksten Einfluss auf Bewertungsfragen. 2. Je höher die Zentralität des Frageinhalts, desto stärker beeinflusst die Befindlichkeit des Befragten das Antwortverhalten. 3. Die Situationsspezifität bei Umfragen ergibt sich aus interagierenden Einflüssen des Raums (Wahrnehmung des Befragungsorts), der Zeit (Wahrnehmung des Befragungszeitpunkts) und der Wahrnehmung der eigenen Befindlichkeit. Während die ersten beiden Hypothesen theoriegeleitet entwickelt und überprüft wurden, ist die dritte Hypothese stärker explorativ angelegt. Es wurden in der Studie verschiedene Raum- und Zeitparameter sowie Befindlichkeitsindikatoren integriert, um den Einfluss der unabhängigen Dimensionen untereinander zu messen und um Hinweise auf eine adäquate Operationalisierung der Determinanten zu erhalten. 526
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
5.2 Untersuchungsdesign und Operationalisierung Um die Hypothesen zur Situationsspezifität bei Befragungen zu prüfen, ist ein komplexes Untersuchungsdesign erforderlich. Es wurde eine Stichprobe von 160 Studierenden gewonnen, die von acht InterviewerInnen in der Aula der Universität angesprochen und zu einer Befragung motiviert wurden. Es handelte sich also nicht um eine repräsentative Stichprobe, sondern um eine willkürliche Auswahl („convenience sample“) Studierender der Geschichtwissenschaft, Politikwissenschaft und Kommunikationswissenschaft. In die Untersuchung wurden Raum-, Zeit- und Befindlichkeitsparameter einbezogen und auf unterschiedliche Weise gemessen: • Raumeinfluss: Hier konzentrierte sich die Studie auf den Einfluss verschiedener Befragungsorte auf das Meinungsbild der Befragten. Vor Beginn des Interviews mussten die UntersuchungsteilnehmerInnen eine Zahl zwischen 1 und 10 nennen und wurden mit Hilfe eines Zufallszahlengenerators einer von vier Bedingungen zugewiesen. Das Interview wurde entweder in einem lauten hektischen Befragungsort (Mensa) oder in einem ruhigen und angenehmen Setting (Sitzungsraum) schriftlich oder mündlich durchgeführt. Eine Skala mit fünf Items bezog sich auf die Befragungsatmosphäre, die in räumlicher und sozialer Hinsicht von den Studierenden beurteilt wurde. • Zeiteinfluss: Der Einfluss der Zeit spielte in unserem Experiment eine untergeordnete Rolle. Es wurde die Passfähigkeit des Befragungszeitpunkts durch einen Indikator (sehr ungünstig bis sehr günstig mit fünfstufiger Skalierung) abgefragt. Zusätzlich wurde der Zeitrahmen der Befragung (11.30–14.30) sowie die Erhebungsphase (zwei Wochen) konstant bzw. kurz gehalten, um Einflüsse der Chronobiologie sowie des Erhebungszeitraums kontrollieren zu können. • Die Befindlichkeit der Befragten wurde sowohl in einer Ein-Item Version (fünfstufige Smiley-Skala) als auch mit einer etablierten Skala (mehrdimensionaler Befindlichkeitsfragebogen MDBF von Steyer et al. 1997) abgefragt.9 Neben der Erhebung dieser unabhängigen Indikatoren wurden vier Skalen mit jeweils sechs Items als abhängige Variablen vorgegeben. Zusätzlich zu jeder inhaltlichen Einschätzung (fünfstufig) mussten die ProbandInnen auch eine fünfstufige Einschätzung der Zentralität des Frageinhalts (die Frage ist von geringer Bedeutung vs. von hoher Bedeutung für mich) vornehmen. Auch bei den als abhängig zu betrachtenden Einschätzungs- und Bewertungsfragen wurde auf theoretisch und empirisch fundierte Skalen zurückgegriffen, um stabile Indikatoren errechnen und auf valide Daten zurückgreifen zu können. 527
Reinhard Bachleitner, Wolfgang Aschauer
Bei jedem einzelnen Item sollte eine negative vs. positive Einschätzung möglich sein, und es wurde eine große Streuung der Zentralität des Frageinhalts angestrebt. Deswegen wurden Skalen ausgewählt, die mit einer voraussichtlich hohen Zentralität verbunden sind (z. B. körperliche und psychische Gesundheit) sowie auch Fragen, die für die Studierenden als wenig relevant eingestuft werden könnten (z. B. Zufriedenheit mit Behörden). Zusammenfassend wurden folgende vier Skalen mit jeweils sechs Items verwendet: • Zufriedenheit mit Behörden (Quelle: ZUMA-Informationssystem) • Zufriedenheit mit der österreichischen Gesellschaft (Quelle: European Social Survey) • Gekürzte und adaptierte Skala zur Kollegialität und Belastung bei Studierenden (Quelle: ZUMA-Informationssystem) • Skala zur körperlichen und psychischen Gesundheit (adaptiert aus dem Fragebogen zur Lebenszufriedenheit von Fahrenberg i. d. Aufl. 2000)
5.3 Prüfung der Hypothesen zum Einfluss der Situationsspezifität In der Erläuterung der Ergebnisse des Experiments beschränkt sich die Analyse auf eine Prüfung der drei entwickelten Hypothesen.
Hypothese 1: Die Befindlichkeit zeigt bei der Antwortvergabe den stärksten Einfluss auf Bewertungsfragen. Um diese Hypothese zu prüfen, wurde eine Korrelationsmatrix erstellt, wobei die jeweiligen Raum-, Zeit- und Befindlichkeitsindikatoren als unabhängige Variablen und die einzelnen Skalen als abhängige Variablen10 zu sehen sind. Sämtliche unabhängigen Indikatoren wurden dichotomisiert und der Rangkorrelationskoeffizient Spearman’s Rho zur Berechnung der Zusammenhänge herangezogen. In der Tabelle zeigen die Ergebnisse der ersten Zeile klassische Effekte der sozialen Erwünschtheit auf. Bei mündlichen Interviews wird eine höhere Zufriedenheit mit den Studienkollegen angegeben, und zusätzlich äußern sich die Befragten zufriedener mit der eigenen Gesundheit. Auch bei Indikatoren des Befragungsorts und der Atmosphäre treten vereinzelt signifikante Zusammenhänge auf. Im Kontext einer ruhigen Umgebung (Sitzungssaal) wird eine höhere Zufriedenheit mit Behörden angegeben. Wird die Befragungsatmosphäre in sozialer Hinsicht positiv wahrgenommen, erhöht dies die Zufriedenheit mit der eigenen Gesundheit, wobei hier die ak528
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Tabelle 1: Der Einfluss unabhängiger Variablen auf die Skalenwerte Zufrieden- Autonomie Zufrieden- Zufrieden- Studienheit mit gegenüber heit mit heit mit belastung Behörden Behörden Gesundheit Kollegen Befragungsmodus
0,075
–0,006
0,184*
Befragungsort
0,133+
–0,089
0,030
Atmosphäre in sozialer Hinsicht
0,069
0,013
räumlich: attraktiv, gemütlich
0,080
0,131
räumlich: ruhig, leise
0,096
–0,201*
Zeitpunkt Befindlichkeit
–0,002 0,209**
–0,010 0,035
0,061
0,135
–0,067
–0,042
0,106
0,161*
0,104
–0,016
–0,024
0,044
0,157*
0,032
–0,052
–0,017
0,062
–0,021
0,160*
Zufriedenheit mit österr. Gesellschaft
–0,050
0,054
0,103
0,247**
0,204*
0,092
0,107
–0,039
–0,037
+ Die Korrelation ist nicht signifikant, zeigt jedoch einen Trend auf (p < 0,1) * Die Korrelation ist auf dem 0,05 Niveau signifikant (zweiseitig). ** Die Korrelation ist auf dem 0,01 Niveau signifikant (zweiseitig).
tuelle Befindlichkeit mit der Beurteilung der Atmosphäre in Interaktion treten könnte. Bei einer wahrgenommenen hektischen Befragungsatmosphäre wird zusätzlich eine größere Autonomie gegenüber den Behörden verspürt. Jene Personen, die sich in der Befragungssituation gestört fühlen, verspüren somit einen stärkeren Drang, sich gegen Entscheidungen der Behörden zu wehren. Dieses signifikante Ergebnis könnte auch auf stabile Dispositionen der UntersuchungsteilnehmerInnen (mangelnde Frustrationstoleranz in der Befragungssituation und bei Behörden) zurückzuführen sein. Insgesamt zeigt sich bei den einzelnen Bewertungsskalen eine eindeutige Bestätigung der Hypothese. Während räumliche Indikatoren nur bei jeweils einem Skalenwert Unterschiede bewirken und durch die Passfähigkeit des Befragungszeitpunkts kein Effekt auf die Bewertung entsteht, beeinflusst die aktuelle Befindlichkeit (Ein-Item-Messung) drei der sechs Einstellungsbereiche, und es können insgesamt deutlichere Effekte beobachtet werden. Sowohl die Zufriedenheit mit Behörden als auch die Zufriedenheit mit der eigenen Gesundheit sowie mit Studienkollegen ist bei positiver Befindlichkeit deutlich größer. 529
Reinhard Bachleitner, Wolfgang Aschauer
Analysiert man die Zusammenhänge getrennt nach Geschlecht, so sind einigermaßen deutliche Unterschiede in den Einflüssen erkennbar.11 Männer sind in dieser studentischen Stichprobe sichtlich empfänglicher für Effekte der sozialen Erwünschtheit, weil deutlich unterschiedliche Beurteilung nach Befragungsmodus auftreten. Bei Frauen sind hingegen stärkere Effekte der Befindlichkeit auf das Antwortverhalten beobachtbar. Zusätzlich kann der Effekt, dass eine hektischere Befragungsatmosphäre einen größeren Drang zur Autonomie gegenüber Behörden bewirkt, nur bei weiblichen Untersuchungsteilnehmerinnen nachgewiesen werden.
Hypothese 2: Je höher die Zentralität des Frageinhalts, desto stärker beeinflusst die Befindlichkeit des Befragten das Antwortverhalten. Um eine adäquate Streuung der Zentralitätseinschätzungen zu gewährleisten und den Zusammenhang zwischen der Bedeutung des Frageinhalts und des Effekts der Befindlichkeit zu prüfen, wurde auf der Ebene der Einzelitems gerechnet.12 Abbildung 4: Streudiagramm der Zentralitätseinschätzung und des Befindlichkeitseffekts
Spearman’s Rho Befindlichkeit (1-Item Messung)
0,40 Gesundheit
Gesundheit
0,30
Gesundheit Gesundheit Studium Studium
0,20 Behörden
Gesundheit
Behörden Gesundheit
Behörden
0,10
Politik
Behörden
Politik
Behörden Studium Studium
0,00
Politik
Politik Behörden Politik Politik
R Sq Linear = 0,365
Studium Studium
-0,10
3,00
3,50
4,00
Zentralität
530
4,50
5,00
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Abbildung 4 zeigt einen Zusammenhang in beachtlicher Stärke (r = 0,61) auf, was für eine eindrucksvolle Bestätigung der These spricht. Je höher die Bedeutung des Frageinhalts, desto stärker beeinflusst die Befindlichkeit die Bewertung. Die angegebene Effektstärke zeigt, dass der Einfluss der Befindlichkeit in dieser Studie zu über einem Drittel auf die Bedeutung des Frageinhalts zurückgeführt werden kann.
Hypothese 3: Die Situationsspezifität bei Umfragen ergibt sich aus interagierenden (konfundierten) Einflüssen von Raum (Wahrnehmung des Befragungsorts), Zeit (Wahrnehmung des Befragungszeitpunkts) und Wahrnehmung der eigenen Befindlichkeit. Während in der bisherigen Auswertung hypothesenprüfend vorgegangen wurde, ist die empirische Analyse der Situationsspezifität explorativ angelegt. Aus den Zusammenhangskoeffizienten wird deshalb ein Modell der Situationsspezifität konstruiert, das die empirischen Relationen wiedergibt. Das Modell (Abbildung 5) zeigt zahlreiche Beziehungen zwischen den unabhängigen Indikatoren der Studie auf, was für eine starke Interaktion der Raum-, Zeit- und Befindlichkeitsindikatoren spricht. Die Befindlichkeit wird als unabhängig betrachtet, sie setzt sich nach unserem Verständnis aus einer Grundstimmung begleitet von situativen Empfindungen zusammen. Dass die Befindlichkeit die Wahrnehmung der Befragungsatmosphäre und die Abbildung 5: Zusammenhänge zwischen den unabhängigen Indikatoren der Studie Befindlichkeit / Befragungsort
Zeitpunkt der Befragung
Befragungsatmosphäre
Zeitpunkt ungünstig vs. günstig 0,33 0,28
Dimension Schläfrigkeit / Wachheit
Sozial angenehm 0,24
0,35
0,34
Dimension gedrückte / gehobene Befindlichkeit 0,23
0,43
0,22 0,29
0,25
0,21
0,24
Räumlich attraktiv
Dimension Unruhe / Ruhe
0,22
Befragungsort (Mensa vs. Sitzungssaal)
0,20
Räumlich leise / ruhig 0,63
531
Reinhard Bachleitner, Wolfgang Aschauer
Einschätzung des Befragungszeitpunkts beeinflusst und umgekehrt, bestätigt das Modell der Zusammenhänge zwischen den Variablen. Zwischen sämtlichen räumlichen Indikatoren und der negativen vs. positiven (Grund-) Befindlichkeit bestehen nennenswerte Verbindungen (r > 0,20). Besonders deutlich werden die Wahrnehmung des Befragungszeitpunkts sowie die Beurteilung der Atmosphäre in sozialer Hinsicht durch die Skala der gedrückten vs. positiven Befindlichkeit beeinflusst. Die drei Einflussgrößen Raum, Zeit und Befindlichkeit innerhalb der Situationsspezifität bei Befragungen sind deshalb nicht als unabhängige, sondern als stark interagierende Einflussgrößen zu verstehen. Wie sie sich gegenseitig bedingen, muss durch weitere Studien präzise herausgearbeitet werden.
6 Relevanz der Ergebnisse für die künftige Umfrageforschung Sowohl in der hier vorgestellten Studie als auch in weiteren Erhebungen konnten signifikante situationsspezifische Einflüsse auf die Antwortwahl identifiziert werden. Die erhaltenen und teilweise mit beachtlichen Effekten ausgestatteten Antwortentscheidungen stützen das vorgestellte Modell der „Situationsspezifität der Befragung“. Fast durchgehend erweist sich dabei die Befindlichkeit als stärkste Einflussgröße (Bestätigung der ersten Hypothese), welche insbesondere bei Fragen mit hoher Zentralität antwortleitend wirkt. Die Zentralität des Frageinhalts hat sich in diesem experimentellen Befragungsdesign, das eine Einschätzung der Zentralität bei jedem Item in die Analysen integrierte, als beachtlicher Erklärungsfaktor des Einflusses der Befindlichkeit auf Umfragen erwiesen (Bestätigung der Hypothese 2). In dieser Studie wurde deutlich, dass räumlich-zeitliche Parameter nicht die ausschlaggebenden sind, sondern nur die aktuelle Befindlichkeit einen deutlichen Einfluss auf die Urteilsvergabe ausübt. Künftige Forschungen sollten sich deshalb auf die Befindlichkeit als Einflussgröße konzentrieren, die jedoch mit räumlichen und zeitlichen Einflussfaktoren in Interaktion tritt (Bestätigung der Hypothese 3). Weil jedoch nur die negative vs. positive Befindlichkeit Effekte bewirkt, kann die Operationalisierung der situationsspezifischen Einflussgrößen ökonomisch erfolgen. Mittelfristiges Ziel innerhalb der Umfrageforschung sollte es daher sein, „R-Z-B-Parameter“ in jeder Befragung zu erfassen; Kurzskalen oder Ein-Item-Lösungen sind dabei durchaus ausreichend13, können ökonomisch in den Fragebogen integriert und in die Auswertung einbezogen werden. 532
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
Waren es bislang soziodemografische Variablen, nach denen die Meinungen und Einstellungen differenziert wurden, so sollten es – unseren Analysen zufolge – auch „R-Z-B-Aspekte“ sein, die die abgegebenen Urteile und Bewertungen differenzierter wiedergeben. Eine derartige Differenzierung des erhaltenen Umfragewissens hat erhebliche Vorteile: Umfragedaten produzieren und beinhalten – bezogen auf ein wie immer gewähltes „Wahrheitskriterium“ – entlastendes und belastendes Wissen gleichermaßen. Entlastend insofern, als erhebliche Prozentanteile der negativen Urteile aus einer negativen Befindlichkeit der Befragten heraus entstehen und somit das Bewertungsobjekt letztlich entlasten. Belastend jedoch auch, als die hohen Prozentanteile der erfassten (negativ eingefärbten) Meinungen und Einstellungen vom Individuum abgespeichert und so auch weitergegeben werden, und zwar im Nichtwissen des eigenen negativen Befindlichkeitszustands. Dies wirkt somit für den Untersuchungsgegenstand belastend, da negativ erinnert und entsprechend kommuniziert wird (vgl. dazu Bachleitner & Aschauer 2008, 34). Auch wenn hier räumliche und zeitliche Parameter im Rahmen der Situationsspezifität wenig Einfluss zeigten, sollten diese Größen innerhalb der Umfrageforschung in einem anderen Kontext stärker berücksichtigt werden. Gerade bei kulturvergleichenden Studien muss eine stärkere raumbezogene Auswertung erfolgen, und es sollten nationale vs. regionale Einstellungen sowie die Varianz innerhalb der Kulturen stärker berücksichtigt werden. Bezüglich zeitlicher Einflüsse sollte der räumliche und zeitliche Kontext der Erhebung stärker in den Blickwinkel genommen werden. Begleitende Analysen sind erforderlich, wie externe Ereignisse während der Erhebungsphase das Meinungsbild der Befragten beeinflussen. Eine Vorreiterrolle zur Kontrolle zeitlicher Einflüsse nimmt hier der European Social Survey ein, begleitend zur Erhebungsphase wird in den einzelnen Staaten eine wöchentliche Ereignis-Berichterstattung verlangt.14 Die bestehende Event-Datenbank (http://www.scp.nl/ess/events) bietet ein wertvolles Archiv, um Effekte einzelner Ereignisse auf das Meinungsbild der Befragten zu messen, leider liegen dazu bislang keine umfassenden empirischen Studien vor.
533
Reinhard Bachleitner, Wolfgang Aschauer
Anmerkungen 1 2
3
4
5
6
7
8
534
Lediglich vereinzelte Arbeiten etwa von Esser (1986, 2006), Kreutz (2004) und Braun (2006) liegen vor. So moniert z. B. jüngst Stocké (2004), dass inkonsistente Ergebnisse beispielsweise zum „Social Desirability-Bias“ vorliegen und bei differenzierter Betrachtung auf der Ebene der Einzelitems nur einige wenige signifikante Effekte vorliegen. So wird z. B. die Anwesenheit Dritter bei Interviews determiniert durch: Alter, Bildungsunterschied, Art der Beziehung, Qualität der Beziehung, Geschlechterkonstellation und Inhalt der Fragen (vgl. Lander 2000). Neben Effekten auf der Akteursebene (der UntersuchungsteilnehmerInnen) sind auch Effekte auf der Instrumentenebene zu erwarten. Diese können sowohl Selektionskriterien einer Umfrage als auch die Reaktionsebene betreffen. Auf der Selektionsebene ergeben sich Fragen, welche Personen durch welches Befragungsverfahren angezogen bzw. ausgeschieden werden (vgl. zu Mode-Effekten z. B. de Leeuv 1992; Dillman 2008), auf der Reaktionsebene können ebenfalls je nach Befragungsmodus und Frageinhalt unterschiedliche Effekte auftreten. Auf den Stellenwert von Emotionen für Handlungen verweist Weber (i. d. Aufl. 1984, 44 ff.) mit seinen vier Typen sozialer Handlungsorientierungen: die affektuelle, die traditionale, die wert- und die zweckrationale Orientierung. Die situationale Handlungsentscheidung im Befragtenverhalten beinhaltet sowohl „arationale“ wie auch „rationale“ Handlungsformen. Die beiden erstgenannten sind die arationalen Handlungsorientierungen, und diese laufen affektuell gesteuert bzw. spontan-automatisch ab. Zum Befragtenverhalten liegt auch der bekannte kognitionspsychologische Ansatz von Sudman & Bradburn & Schwarz (1996) vor. Die Autoren bestimmen vier Phasen des Antwortverhaltens: Der erste Schritt besteht in der Verstehensleistung der Frage („comprehension“). Das Verstehen setzt sich aus einem semantischen Verstehen (Bedeutung der Frage) und einem pragmatischen Verstehen (intendiertes Interesse des Forschers) zusammen. Nach Abruf der relevanten Informationen aus dem Gedächtnis („retrieval“) erfolgt schließlich die Urteilsbildung („judgement“) und die anschließende Editierung der Antwort („response“). Auch hier können Verzerrungen entstehen, weil vorgegebene Skalen und Kategorien die Antwortvergabe beeinflussen. Dem Befragtenverhalten in kognitiver Hinsicht wird in diesem Artikel nicht weiter nachgegangen, weil wir uns auf die noch weitgehend unerforschte Determinante der Befindlichkeit konzentrieren. Bei der laufenden und weiterführenden Theorieentwicklung zum Befragungsverhalten soll der hier vorgestellte Ansatz erweitert werden und die einzelnen Paradigmen zur Verhaltenserklärung herangezogen werden, wie das utilitaristische, das normative, das interpretative und das strukturtheoretische Paradigma, da dadurch eine Erweiterung der Handlungssteuerung erreicht wird (vgl. White 1992; Gabriel & Gratzl 2008). Beispielsweise wurde bei einer Studie des Instituts für Grundlagenforschung (Marktforschungsinstitut in Salzburg) jeweils ein Indikator zur sozialen Situation, zur Wahrnehmung des Befragungszeitpunkts und zur Befindlichkeit (jeweils fünfstufig) eingebaut. Bei 23 Bewertungsfragen konnten bei der Frage nach der sozialen Situation nur zwei Zusammenhänge über 0,1 gemessen werden, bei der Frage nach der Wahrneh-
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung
9
10
11
12
13 14
mung des Befragungszeitpunkts traten drei Zusammenhänge in dieser Stärke auf, während die Befindlichkeit des Befragten bei 11 der 23 Indikatoren einen signifikanten Effekt bewirkte. Die Befindlichkeitsskala erhebt in der Kurzversion mit jeweils vier Items die Dimensionen Schläfrigkeit vs. Wachheit, Erregung vs. Ruhe und gedrückte vs. positive Stimmung. Aus den vier Skalen konnten sechs Indikatoren faktorenanalytisch (Hauptkomponentenanalyse mit Rotationsmethode der Varianzmaximierung) gewonnen werden. Aus den eindeutigen Ladungszahlen wurde jeweils ein Index des Skalenwerts berechnet, um die ursprüngliche Codierung der Variable beizubehalten. Aufgrund der geringen Stichprobengröße in den einzelnen Kategorien der unabhängigen Variablen sollten die Ergebnisse nur mit Vorsicht interpretiert werden und bedürfen weiterer Forschungen. Insgesamt basiert das Streudiagramm auf den 24 Einzelitems, es wurden die mittleren Zentralitätseinschätzungen (x-Achse) und die Korrelationskoeffizienten der Befindlichkeit auf die inhaltliche Bewertung in Beziehung gesetzt. Vgl. dazu auch die Bemühungen, die „Big-Five-Persönlichkeitsfaktoren“ mit Kurzskalen in der Umfrageforschung zu etablieren (z. B. Schumann 2005). Mithilfe exakter Dokumentationsrichtlinien (vgl. Stoop 2006) müssen sämtliche Ereignisse, die während der Erhebungsphase auftreten, dokumentiert werden. Die einzelnen Vorkommnisse werden nach Typ des Ereignisses, Zeitpunkt, Quellen und Einflussbereich auf Fragen und Feldarbeit klassifiziert.
Literatur Atteslander, P. (2006). Methoden der empirischen Sozialforschung. 11. Auflage. Berlin. Bachleitner, R., & Weichbold, M. (2007). Befindlichkeit – eine Determinante im Antwortverhalten? Zeitschrift für Soziologie, 36, 182–196. Bachleitner, R., & Aschauer, W. (2008). Das Salzburg Museum und seine Besucher. In R. Bachleitner & M. Weichbold (Hg.), Kunst – Kultur – Öffentlichkeit. Salzburg und die zeitgenössische Kunst (163–181). Wien – München: Profil Verlag. Baur, N. (2005). Verlaufsmusteranalyse: methodologische Konsequenzen der Zeitlichkeit sozialen Handelns. Wiesbaden: VS Verlag. Braun, M. (2006). Funktionale Äquivalenz in interkulturell vergleichenden Umfragen. Mythos und Realität. Mannheim: ZUMA. Bungart, W., & Lück, H., & Miller, R. (2005). Forschungsartefakte und nicht-reaktive Messverfahren. Wiesbaden: VS Verlag. De Leeuw, E. (1992). Data Quality in Mail, Telephone and Face-to-face Surveys. Amsterdam: TT-Publ. Dillman, D. et al. (2008). Response Rate and Measurement Differences in Mixed Mode Surveys Using Mail, Telephone, Interactive Voice Response (IVR) and the Internet. So-
535
Reinhard Bachleitner, Wolfgang Aschauer cial Science Research, in press. Abgerufen am 10.08.2008, Website: http:// www.sesrc.wsu.edu/dillman/papers.htm. Döring, J. (2008). Spatial Turn: das Raumparadigma in den Kultur- und Sozialwissenschaften. Bielefeld: Transcript. Eid, M. (1995). Modelle der Messung von Personen in Situationen. Weinheim: Beltz-Psychologie Verlags Union. Esser, H. (1975). Das Problem der Reaktivität bei Forschungskontakten. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 27, 257–271. Esser, H. (1982). Der Befragte. In Van Koolwijk et al. (Hg.), Techniken der empirischen Sozialforschung. Erhebungsmethoden: Die Befragung (Vol. 4, S. 107–145). München – Wien: Oldenbourg Verlag. Esser, H. (1986). Können Befragte lügen? Zum Konzept des „wahren Wertes“ im Rahmen der handlungstheoretischen Erklärung von Situationseinflüssen bei der Befragung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 38, 314–336. Esser, H. (1990). „Habits“, „Frames“ und „Rational Choice“: Die Reichweite von Theorien der rationalen Wahl (am Beispiel der Erklärung von Befragtenverhalten). Zeitschrift für Soziologie, 19 (4), 231–247. Esser, H. (2001). Soziologie, Spezielle Grundlagen: Band 6: Sinn und Kultur. Frankfurt: Campus. Esser, H. (2006). Affektuelles Handeln: Emotionen und das Modell der Frame-Selektion. In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (143–174). Frankfurt am Main: Campus. Fahrenberg, J. et al. (2000). Skala zur Lebenszufriedenheit. Göttingen: Hogreve. Gabriel, M., & Gratzl, N. (2008). Paradigmen in der Soziologie – Explikation, Unterscheidungen und Unterschiede. In A. Balog & J. A. Schülein (Hg.), Soziologie, eine multiparadigmatische Wissenschaft. Erkenntnisnotwendigkeit oder Übergangsstadium (81–104). Wiesbaden: VS Verlag. Hilgers, A. (1997). Artefakt und empirische Sozialforschung. Genese und Analyse der Kritik. Berlin: Duncker & Humblot. Kriz, J. (1981). Methodenkritik empirischer Sozialforschung. Eine Problemanalyse sozialwissenschaftlicher Forschungspraxis. Stuttgart: Teubner. Lander, B. (2000). Anwesenheitseffekte im Wandel. Eine Sekundäranalyse zur Anwesenheit des Partners im Interview anhand des ALLBUS 1980 bis 1998. Zeitschrift für Soziologie, 29, (3), 227–238. Mees, U. (2006). Zum Forschungsstand der Emotionspsychologie – eine Skizze. In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (104–123). Frankfurt am Main: Campus. Reuband, K.-H. (1998). Der Interviewer in der Interaktion mit dem Befragten – Reaktionen der Befragten und Anforderungen an den Interviewer. In Statistisches Bundesamt (Hg.), Interviewereinsatz und Qualifikation. Spektrum der Bundesstatistik (Vol. 11, 138–155). Stuttgart: Metzler-Poeschel.
536
Zur Situationsspezifität von Raum, Zeit und Befindlichkeit in der Umfrageforschung Revers, W. J. (1999). Die historische Relativität wissenschaftlicher Methoden – eine wissenschaftshistorische Kritik. In E. Roth & H. Holling (Hg.), Sozialwissenschaftliche Methoden (Vol. 5, S. 74–87). München – Wien: Oldenbourg. Schnabel, A. (2006). Sind Emotionen rational? In R. Schützeichel (Hg.), Emotionen und Sozialtheorie. Disziplinäre Ansätze (175–194). Frankfurt am Main: Campus. Schumann, S. (2005). Persönlichkeit. Eine vergessene Größe der empirischen Sozialforschung. Wiesbaden: VS Verlag. Schroer, M. (2006). Räume, Orte, Grenzen. Auf dem Weg zu einer Soziologie des Raums. Frankfurt am Main: Suhrkamp. Schützeichel, R. (Hg.) (2006). Emotionen und Sozialtheorie. Disziplinäre Ansätze. Frankfurt: Campus. Schwarz, N., & Clore, G. L. (2003). Mood as Information: 20 Years Later. Psychological Inquiry, vol. 14, 296–303. Stachura, M. (2006). Logik der Situationsdefinition und Logik der Handlungsselektion. Der Fall des wertrationalen Handels. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 58, 433–452. Steyer, R., & Schwenkmezger, P., & Notz, P., & Eid, M. (1997). Der Mehrdimensionale. Befindlichkeitsfragebogen (MDBF). Handanweisung. Göttingen: Hogrefe. Stocké, V. (2004). Entstehungsbedingungen von Antwortverzerrungen durch soziale Erwünschtheit: Ein Vergleich der Prognosen der Rational-Choice Theorie und des Modells der Frame Selection. Zeitschrift für Soziologie, 33, H. 4, 303–320. Stoop, I. (2006). Event Data Collection, Round 3. Guidelines for National Coordinators. Abgerufen am 10.08.2008, Website: http://www.europeansocialsurvey.org. Sudman, S., & Bradburn, N. M., & Schwarz, N. (1996). Thinking About Answers. The Application of Cognitive Processes to Survey Methodology. San Francisco: Jossey-Bass. Weber, M. (1984). Soziologische Grundbegriffe. Tübingen: UTB-Verlagsgesellschaft. White, H. (1992). Identity and Control: a Structural Theory of Social Action. Princeton: Univ. Press. ZUMA-Informationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente, Version 11.0, 2007. Abgerufen am 10.08.2008, Website: http:// www.gesis.org/Methodenberatung/ZIS/index.htm.
537
Markus Pausch
Markus Pausch
Eurobarometer und die Konstruktion eines europäischen Bewusstseins Zusammenfassung Politische Meinungsforschung hat u. a. eine demokratiepolitische Funktion, nämlich die Meinung der Mehrheit zu erheben, damit die Eliten danach handeln können. Im Falle von Eurobarometer, dem weltweit größten transnationalen Umfrageinstrument, wird diese Funktion nur teilweise erfüllt. So fehlt etwa auf europäischer Ebene eine politische Öffentlichkeit im Sinne eines transnationalen Meinungsaustausches. Darüber hinaus verfügt die Europäische Kommission als Auftraggeberin der Umfragen über ein faktisches Interpretationsmonopol. Und schließlich werden die Ergebnisse meist im jeweils nationalen Kontext der 27 EU-Mitgliedsstaaten präsentiert, wodurch eine demokratiepolitisch wichtige trans- oder supranationale Debatte eher verhindert als gefördert wird.
Abstract Eurobarometer and the Construction of a European Consciousness Political opinion polls have a democratic function. They should legitimate decisions by surveying the opinion of the majority. Eurobarometer, the largest transnational survey instrument in the world, does not satisfyingly fulfil this function because of several difficulties such as the lack of a European public sphere and the factual monopoly of interpretation by the European Commission. Furthermore, the presentation and the perception of the results take place in the national contexts of the 27 EU member states, which hinders a democratic trans- or even supranational debate.
Einleitung Umfrageforschung wird nicht um ihrer selbst willen – als l’art pour l’art – betrieben. Sie soll vielmehr gewisse Funktionen für eine Gesellschaft erfüllen. Sieht man von wissenschaftlichen Studien mit vorrangigem Interesse an reinem Erkenntnisgewinn ab, so kann man – zumindest in Demokratien – in 539
Markus Pausch
der Regel zwei mögliche Ziele von Meinungsumfragen voneinander unterscheiden, nämlich ein prospektives in Bezug auf erst zu treffende Entscheidungen und ein retrospektives in Bezug auf schon gefällte Entscheidungen. Im politischen Kontext haben beide Ziele demokratiepolitische Bedeutung und definieren sich über ihren partizipatorischen Charakter: Das erste zielt ganz basisdemokratisch darauf ab, die Meinung der Mehrheit herauszufinden und im Idealfall auch danach zu handeln. Das zweite beinhaltet immerhin den Anspruch, den Bedarf nach Änderungen des Status quo zu erheben. Umfrageforschung, die sich außerhalb dieser beiden Ziele bewegt und sich auch nicht der wissenschaftlichen Erkenntnis widmet, wird sich die Frage gefallen lassen müssen, wozu sie betrieben wird (vgl. Beck & Bonß 1989). Konsequenterweise werden in den westlichen Demokratien die Ergebnisse aus Umfragen denn auch stets als Legitimationswissen verwendet und weitgehend auch gesellschaftlich als solches akzeptiert. Die Annahme, die dahinter steckt, ist eine radikaldemokratische, nämlich die, dass die Mehrheit – bezeichnenderweise mit öffentlicher Meinung gleichgesetzt – in jedem Falle Recht hat – und das im wahren Wortsinn: Die Meinung der Mehrheit setzt Recht. Auch wenn dieser Zusammenhang in der Realität nur in seltenen Fällen auf direktdemokratischem Weg tatsächlich zu Rechtsetzung führt, so ist er doch ein mächtiger Faktor im politischen Diskurs. Die Mehrheit der Meinungen wird zur öffentlichen Meinung und setzt die EntscheidungsträgerInnen unter Druck oder legitimiert ihre Handlungen. Die radikaldemokratische Note von Meinungsumfragen steht der repräsentativen Demokratie gegenüber und soll deren Mängel an Partizipation ausgleichen. Dieses Spannungsverhältnis gewinnt im Rahmen der Europäischen Union aufgrund des häufig beklagten Demokratiedefizits zusätzlich an Bedeutung (vgl. Hix & Follesdal 2005). Zum einen sind die repräsentativen Strukturen dieses supranationalen Gebildes im Vergleich zu Nationalstaaten schwach ausgeprägt, zum anderen gibt es auch keine mit den Nationalstaaten vergleichbare politische Öffentlichkeit im Sinne von Kommunikationsnetzwerken (vgl. Gerhards 1993; Risse 2003). Den von der EU-Kommission finanzierten Meinungsumfragen, veröffentlicht im so genannten Eurobarometer, kommt daher eine spezielle Rolle zu. Sie sollen laut ihrem Initiator Jacques René Rabier etwas schier Unmögliches leisten, nämlich eine öffentliche Meinung abfragen, um damit ein europäisches Bewusstsein herzustellen (Europäische Kommission 2004, 3). Aus diesem paradoxen Anspruch heraus ergeben sich mehrere nicht-triviale Probleme, welche grundlegende Fragen der Umfrageforschung berühren, nämlich u. a. das Verhältnis zwischen politischen Akteuren und von ihnen durchgeführten bzw. in Auftrag gegebenen Umfragen, die Möglichkeit einer öffentlichen Meinung ohne Öffent540
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
lichkeit, die Interpretation der Ergebnisse sowie allgemeine methodische Herausforderungen an transnationale Meinungsforschung. Der Artikel versteht sich als kritische Analyse eines Umfrageinstruments, das neben zahlreichen Verdiensten für die vergleichende Sozialwissenschaft auch einige Probleme in demokratiepolitischer Hinsicht aufweist. Der Fokus der Analyse liegt dabei weniger auf den methodischen Details als auf den für die politische Debatte relevanten Interpretationen und den Veröffentlichungen der Europäischen Kommission.
1 Die Europäische Kommission als Barometermacher Anfang der 70er Jahre führte ein Bericht einer Gruppe von Abgeordneten des Europäischen Parlaments unter der Leitung von Wilhelm de Schuijt zur Forderung nach einer regelmäßigen Umfrage unter der Bevölkerung der damaligen EG. Die Notwendigkeit einer europäischen öffentlichen Meinung wurde betont (Schuijt 1972, 3). Diese „echte“ europäische öffentliche Meinung sollte laut Schuijt durch Meinungsumfragen hervorgebracht werden, denn sie existiere noch nicht (Schuijt 1972, 7). In der Folge bekam Jacques René Rabier, der bis 1973 Generaldirektor des Presse- und Informationsdienstes der Europäischen Gemeinschaften gewesen war, die Gelegenheit, sich systematisch mit der Einrichtung einer europaweiten Meinungsumfrage zu befassen. Er war es dann auch, der den Eurobarometer einführte und von 1973 bis 1986 als Sonderberater der Europäischen Kommission für Meinungsumfragen tätig war. Im Frühjahr 1974 entstand der erste Eurobarometer mit folgenden Zielsetzungen: • „Bewertung der Wahrnehmung der Aktivitäten der Europäischen Gemeinschaften durch deren Adressaten • Weitestmögliche Voraussage der Aufnahme institutioneller Initiativen bei der breiten Öffentlichkeit • Als Meinungsbarometer sollte dieses Datenerhebungsinstrument auch in der Lage sein, die Entwicklung der europäischen öffentlichen Meinung zeitlich (zwei Befragungswellen im Jahr) und räumlich (Mitgliedstaaten) zu messen.“ (Europäische Kommission 2004, 1). Diese Ziele standen in unmittelbarer Verbindung zu dem Wunsch, eine proeuropäische Haltung in der Bevölkerung der EG zu fördern. Es waren also nicht unabhängige Wissenschafter, die dieses Instrument initiierten, sondern die Europäische Kommission und das Europäische Parlament. Und es ging zu einem Gutteil darum, das elitengeleitete Projekt der europäischen 541
Markus Pausch
Integration einer breiten Öffentlichkeit schmackhaft zu machen und die Entscheidungen der EG zu legitimieren. Dieses Anliegen der politischen Akteure ist aus demokratiepolitischer Sicht vorerst nicht verwerflich. Ganz im Gegenteil muss man der Kommission und dem Parlament zugestehen, sich für die Demokratisierung der EG bzw. EU stets mehr als andere Institutionen eingesetzt zu haben. Auch die Einführung des Eurobarometers war mit dem hehren Ziel verbunden, die Menschen näher an die Europapolitik heranzubringen. Dennoch kommt man nicht umhin, in diesem Zusammenhang die Frage nach dem Verhältnis zwischen Meinungsforschung und Politik zu stellen. Laut George Gallup haben Umfragen vorrangig eine demokratiepolitische Funktion. Wichtige politische Entscheidungen sollten seiner Einschätzung nach nicht ohne Einbeziehung der Bevölkerung getroffen werden (vgl. Gallup 1939). „Gallup’s explanations reveal the problematic that justified the formation of the public opinion research in the first place, namely, the contradiction between the functional requirements of a democratic state and its inherent claim to legitimate its political order through the public“ (Keller 1997, 2). Gallup sprach sich gerade aufgrund dieses Spannungsverhältnisses gegen staatliche Umfragen aus, da die Gefahr einer Monopolisierung bestünde und die Objektivität darunter leiden könnte. Die Gründerväter der regelmäßigen europäischen Meinungsumfragen, de Schuijt und Rabier hatten als „Barometermacher“ das Ziel, zum einen mehr über die EuropäerInnen zu erfahren und zum anderen auch eine europäische öffentliche Meinung zu konstruieren. Beide waren Vertreter der EG. Rabier holte sich namhafte Wissenschafter an seine Seite, allen voran Ronald Inglehart, die ein methodisch anspruchsvolles Instrument entwarfen, um der schwierigen Aufgabe von transnationalen Umfragen gerecht zu werden. Die Durchführung selbst wurde unabhängigen nationalen Meinungsforschungsinstituten anvertraut. De Schuijt, Rabier und Inglehart hatten also zweifellos das Ziel, die demokratische Qualität der damaligen EG im Sinne einer stärkeren Einbeziehung von Bürgermeinungen zu verbessern. Sie wollten die Lücke zwischen Eliten und europäischer Bevölkerung verringern. Auch die methodischen Herausforderungen dieses Vorhabens waren ihnen bewusst. Das Instrument wurde von Anfang an wissenschaftlich kontrolliert, begleitet und weiter entwickelt. Seit den Anfängen in den 70er Jahren hat sich vieles verändert. Neben den Standard-Eurobarometer, die zweimal jährlich durchgeführt werden, gibt es auch spezielle Eurobarometer-Ausgaben und FlashEurobarometer zu besonders brennenden aktuellen Themen. Nicht nur die Breite der Inhalte ist gewachsen, sondern durch die ständigen Erweiterungen der EU auch die Zahl der Mitgliedstaaten, in denen Erhebungen durch542
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
geführt werden sowie damit verbunden die Anzahl der Sprachen, in die übersetzt werden muss. Die Daten werden der wissenschaftlichen Community zur Verfügung gestellt, was Sekundäranalysen und Kritik ermöglicht. Darüber hinaus ist die Kommission auch vorsichtiger geworden, wenn es um die Zielformulierungen des Eurobarometers geht. Hatte man anfänglich noch unbedacht von der Konstruktion einer europäischen öffentlichen Meinung gesprochen, so setzt man jetzt den Schwerpunkt auf die Messung derselben. Der methodischen Herausforderung ist man sich bewusst. Die zuständige Kommissarin Margot Wallström organisierte etwa im Oktober 2006 eine Konferenz in Madrid, um mit WissenschafterInnen über die Verbesserung des Eurobarometers nachzudenken (vgl. European Commission 2006). Und doch: Trotz all dieser Bemühungen bleibt die enge Verbindung zwischen Politik und Meinungsforschung und die Rolle der Kommission problematisch. Zum einen hat sie als politische Institution die Themenhoheit, denn ohne ihre Zustimmung kann kein kommissionsexterner „Kunde“ seine Fragen im Eurobarometer unterbringen (Europäische Kommission 2004, 2). Auch die Entscheidung darüber, welche Fragen gestellt werden, obliegt der Kommission. Und schließlich verfügt sie zudem über ein faktisches Interpretationsmonopol, auf das noch ausführlicher einzugehen ist. Dass Eurobarometer-Ergebnisse immer wieder mit der Meinung der Kommission assoziiert werden, ist daher kein Zufall. Ein einprägsames Beispiel dafür ist der Aufruhr um eine Eurobarometer-Umfrage, aus der hervorging, dass für viele EuropäerInnen der Staat Israel eine Bedrohung des Weltfriedens darstelle. Der damalige Kommissionspräsident Romano Prodi musste sich öffentlich von diesem Ergebnis distanzieren, indem er festhielt, dass dies nicht die Ansicht seiner Institution sei. Was sich in diesem Fall so drastisch zeigte, hat Symbolcharakter und könnte der Vermutung, dass die Ergebnisse des Eurobarometers vorrangig die Meinung der Kommission widerspiegeln, Auftrieb geben. Auch wenn dies gerade im genannten Fall auszuschließen ist, darf man sich ob ihrer Rolle nicht wundern, wenn dieser Eindruck in der Öffentlichkeit entsteht. Jacques René Rabier stellte in einem Interview aus dem Jahre 2004 selbst fest, dass die europäische öffentliche Meinung ein Konstrukt und noch im Aufbau begriffen sei (Europäische Kommission 2004, 3). Dieser Satz führt uns zum nächsten Problem: der Messung einer öffentlichen Meinung, die es gar nicht gibt.
543
Markus Pausch
2 Öffentliche Meinung ohne Öffentlichkeit und ohne Meinung Die Veröffentlichung der Meinungsumfragen der Europäischen Kommission erfolgt unter folgendem Titel: „Eurobarometer. Die öffentliche Meinung in der Europäischen Union“. Diese Bezeichnung weist auf ein erstes grundlegendes Problem hin, nämlich die Definition von „öffentlicher Meinung“. In der Verwendung der Europäischen Kommission lässt sich die öffentliche Meinung durch Umfragen messen. Durch diese Messungen lassen sich Mehrheitsmeinungen und Minderheitsmeinungen unterscheiden, wobei die Mehrheitsmeinung in einem weiteren Schritt als „öffentliche Meinung“ präsentiert wird. Aus sozialwissenschaftlicher bzw. philosophischer und politiktheoretischer Perspektive ist die Sache freilich nicht ganz so einfach. Historisch betrachtet wird die öffentliche Meinung erst mit der Aufklärung relevant. Und von Anfang an steht sie im engen Zusammenhang mit demokratischen Prinzipien. Öffentliche Meinung wird als die Meinung der Mehrheit somit zu einem Machtfaktor und zur Legitimationsgröße. Eine politische Ordnung legitimiert sich nach Ansicht der Aufklärer nicht mehr über das Gottesgnadentum des Monarchen, sondern über die Zustimmung durch die Mehrheit der BürgerInnen. Messen konnte man diese Zustimmung im 18. und 19. Jahrhundert in erster Linie durch Wahlen. Erst im 20. Jahrhundert entwickelt sich die moderne Umfrageforschung. Die öffentliche Meinung im echten Wortsinn gab es allerdings weder in Zeiten der Aufklärung, noch gibt es sie heute, denn sie würde nichts anderes voraussetzen als die Existenz einer Einheitsmeinung eines Kollektivs. Treffender wäre es, von konkurrierenden Meinungen zu sprechen, die in der Öffentlichkeit ausgetauscht werden.1 In diesem Sinne ist auch die Entwicklung des demokratisch relevanten Öffentlichkeitsbegriffs zu verstehen. Die bürgerliche Öffentlichkeit der Aufklärung, die sich in der Auseinandersetzung über literarische und darauf folgend politische Inhalte in Salons, Tee- und Kaffeehäusern manifestiert, führt zu politischem Druck auf die Herrschenden und wird so zur demokratisch relevanten Einflussgröße. Ihre Bedeutung liegt aber nicht vorrangig im Ausdruck eines Mehrheitswillens, sondern in ihrer Ausprägung als Kommunikationsnetzwerk zum Meinungsaustausch (vgl. Habermas 1994). Wichtig ist dabei, dass Meinungen nichts Endogenes sind, sondern exogene Qualität haben, also beeinflussbar und variabel sind. Meinungen existieren also nicht per se als unveränderbare Größen, sondern nur im Rahmen einer öffentlichen Diskussion. Vergleicht man diese Definition mit den Ansprüchen des Eurobarometers, so relativiert sich dessen Aussagekraft. Denn in 544
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
der Europäischen Union ist das, was Öffentlichkeit ausmacht, nicht oder bestenfalls rudimentär vorhanden. Viele politikwissenschaftliche Studien der letzten Jahre zeigen, dass eine europäische Öffentlichkeit, die mit nationalen Öffentlichkeiten vergleichbar wäre, nicht oder nur punktuell existiert (vgl. Gerhards 1993; Eder & Kantner 2000; Risse 2003). Wenn Meinungen also nicht als statische, sondern als dynamische und veränderbare Größen eines Kommunikationsnetzwerks betrachtet werden, dann misst das Eurobarometer öffentliche Meinungen ohne Öffentlichkeit. Und selbst, wenn man die Fiktion einer einzigen messbaren öffentlichen Meinung aufrechterhalten würde, so hätte man noch immer ein Problem, nämlich die Abwesenheit von Meinungen zu einer ganzen Reihe von Fragen, die im Eurobarometer gestellt werden. Dies betrifft insbesondere die Themen, die sich eingehender mit den Strukturen der Europäischen Union befassen. Wenn etwa nach der Zustimmung zu einer europäischen Verfassung gefragt wird, ist zweifelhaft, ob es dazu überhaupt eine repräsentierbare Meinung gibt. Im Standard-Eurobarometer 62 vom Herbst 2004 – also kurz vor den Referenden in Frankreich und den Niederlanden – antworteten europaweit 68% der Befragten, dass sie für eine Verfassung für die Europäische Union seien. 17% äußerten sich ablehnend und 14% hatten dazu keine Meinung (Eurobarometer 62 2004, 151 f.). Diese hohen Zustimmungswerte sind erstaunlich, insbesondere wenn man bedenkt, dass es im Großteil der Mitgliedstaaten keinerlei öffentliche Diskussion zu diesem Thema gab. Die Konstitutionalisierung Europas wurde in der wissenschaftlichen Auseinandersetzung zwar in den letzten Jahren immer stärker diskutiert (vgl. Gehler 2006), spielte aber in der medialen Berichterstattung und in der breiten Öffentlichkeit keine Rolle – ein Faktum, das in der politikwissenschaftlichen Forschung weitgehend außer Streit steht (vgl. Pausch 2006). Was also misst Eurobarometer mit dieser Frage tatsächlich – und was sagen uns die Ergebnisse? In keinem einzigen Land war die Ablehnung größer als die Zustimmung – nicht einmal im europaskeptischen und verfassungs-phobischen Großbritannien, wo immerhin noch 43% dafür und 36% dagegen waren (Eurobarometer 62 2004, 151 f.). Es ist zweifelhaft, dass diese Daten ein glaubwürdiges Abbild der Realität darstellen, auch wenn sie methodisch korrekt erhoben wurden. Das Problem liegt in der fehlenden Öffentlichkeit, dem fehlenden Meinungsaustausch zum abgefragten Thema. Helge Torgersen verweist in einem Artikel darauf, dass dieser Fehler auch bei anderen Umfragen von Eurobarometer zum Tragen kam, etwa in Zusammenhang mit dem Thema „Gentechnik“ (vgl. Torgersen 2005). Ähnlich verhält es sich mit der Zustimmung zur Entwicklung hin zu einer politischen Union: 58% würden eine solche Entwicklung begrüßen, 28% 545
Markus Pausch
sind dagegen und 13% antworteten mit „Weiß nicht“ (Eurobarometer 62 2004, 149). Was mit einer „politischen Union“ aber gemeint ist, wird nicht weiter ausgeführt. Auch im wissenschaftlichen Diskurs variieren dazu die Meinungen: Während einige die politische Union in Europa schon lange verwirklicht sehen, können andere dies nicht erkennen. Dass konkurrierende Modelle zwischen Föderalismus und Intergouvernementalismus alle auch eine politische Union diskutieren, auch wenn sie verschiedenen Vorstellungen über die Ausprägung einer solchen haben, bleibt unerwähnt (vgl. Moravcsik 2001; Rosamond 2000). Schließlich werden länderspezifische Gegebenheiten völlig unterschlagen, dabei macht es aber einen großen Unterschied, welche Erfahrungen mit Föderalismus oder Zentralismus im jeweils eigenen Staat gemacht wurden. Bedenken sind auch hinsichtlich einiger Wissensfragen angebracht. Wenn im Eurobarometer gefragt wird, welches Organ der EU im Entscheidungsfindungsprozess am wichtigsten ist, so hat dies wenig mit der Erhebung von Meinungen zu tun – es ähnelt eher einem Wissensquiz. Dabei kommt das Problem aber regelmäßig an die Oberfläche: Eine uninformierte Bevölkerung, die sich nicht in einem europäischen Kommunikationsnetz, einer europäischen Öffentlichkeit, bewegt und sich somit zu vielen wichtigen Europathemen gar keine Meinung bilden kann, soll plötzlich im Rahmen dieser Umfragen Stellung beziehen. Meistens endet es damit, dass die Machtstrukturen im europäischen Kontext völlig falsch eingeschätzt, z. B. das Europaparlament und die Kommission gegenüber dem Rat und dem Europäischen Rat viel zu mächtig wahrgenommen werden (Eurobarometer 67 2007, 107 f.). Diese teilweise falschen Annahmen über die Institutionen, Prozesse und Machtverhältnisse beeinflussen freilich auch andere Antworten. Selbst wenn die Einschätzungen Aufschluss über Informationsdefizite der europäischen BürgerInnen geben mögen, ist es zweifelhaft, ob man sie als „europäische öffentliche Meinung“ bezeichnen kann.
3 Das Interpretationsmonopol der Europäischen Kommission In der Interpretation der Ergebnisse bestehen aus demokratiepolitischer Sicht die größten Probleme von Eurobarometer. Wie wichtig die Dominanz eines Kommunikations- und Vermittlungsprozesses für politische Themensetzung und Themenführerschaft ist, ist hinreichend bekannt und erforscht. Die Kommission nutzt im Rahmen der Ergebnisinterpretation ihre informations- und medienpolitischen Ressourcen und setzt damit weitgehend die 546
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
Agenda. Komplexe Umfragen werden stark vereinfacht präsentiert. Schon im Titel spricht man von „Eurobarometer: die öffentliche Meinung in der Europäischen Union“. Neben dieser Bezeichnung verkürzt und simplifiziert man wissenschaftliche Umfrageergebnisse mit eingängigen Formulierungen und Schlussfolgerungen. Im Eurobarometer 67 heißt es etwa: „7 von 10 Europäern sagen der EU eine glanzvolle Zukunft voraus“. Dies schließt man daraus, dass 69% der Befragten die Zukunft der EU sehr oder eher optimistisch sehen (Eurobarometer 67 2007, 169). Oder: „Fast 8 von 10 Europäern sprechen sich jetzt für sie (Gemeinsame Sicherheits- und Verteidigungspolitik, Anm. des Autors) aus“ (Eurobarometer 67 2007, 146). Freilich wird von der EU-Kommission betont, dass die Darstellung nur die Ansicht der AutorInnen des Eurobarometers widerspiegelt und nicht jene der Kommission selbst, wobei nicht näher erläutert wird, wer die AutorInnen sind. Dass diese aber im Auftrag der Kommission agieren, darf dabei nicht vergessen werden. Und mehr noch: Die tatsächliche Verbreitung der Eurobarometer-Ergebnisse obliegt der Kommission. In der Regel werden die Ergebnisse über Pressekonferenzen an die Medien kommuniziert. Im Januar 2008 lud etwa die österreichische Kommissarin Benita FerreroWaldner zu einer Pressekonferenz über die österreichischen Ergebnisse. Als „weitere Gesprächspartner“ waren Vertreter des österreichischen Gallup-Instituts dabei (vgl. APA/OTS 21.01.08). Entsprechend wird auch in den Medien von jenen Punkten berichtet, die Ferrero-Waldner nannte. Somit kann man durchaus von einem faktischen Interpretationsmonopol der Kommission sprechen. Was durch die Medien dann an die Öffentlichkeit weitertransportiert wird, ist schließlich nur noch ein durch mehrere Filter gelaufener, minimaler Ausschnitt aus den gesamten Eurobarometer-Ergebnissen, der nichtsdestotrotz insbesondere dort problematisch wird, wo er als Legitimation für politische Maßnahmen herhalten soll. Ferrero-Waldner etwa betonte in der Pressekonferenz, dass es eine große Zustimmung von 68% zum Euro, von 66% zur Gemeinsamen Außenpolitik und von 65% zu einer Gemeinsamen Verteidigungspolitik gäbe (ORF On). Der Schluss, der von den PolitikerInnen aus solchen Vereinfachungen gezogen werden kann, ist, dass die Legitimation für weitere Schritte in diesen Bereichen auf einer breiten Mehrheit beruht. Meinungsforschung wird auf diese Weise handlungsleitend und wirkungsmächtig.
547
Markus Pausch
4 Eurobarometer und nationale Öffentlichkeiten Matthias Karmasin und Harald Pitters halten in einem Artikel aus dem Jahre 2007 fest, dass Eurobarometer fixer Bestandteil nationaler und europäischer Politik sei. Doch nicht nur das: „Das Eurobarometer ist auch deswegen fixer Bestandteil der europäischen wie nationalen Politik, ist auch deswegen fixer Teil des medial induzierten öffentlichen Räsonierens über die EU, weil es funktioniert, Ergebnisse produziert und weil (trotz aller Diskussionen über das Instrument) keine angemessene Alternative der kollektiven Selbstbeobachtung zur Verfügung steht“ (Karmasin & Pitters 2007, 437). Dieser Aussage ist in weiten Teilen zuzustimmen. Tatsächlich besteht durch die transnationalen Umfragen die große Chance, eine auch transnational geführte Debatte über Europa loszutreten. Allerdings ist dies bis dato noch nicht gelungen. Denn ob es die angesprochene kollektive Selbstbeobachtung und ein Räsonieren über die EU durch Eurobarometer tatsächlich gibt, ist stark in Frage zu stellen. Wie die Autoren im selben Artikel selbst feststellen, gibt es nämlich von Land zu Land höchst unterschiedliche gesellschaftliche und kulturelle Voraussetzungen, was nicht nur eine Schwierigkeit für die Äquivalenz der zu vergleichenden Daten darstellt (vgl. Karmasin & Pitters 2007, 442 f.), sondern eben auch die Interpretation und die Rezeption in den jeweiligen nationalen Öffentlichkeiten beeinflusst. Selbstbeobachtung mag daher in Maßen noch für den jeweils eigenen Staat möglich sein, findet aber über die nationalen Grenzen hinweg weitgehend nicht statt. Die Agenda-Differenz, also die unterschiedliche Bedeutung von Themen in den Mitgliedstaaten macht eine europäische kollektive und transnationale Selbstbeobachtung schwierig. Dies lässt sich durch einen Blick in die österreichische Medienlandschaft auch empirisch nachweisen. So wurden die Ergebnisse der jüngsten Standard-Eurobarometer-Umfrage in allen relevanten Printmedien fast ausschließlich in Hinblick auf Österreich dargestellt. Der Standard titelte am 21. Jänner 2009 „Liebe war es nie“ und stellte die Entwicklung der österreichischen Meinung zur EU in den Mittelpunkt (Der Standard online 21.01.2009). Eine ähnliche Meldung fand sich auch in der Presse unter der Überschrift „EU-Skepsis: Österreich gibt die rote Laterne ab“ (Die Presse online 21.01.2009). Auch andere Medien beschäftigten sich in erster Linie mit der Zustimmung der Österreicher zur EU. Tiefergehende Berichte über weitere Fragestellungen aus dem umfangreichen Eurobarometer bleiben meist aus. Über Stimmungsbilder in anderen Ländern erfährt man wenig bis gar nichts. Dies hat mit der fehlenden europäischen Öffentlichkeit zu tun, in der transnationale 548
Eurobarometer und die Konstruktion eines europäischen Bewusstseins
Auseinandersetzungen um Inhalte sehr selten stattfinden. Da es kein genuin europäisches Mediensystem gibt, gibt es nicht eine europäische Selbstbeobachtung, sondern 27 nationale Selbstbeobachtungen. Die EUKommission und das Europaparlament können dafür freilich nicht verantwortlich gemacht werden. So werden die Eurobarometer-Ergebnisse etwa immer zuerst in Brüssel vor internationalen JournalistInnen präsentiert. Was dann in den nationalen Medien übrig bleibt, ist aber meist das, was einige Tage später in den nationalen Pressekonferenzen über die Länderberichte dargestellt wird. Dass die Medien nach wie vor hauptsächlich aus ihren nationalstaatlichen Perspektiven über Europa berichten, ist ein häufig beobachtetes Phänomen und empirisch gut belegt (vgl. Bruell & Mokre & Pausch 2009; Eder & Kantner 2000). Die Staats- und Regierungschefs sowie die jeweiligen FachministerInnen, die als gewählte VolksvertreterInnen in erster Linie ihren WählerInnen im eigenen Land verantwortlich sind, sowie – in stärkerem Ausmaß – auch die OppositionspolitikerInnen nutzen nicht selten die Chance, nationale Öffentlichkeiten sogar gegen Europa herzustellen, indem unpopuläre Maßnahmen der EU angelastet werden. Dass Eurobarometer dann vorrangig aus nationalstaatlicher Perspektive rezipiert wird, ist somit wenig verwunderlich. Öffentliche Selbstbeobachtung beschränkt sich daher meist auf nationale Öffentlichkeiten. Die häufig geforderte und demokratietheoretisch auch wünschenswerte europäische Öffentlichkeit kann sich durch diese Art der Rezeption schwer einstellen.
5 Konklusion Die Eurobarometer-Umfragen der Europäischen Kommission sind aus demokratiepolitischer Perspektive trotz aller Verdienste noch mangelhaft. Dies resultiert nicht zuletzt daraus, dass die Kommission als politische Institution bestrebt ist, ihre eigene Legitimation und die der europäischen Integration insgesamt zu steigern. Indem sie die Fragen auswählt und über ein faktisches Interpretationsmonopol verfügt, kann sie die Ergebnisse bzw. deren Darstellung in der Öffentlichkeit beeinflussen. Darüber hinaus wird durch das Fehlen einer transnationalen europäischen Öffentlichkeit die Diskussion über Europa hauptsächlich aus nationalstaatlicher Perspektive geführt, was einer kollektiven europäischen Selbstbeobachtung entgegensteht. Die demokratischen Funktionen der politischen Meinungsforschung werden somit von Eurobarometer in mehreren Bereichen noch nicht erfüllt. Die Chance, zur Herstellung einer europäischen Öffentlichkeit beizu549
Markus Pausch
tragen, wird derzeit noch durch die nationalen Öffentlichkeiten vereitelt. Gleichzeitig lässt aber die ständige Überarbeitung und Diskussion des Instruments sowie die Möglichkeit der Sekundäranalyse Verbesserungen durchaus auch in den demokratiepolitisch heiklen Punkten erhoffen.
Anmerkung 1
Zur umfangreichen Debatte über die Definition von „öffentlicher Meinung“ und „Öffentlichkeit“ vgl. Luhmann 1971, Habermas 1962, etc.
Literaturverzeichnis Albers, S., & Klapper, D., & Konradt, U., & Walter, A., & Wolf, J. (Hg.) (2007). Methodik der empirischen Forschung. Wiesbaden: Deutscher Universitätsverlag. Austria Presse Agentur (21.01.2008). Präsentation des Eurobarometer 68-Länderberichts für Österreich. Abgerufen am 17.06.2008, Website: http://www.ots.at/presseaussendung.php?schluessel=OTS_20080121_OTS0008. Beck, U., & Bonß, W. (Hg.) (1989). Weder Sozialtechnologie noch Aufklärung. Frankfurt: Suhrkamp. Bruell, C., & Mokre, M., & Pausch M. (Eds.) (2009). Democracy needs Dispute. The Referenda on the European Constitution. Frankfurt: Campus. Der Standard online, 21. Jänner 2009. Abgerufen am 04.02.2009, Website: www.derstandard.at. Die Presse online, 21. Jänner 2009. Abgerufen am 04.02.2009, Website: www.diepresse.at. Eder, C., & Kantner, C. (2000). Transnationale Resonanzstrukturen in Europa: Eine Kritik der Rede vom Öffentlichkeitsdefizit. Kölner Zeitschrift für Soziologie und Sozialpsychologie. Sonderheft 40. Wiesbaden: Westdeutscher Verlag, 306–331. Eurobarometer 60 (2003). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 62 (2004). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 66 (2006). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Eurobarometer 67 (2007). Die öffentliche Meinung in der Europäischen Union, herausgegeben von der Europäischen Kommission. Brüssel. Europäische Kommission (2004). Drei Jahrzehnte Eurobarometer: Die europäische Integration in der öffentlichen Meinung der Mitgliedstaaten. Brüssel.
550
Eurobarometer und die Konstruktion eines europäischen Bewusstseins European Commission (2006). Understanding European Public Opinion: Conference Conclusions. Brussels. Flash-Eurobarometer 151 (2003). Irak und der Weltfrieden, herausgegeben von der Europäischen Kommission. Brüssel. Gallup, G. H. (1939). Public Opinion in Democracy. Princeton: Baker Foundation. Gehler, M. (2006). Neuordnungsversuche und Verfassungsvorschläge für Europa – Ergebnis von Brüchen und Ausdruck von Krisen. In S. Puntscher-Riekmann & G. Herzig & C. Dirninger (Hg.), Europa Res Publica: Europäischer Konvent und Verfassungsgebung als Annäherung an eine europäische Republik? (13–60). Wien, Köln, Weimar: Böhlau Verlag. Gerhards, J. (1993). Westeuropäische Integration und die Schwierigkeiten einer europäischen Öffentlichkeit. Zeitschrift für Soziologie, 22 (2), 96–110. Glatzer, W., & Zapf, W. (1984). Lebensqualität in der Bundesrepublik: Objektive Lebensbedingungen und subjektives Wohlbefinden. Frankfurt, New York: Campus. Glucksmann, A. (2005). Hass. Die Rückkehr einer elementaren Gewalt. München: Nagel & Kimche. Habermas, J. (1962). Strukturwandel der Öffentlichkeit: Untersuchungen zu einer Kategorie der bürgerlichen Gesellschaft. Neuwied: Hermann Luchterhand Verlag. Habermas, J. (1994). Faktizität und Geltung: Beiträge zur Diskurstheorie des Rechts und des demokratischen Rechtsstaats. Frankfurt am Main: Suhrkamp. Hix, S., & Follesdal, A. (2005). Why there is a democratic deficit in the EU: A response to Majone and Moravcsik. European Governance Papers. C-05–02. Karmasin, M., & Pitters, H (2008). Methodenprobleme international vergleichender Umfragen am Beispiel des „Eurobarometer“. In G. Melischek & J. Seethaler & J. Wilke (Hg.), Medien- und Kommunikationsforschung im Vergleich. Wiesbaden: Verlag für Sozialwissenschaften. Keller, F. (1997). A Virtual Nation: Public Opinion Research and European Integration. Online Paper. Zürich. Lazarsfeld, P. F. (1948). Public Opinion and the Classical Tradition. Public Opinion Quarterly, 13, 39–53. Luhmann, N. (1971). Politische Planung: Aufsätze zur Soziologie von Politik und Verwaltung. Opladen: Westdeutscher Verlag. Moravcsik, A. (2001). Despotism in Brussels? Misreading the European Union. Foreign Affairs, May/June 2001. New York. Noll, H.-H. (1999). Ein System Sozialer Indikatoren für Europa. In H. Schwengel & B. Höpken (Hg.), Grenzenlose Gesellschaft? Band II. Pfaffenweiler. ORF on, Stabile EU-Skepsis der Österreicher. Abgerufen am 17.06.2008, Website: http:// oesterreich.orf.at/stories/252159/.
551
Markus Pausch Pausch, M. (2006). Die europäische Öffentlichkeit im konstitutionellen Prozess. In S. Puntscher Riekmann & G. Herzig & C. Dirninger (Hg.), Europa Res Publica. Europäischer Konvent und Verfassungsgebung als Annäherung an eine europäische Republik? (189–211) Wien: Böhlau. Risse, T. (2003). An Emerging European Public Sphere? Theoretical Clarifications and Empirical Indicators. Paper presented to the Annual Meeting of the European Union Studies Association (EUSA). Nashville. Rosamond, B. (2000). Theories of European Integration. Houndsmill and London: MacMillan Press. Schuijt, W. (1972). Report on the Information Policy of the European Communities. Brussels. Spezial-Eurobarometer 240 (2006). AIDS-Prävention, herausgegeben von der Europäischen Kommission. Brüssel. Torgersen, H. (2005, Dezember). Wozu Umfragen? Über die Rolle der EurobarometerUmfragen in der Kontroverse über die Nutzung der Gentechnik. Technikfolgenabschätzung Theorie und Praxis, Nr. 3, 14. Jahrgang, 20–29.
552
Martin Weichbold
Martin Weichbold
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen Zusammenfassung Der Beitrag geht der Frage nach, wie die Qualität einer Umfrage beurteilt werden kann. Dabei werden unterschiedliche Ansätze diskutiert, die in der Konzeption von Qualität und in der Umsetzung dieser Konzeption differieren. Während in der universitären Ausbildung nach wie vor die klassischen Gütekriterien, die einer inhaltlichen Definition als Abweichung von einem wahren Wert folgen, unterrichtet werden, werden in der sozialforscherischen Praxis andere Konzepte verfolgt. Dabei sind zu nennen: Codes of Ethics, die sich auf die moralische Verantwortung der WissenschaftlerInnen beziehen; Standards bzw. Richtlinien, die den Forschungsprozess in viele Einzelschritte zergliedern, und die Qualitätssicherung mittels Zertifizierung von Sozialforschungsunternehmen, um Strukturen und Prozesse zu kontrollieren. An der Schnittstelle zwischen Wissenschaft und Praxis werden die Qualitätskriterien der Umfrageforschung der DFG besprochen. Schließlich wird mit dem Total Survey Error ein Konzept vorgestellt, das inhaltliche und prozessorientierte Qualitätskonzeptionen verbindet. Die Ansätze zur Qualitätsbeurteilung haben nicht nur unterschiedliche Herkunft, sie weisen auch in unterschiedliche Richtungen. Dabei lassen sich vier Dimensionen (Produkt, Prozess, Organisation, Person) feststellen. Somit zeigt sich insgesamt, dass die Frage nach der Qualität einer Befragung sehr vielschichtig ist und sich nicht auf einen einzelnen Bewertungsmaßstab reduzieren lässt.
Abstract Assessment and Assurance of a Survey’s “Quality” The article deals with the question, how to judge the quality of a survey. There are various approaches that differ considerably with regard to the conceptualisation and implementation of quality. While the classical criteria of validity/reliability/objectivity that follow a contentual definition as a deviation from a true value are still important in academic education, various concepts exist in practice of social research: Codes of Ethics that refer to the ethical responsibil-
553
Martin Weichbold
ity of scientists; standards or guidelines, which structure the research process in a sequence of individual steps; and quality assurance that leverages certifications by social research organisations to control structures and processes. Additionally, the quality criteria for survey research, edited by the German Research Foundation DFG, is discussed. Finally, the Total Survey Error is being presented as an integrative approach that brings together content-based and process-orientated quality concepts. The concepts do not only differ in their origins, they deal with different directions. Four dimensions can be found: product, process, organization, and person. All in all it can be shown that the quality assessment of a survey represents a complex issue, which cannot be confined to a single rating scale.
1 Einleitung „Wie eine repräsentative Studie des renommierten Sozialforschungsinstitutes xy ergab, . . .“ – Solche oder so ähnliche Formulierungen begegnen uns regelmäßig in Medien, wenn es darum geht, Ergebnisse empirischer Untersuchungen als aussagekräftig, verlässlich und vertrauenswürdig zu kennzeichnen. Der Verweis auf die Repräsentativität einer Studie ist dabei allenfalls noch mit einem Hinweis auf den Stichprobenumfang verbunden, nur mehr in seltenen Fällen auf die Erhebungsmethode und so gut wie nie mit einer Angabe des (eigentlich ausschlaggebenden) Stichprobenverfahrens. Der Hinweis auf die Bekanntheit des durchführenden Institutes soll wohl ebenfalls Vertrauen in die dort erzielten Ergebnisse schaffen. Die Verwendung derartiger Formulierungen zeigt, dass es die Notwendigkeit gibt, die Aussagekraft von Forschungsergebnissen in der Darstellung nach außen abzusichern. Dies ist wohl nicht zuletzt eine Folge von in der Öffentlichkeit als widersprüchlich wahrgenommenen Studienergebnissen oder falsifizierten Prognosen, die zu einer „Entmonopolisierung wissenschaftlicher Erkenntnisansprüche“ (Beck 1986, 256) geführt haben. KonsumentInnen von Umfragen, AuftraggeberInnen wie die Öffentlichkeit, aber auch die WissenschafterInnen selbst stehen also vor der Frage, wie die Qualität einer Umfrage einzuschätzen ist.
2 Klassische Gütekriterien Zieht man zunächst Lehrbücher zur empirischen Sozialforschung zu Rate, so stößt man in aller Regel auf die klassischen Gütekriterien. Validität, Reliabilität und Objektivität finden sich nicht nur in alten und neuen Klassikern (z. B. 554
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Atteslander 2008; Friedrichs 1990; Schnell & Hill & Esser 2005; Bortz & Döring 2006)1, sondern auch in neu konzipierten Einführungen (z. B. Häder 2006; Weischer 2007). Sie beruhen auf den Axiomen der klassischen Testtheorie und werden in der Regel im Zusammenhang mit der Konstruktion von Messinstrumenten (Skalen) besprochen. Sie beziehen sich darauf, wie „gut“ ein Instrument in der Lage ist, den gesuchten wahren Wert zu messen. Dennoch gibt es Unbehagen und Kritik, die an unterschiedlichen Ebenen ansetzt: (1) Eine oft und auch in manchen Lehrbüchern geäußerte Kritik betrifft die Umsetzung der Gütekriterien in der Praxis. Beispiele sind die Abhängigkeit des als Reliabilitätsmaß verwendeten Koeffizienten Cronbachs Alpha von der Itemanzahl (vgl. z. B. Schnell & Hill & Esser 2005, 153) oder die Schwierigkeit der Bestimmung der Validität mangels geeigneter Verfahren oder Kriterien (vgl. z. B. Bortz & Döring 2006, 199 f.). Diese Form der Kritik zielt auf die Umsetzung der Gütekriterien, stellt diese selbst aber nicht in Frage. (2) Tiefer geht jene Kritik, die die Anwendbarkeit der Gütekriterien auf empirische Sozialforschung (oder zumindest auf relevante Teile derselben) in Frage stellt. Rohwer & Pötter (2001, 23) unterscheiden „Tests“ von „Interviews“ und argumentieren, dass die Gütekriterien, die aus der klassischen Testtheorie abgeleitet sind und sich auf das „Messen“ beziehen, in einer soziologisch orientierten Sozialforschung nicht anwendbar sind, weil es hier nicht um das Messen von Eigenschaften gehe: „Interviews sind dann nicht ,Messinstrumente‘, um Eigenschaften der jeweils befragten Personen zu ermitteln, sondern Verfahren zur kommunikativen Informationsgewinnung über Sachverhalte“ (ebda. 31), bei denen die klassischen Gütekriterien wenig hilfreich sind. Zwar kann man „vielleicht eine vage Vorstellung bekommen, was mit ,Reliabilität‘ und ,Validität‘ gemeint sein könnte“ (ebda. 127), diese Fragen seien für Interviews [und somit für die Umfrageforschung, M. W.] aber auf einer anderen Ebene, nämlich einer inhaltlichen Diskussion um „sinnvolle Größenbegriffe“ (ebda.) zu erörtern.2 (3) Schließlich gibt es Ansätze, die die Annahme der klassischen Testtheorie, nach der der Messwert aus wahrem Wert plus Messfehler besteht, überhaupt in Frage stellen. Diese Form der Kritik setzt auf wissenschafts- bzw. erkenntnistheoretischer Ebene an und wird von konstruktivistischen Positionen formuliert (vgl. Steinke 1999, 81 ff.). Wenn die Existenz oder zumindest die Erkennbarkeit eines „wahren“ Wertes bestritten wird, erübrigt sich die Frage, wie weit man davon entfernt ist. Freilich wird diese Position innerhalb der (quantitativen) Umfrageforschung kaum thematisiert (geschweige denn vertreten), sondern stellt vielmehr einen Grundeinwand qualitativ orientierter Forschungsansätze dar. 555
Martin Weichbold
Trotz dieser erheblichen Kritik sind die klassischen Gütekriterien seit Jahrzehnten fester Teil des Lehrkanons der empirischen Sozialforschung. Doch auch wenn man sie grundsätzlich akzeptiert, werden sie in der Praxis nur in bestimmten Bereichen systematisch eingesetzt.3 Insbesondere im Bereich der kommerziellen Umfrageforschung sucht man Angaben zu den Gütekriterien oft vergeblich. Dies bedeutet allerdings nicht, dass in der angewandten Forschung keine Überlegungen zur Qualität von Umfragen angestellt werden.
3 Qualitätssicherung aus der Praxis Aus Praxisanforderungen entstanden in den letzten Jahren und Jahrzehnten mehrere, einander teilweise beeinflussende Ansätze zur Qualitätsbestimmung und -sicherung. Wesentlich an dieser Diskussion beteiligt waren neben den Einrichtungen der amtlichen Statistik die Verbände der Sozialund Marktforschungseinrichtungen, aber auch die Deutsche Forschungsgemeinschaft DFG. In deren Auftrag hat Max Kaase 1999 die Denkschrift „Qualitätskriterien für die Umfrageforschung“ herausgegeben, an der zahlreiche WissenschaftlerInnen aus unterschiedlichen Bereichen mitgearbeitet haben.
3.1 Qualitätskriterien der DFG Der Anspruch der Denkschrift orientiert sich an akademisch-wissenschaftlichen Kriterien, zugleich wird aber auch versucht, die kommerzielle Sozial-, Markt- und Meinungsforschung einzubinden. Dabei wird die Qualitätsdiskussion in zwei Ebenen differenziert: die potentielle Qualität eines Verfahrensmodells (z. B. Zufallsstichprobe versus Quotenstichprobe oder verschiedene Befragungsarten) und die erreichte Qualität einer konkreten Umfrage (vgl. 107). Für verschiedene Bereiche der Forschungsarbeit (Stichproben; Fragebogen; Feldarbeit) werden Modelle dargestellt und potentielle Problembereiche und Möglichkeiten des Umgangs damit identifiziert. Dazu werden ,good practices‘ und ,best practices‘ aufgelistet und auf diese Weise Qualitätskriterien definiert. Zur Frage des geeigneten Stichprobenverfahrens4 drückt sich das Dokument um eine klare Positionierung. Es betont die „möglichst exakte Definition der Grundgesamtheit“, die „für die Entwicklung von guten Stichproben556
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
plänen unabdingbar“ sei und bezeichnet Stichproben als wünschenswert, „deren Struktur in Bezug auf die Merkmale nicht von der Struktur der Merkmale und Merkmalskombinationen in der Gesamtheit abweicht“, wobei „eine besondere Bedeutung [. . .] Stichproben zugeschrieben [wird], die nach dem Zufallsprinzip ausgewählt werden“ (Kaase 1999, 16 f.). An späterer Stelle wird auf die „in der Praxis bewährten Quotenstichproben“ (34) verwiesen. Als Best Practice (Zufallsstichproben aus Registern) und Good Practice (ADM-Stichproben oder vergleichbare Designs) werden jedoch nur Random-basierte Verfahren genannt, freilich mit dem Hinweis, dass unter Umständen auch „andere Arten der Stichprobenziehung erforderlich oder sinnvoll sein“ können (35). Ohne auf die einzelnen Punkte im Detail einzugehen, zeigt sich hier eine andere Herangehensweise an die Bestimmung und Sicherung von Qualität. Die zugrunde liegende Idee von Qualität steht durchaus im Einklang mit den klassischen Gütekriterien: mit Hilfe entsprechender Stichproben- und Erhebungsverfahren eine korrekte Messung durchzuführen. Dieses soll jedoch durch die Anwendung geeigneter Verfahren und ihre saubere Durchführung gewährleistet werden, d. h., Qualität wird über die gute Arbeit in den einzelnen Phasen des Forschungsprozesses definiert. Der Fokus wechselt von der ,Produktqualität‘ zur ,Prozessqualität‘. Bemerkenswert ist in diesem Zusammenhang, dass diese Qualitätsmaßstäbe als „breite[r] Konsens von SozialwissenschaftlerInnen in Hochschulen und außeruniversitären wissenschaftlichen Forschungsinstituten, NutzerInnen und AnwenderInnen von Umfrageergebnissen und führenden VertreterInnen von AnbieterInnen auf dem Umfrage-Markt“5 definiert werden. Das mag konsistent erscheinen, ist aber nicht ungefährlich: Während das Axiom der Testtheorie vom „wahren Wert“ eine zwar imaginäre, aber doch fixe Bezugsgröße für Qualität bietet, geht diese beim Perspektivenwechsel auf die Prozessebene verloren: Was unter guter Arbeit verstanden wird, ist Angelegenheit des Common Sense der WissenschaftlerInnen. Die Denkschrift der DFG betont an mehreren Stellen den Anspruch, Qualitätskriterien nicht nur für die universitäre und außeruniversitäre wissenschaftliche Forschung, sondern auch die kommerzielle Markt- und Meinungsforschung zu formulieren; VertreterInnen dieser Einrichtungen waren auch als AutorInnen eingebunden. Daneben gibt es seitens der Verbände der Sozialforschungseinrichtungen aber auch eigene Ansätze zur Qualitätsbeurteilung und -sicherung. Dabei sind unterschiedliche Ebenen zu unterscheiden.
557
Martin Weichbold
3.2 Code of Ethics Berufsständische Vereinigungen (z. B. ADM, ESOMAR, AAPOR, WAPOR . . .)6 verfügen in der Regel über einen Code of Ethics.7 Dieser formuliert allgemeine Regeln in Form von Anweisungen für ein richtiges [im Sinne von: ethisches] Verhalten. Der ICC/ESOMAR Internationale Kodex8 umfasst etwa acht Grundprinzipien und 14 zum Teil weiter differenzierte Artikel. Die Abstraktionsebene ist notwendigerweise hoch, so heißt es etwa in Artikel 4e: „Marktforscher müssen sicherstellen, dass Marktforschungsprojekte genau, transparent und objektiv konzipiert, ausgeführt, berichtet und dokumentiert werden.“ (ESOMAR 2007, 4)9 Das amerikanische Pendant, der „AAPOR Code of Professional Ethics & Practices“ (AAPOR 2005), ist von Umfang und Aufbau her ähnlich,10 die Formulierung der einzelnen Artikel mit „We shall . . .“ vermittelt einen gelöbnishaften und beinahe feierlichen Charakter. In Artikel I.A. wird etwa ausgeführt: „We shall recommend and employ only those tools and methods of analysis that, in our professional judgement, are well suited to the research problem at hand.“ Auch wenn die einzelnen Anweisungen abstrakt und allgemein sind, werden in den Codes of Ethics alle relevanten Bereiche eines Umfrageprojektes behandelt. Neben Grundprinzipien wie Redlichkeit und berufsständischer Verantwortung wird auch auf Datenschutz, Umgang mit Befragten wie AuftraggeberInnen oder die Offenlegung der eingesetzten Verfahren11 eingegangen. Bemerkenswert an dieser Form der Qualitätssicherung ist, dass Moral und Verantwortungsbewusstsein des einzelnen Forschers/Forscherin eine hohe Qualität der Untersuchung sicherstellen sollen, Qualitätssicherung also über ethische Verhaltensanweisungen für die Beteiligten erfolgt. Was als qualitätsvoll gilt, ist Angelegenheit des „professional judgement“ des Einzelnen und somit vom Konsens der scientific community entfernt, wenngleich nicht völlig losgelöst. Die Frage, wie die Einhaltung der Codes zu kontrollieren ist, bleibt weitgehend unklar. Mit dem Beitritt zu einem Verband unterwerfen sich Sozialforschungseinrichtungen den Richtlinien. Die Verbände verfügen über Schiedsstellen und Einrichtungen, bei denen Verstöße gegen die Richtlinien angezeigt werden können, wie oft dies in der Praxis passiert, ist jedoch nicht bekannt. Es ist anzunehmen, dass dies nur bei wenigen, gravierenden Fällen geschieht, die wohl auch rechtliche Bestimmungen verletzen (z. B. Datenschutzbestimmungen).
558
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
3.3 Richtlinien und Standards Auf einer konkreteren Ebene angesiedelt, aber durchaus komplementär zu den Codes of Ethics, sind Richtlinien und Standards. Sie beschreiben Minimalanforderungen für die Durchführung von Forschungsprojekten. Art und Umfang der Standards sind von Verband zu Verband deutlich unterschiedlicher, als dies bei den Codes of Ethics der Fall war. Ein Beispiel für eine kurze12 und eher allgemeine Anleitung ist das AAPOR-Dokument „Best Practices“. Es ist überschrieben mit dem Statement: „The quality of a survey is best judged not by its size, scope, or prominence, but by how much attention is given to [preventing, measuring, and] dealing with the many important problems that can arise.“ (AAPOR o. J.). Die Qualität einer Umfrage ist also auch hier durch die sorgfältige Durchführung zu gewährleisten, ist also prozessorientiert. In der Folge sind 12 Punkte aufgelistet, die sehr allgemein formuliert sind, und zum Teil an die Sorgfalt des Forschers/der Forscherin appellieren, d. h. sie sind noch deutlich an den ethischen Regeln orientiert: „How to produce a quality survey: • Have specific goals. • Consider alternatives. • Select samples that well represent the population to be studied. • Use designs that balance costs with errors. • Take great care in matching question wording to the concepts being measured and the population studied. • Pretest questionnaires and procedures. • Train interviewers carefully on interviewing techniques and the subject matter of the survey. • Check quality at each stage. • Maximize cooperation or response rates within the limits of ethical treatment of human subjects. • Use appropriate statistical analytic and reporting techniques. • Develop and fulfil pledges of confidentiality given to respondents. • Disclose all methods of the survey to allow for evaluation and replication.“ (AAPOR o. J.) In den einzelnen Ausführungen sind aber konkrete, zum Teil durchaus punktuelle Anleitungen enthalten. Zur Frage der Stichproben wird etwa ausgeführt: „all surveys taken seriously [. . .] use some form of random or probability sampling“ (AAPOR o. J., Kap. 3), es werden also nur Zufallsstichproben als wissenschaftlich anerkannt. Bemerkenswert ist auch die Betonung 559
Martin Weichbold
von Kosten-Nutzen-Aspekten, d. h. Qualität wird in Relation zum damit verbundenen Aufwand definiert (Kap. 4). Ergänzt werden die „Best Practices durch ein eigenes Dokument zur Frage der Offenlegung, „Disclosure Standards“, sowie eine Abgrenzung zu nicht standesgemäßen Vorgehensweisen, „Survey Practices that AAPOR Condemns“. Auf europäischer Ebene13 gibt es kein umfassendes Dokument, ESOMAR hat aber eine Reihe von „Guidelines“ zu einzelnen Bereichen herausgegeben. Ein Dokument, „Notes on how to Apply the ICC/ESOMAR International Code of Marketing and Social Research Practice“, beschäftigt sich damit, wie der Ethik-Code in der sozialforscherischen Praxis umgesetzt werden kann. Die Mehrzahl der anderen Guidelines beschäftigt sich mit spezifischen Fragestellungen wie „Conducting research using the Internet“, „Customer satisfaction studies“, „Interviewing children and young people“ oder „Tape and video recording and client observation of interviews and group discussions“. Das heißt, es handelt sich um thematisch abgegrenzte Fragestellungen, für die jeweils spezifische Handlungsanweisungen und Anforderungen erläutert werden. Der Umfang dieses Guidelines ist relativ knapp; die Anweisungen zu Interviews mit Kindern und Jugendlichen umfassen etwa 10 Punkte. Ausführlicher und dadurch auch konkreter sind die „Standards zur Qualitätssicherung in der Markt- und Sozialforschung“ des ADM formuliert (ADM 1999)14. Bemerkenswert ist allerdings eine einleitende Feststellung: „Die Vergabe von Normen, die den Forschungsprozess im Detail reglementieren, widerspräche dem pluralistischen Verständnis von Wissenschaft als einer entscheidenden Voraussetzung für den Fortschritt wissenschaftlicher Erkenntnis und Methoden. Sie stellte zudem einen unzulässigen Eingriff in die Tätigkeiten der privatwirtschaftlich organisierten Markt- und Sozialforschungsinstitute dar. Die Qualität der Forschung muss sich durch die ,unsichtbare Hand des Marktes‘, durch ein entsprechendes Angebot und vor allem eine entsprechende Nachfolge regulieren“ (4). Diese Relativierung der danach folgenden Standards ist zum einen ein Hinweis auf das Spannungsfeld zwischen der kreativen Erarbeitung eines individuellen und adäquaten Forschungsdesigns und dem Wunsch nach Vergleichbarkeit und Standardisierung und deutet zum anderen auf einen wesentlichen Zweck der Qualitätssicherungsinstrumente hin: Die Verbände haben ein massives Interesse an Selbstregulierung und Eigenbestimmung, nicht nur um das eigene Image zu profilieren und sich im Wettbewerb gegen andere Informationsanbieter zu positionieren (vgl. Wiegand 2007, 44), sondern auch um gesetzlichen Regelungen zuvorzukommen, die bei Nichtfunktionieren der ,Selbstreinigungskräfte‘ drohen. 560
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Die „Standards zur Qualitätssicherung in der Markt- und Sozialforschung“ sind ein recht umfangreiches Dokument von rund 60 Seiten, in dem verschiedene Bereiche behandelt werden: • Allgemeine Aspekte der Qualitätssicherung • Zusammenarbeit mit dem Auftraggeber • Konzeptionelle Studienbegleitung/Studienleitung • Datenerhebung • Datenverarbeitung • Beratung des Auftraggebers Jeder dieser Punkte ist in bis zu sieben Unterpunkte gegliedert, die wiederum weiter untergliedert sind. Dadurch entsteht eine stark strukturierte Aufgliederung der Thematik, wenngleich sich dort kaum eine konkrete inhaltliche Festlegung findet. Dies wird etwa am Beispiel der „Größe und Qualität der Stichprobe“ deutlich. Dazu wird festgehalten: „Die Größe und Qualität der Stichprobe orientieren sich in erster Linie an der Problemstellung der Untersuchung. Bei qualitativen Stichproben muss aufgrund der geringen Fallzahlen besondere Sorgfalt bei der Selektion der teilnehmenden Personen aufgewendet werden. Die Größe der Stichprobe ist so zu bemessen, dass sowohl in der Gesamtstichprobe als auch in den auswertungsrelevanten Untergruppen eine hinsichtlich des jeweiligen Forschungsziels vertretbare Fehlertoleranz vorliegt.“15 (Kap. IV/A/2., 30) Die einzelnen ForscherInnen sind also nicht aus ihrer moralischen Verantwortung entlassen, im Gegenteil wird die notwendige besondere Sorgfalt betont. Die Bedeutung der ADM-Standards liegt weniger darin, eine inhaltliche Definition von Qualitätsanforderungen an die Umfrageforschung zu liefern, sondern mit der fein strukturierten Aufzählung der verschiedenen Bereiche einen Katalog relevanter Themen und potentieller Problemfelder für eine Qualitätsbewertung und -sicherung bereitzuhalten. Ein weiteres bemerkenswertes Beispiel für Richtlinien sind die „CrossCultural Survey Guidelines“ (2008). Sie sind in einer Kooperation von Universitäten und Einrichtungen aus mehreren Ländern (für Deutschland Gesis, Leibniz-Institut für Sozialwissenschaften) entstanden und ungewöhnlich detailliert: In 14 Modulen und knapp 300 Seiten16 geht das Dokument auf organisatorische Belange ebenso ein wie auf ethische Überlegungen, beschäftigt sich aber hauptsächlich mit den verschiedenen Phasen des Forschungsprozesses.17 In einer durchgängigen Struktur werden jeweils „Goals“ formuliert, aus denen konkrete Forderungen abgeleitet werden, die ihrerseits inhaltlich begründet und mit „Procedural Steps“ sowie Praxiserfahrungen erläutert werden. Die Prozessorientierung ist hier mit inhaltlichen Überlegungen verbunden. 561
Martin Weichbold
3.4 Zertifizierung In den Verbänden und Instituten der Markt- und Sozialforschung wird aktuell eine weitere Form der Qualitätssicherung intensiv diskutiert: Die Zertifizierung nach ISO. Das bedeutet, dass ein Unternehmen ein Qualitätsmanagementsystem implementiert und anwendet und sich dies von einem autorisierten Zertifizierungsunternehmen bestätigen lässt. Die Aktualität der Diskussion ergibt sich aus der Tatsache, dass 2006 die ISO-Norm 20252 für Markt-, Meinungs- und Sozialforschung in Kraft getreten ist. Damit erfolgt ein Schritt von brancheninternen Qualitätsstandards hin zu international anerkannten und zertifizierten Normen (vgl. Mühlbauer 2007, 40). Mit dem generellen Trend, nicht nur Produkte, sondern auch Dienstleistungen zu zertifizieren, gab es auch in der Markt- und Sozialforschung bereits seit mehreren Jahren Bestrebungen, mit der Zertifizierung einen Qualitätsausweis und damit einen Vorteil im Wettbewerb des Marktes zu schaffen. Anfänglich war nur eine Zertifizierung nach der allgemeinen Norm ISO 9000 bzw. ISO 9001 möglich, mit dem lediglich eine Implementierung eines Qualitätssicherungssystems nachgewiesen wurde.18 Der Entwicklung einer spezifischen internationalen Norm gingen etliche nationale Ansätze voraus, so etwa in den 1990er Jahren der britische Standard BSI 7911. In Deutschland wurde 2003 – in Weiterentwicklung der oben behandelten Standards – eine spezifische DIN-Norm 77500 entwickelt. Diese ist schließlich in der Internationalen ISO-Norm 20252 für Markt-, Sozial- und Meinungsforschung aufgegangen und wurde durch diese ersetzt (vgl. Wiegand 2007, 45 f.). Als Anwendungsbereich wird definiert, dass „diese internationale Norm [. . .] die Begriffe und Definitionen sowie die Anforderungen an die Dienstleistungen fest[legt], die an Organisationen und Personen gestellt werden, die Markt-, Meinungs- und Sozialforschung betreiben.“ (DIN 2006, 7). Nach einer glossarartigen Definition von 65 Begriffen folgen jene Abschnitte, die die Anforderungen für eine Zertifizierung spezifizieren: • Anforderung an das Qualitätsmanagementsystem • Handhabung der konzeptionellen Forschungsaspekte • Datenerhebung • Datenmanagement und Datenverarbeitung • Berichterstattung Wer in der ISO-Norm eine inhaltliche Definition von Qualität etwa von Umfragen sucht, wird enttäuscht werden. Qualität soll über zwei Dimensionen erreicht werden: zum einen über organisatorische Rahmenbedingungen (hierin wird beispielsweise definiert, dass die Dokumentation eines For562
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
schungsprojektes bestimmte Anforderungen erfüllen muss oder dass ein Qualitätsbeauftragter benannt werden muss), zum anderen über Verfahrensvorschriften (dies umfasst Anweisungen, wie auf eine Anfrage zu reagieren ist, welche Informationen ein Untersuchungszeitplan zu enthalten hat, wie die Mitwirkung des Auftraggebers/der Auftraggeberin zu regeln ist, usw.). Das Prinzip von Normen lässt sich wieder an der Frage nach einer geeigneten Stichprobe zeigen. Dazu führt die Norm 20252 aus (Kap. 4.5., 20 f.): „Anforderungen: Die Stichprobenanlage muss auf dem gewählten Auswahlverfahren basieren. [. . .] Das bei der Ziehung der Stichprobe eingesetzte Verfahren ist zu dokumentieren. Die Merkmale der Stichprobe sind durch den Forschungsleiter auf der Grundlage der Stichprobenkriterien für das spezielle Forschungsprojekt zu kontrollieren.“ Die Ausführung zur Größe der Stichprobe ist wortgleich mit der Formulierung der ADM-Standards, sie ist „so zu bemessen, dass sowohl hinsichtlich der Gesamtstichprobe als auch in den auswertungsrelevanten Untergruppen eine hinsichtlich der Ziele des Forschungsprojekts vertretbare statistische Fehlertoleranz vorliegt.“ Anschließend werden sowohl für Zufallsstichproben als auch für Quotenstichproben Qualitätskriterien angeführt, wobei sich diese wiederum auf die Kontrolle und Dokumentation der Vorgehensweise beziehen. Für Quotenstichproben wird etwa ein Quotenplan gefordert, wobei sowohl die Quelle der Quoten, die Kontrolle der Einhaltung als auch die Anzahl der Interviews für jedes zu kontrollierende Merkmal angegeben werden müssen. Appelle an moralische Integrität und die Sorgfalt sind verschwunden, die Einhaltung der ,Norm‘ soll durch Kontrolle geschehen, die weitgehende Dokumentation aller Schritte voraussetzt. Bei dieser Form von Qualitätsbestimmung stellt sich die Frage, wie das Verhältnis von Organisations- und Prozesskontrolle zu inhaltlicher Qualität beschaffen ist. Diese muss nicht zwangsläufig gegeben sein, „da im Rahmen einer Norm zunächst ,nur‘ Prozesse festgelegt und definiert werden. Die Einhaltung eines Prozesses allein garantiert aber noch keine Qualität“ (Köstner 2007, 170). Es wird nur festgestellt, ob ein Ablauf einer Handlung (z. B. Stichprobenziehung) richtig durchgeführt wird, nicht aber, ob die Handlung (die Art der Stichprobe) richtig ist.19 Doch wie kann man die inhaltliche Dimension wieder in die Diskussion hereinholen?
563
Martin Weichbold
4 Total Survey Error Seit einigen Jahren wird in der englischsprachigen Methodenliteratur ein Ansatz verfolgt, der im deutschen Sprachraum erst sehr zaghaft rezipiert wird. Der Ansatz des Total Survey Error [TSE]20 (vgl. Biemer & Lyberg 2003; Weisberg 2005) verbindet die Prozess-Sicht und die inhaltlichen Überlegungen zur Qualität einer Umfrage wieder miteinander und integriert beides in einem Gesamtkonzept. Das Konzept basiert auf dem Axiom der klassischen Testtheorie, wonach sich der gemessene Wert aus „wahrem Wert“ und Fehler zusammensetzt, wobei dieser Fehler auf vielfältige Einflüsse zurückzuführen ist. Dieser Gesamtfehler besteht zunächst aus dem Sampling Error (dem bekannten Stichprobenfehler) und Nonsampling Error, also allen anderen Fehlern.21 Der Nonsampling-Fehler setzt sich nun aus vielen Fehlern entlang der einzelnen Phasen und Entscheidungen des Forschungsprozesses zusammen. Biemer & Lyberg (2003, 39) unterscheiden etwa fünf (in der Folge weiter differenzierte) Hauptarten von Nonsampling Error: specification error, frame error, nonresponse error, measurement error und processing error.22 Ohne im Detail auf die einzelnen Fehler einzugehen, sind mit diesem Ansatz einige Implikationen verbunden: • Grundsätzlich wird Qualität als multidimensionales Konstrukt aufgefasst, das in seiner allgemeinsten Form als ,fitness for use‘ definiert werden kann.23 Je nach Anforderungen lassen sich dann zahlreiche Qualitätskriterien ableiten, von denen lediglich eines, nämlich accuracy [Exaktheit] mit dem TSE erfasst wird. Andere Qualitätsmerkmale, etwa Relevanz, Kohärenz oder Verfügbarkeit, werden in dem Konzept nicht berücksichtigt. • Der TSE bezieht sich auf eine inhaltliche Vorstellung von Qualität. Ähnlich wie bei den Gütekriterien Validität und Reliabilität geht es um die Abweichung von einem „wahren Wert“ – damit unterstellt man auch die Existenz eines solchen. • Für den TSE gilt, dass Qualitätskontrolle mit Hilfe von Prozesskontrolle geschieht. Indem die Durchführung einer Umfrage [survey] als ein Prozess mit der Abfolge aufeinander bezogener Entscheidungen begriffen wird (vgl. Biemer & Lyberg 2003, 26 ff.; Scheuren 2004), ließe sich der TSE etwa innerhalb eines Zertifizierungsansatzes umsetzen. In dieser Hinsicht ist der TSE ein integratives Konzept, das inhaltliche wie prozessuale Aspekte kombiniert. • Listet man die einzelnen Fehler auf (wie Weisberg 2005), ist der TSE ein praktisches analytisches Instrument, um Vorzüge und mögliche Problembereiche eines Umfrageprojektes zu beschreiben. In einem nächsten Schritt geht es aber darum, den Gesamtfehler – im Sinne der Abweichung zum 564
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
„wahren“ Wert – zu quantifizieren. Ähnlich wie der einfach zu ermittelnde Stichprobenfehler24 sollte es auch möglich sein, alle anderen Fehler zu messen. Dies versuchen Biemer, & Lyberg (2003), wobei hier zu den einzelnen Fehlern umfangreiche weitere Kenntnisse und Annahmen notwendig sind. Darauf soll an dieser Stelle nicht näher eingegangen werden.
5 Resümee Nicht nur ,Qualität‘ ist ein multidimensionales Konstrukt, sondern offenbar auch die Qualitätsbestimmung. Es wurden verschiedene Ansätze gezeigt, die sich zum Teil wesentlich unterscheiden, aber auch Verbindungspunkte aufweisen. Qualität wird in unterschiedlichen Dimensionen thematisiert. Die verbreitete Differenzierung zwischen Produkt, Prozess und Organisation (vgl. Lyberg & Biemer 2008) muss noch durch die Ebene der Person ergänzt werden. Eine Leitdifferenz bei der Bestimmung von Qualität ist jene zwischen Inhalt (Produkt) und Form (Prozess der Erzeugung). Einige Ansätze versuchen eine inhaltliche Definition von Qualität (etwa die Gütekriterien oder der Total Survey Error).25 Andere, etwa die Qualitätssicherung durch Zertifizierung von Instituten, verzichten von vornherein auf eine inhaltliche Qualitätsdefinition und beschränken sich auf die Kontrolle von Strukturen und Prozessen. Dazwischen sind jene Ansätze einzuordnen, die sich zwar von inhaltlich definierten Qualitätsmaßstäben leiten lassen, diese aber nicht selbst spezifizieren, sondern dies dem common sense der scientific community oder dem professional sense des/der Einzelnen überlassen. Dies ist etwa bei den Qualitätskriterien der DFG (zumindest teilweise), den Codes of Ethics und den Standards der Sozialforschungsverbände der Fall. Dem zugrunde gelegten Qualitätskonzept folgen auch die Wege der Qualitätsbeurteilung und -kontrolle. Bei inhaltlich festgelegten Kriterien liegt es nahe, diese auch zu bestimmen oder zu messen (z. B. Koeffizienten für Reliabilität oder TSE). Bemerkenswert ist, dass der moralische Appell an eine gewissenhafte Durchführung nicht nur bei den Codes of Ethics zu finden ist, sondern teilweise auch in den Standards und Richtlinien. Bei deren Weiterentwicklung, der Zertifizierung von Sozialforschungsinstituten, will man sich aber offensichtlich nicht mehr auf die Integrität der ForscherInnen verlassen: An ihre Stelle treten weit reichende Dokumentations- und Kontrollpflichten. So pendelt die Qualitätsdiskussion zwischen Inhalten und Prozessen, zwischen Vertrauen und Kontrolle. Es ist klar geworden, dass es „die“ Qualität nicht gibt: So wie „gute“ Sozialforschung aus einem komplexen Prozess 565
Martin Weichbold
vieldimensionaler, aufeinander bezogener Handlungen und Entscheidungen entsteht, wird man es letztlich nicht mit einer einzigen Kennzahl, einem wohlklingenden Begriff oder einem Gütezeichen umfassend bewerten können. Diese Erkenntnis betrifft aber nicht nur die Sozialforschung selbst, sondern muss auch nach außen kommuniziert werden. Tabelle 1: Qualitätsdefinitionen und -beurteilungen im Überblick Bezeichnung
Hauptdimension
Definition von Qualität
Art der Qualitätsbeurteilung/ -kontrolle
Klassische Gütekriterien
Produkt
Inhaltlich bestimmt (basierend auf Axiomen der Testtheorie als Abweichung vom „wahren Wert“)
Kriterien, statistische Koeffizienten
Qualitätskriterien DFG
Prozess
Inhaltlich orientiert; common sense der WissenschaftlerInnen
Wechsel auf Prozesssicht – Good/Best Practice
Codes of Ethics
Person
Keine nähere inhaltliche Definition, professional sense der einzelnen WissenschaftlerInnen
Ethisches Verhalten Einzelner
Standards/ Richtlinien
Prozess (zusätzlich tw. auch andere)
Katalogartige Zergliederung in viele kleine Teilbereiche, aber keine inhaltliche Definition
Appell an Sorgfalt bei Durchführung, Kontrolle
Zertifizierung
Organisation Prozess
Anforderungen an Strukturen und Prozesse, keine inhaltliche Definition
Dokumentation und Kontrolle
Total Survey Error
Produkt Prozess
Inhaltliche Definition (Abweichung vom wahren Wert) und Prozessuale Orientierung
Analytische oder quantitative Bestimmung des Fehlers
566
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen
Anmerkungen 1 2 3
4
5 6
7
8
9 10
11
12 13 14 15
16
Bei Friedrichs & Atteslander und Schnell & Hill & Esser werden nur Validität und Reliabilität genannt. Darüber hinaus üben Rohwer & Pötter auch sehr heftige Kritik im Sinne von (1). So findet man etwa im ZUMA Informationssystem Angaben zu Reliabilität und Validität der einzelnen dort verfügbaren Erhebungsinstrumente (Skalen bzw. Itembatterien). Diese Problemstellung soll in Folge bei den verschiedenen Ansätzen zur Qualitätssicherung beispielhaft untersucht werden. Dies erscheint interessant, weil dazu in der Frage Random oder Quota eine klare Differenz zwischen wissenschaftlicher Lehrbuchmeinung (nach der eine Generalisierbarkeit nur über Zufallsstichproben zu erzielen ist) und der verbreiteten Praxis insbesondere in der Markt- und Meinungsforschung (die die günstigeren und einfacher zu handhabenden Quotenstichproben präferiert) gegeben ist. Ernst Ludwig Winnacker, damals Präsident der DFG, im Vorwort, 2. ADM: Arbeitskreis deutscher Markt- und Sozialforschungsinstitute; ESOMAR: European Society for Opinion and Marketing Research; AAPOR: American Association for Public Opinion Research; WAPOR: World Association for Public Opinion Research Über derartige Ethikrichtlinien verfügen nicht nur Sozialforschungseinrichtungen, sondern auch wissenschaftliche Vereinigungen (z. B. die Deutsche Gesellschaft für Soziologie). Dieser Kodex wurden auf internationaler Ebene erarbeitet und von einzelnen Länderorganisationen, so etwa dem ADM, als nationale Regelung übernommen. Die aktuelle Fassung wurde 2007 publiziert und ist seit 2008 bindend. Der Begriff „Marktforscher“ bzw. „Marktforschung“ umfasst im Kodex auch Sozialund Meinungsforschung (vgl. ESOMAR 2007, 3). In Ergänzung des Codes verfügt AAPOR über ein eigenes Dokument mit Abgrenzungen von Sozialforschung, genannt „Survey Practices that AAPOR Condemns“. Darin enthalten ist etwa die Ablehnung der Vermischung von Forschungs- und Marketingansichten. Derartige Klarstellungen sind auch im ESOMAR-Kodex enthalten. Hier ergibt sich ein Spannungsfeld, weil eine Überprüfbarkeit von Ergebnissen eine weitgehende Offenlegung von Informationen erfordert (z. B. genaue Stichprobenpläne, Gewichtungsverfahren, . . .). Dies würde aber zum Teil bedeuten, die ,Betriebsgeheimnisse‘ eines Institutes zu publizieren. Onlinedokument, ergibt ausgedruckt ca. 6 Seiten. ESOMAR definiert sich selbst zwar als „world organisation“, die Wurzeln und der Schwerpunkt liegen aber in Europa. Diese wurden 2001 durch die „Standards zur Qualitätssicherung für Online-Befragungen“ ergänzt (ADM 2001). Vergleiche dazu die inhaltlich viel eindeutigere Festlegung auf Zufallsstichproben in den „Best practices“ von AAPOR. Allenfalls könnte der Hinweis auf die Fehlertoleranz (deren Berechnung eine Zufallsstichprobe voraussetzt) im Sinne eines Vorzugs der Zufalls- gegenüber der Quotenstichprobe interpretiert werden, an anderer Stelle (46) werden hingegen Random- und Quota-Verfahren gleichwertig dargestellt. Stand Juni 2008, mehrere Module sind noch in Bearbeitung.
567
Martin Weichbold 17
18
19
20 21
22 23 24 25
Die Module im Einzelnen sind: I. Study, Organizational, and Operational Structure; II. Tenders, Bids, and Contracts; III. Ethical Considerations; IV. Sample Design; V. Questionnaire Design; VI. Translation; VII. Adaptation; VIII. Survey Instrument Design; IX. Pretesting; X. Interviewer Recruitment, Selection, and Training; XI. Data Collection; XII. Harmonization of Survey and Statistical Data; XIII. Data Processing and Statistical Adjustment; XIV. Dissemination. Die Normenreihe EN ISO 9000 ff. umfasst Grundsätze für Maßnahmen zum Qualitätsmanagement. ISO 9000 beinhaltet Grundlagen und Begriffe zu Qualitätsmanagementsystemen, erläutert werden die Grundlagen für Qualitätsmanagementsysteme und die in den folgenden Normen (EN ISO 9000 ff.) verwendeten Begriffe. ISO 9001 legt die Anforderungen an ein Qualitätsmanagementsystem (QM-System) fest. Dabei handelt es sich nicht um ein sozialforschungsspezifisches Instrumentarium, sondern diese ISO-Reihe ist für alle Unternehmen gedacht, die Produkte bereitstellen, welche die Anforderungen der Kunden und allfällige behördliche Anforderungen erfüllen, oder die bestrebt sind, die Kundenzufriedenheit zu erhöhen. Neben der Zertifizierung gibt es auch Vorschläge für die Implementierung eines Audit-Systems zur Qualitätssicherung (vgl. Akkerman et al. 2008). Audits sind begleitende, kommunikativ-validierende Verfahren, die sich eher in der qualitativen Sozialforschung etablieren werden. Die Ursprünge dieses Ansatzes reichen bereits einige Jahrzehnte zurück, vgl. z. B. Andersen 1979; Groves 1989. Der Begriff „Fehler“ ist analog zum Stichprobenfehler gewählt und teilweise irreführend, weil er nicht in jedem Fall einen Fehler im Sinne eines Mangels bezeichnet. Teilweise fallen darunter auch Spezifika, wie sie etwa unterschiedliche Erhebungsmodi haben (ohne diese als „richtig“ oder „falsch“ deklarieren zu können). Eine strukturell abweichende, inhaltlich aber weitgehend deckungsgleiche Systematik bei Weisberg (2005, 19). Diese Definition stammt von Juran & Gryna 1970 (vgl. Lyberg & Biemer 2008, 424). Oder mitunter gar nicht so einfach zu berechnende, vgl. den Beitrag von Bacher in diesem Band. Wenngleich sie sich bei der konkreten Umsetzung zum Teil auch wieder auf formale Kriterien beschränken, etwa bei den gängigen Verfahren zur Bestimmung von Validität und Reliabilität, wie Rohwer & Pötter (2002, 120 ff.) argumentieren.
Literatur AAPOR (American Association for Public Opinion Research). Best Practices for Survey and Public Opinion Research. Abgerufen am 28.10.2008, Website: http://www.aapor. org/bestpractices. AAPOR (2005). AAPOR Code of Professional Ethics & Practices. Abgerufen am 28.10.2008, Website: http://www.aapor.org/aaporcodeofethics. ADM (Arbeitskreis deutscher Markt- und Sozialforschungsinstitute) (1999). Standards zur Qualitätssicherung in der Markt- und Sozialforschung. Abgerufen am 28.10.2008, Website: http://www.adm-ev.de/pdf/quali.pdf.
568
Zur Bestimmung und Sicherung der „Qualität“ von Umfragen ADM (2001). Standards zur Qualitätssicherung für Online-Befragungen. Abgerufen am 28.10.2008, Website: http://www.adm-ev.de/quali_online.html. Akkerman, S., & Brekelmans, M. (2008). Auditing Quality of Research in Social Sciences. Quality & Quantity, 42, 257–274. Andersen, R. (1979). Total Survey Error. Applications to improve health surveys. San Francisco: Jossey-Bass. Atteslander, P. (2008). Methoden der empirischen Sozialforschung. 12. Aufl. Berlin: Erich Schmidt Verlag. Beck, U. (1986). Risikogesellschaft. Auf dem Weg in eine andere Moderne. Frankfurt/ Main: Suhrkamp. Biemer, P. P., & Lyberg, L. E. (2003). Introduction to Survey Quality. Hoboken: Wiley. Bortz, J., & Döring, N. (2006). Forschungsmethoden und Evaluation. 4. Aufl. Berlin et al.: Springer. Cross-Cultural Survey Guidelines (2008). Abgerufen am 28.10.2008, Website: http:// ccsg.isr.umich.edu/pdf/fullguide061108.pdf. DIN (Deutsches Institut für Normung) (2006). DIN ISO 20252. Markt-, Meinungs- und Sozialforschung. Begriffe und Dienstleistungsanforderungen. ESOMAR (European Society for Opinion and Marketing Research) (2007). ICC/ESOMAR Internationaler Kodex für die Markt- und Sozialforschung. Abgerufen am 28.10.2008, Website: http://www.esomar.org/index.php/codes-guidelines.html. Friedrichs, J. (1990). Methoden empirischer Sozialforschung. 14. Auflage. Opladen: Westdeutscher Verlag. GESIS (Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen). ZUMA Informationssystem. Abgerufen am 28.10.2008, Website: www.gesis.org/methodenberatung/ zis. Groves, R. M. (1989). Survey Errors and Survey Costs. New York: Wiley. Häder, M. (2006). Empirische Sozialforschung. Eine Einführung. Wiesbaden: VS Verlag. Juran, J. M., & Gryna, F. M. (1970). Quality planning and analysis. From product development through usage. New York: McGraw-Hill. Kaase, M. (Hg.) (1999). Deutsche Forschungsgemeinschaft: Qualitätskriterien der Umfrageforschung. Quality Criteria for Survey Research. Berlin: Akademie Verlag. König, C., & Stahl, M., & Wiegand, E. (Hg) (2007). Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1. Bonn: GESIS. Köstner, H. (2007). Anforderungen und Nutzen der Zertifizierung in der Markt- und Sozialforschung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (163–175). Bonn: GESIS. Lyberg, L.E., & Biemer, P. (2008). Quality Assurance and Quality Control in Surveys. In E. D. de Leeuw & J.J. Hox & Dillman (Eds.), International Handbook of Survey Methodology (421–441). New York, London: Lawrence Erlbaum Associates.
569
Martin Weichbold Mühlbauer, H. (2007). Normung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (33–42). Bonn: GESIS. Rohwer, G., & Pötter, U. (2002). Methoden sozialwissenschaftlicher Datenkonstruktion. Weinheim, München: Juventa. Scheuren, F. (2004). What is a Survey? Abgerufen am 28.10.2008, Website: www.whatisasurvey.info/ Schnell, R., & Hill, P. B., & Esser, E. (2005). Methoden der empirischen Sozialforschung. 7. Auflage. München, Wien: Oldenburg. Steinke, I. (1999): Kriterien qualitativer Forschung. Ansätze zur Bewertung qualitativ-empirischer Sozialforschung. Weinheim, München: Juventa. WAPOR (World Association for Public Opinion Research). Abgerufen am 28.10.2008, Website: http://www.unl.edu/WAPOR/. Weisberg, H. F. (2005). The Total Survey Error Approach. A Guide to the New Science of Survey Research. Chicago: The University of Chicago Press. Weischer, C. (2007). Sozialforschung. Konstanz: UVK Verlagsgesellschaft. Wiegand, E. (2007). Standards und Normen in der Markt- und Sozialforschung. In C. König et al. (Hg.), Qualitätsmanagement und Qualitätssicherung. GESIS-Tagungsberichte, Band 1 (43–50). Bonn: GESIS.
570
Autorinnen und Autoren
Autorinnen und Autoren Wolfgang Aschauer MMag. Dr.; Studium der Soziologie, Psychologie und Kommunikationswissenschaft; Postdoc am Fachbereich Politikwissenschaft und Soziologie, Abteilung Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Tourismussoziologie, kulturvergleichende Forschung, Migrationsforschung, empirische Sozialforschung und Statistik. Email:
[email protected] Folkert Aust Soziologe; bei infas/Bonn in der Abteilung Methoden und Statistik beschäftigt. Arbeitsschwerpunkte: Konzeption von Stichproben, methodische Beratung bei von infas durchgeführten Studien und Datenanalysen. Email:
[email protected] Johann Bacher geb. 1959, Mag. Dr.; Professor für Soziologie und empirische Sozialforschung an der Johannes Kepler Universität Linz. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Ungleichheitsforschung und Sozialstrukturanalyse, Soziologie der Kindheit und des abweichenden Verhaltens. Email:
[email protected] Reinhard Bachleitner Mag. Dr.; Professor am Fachbereich Politikwissenschaft und Soziologie, Abteilung Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Methoden und Methodologie empirischer Sozialforschung, Tourismus-, Kultur- und Freizeitsoziologie. Email:
[email protected] 571
Autorinnen und Autoren
Jörg Blasius geb. 1957, Dipl.-Soz. Dr.; von 1986 bis 2001 Universität zu Köln, Zentralarchiv für Empirische Sozialforschung; seit WS 2001/2002 Professor am Institut für Politische Wissenschaft und Soziologie, Abt. Soziologie, der Universität Bonn. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, angewandte Statistik (insbesondere Korrespondenzanalyse), Stadtsoziologie und Lebensstile. Email:
[email protected] Hans-Peter Blossfeld geb. 1954, Dr. rer pol.; Geschäftsführender Direktor des Instituts für bildungswissenschaftliche Längsschnittforschung (INBIL) an der Universität Bamberg und Leiter des Nationalen Bildungspanels (National Educational Panel Study, NEPS). Darüber hinaus Inhaber des Lehrstuhls für Soziologie I an der Universität Bamberg und Leiter des Staatsinstituts für Familienforschung an der Universität Bamberg. Zuvor Professuren am Europäischen Hochschulinstitut in Florenz, der Universität Bremen und der Universität Bielefeld. Email:
[email protected] Maurice Brandt Studium der Soziologie, Psychologie, Politikwissenschaften und BWL an der Friedrich-Wilhelms-Universität in Bonn; wissenschaftlicher Mitarbeiter am Forschungsdatenzentrum des Statistischen Bundesamtes in Wiesbaden. Arbeitsschwerpunkte: Anonymisierung von Wirtschaftsstatistiken, Weiterentwicklung des Zugangs zu Daten der amtlichen Statistik für die wissenschaftliche Nutzung über die kontrollierte Datenfernverarbeitung. Email:
[email protected] Sandra Buchholz Dr. rer. pol.; wissenschaftliche Mitarbeiterin am Lehrstuhl für Soziologie I an der Otto-Friedrich-Universität Bamberg; zuvor wissenschaftliche Mitarbeiterin in den international vergleichenden Forschungsprojekten „GLOBALIFE – Lebensverläufe im Globalisierungsprozess“ (2003–2005) sowie „flexCAREER – Flexibilitätsformen und soziale Ungleichheiten beim Erwerbseinstieg und in der frühen Erwerbskarriere“ (2005–2007). Arbeitsschwerpunkte: Lebensverlaufsforschung, Arbeitsmarktforschung, soziale Ungleichheiten, internationaler Vergleich, quantitative Methoden. Email:
[email protected] 572
Autorinnen und Autoren
Stefanie Eifler geb. 1967, PD Dr. rer. soc.; Hochschuldozentin an der Universität Bielefeld in den Bereichen Methoden der empirischen Sozialforschung und im Schwerpunkt soziale Probleme und Instanzen sozialer Kontrolle. Arbeitsschwerpunkte: Messen in den Sozialwissenschaften, Handlungstheorie, Kriminalsoziologie. Email:
[email protected] Marek Fuchs Professor für empirische Sozialforschung an der Universität Kassel. Arbeitsschwerpunkte: Umfragemethodologie, u. a. Online-Befragungen, Befragbarkeit von Kindern und Alten sowie Nutzung von Handys in der Umfrageforschung. Email:
[email protected] Siegfried Gabler Studium von Mathematik und Volkswirtschaftslehre in Mannheim, dort auch Promotion und Habilitation. Seit 1990 bei GESIS im Center for Survey Design & Methodology. Arbeitsschwerpunkte: Untersuchung praktischer und theoretischer Probleme im Zusammenhang mit Stichproben. Email:
[email protected] Matthias Ganninger Studium der Politik- und Verwaltungswissenschaften mit Schwerpunkt Methoden/Statistik an der Universität Konstanz; seit 2005 bei GESIS im Center for Survey Design & Methodology und Doktoratsstudium an der Universität Trier am Lehrstuhl für Wirtschafts- und Sozialstatistik. Arbeitsschwerpunkte: Survey Statistik, Designeffekte und Varianzschätzung. Email:
[email protected] Joachim Gerich geb. 1970, Dr.; Assistent am Institut für Soziologie, Abteilung für empirische Sozialforschung der Johannes Kepler Universität Linz. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Gesundheits- und sozialpolitische Forschung. Email:
[email protected] 573
Autorinnen und Autoren
Albert Greinöcker geb. 1975, Studium von Informatik, Soziologie und Datentechnik; Softwareentwickler an der Universität Innsbruck; Dissertation zum Thema Onlinebefragungen. Email:
[email protected] Michael Häder geb. 1952, Studium der Soziologie an der Humboldt-Universität Berlin, Promotion an der Universität in Leipzig, Habilitation an der HumboldtUniversität Berlin; Professor für Methoden der Empirischen Sozialforschung am Institut für Soziologie der Technischen Universität Dresden. Arbeitsschwerpunkte: Delphi-Ansatz sowie die Umfrageforschung. Email:
[email protected] Sabine Häder Dr. oec.; Studium der Statistik und Wirtschaftswissenschaften in Berlin; seit 1992 Statistikerin bei GESIS im Center for Survey Design & Methodology. Arbeitsschwerpunkte: Stichproben, insbesondere für internationale und Telefonumfragen. Email:
[email protected] Dirk Hofäcker geb. 1974, Dipl. Soz.; seit 2006 Mitarbeiter am Staatsinstitut für Familienforschung an der Universität Bamberg (ifb) und Koordinator des europäischen Forschungsnetzwerks „TransEurope“. Arbeitsschwerpunkte: international vergleichende Lebenslaufforschung, Familien- und Arbeitsmarktsoziologie, Einstellungsforschung. Email:
[email protected]. Volker Hüfken geb. 1963, Dipl.-Soz-wiss.; wissenschaftlicher Mitarbeiter am Sozialwissenschaftlichen Institut der Heinrich-Heine-Universität Düsseldorf. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Gesundheitssoziologie. Email:
[email protected] 574
Autorinnen und Autoren
Anja Kettner geb. 1971, Diplom-Volkswirtin; Leiterin der IAB-Erhebung des gesamtwirtschaftlichen Stellenangebots. Arbeitsschwerpunkte: Determinanten der Arbeitskräftenachfrage, Ausmaß und Ursachen von Fachkräftemangel, Methodik von Betriebsbefragungen. Email:
[email protected] Henrik Kreutz em. Univ.-Prof. Dr.; Lehrstuhl für Soziologie und Sozialanthropologie der Universität Erlangen-Nürnberg, Univ.-Doz. Universität Wien; wissenschaftlicher Leiter des Instituts für Angewandte Soziologie, Herausgeber der „Angewandten Sozialforschung“. Arbeitsschwerpunkte: Allgemeine Soziologie, Methoden der empirischen Sozialforschung und Methodologie, Finanzsoziologie und Korruptionsforschung. Email:
[email protected] Mike Kühne Dr.; Studium der Soziologie an der TU Dresden; Wissenschaftlicher Mitarbeiter am Lehrstuhl für Methoden der Empirischen Sozialforschung am Institut für Soziologie der TU Dresden. Arbeitsschwerpunkte: Bildungsforschung und Umfrageforschung. Email:
[email protected] Paul Lüttinger Dr. phil.; Studium von Soziologie und Psychologie in Mannheim; seit 1987 wissenschaftlicher Mitarbeiter beim German Microdata Lab der GESIS. Arbeitsschwerpunkt: Mikrodaten der amtlichen Statistik (Mikrozensus). Email:
[email protected] Georgios Papastefanou Dr.; Soziologe; wissenschaftlicher Mitarbeiter bei GESIS; verantwortlich für Haushaltsbudgetsurveys in Deutschland und Europa, Leitung des Pilotprojekts „Ambulatorisches Assessment und empirische Sozialforschung“. Arbeitsschwerpunkte: Sozialstruktur und Lebensstile, international vergleichende Analysen konsumbasierter Ungleichheit, Methoden der Längsschnittanalyse, ambulatorisches Assessment in der empirischen Sozialforschung. Email:
[email protected] 575
Autorinnen und Autoren
Markus Pausch geb. 1974, Studium der Politikwissenschaft, Geschichte und Soziologie in Salzburg und Lyon; Mitarbeiter am Zentrum für Zukunftsstudien der Fachhochschule Salzburg sowie Lehrbeauftragter am Fachbereich für Politikwissenschaft und Soziologie der Universität Salzburg. Arbeitsschwerpunkte: Demokratie, Partizipation, Lebensqualität. Email:
[email protected] Andreas Quatember Assistenzprofessor an der Abteilung für Datengewinnung und Datenqualität am IFAS – Institut für Angewandte Statistik der Johannes Kepler Universität Linz. Promotion zum Thema Quotenverfahren aus dem Bereich der statistischen Stichprobentheorie. Forschungsschwerpunkt: Datenqualität in Stichprobenerhebungen. Email:
[email protected] Marcel Raab Dipl.-Soz.; wissenschaftlicher Mitarbeiter im Nationalen Bildungspanel (NEPS) und an der Professur für Bevölkerungswissenschaft an der Universität Bamberg. Arbeitsschwerpunkte: Bildungssoziologie, soziale Ungleichheitsforschung, familiensoziologische und methodische Fragestellungen. Email:
[email protected] Michael Ruland Dipl.-Soz.; wissenschaftlicher Mitarbeiter im Projekt Nationales Bildungspanel (National Educational Panel Study, NEPS) im Institut für bildungswissenschaftliche Längsschnittforschung, Bamberg. Arbeitsschwerpunkte: Globalisierung, Lebensverlaufsforschung, Bildungsund Arbeitsmarktforschung, quantitative Methoden der Sozialforschung (insbesondere Ereignisanalyse). Email:
[email protected] Tino Schlinzig Dipl.-Soz.; Studium der Soziologie, Kommunikationswissenschaft und Rechtswissenschaft in Dresden und Wellington. Mitarbeiter am Institut für Soziologie der TU Dresden; Arbeitsschwerpunkte: qualitative und quantitative empirische Sozialforschung, Familiensoziologie, Wissenssoziologie, Kriminologie. Email:
[email protected] 576
Autorinnen und Autoren
Paul Schmelzer MA; seit 2005 wissenschaftlicher Mitarbeiter im Rahmen des flexCAREER Projektes (Flexibilisierungsformen beim Arbeitsmarkteintritt und in der frühen bzw. späteren Erwerbsphase) an der Universität Bamberg. Arbeitsschwerpunkte: Arbeitsmarktforschung, Lebenslaufforschung, Quantitative Methoden der empirischen Sozialforschung und Institutionsforschung im internationalen Vergleich. Email:
[email protected] Götz Schneiderat Studium der Soziologie an der TU Dresden; Projektmitarbeiter im DFG Projekt: „Telefonbefragungen in der Allgemeinbevölkerung über das Mobilfunknetz“ an der TU Dresden. Arbeitsschwerpunkte: empirische Sozialforschung, insbesondere Umfrageforschung, Fragebogenentwicklung, Evaluation und computergestützte Telefonbefragung. Email:
[email protected] Rainer Schnell geb. 1957, Professor für Methoden der empirischen Sozialforschung an der Universität Duisburg-Essen. Arbeitsschwerpunkte: Ursachen, Konsequenzen und Korrektur von Datenfehlern in Stichproben. Email:
[email protected] Benno Schönberger Diplomstudium der Soziologie an der Otto-Friedrich-Universität Bamberg; studentische Hilfskraft beim Projekt „Bildungsprozesse, Kompetenzentwicklung und Selektionsentscheidungen im Vor- und Grundschulalter“ (BiKs) am Lehrstuhls für Soziologie I. Email:
[email protected] Helmut Schröder Dr.; Studium der Soziologie und Erziehungswissenschaft. Bereichsleiter Sozialforschung bei infas/Bonn. Arbeitsschwerpunkte: Studien und Evaluationen in den Feldern Bildung, Arbeitsmarkt, soziale Sicherung und gesellschaftliche Teilhabe von behinderten Menschen. Email:
[email protected] 577
Autorinnen und Autoren
Julia Simonson geb. 1974, Dr. rer. pol., Dipl.-Soz.; wissenschaftliche Mitarbeiterin am Deutschen Zentrum für Altersfragen, Berlin. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, soziale Integration, Lebensverläufe, abweichendes Verhalten von Kindern und Jugendlichen. Email:
[email protected] Bettina Stadler Dr. Mag. rer. soc. oec.; Mitarbeiterin in der Statistik Austria, Direktion Bevölkerung; Sponsion und Promotion im Fach Soziologie an der Universität Wien. Arbeitsschwerpunkte: Methoden der empirischen Sozialforschung, Arbeitsmarktforschung, Migrationsforschung. Email:
[email protected] Michael Stops Studium der Volkswirtschaftslehre und Statistik (Diplom-Volkswirt) sowie theoretischer Grundlagen für Fachaufgaben der Bundesagentur für Arbeit (Diplom-Verwaltungswirt (FH)); wissenschaftlicher Mitarbeiter am Institut für Arbeitsmarkt- und Berufsforschung in Nürnberg. Arbeitsschwerpunkte: Erhebung des gesamtwirtschaftlichen Stellenangebotes, Effizienzfragen der Arbeitsvermittlung und Matchingprozesse auf disaggregierten Arbeitsmärkten. Email:
[email protected] Monika Taddicken, Dr. rer. soc., Dipl.-Sozw.; Studium der Sozialwissenschaften in Göttingen und Galway, Irland; Erfahrungen als Projektleiterin in der kommerziellen Online-Forschung und als Mitarbeiterin am Marketing-Lehrstuhl der Universität Bamberg. Aktuell akademische Mitarbeiterin am Institut für Sozialwissenschaften, Fachgebiet Kommunikationswissenschaft und Sozialforschung der Universität Hohenheim, Stuttgart und Projektleiterin des DFG-Projekts „Die Diffusion der Medieninnovation Web 2.0: Determinanten und Auswirkungen aus der Perspektive des Nutzers“. Arbeitsschwerpunkte: Methodenforschung, Online-Forschung und Medieninnovationen. Email:
[email protected] 578
Autorinnen und Autoren
Daniela Thume geb. 1973, Diplom-Psychologin; Sachverständige für Aussagepsychologie. Forschungsschwerpunkt: Kriminalitätsfurcht. Email:
[email protected] Martin Weichbold geb. 1969, Studium von Soziologie, Politikwissenschaft und Psychologie; ao. Univ.-Prof. an der Abteilung für Soziologie und Kulturwissenschaft der Universität Salzburg. Arbeitsschwerpunkte: Methodologie empirischer Sozialforschung, computerbasierte Erhebungen. Email:
[email protected] Christof Wolf Dr. rer. pol.; Studium der Soziologie, Volkswirtschaftslehre, Sozial- und Wirtschaftsgeschichte und Statistik in Hamburg und Köln; seit 2004 Wissenschaftlicher Leiter der Abteilung Dauerbeobachtung der Gesellschaft in der GESIS – Leibniz-Institut für Sozialwissenschaften in Mannheim und Privatdozent an der Universität zu Köln. Seit 2005 Sprecher der Sektion „Methoden der Empirischen Sozialforschung“ in der Deutschen Gesellschaft für Soziologie und geschäftsführender Herausgeber der Zeitschrift „Methoden, Daten, Analysen“. Email:
[email protected] Angela Wroblewski Dr.in; Studium der Soziologie an der Universität Wien, MA an der Universität Essex (UK, Social Science Data Analysis); seit 1999 wissenschaftliche Mitarbeiterin am Institut für höhere Studien Wien. Arbeitsschwerpunkte: Bildungs-, Arbeitsmarkt- und Evaluationsforschung. Email:
[email protected] 579