Christel Weiß Basiswissen Medizinische Statistik
Christel Weiß
Basiswissen Medizinische Statistik 4., überarbeitete Auflage Mit 40 Abbildungen, 15 Tabellen und 9 Übersichten
13
Dr. Christel Weiß, Dipl.-Math.
Prof. Dr. Berthold Rzany, M. Sc.
Universitätsklinikum Mannheim Medizinische Fakultät der Universität Heidelberg Medizinische Statistik Ludolf-Krehl-Str. 7–11 68135 Mannheim
Division of Evidence Based Medicine (dEBM) Klinik für Dermatologie, Venerologie und Allergologie Charité – Universitätsmedizin Berlin Campus Charité Mitte Charitéplatz 1 10117 Berlin
Bibliograische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliograie; detaillierte bibliograische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
ISBN-13
978-3-540-71460-6
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungsplichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.
Springer Medizin Verlag springer.de © Springer Medizin Verlag Heidelberg 1999, 2002, 2005, 2008 Produkthaftung: Für Angaben über Dosierungsanweisungen und Applikationsformen kann vom Verlag keine Gewähr übernommen werden. Derartige Angaben müssen vom jeweiligen Anwender im Einzelfall anhand anderer Literaturstellen auf ihre Richtigkeit überprüft werden. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Planung: Kathrin Nühse, Heidelberg Projektmanagement: Axel Treiber, Heidelberg Umschlaggestaltung & Design: deblik Berlin Satz: Reproduktionsfertige Autorenvorlage Druck- und Bindearbeiten: Stürtz, Würzburg SPIN 12037018 Gedruckt auf säurefreiem Papier
15/2117 – 5 4 3 2 1 0
V Vorwort
Vorwort zur vierten Auflage Es gibt keine gute Medizin ohne Biostatistik. Dieser Satz wird möglicherweise bei einigen Medizinstudenten auf Unverständnis stoßen. Warum sollte sich ein Mediziner mit Biostatistik befassen, und warum ist dieses Fach Teil der ärztlichen Ausbildung? – Ärztliches Handeln muss auf Wissen basieren. Ansonsten verfallen wir Zufällen und Halbwahrheiten, die auch dadurch nicht besser werden, dass sie mantrahaft wiederholt werden. Dies wäre unter ethischen, medizinischen und ökonomischen Aspekten nicht vertretbar. Medizinische Forschung ohne Statistik ist nicht möglich. Ist Biostatistik unattraktiv? Keineswegs! Es gibt sogar Mediziner, die dieses Fach faszinierend finden. Erst eine statistische Analyse ermöglicht es, Daten zu strukturieren, Zusammenhänge aufzudecken, Ergebnisse zu interpretieren und in der Praxis anzuwenden. Jeder Arzt, der wissenschaftliche Publikationen gelesen oder selbst erstellt hat, weiß dies. Den meisten Studenten wird dies spätestens beim Schreiben ihrer Doktorarbeit bewusst. Der schlechte Ruf, der diesem Fach vorauseilt, ist dadurch begründet, dass statistische Methoden auf mathematischen Formeln basieren, die für manche ein Gräuel sind. Als Anwender der Statistik muss man diese Formeln jedoch nicht herleiten können oder gar auswendig lernen (zumal die Rechnungen üblicherweise von einer geeigneten Software durchgeführt werden). Man sollte vielmehr verstehen, wie statistische Methoden sinnvoll in der Medizin angewandt werden. Jedem, der diesem Fachgebiet unbefangen begegnet, erschließen sich äußerst interessante Anwendungsmöglichkeiten. Ziel dieses Buches ist es, Studenten und interessierten Ärzten einen kompetenten Überblick über die wichtigsten statistischen Anwendungen in der Medizin zu geben. Darüber hinaus gewährt dieses Buch einen umfassenden Überblick über epidemiologische Studien. Es ist nicht nur Studenten bei deren Klausur- und Examensvorbereitungen nützlich, sondern auch als Nachschlagekompendium geeignet. – Für die vierte Auflage wurde der gesamte Text überarbeitet, aktualisiert und an einigen Stellen ergänzt. Das bewährte didaktische Konzept wurde beibehalten. Alle Methoden werden verständlich dargestellt und anhand von einfachen Beispielen erläutert. Die mathematischen Formeln werden nicht nur aufgelistet, sondern auch – soweit dies mit schulmathematischen Kenntnissen möglich ist – hergeleitet. Diese Abhandlungen sind jedoch nicht in den laufenden Text eingebettet. Der Leser kann bei
VI
Vorwort
Interesse die Formeln nachvollziehen; für das grundsätzliche Verständnis des Stoffes ist dies jedoch nicht erforderlich. Des Weiteren wurden die MultipleChoice-Aufgaben ergänzt. Man findet man sie – separat für jedes Buchkapitel – mit kommentierten Lösungen auf den Internet-Seiten des Springer-Verlages unter www.lehrbuch-medizin/medstatistik. Viele haben zum Gelingen dieses Buches beigetragen. Ich danke sehr herzlich meinem Coautoren, Herrn Prof. Dr. med. Berthold Rzany, Sc. M. (Master of Science in Clinical Epidemiology), für seine wertvolle Hilfe und zahlreiche medizinisch-fachliche Ratschläge. Er war als Mediziner und Epidemiologe bereits Coautor der ersten drei Auflagen und auch bei der vierten Auflage (insbesondere bei den Kapiteln 13 bis 16) maßgeblich beteiligt. Ferner bedanke ich mich bei meinen Mitarbeitern Herrn Joachim Brade, Frau Sylvia Büttner ˇ und Frau Rosemarie Cerný. Herr Brade hat den gesamten Text der Kapitel 1 bis 12 durchgearbeitet, kritisch kommentiert und zahlreiche eigene Ideen einˇ fließen lassen. Frau Büttner und Frau Cerný haben mich ebenfalls mit sehr viel Engagement und didaktischen Anregungen unterstützt. Sie zeichnen sich verantwortlich für die graphischen Darstellungen und das gesamte Layout. Danken möchte ich auch Frau Kathrin Nühse und Herrn Axel Treiber vom Springer-Verlag für die hervorragende Zusammenarbeit. Zahlreiche Leser haben mir Änderungsvorschläge zukommen lassen; auch ihnen sei herzlich gedankt. Nicht zuletzt danke ich meinen beiden Töchtern Judith und Miriam für ihr Verständnis und ihre emotionale Unterstützung. Wie sieht die Zukunft der Biostatistik aus? Unser Wissen und unser Handeln werden sich – im Sinne der Evidenzbasierten Medizin – immer mehr auf das kollektive Gesamtwissen stützen. Deshalb wird dieses Fach für die klinische und die forschende Medizin immmer wichtiger werden. Weitere Informationen, Zusammenfassungen, Multiple-Choice-Aufgaben und ein Statistik-Lexikon findet man im Internet unter www.lehrbuch-medizin/ medstatistik und www.ma.uni-heidelberg/inst/biom. Selbstverständlich freue ich mich über Anregungen und konstruktive Kritik an
[email protected].
Christel Weiß
Mannheim, im Oktober 2007
VII
1976 1976 – 1983 1986 – 1992
1991 1991 1992 – heute seit November 1999
Abitur Studium der Mathematik und Physik an der Johannes-Gutenberg-Universität Mainz Wissenschaftliche Mitarbeiterin an der Abteilung für Experimentelle Chirurgie an der Universität Heidelberg Promotion zum Doctor scientiarum humanarum Anerkennung als Medizinischer Informatiker durch die GMDS Mathematikerin am Universitätsklinikum Mannheim Leiterin der Abteilung für Medizinische Statistik
Schlüsselbegriffe:
Basiswissen Medizinische Statistik
sind fett und kursiv hervorgehoben
Inhaltliche Struktur: klare Gliederung durch alle Kapitel 38
Leitsystem: schnelle Orientierung über alle Kapitel
3
Kapitel 3 · Häufigkeiten
3.1
Häufigkeiten bei diskreten Merkmalen
3.1.1
Absolute und relative Häufigkeiten
Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung. Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind. k
¦n
i
Info: zusätzliche
(3.1)
=n
i =1
Informationen zum jeweiligen Thema
i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen z Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise k
dargestellt. Der Ausdruck
¦n
i
entspricht der Summe n1 + n2 + ... + nk .
i =1
Verweise auf Kapitel, Tabellen, Herleitungen und Beispiele:
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch das Erstellen einer Strichliste oder – weniger mühsam – mittels einer › Beispiel 3.1). geeigneten Software (z z
deutlich herausgestellt und leicht zu finden
Beispiel 3.1 Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten: Ausprägung absolute Häufigkeiten relative Häufigkeiten n1 = 28 A1 =Blutgruppe 0 h1 = 39 %
Beispiele: zum besseren Verständnis des Stoffes
Tabellen: klar und übersichtlich gegliedert
A2 =Blutgruppe A
n2 = 31
h2 = 44 %
A3 =Blutgruppe B
n3 = 9
h3 = 13 %
A4 =Blutgruppe AB
n4 = 3
h4 = 4 %
Summe
n = 71
100%
! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der z
Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.
Cave: Vorsicht Fallstricke!
Navigation: Seitenzahl und Kapitelnummer für die schnelle Orientierung
3
39 3.1 Häufigkeiten bei diskreten Merkmalen
Zahlreiche Abbildungen: veranschaulichen
Abb. 3.1 Kreisdiagramm; Darstellung der Häufigkeiten des Merkmals „Blutgruppe“ (Beispiel 3.1)
komplizierte und komplexe Sachverhalte
Mathematische Herleitung des Korrelationskoeffizineten nach Pearson Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn der Zusammenhang funktional ist und durch eine lineare Gleichung y = a + bx exakt beschrieben werden kann. Dann erhält man nach den Definitionen der Kovarianz und der Varianz in (5.1) und (4.6): n
¦x y i
s xy =
n
i
− nxy
i =1
i
= n −1 Für die Varianz s y 2 ergibt sich:
¦( y
b( ¦ xi2 − nx 2 )
i
i =1
n
n
¦ x (a + bx ) − nx (a + bx ) n −1
=
i =1
n −1
= bsx 2
n
i
− y )2
b2 ¦ ( xi − x )2
s y 2 = i =1 = i =1 = b2 sx 2 n −1 n −1 Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt ana-
Herleitungen: Logisches Nachvollziehen einer Formel zum besseren Verständnis
log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für sxy den Korrelationskoeffizienten r = : −1 ≤ r ≤ 1 . sx ⋅ s y
Merke Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen: ŷ Lage: In welchem Bereich konzentrieren sich die Werte? Welches ist der größte, welches der kleinste Wert? Welche Ausprägungen sind häufig, welche selten oder gar nicht vertreten? ŷ Streuung: Streuen die Werte weit um den Mittelwert? Gibt es Ausreißer? ŷ Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch oder schief? Wie viele Gipfel sind erkennbar?
Aufzählungen: Lerninhalte übersichtlich präsentiert
Merke: das Wichtigste auf den Punkt gebracht
Sagen Sie uns Ihre Meinung! www.lehrbuch-medizin.de
www.lehrbuch-medizin/medstatistik
Die Website zum Buch
Lexikon xVerstehen: nicht nur Formeln, auch die Begrife machen Statistik kompliziert. Im Lexikon inden Sie über 290 Begrife erklärt
Lerncenter xÜberblicken: die wichtigsten Punkte der einzelnen Kapitel kurz zusammengefasst
xAnwenden: stapelweise Examensfragen der Statistik mit Lösungskommentaren
xAbhaken: angegebene Lernziele verdeutlichen Lernerfolg in Bezug auf Gegenstandskatalog
Anmerkungen? Fragen? 7
[email protected] Wir freuen uns!
Sagen Sie uns die Meinung!
Liebe Leserin und lieber Leser, Sie wollen gute Lehrbücher lesen, wir wollen gute Lehrbücher machen: dabei können Sie uns helfen!
Lob und Kritik, Verbesserungsvorschläge und neue Ideen können Sie auf unserem Feedback-Fragebogen unter www.lehrbuch-medizin.de gleich online loswerden. Als Dankeschön verlosen wir jedes Jahr Buchgutscheine für unsere Lehrbücher im Gesamtwert von 500 Euro.
Wir sind gespannt auf Ihre Antworten! Ihr Lektorat Lehrbuch Medizin
XIII Inhaltsverzeichnis
Inhaltsverzeichnis Teil I:
Deskriptive Statistik
1 1.1 1.2 1.3 1.4 1.5
Einleitung Die Bedeutung der Statistik für die Medizin 3 Zur Geschichte der medizinischen Statistik 4 Der Status der medizinischen Statistik 11 Die Phasen einer medizinischen Studie 13 Anwendungen in Beruf und Studium 15
2 2.1 2.2 2.3 2.4 2.5
Theoretische Grundlagen Grundgesamtheit und Stichprobe 19 Die Aufgaben der deskriptiven Statistik 20 Merkmale 21 Besondere Problematiken 29 Listen und Tabellen 32
3 3.1 3.2 3.3 3.4
Häufigkeiten Häufigkeiten bei diskreten Merkmalen 39 Häufigkeiten bei stetigen Merkmalen 42 Die empirische Verteilungsfunktion 46 2-dimensionale Häufigkeiten 49
4 4.1 4.2 4.3 4.4 4.5
Die Beschreibung eines Merkmals Die Methoden der univariaten Statistik 55 Lagemaße 55 Streuungsmaße 64 Formmaße 69 Der Vergleich mehrerer Stichproben 73
5 5.1 5.2 5.3 5.4
Die Beschreibung eines Zusammenhangs Die Methoden der bivariaten Statistik 79 Die Korrelationsanalyse 80 Die Regressionsanalyse 88 Weitere Techniken 94
XIV Teil II:
Wahrscheinlichkeitsrechung
6 6.1 6.2 6.3 6.4 6.5
Wahrscheinlichkeiten in der Medizin Die Aufgaben der Wahrscheinlichkeitsrechnung 101 Das Rechnen mit Wahrscheinlichkeiten 102 Wahrscheinlichkeiten in der Epidemiologie 111 Bevölkerungsstatistiken 114 Diagnostische Tests 118
7 7.1 7.2 7.3
Diskrete Verteilungen Diskrete Zufallsvariable 125 Die Binomialverteilung 129 Andere diskrete Verteilungen 136
8 8.1 8.2 8.3 8.4 8.5
Stetige Verteilungen Stetige Zufallsvariable 145 Die Normalverteilung 148 Sätze der Wahrscheinlichkeitsrechnung 155 Die Verteilung von Überlebenszeiten 162 Prüfverteilungen 166
Teil III:
Induktive Statistik
9 9.1 9.2 9.3 9.4
Schätzverfahren Grundlagen 173 Punktschätzungen 173 Intervallschätzungen 177 Abschließende Bemerkungen 184
10 10.1 10.2 10.3
Das Prinzip eines statistischen Tests Die Durchführung eines Tests 189 Testentscheidung und Konsequenzen 195 Klassifikation der Testmethoden 202
XV Inhaltsverzeichnis
11 11.1 11.2 11.3 11.4
Lagetests t-Tests 207 Rangsummentests 215 Vorzeichentests 222 Ausblick auf komplexere Methoden 224
12 12.1 12.2 12.3 12.4
Tests zum Vergleich von Häufigkeiten Der Binomialtest für eine Stichprobe 229 Chi2-Tests 231 Der exakte Test nach Fisher 243 Ausblick auf die logistische Regression 245
Teil IV: Epidemiologie (Coautor: Prof. Dr. Berthold Rzany, Sc. M., Master of Science in Clinical Epidemiology) 13 13.1 13.2 13.3 13.4 13.5
Epidemiologische Studien Aufgaben und Ziele der Epidemiologie 249 Der Inhalt epidemiologischer Studien 250 Klassifikation nach formalen Aspekten 251 Fehlerquellen 255 Die Studienplanung 258
14 14.1 14.2 14.3 14.4 14.5
Risikostudien Einleitung 263 Deskriptive Studien 264 Fall-Kontroll-Studien 267 Kohortenstudien 272 Der Nachweis einer Kausalität 277
15 15.1 15.2
Studien zu Diagnostik und Prävention Diagnosestudien 281 Präventionsstudien 288
16 16.1 16.2 16.3
Studien zu Therapie und Prognose Therapiestudien 295 Prognosestudien 306 Evidenzbasierte Medizin 310
XVI Anhang Tabellen 317 Glossar Englisch-Deutsch 324 Abkürzungen – Abbreviations 327 Weiterführende Literatur 328
Sach- und Personenregister 329
Übersicht 1: Übersicht 2: Übersicht 3: Übersicht 4: Übersicht 5: Übersicht 6: Übersicht 7: Übersicht 8: Übersicht 9:
Die Skalenniveaus 26 Univariate Datenbeschreibung – geeignete Maßzahlen und graphische Darstellungen 73 Rechenregeln für Wahrscheinlichkeiten 111 Kenngrößen diagnostischer Tests 122 Analoge Begriffe aus der deskriptiven Statistik und der Wahrscheinlichkeitsrechnung 128 Diskrete Verteilungen 142 Stetige Verteilungen 170 Statistische Tests 204 Studientypen 250
1
Einleitung 1.1
Die Bedeutung der Statistik für die Medizin 3
1.2
Zur Geschichte der medizinischen Statistik 4
1.2.1
Die historische Entwicklung der Statistik 5
1.2.2
Die Methodik in der medizinischen Wissenschaft 6
1.2.3
Anwendungen der Statistik in der Medizin 8
1.3
Der Status der medizinischen Statistik 11
1.4
Die Phasen einer medizinischen Studie 13
1.5
Anwendungen in Beruf und Studium 15
3 1.1 Die Bedeutung der Statistik für die Medizin
1.1
Die Bedeutung der Statistik für die Medizin
Jeder medizinische Wissenschaftler und jeder praktisch tätige Arzt weiß aus Erfahrung, dass alle Erkenntnisse und Entscheidungen in der Medizin mit einer gewissen Unsicherheit verbunden sind. In diesem Punkt unterscheiden sich die Biowissenschaften grundlegend von den exakten Naturwissenschaften: Während die Zusammenhänge in der Mathematik oder der theoretischen Physik determiniert und damit berechenbar sind (etwa aufgrund einer mathematischen Gleichung oder eines physikalischen Gesetzes), unterliegen die Zustände und Vorgänge bei biologischen Systemen nicht nur naturwissenschaftlichen Gesetzen, sondern auch dem Zufall. Aus diesem Grund lassen sich die Eigenschaften eines Individuums oder medizinisch-biologische Abläufe allenfalls abschätzen, aber niemals exakt berechnen oder vorhersagen. Im Allgemeinen sind zwar zahlreiche Faktoren bekannt, die ein bestimmtes Merkmal beeinflussen. So ist etwa das Körpergewicht eines Menschen abhängig von dessen Alter und Geschlecht; außerdem sind genetische Einflüsse, die Körpergröße, pathologische und psychische Besonderheiten sowie eine Reihe weiterer Einflussgrößen maßgebend. Es wird jedoch niemals möglich sein, alle das Körpergewicht bestimmenden Faktoren zu benennen und deren Einfluss im Einzelnen zu quantifizieren. Dazu sind die Vorgänge und Zusammenhänge im menschlichen Organismus viel zu komplex und von unserem Verstand nicht mehr nachvollziehbar. Man geht deshalb davon aus, dass das Körpergewicht – wie alle anderen physiologischen Parameter – letztlich auch dem Zufall unterliegt. Ebenso kennt man bei fast allen Krankheiten diverse Faktoren, die deren Entstehen möglicherweise verursachen oder deren Auftreten begünstigen. So weiß man beispielsweise, dass bei Menschen, die in permanenter Anspannung leben, stark rauchen sowie unter erhöhtem Blutdruck und starkem Übergewicht leiden, die Gefahr eines Herzinfarkts besonders hoch ist, und jeder verantwortungsbewusste Arzt wird einen Risikopatienten darauf hinweisen. Dessen ungeachtet gibt es Personen, die mit all diesen Risikofaktoren steinalt werden, ohne jemals einen Herzinfarkt zu erleiden – wie zum Beispiel Winston Churchill, der an seinem 90. Geburtstag auf die Frage, wie er so alt geworden sei, geantwortet haben soll: „Smoking, drinking and – first of all – no sports“. Andererseits bietet eine vermeintlich gesunde Lebensweise, die alle bekannten Risikofaktoren ausschließt, keinen zuverlässigen Schutz vor dieser Krankheit.
1
4
1
Kapitel 1 · Einleitung
Schließlich ist auch hier der Zufall mitentscheidend. Aus diesem Grund kann bei keinem Menschen präzise vorhergesagt werden, ob eine bestimmte Krankheit im Laufe seines Lebens eintreten wird oder nicht. In Einzelfällen kann der Zufall zu extremen Werten oder zu unerwarteten Ereignissen führen. Deshalb erlebt jeder Mediziner hin und wieder Überraschungen – angenehmer oder unangenehmer Art. Dies gilt für den Wissenschaftler, dessen Forschungsergebnisse stets eine gewisse Irrtumswahrscheinlichkeit beinhalten, ebenso wie für den behandelnden Arzt, der den Verlauf einer Krankheit nicht vorhersehen kann und niemals mit absoluter Sicherheit weiß, ob eine therapeutische Maßnahme den gewünschten Erfolg erzielen wird. Die Statistik als die Wissenschaft des Zufalls stellt nun Methoden zur Verfügung, die es ermöglichen, trotz der Unberechenbarkeit der Einzelfälle allgemein gültige Aussagen herzuleiten. Diese bilden die Basis für jede neue wissenschaftliche Erkenntnis und jedes daraus abgeleitete ärztliche Handeln. Wann immer ein Arzt eine Entscheidung zu treffen hat, wird er sich an seiner eigenen Erfahrung sowie an diesen allgemeinen Grundsätzen orientieren. Dieses Vorgehen garantiert zwar nicht, dass eine Entscheidung in jedem Fall richtig ist und zum erhofften Ergebnis führt. Sie ist aber nachvollziehbar, und das Risiko einer Fehlentscheidung ist minimiert. Der Zufall wird bei dieser Vorgehensweise nicht eliminiert, aber quantifiziert und damit kontrollierbar gemacht. Neues Wissen in der Medizin kann nur unter Anwendung statistischer Methoden gewonnen werden. Auch wenn persönliche Erfahrungen nach wie vor eine wichtige Säule des ärztlichen Entscheidungsprozesses darstellen, sind die Kenntnis biometrischer Methoden und die Fähigkeit, deren Resultate sinnvoll zu interpretieren, unabdingbar. Insofern ist Statistik für die Medizin unentbehrlich, sowohl um Forschung zu betreiben als auch, um deren Ergebnisse praktisch anzuwenden.
1.2
Zur Geschichte der medizinischen Statistik
Die Medizin ist eine Jahrtausende alte Wissenschaft. Dennoch ist es erst in den vergangenen Jahrzehnten üblich geworden, neue Erkenntnisse in der medizinischen Forschung mit statistischen Methoden abzusichern. Um diesen erstaunlich langen Prozess nachvollziehen zu können, ist es notwendig, sich mit der historischen Ent-
5 1.2 Zur Geschichte der medizinischen Statistik
wicklung der Statistik zu befassen und außerdem einige Aspekte der Medizingeschichte zu beleuchten. 1.2.1
Die historische Entwicklung der Statistik
• Anfänge. Das primäre Anwendungsgebiet der Statistik bestand ur sprünglich in der Staatsbeschreibung. Bereits im 4. Buch Mose „Numeri“ wird eine Volkszählung erwähnt; ferner sind aus dem Altertum Volkszählungen aus Ägypten und Griechenland bekannt. Dabei ging es vorwiegend um die Beschreibung geographischer, politischer und wirtschaftlicher Besonderheiten, wie sie heute noch im Statistischen Jahrbuch der Bundesrepublik Deutschland veröffentlicht werden. Aus den Methoden der Staatsbeschreibung entwickelte sich die beschreibende oder deskriptive Statistik, deren Aufgabe darin besteht, Zustände und Vorgänge übersichtlich darzustellen. Bis heute werden Methoden der deskriptiven Statistik in vielen Bereichen der Wirtschaft, der Verwaltung, des Versicherungswesens und bei der Volkszählung angewandt, wo statistische Erhebungen als Grundlage für Planungen dienen. Sehr lange Zeit – bis ins 18. Jahrhundert hinein – wurde Statistik fast ausschließlich für staatliche Zwecke benutzt. Dies erklärt dieselbe etymologische Wurzel der Wörter „Statistik“ und „Staat“ (vom lateinischen Wort „status“ = Zustand, Beschaffenheit). • 16. - 19. Jahrhundert. In England begann man zu Beginn des 16. Jahrhunderts auf Veranlassung des Lordkanzlers Thomas Cromwell (1485-1540), alle Geburts- und Todesfälle systematisch in Kirchenbüchern aufzuzeichnen. Dies veranlasste John Graunt (1620-1674) dazu, basierend auf Londoner Geburts- und Sterberegistern, Gesetzmäßigkeiten bezüglich der Bevölkerungsbewegung herzuleiten. Graunt gilt als der Begründer der Demographie; sein Werk bildete später die Grundlage für die Berechnung von Lebensversicherungen. Kurze Zeit danach widerlegte der englische Arzt und Schriftsteller John Arbuthnot (1667-1735) die These, dass Mädchen- und Knabengeburten gleich häufig seien, indem er Daten aus Kirchenbüchern auswertete. Auch in Deutschland wurden seit dem Ende des 17. Jahrhunderts Kirchenbücher geführt. Das bahnbrechende Werk der deutschen Bevölkerungsstatistik mit dem Titel „Die göttliche Ordnung in den Veränderungen des menschlichen Geschlechts“ wurde von dem preußischen Feldprediger Johann Peter Süßmilch (17071767) erstellt. Die Gesetzmäßigkeiten, die er dabei entdeckte, führte er auf das Wirken Gottes zurück. Diese Art von Statistik, die dazu
1
6
1
Kapitel 1 · Einleitung
diente, Bevölkerungsentwicklungen quantitativ zu beschreiben, bezeichnete man als politische Arithmetik. Daneben gab es eine Anwendergruppe mit gänzlich anderen Interessen: Ihnen ging es darum, die Gewinnchancen bei Glücksspielen zu berechnen. Dadurch wurden Mathematiker wie Galileo Galilei (1564-1642), Blaise Pascal (1623-1662), Christiaan Huygens (1629-1695) und Pierre Simon Marquis de Laplace (1749-1827) zur Berechnung von bestimmten Wahrscheinlichkeiten und zu theoretischen Abhandlungen angeregt. Sie haben damit die Wahrscheinlichkeitsrechnung wesentlich bereichert. In diesem Zusammenhang ist auch der deutsche Mathematiker Carl Friedrich Gauß (1777-1855) zu nennen, der u. a. die Normalverteilung und deren Bedeutung für die angewandte Statistik beschrieben hat. • Moderne Statistik. Die Wahrscheinlichkeitsrechnung ist die Grundlage der induktiven Statistik, die es ermöglicht, aufgrund einer relativ kleinen Stichprobe Aussagen bezüglich einer weitaus größeren Grundgesamtheit herzuleiten. Diese Methoden wurden erst im 20. Jahrhundert entwickelt. Besonders hervorzuheben sind dabei William Sealy Gosset (1876-1937), der die t-Verteilung herleitete, Karl Pearson (1857-1936), der die Korrelations- und Regressionsanalysen vorantrieb, und Sir Ronald Aylmer Fisher (1890-1962), auf den u. a. die Varianzanalyse zurückgeht. Diese und andere Verfahren haben entscheidend dazu beigetragen, dass die Statistik in den Bio- und Sozialwissenschaften mittlerweile breite Anwendung findet. 1.2.2
Die Methodik in der medizinischen Wissenschaft
Die Medizin als eine Wissenschaft, deren Zweck darin besteht, kranken Menschen zu helfen, ist so alt wie die Menschheit selbst. Als eine moderne Wissenschaft im heutigen Sinne kann sie jedoch erst seit dem 19. Jahrhundert aufgefasst werden. • Antike. Über eine sehr lange Zeit – von der Antike bis ins 19. Jahrhundert hinein – konnten Beobachtungen am kranken Menschen fast ausschließlich durch unmittelbare Sinneseindrücke des behandelnden Arztes erfasst werden. Diese Beobachtungen waren naturgemäß subjektiv und die daraus gezogenen Schlussfolgerungen häufig spekulativ. Generell gab es zwei unterschiedliche Ansätze bezüglich der Wahl einer geeigneten Therapie: den theoretischen und den empirischen. Der Theoretiker suchte nach den Krankheitsursachen und leitete dann durch logisch-konsequente Schlussfolgerungen eine seiner Meinung nach nützliche therapeutische Maßnahme her. Diese dogmatische Methode basierte auf unverrückbaren, nie
7 1.2 Zur Geschichte der medizinischen Statistik
zuvor überprüften Grundannahmen, die generell nicht in Frage gestellt wurden. Der Empiriker gründete seine Entscheidungen auf persönliche Erfahrungen und überprüfte sie in jedem Einzelfall. Allerdings waren die dadurch gewonnenen Erkenntnisse ungeregelt, da sie lediglich auf einzelnen, zufälligen Beobachtungen beruhten. Die Autoritäten der beiden griechischen Ärzte Hippokrates von Kos (ca. 460-370 v. Chr.) und Galen aus Pergamon (130-201) führten dazu, dass die dogmatische Methode (also der theoretische Ansatz) bis ins 16. Jahrhundert allgemein anerkannt war. Wegen der Autoritätsgläubigkeit jener Zeit wagte es niemand, sich kritisch mit ihr auseinander zu setzen. Eine moderne Wissenschaft im heutigen Sinne konnte auf diese Weise freilich nicht entstehen. • Renaissance. Der Ursprung für die Wissenschaftlichkeit der Medizin lag in der Renaissance. Ein herausragender Wissenschaftler jener Epoche war Galileo Galilei, der weniger durch seine Einzelleistungen auf den Gebieten der Mathematik, Physik und Astronomie Bedeutung erlangte als vielmehr dadurch, dass er die moderne Naturwissenschaft auf objektiven Beobachtungen und nachvollziehbaren Experimenten aufbaute. Naturvorgänge wurden fortan nicht mehr theologisch oder philosophisch erklärt, sondern aus Naturgesetzen hergeleitet. Diese neue Methode begründete eine rasante Entwicklung der Physik und der Chemie, was später auch die Medizin nachhaltig beeinflussen sollte. Nach der Einführung naturwissenschaftlicher Methoden in die Medizin wurden subjektive Sinneseindrücke durch objektive Messwerte ersetzt, die sich mathematisch analysieren lassen. Erkenntnisse, die man auf diese Weise erhält, sind nachvollziehbar und bilden wiederum die Grundlage für weitere Forschungen. Die Fortschritte in den Naturwissenschaften haben sich in vielfacher Hinsicht segensreich auf die Medizin ausgewirkt. Sie führten zu einem umfangreichen Wissen bezüglich der Vorgänge im menschlichen Körper und damit zu einem besseren Verständnis der Körperfunktionen beim gesunden und beim kranken Menschen. Basierend auf naturwissenschaftlichen Erkenntnissen wurden technische Apparate entwickelt, die eine exakte Messung von physiologischen Parametern erlaubten und im Laufe der Zeit ungeahnte Möglichkeiten in Diagnostik und Therapie eröffneten. • Aufklärung. Man erkannte allmählich, dass sich alle medizini schen Phänomene theoretisch auf naturwissenschaftliche Gesetze zurückführen lassen. Im 17. Jahrhundert dachten deshalb einige Ärzte euphorisch, dass man bald in der Lage sein werde, die Ursachen aller Krankheiten zu ergründen und wirksame Therapien zu
1
8
1
Kapitel 1 · Einleitung
entwickeln. Es setzte sich dann jedoch – beginnend im 18. Jahrhundert zur Zeit der Aufklärung – die Erkenntnis durch, dass physikalisches und chemisches Grundwissen dafür bei weitem nicht ausreicht. So besann man sich auf eine Methode zur Erkenntnisgewinnung, die bereits ein Jahrhundert zuvor von dem englischen Philosophen Francis Bacon (1561-1626) propagiert worden war. Sie beinhaltete die Beobachtung zahlreicher Einzelfälle, die lückenlose Aufzeichnung der erhobenen Daten und deren rechnerische Auswertung. Dieser Ansatz vermittelte objektive Erkenntnisse, die jedoch vom Zufall beeinflusst waren. Er bedeutete einen Wechsel von einem ehemals theoretisch-dogmatischen hin zu einem empirischen Ansatz. So begann allmählich die Statistik, Einzug in die Medizin zu halten. Statistische Methoden ermöglichen es, Erfahrungen abzusichern – auch dann, wenn diese (noch) nicht auf molekularer oder zellulärer Ebene erklärt werden können. • 20. Jahrhundert. Es sollte allerdings noch bis weit ins 20. Jahr hundert dauern, ehe statistische Methoden in den Biowissenschaften akzeptiert wurden. Dies lag nicht zuletzt daran, dass allgemein anerkannte Richtlinien bezüglich der medizinischen Forschung am Menschen fehlten. Diese wurden erst im Jahre 1964 auf der 18. Generalversammlung des Weltärztebundes in Helsinki erarbeitet. Heute herrscht weitgehend Konsens darüber, dass – außer der Anwendung naturwissenschaftlicher Erkenntnisse – die Beobachtung von Individuen und die damit verbundene Datenanalyse für die medizinische Forschung unverzichtbar sind. 1.2.3
Anwendungen der Statistik in der Medizin
• Wurzeln in England. Der Forderung Bacons, zahlreiche Einzel fälle zu beobachten und auszuwerten, stand zunächst entgegen, dass sich die Medizin bis ins 18. Jahrhundert hinein traditionellerweise nur mit einzelnen Patienten befasste. Bacons neuer Erfahrungsbegriff war grundlegend dafür, dass fortan klinische Studien durchgeführt und die daraus erhobenen Daten analysiert wurden. Er kam zunächst in England, wenn auch zögerlich, zur Anwendung. Aufgrund dieser Entwicklungen ist es nicht erstaunlich, dass die ersten medizinischen Publikationen mit statistischen Analysen in England erschienen. Edward Jenner (1749-1823) verifizierte statistisch die prophylaktische Wirkung der Kuhpockenimpfung. Der Rechtsanwalt Edwin Chadwick (1800-1890) beschrieb die Gesundheit der arbeitenden Klassen in England und gab damit der Hygienebewegung wichtige Impulse. Seine Daten gründeten sich auf statistische Ana-
9 1.2 Zur Geschichte der medizinischen Statistik
lysen von William Farr (1807-1883), der Berichte über Todesursachen in England publiziert hatte. John Snow (1813-1858) entdeckte, dass das Cholera-Risiko in London mit der Qualität des Trinkwassers zusammenhing. Seine Forschungsarbeiten zählen zu den ersten und spektakulärsten Leistungen auf dem Gebiet der Epidemiologie. Freilich waren die damals verwendeten statistischen Verfahren nicht zu vergleichen mit den heute gebräuchlichen. Es handelte sich überwiegend um einfache arithmetische Operationen. Dennoch war diese Vorgehensweise geeignet, die theoretisch-dogmatische Medizin grundlegend zu reformieren und in ihrer Methodik den Naturwissenschaften anzupassen. Pionierarbeit auf diesem Gebiet leistete der bereits erwähnte Sir Ronald Aylmer Fisher, der sich u. a. intensiv mit den Themen „Versuchsplanung und -auswertung“ befasste. • Auswirkungen auf Europa. Im 18. Jahrhundert entstanden in einigen europäischen Städten wie z. B. in Paris oder Wien Krankenhäuser, die die Beobachtung größerer Kollektive ermöglichten. Als der Begründer der klinischen Statistik gilt Pierre Charles Alexandre Louis (1787-1872), der eine naturwissenschaftlich orientierte Medizin vertrat. Er überprüfte die Wirkung des Aderlasses und wies – nachdem diese Methode Jahrhunderte lang angewandt worden war – mittels statistischer Analysen nach, dass dieses Mittel nutzlos oder gar schädlich war. Ignaz Philipp Semmelweis (1818-1865) war der erste bekannte Mediziner im deutschsprachigen Raum, der den Nutzen einer neuen Therapie mit statistischen Methoden belegte. Semmelweis war seit 1846 Assistent in der Geburtsklinik des Wiener Allgemeinen Krankenhauses, die aus zwei Abteilungen bestand. Die Mortalitätsraten der Wöchnerinnen differierten sehr stark: Zwischen 1841 und 1846 starben in der einen Abteilung durchschnittlich 9,9%, in der anderen dagegen nur 3,4% der Frauen. In der Abteilung mit der geringeren Mortalitätsrate arbeiteten nur Hebammen. In der anderen Abteilung waren Ärzte und Studenten, die auch Leichen sezierten, als Geburtshelfer tätig. Die Mortalitätsrate in der Abteilung der Ärzte war großen Schwankungen unterworfen. Semmelweis beobachtete, dass sie immer dann besonders hoch war, wenn viele pathologische Studien durchgeführt wurden. In Zeiten allerdings, in denen keine Leichen seziert wurden, waren die Mortalitätsraten in beiden Abteilungen etwa gleich. Dieser Zusammenhang war für Semmelweis zunächst nicht erklärbar. Das ausschlaggebende Moment für seine Entdeckung war der Tod seines Freundes und Kollegen Jakob Kolletschka, der sich beim Sezieren versehentlich mit dem Messer verletzt hatte. Semmelweis erkannte beim Studium des Sektionsprotokolls die Parallelität der beiden Krankheits-
1
10
1
Kapitel 1 · Einleitung
bilder des Kindbettfiebers und des Wundfiebers. Er vermutete, dass die Ursachen in beiden Fällen dieselben waren: Die Ärzte und Studenten aus der pathologischen Abteilung übertrugen den gebärenden Frauen „Leichenteilchen“, die das Kindbettfieber verursachten. Dies war in der damaligen Zeit, als bakteriologische Erreger noch unbekannt waren, eine sehr gewagte Hypothese. Semmelweis setzte gegen den Widerstand seiner Kollegen hygienische Maßnahmen durch; die Sterblichkeit sank daraufhin drastisch auf unter 2% in beiden Abteilungen. Im Jahr 1861 veröffentlichte er seine Entdeckung in einer ausführlichen Arbeit, die auch eine statistische Analyse beinhaltete. Obwohl Semmelweis seine Hypothese eindrucksvoll bestätigen konnte, wurden seine aus heutiger Sicht bahnbrechenden Erkenntnisse zu seinen Lebzeiten nicht anerkannt. Etwas später, im Jahre 1865, stellte der Augustinermönch Gregor Johann Mendel (18221884) seine Vererbungsgesetze vor, die er nach einer langen und mühsamen Forschungsarbeit ebenfalls mit statistischen Methoden verifiziert hatte. Auch diese Erkenntnisse fanden zunächst keine große Beachtung. • Entwicklung in Deutschland. Die in England, Paris oder Wien durchgeführten Studien nahmen deutsche Ärzte kaum zur Kenntnis. Es gab Kommunikationsprobleme, die nicht nur sprachlicher Art waren. Dies lag u. a. am damals herrschenden Zeitgeist. Deutschland stand unter dem Einfluss der romantischen Naturphilosophie, bei der das Individuum im Vordergrund stand. Ein Vertreter dieser Denkrichtung war beispielsweise der Begründer der Homöopathie Christian Friedrich Samuel Hahnemann (1755-1843). Eine bevölkerungsbezogene und naturwissenschaftlich orientierte Medizin sowie die Anwendung statistischer Methoden konnten sich bei dieser Grundeinstellung kaum durchsetzen. Außerdem war man bis zur Mitte des 19. Jahrhunderts gewohnt, dass Wissenschaftler den deterministischen Verlauf eines Geschehens angeben konnten. Man forderte Gewissheit und nicht Unsicherheit. Semmelweis konnte jedoch im Einzelfall nicht vorhersagen, ob eine Frau die Geburt überleben würde; er konnte nur gewisse Wahrscheinlichkeiten angeben. Diese fundamentale Eigenschaft der Statistik – sie erlaubt keine gesicherten Aussagen bezüglich eines Einzelfalls, sondern nur für eine große Menge von Personen oder Objekten – wird auch heute noch von vielen Anwendern emotional als Nachteil anstatt als nüchterne Tatsache angesehen. Im Übrigen lässt sich das Phänomen, wonach neue Methoden zunächst sehr skeptisch beurteilt werden, bis in die heutige Zeit hinein beobachten.
11 1.3 Der Status der medizinischen Statistik
• 20. Jahrhundert. Aus all diesen Gründen hat sich die Anwendung der Statistik in der Medizin lange verzögert. Ein weiterer Grund für die mangelnde Akzeptanz lag in der Statistik selbst. Erst im 20. Jahrhundert wurden Methoden entwickelt, mit denen sich anhand einer relativ kleinen Stichprobe allgemein gültige Zusammenhänge nachweisen lassen. Diese Methoden haben der medizinischen Wissenschaft enorme Impulse verliehen. Dem Internisten Paul Martini (1889-1964) sowie den Biostatistikern Arthur Linder (1904-1993) und Erna Weber (1897-1988), deren Bücher lange Zeit als Standardwerke galten, ist es zu verdanken, dass die von England ausgehenden Ideen auch im deutschen Sprachgebiet bekannt und praktisch umgesetzt wurden. Nicht zuletzt hat das Aufkommen leistungsfähiger Computer und benutzerfreundlicher Software seit Beginn der 1980er Jahre zu einer enormen Vereinfachung und Beschleunigung statistischer Berechnungen geführt. Auch diese neuere Entwicklung hat entscheidend zur Akzeptanz der Statistik in der Medizin beigetragen. Seit den 1990er Jahren werden zunehmend multiple Methoden entwickelt, bei denen mehrere Einflussgrößen simultan untersucht werden, und die eine sehr effiziente Datenanalyse ermöglichen. Diese werden in einer Biomathematik-Vorlesung für Mediziner normalerweise nicht detailliert behandelt. Interessierte Leser seien auf weiterführende Literatur verwiesen [1, 2, 4, 10].
1.3
Der Status der medizinischen Statistik
• Medizinische Statistik oder Biostatistik. Sie hat sich mittlerweile als ein eigenständiges, interdisziplinäres Fachgebiet etabliert, das statistische Probleme behandelt, die sich aus medizinischen Fragestellungen ergeben. Im weiteren Sinne zählen dazu die Planung und Durchführung von medizinisch-wissenschaftlichen Studien sowie die Datenanalyse mit statistischen Methoden. Sie ist einerseits Teilgebiet der Biomathematik, andererseits gehört sie zur Stochastik. In engem Zusammenhang dazu steht die Biometrie. Dieser Wissenschaftszweig befasst sich mit der mathematischen Modellierung von zufallsabhängigen Phänomenen in der Medizin, Pharmazie, Biologie und Landwirtschaft.
1
12
Kapitel 1 · Einleitung
! Für den Begriff „Biometrie“ existieren unterschiedliche Definitionen. z
1
Während er einerseits als Synonym für Biostatistik verstanden wird, bezieht er sich in der Informatik auf die Verarbeitung individueller körperlicher Merkmale wie etwa dem Fingerabdruck zum Identitätsnachweis von Personen. Auf diese spezielle Bedeutung wird in diesem Buch nicht eingegangen.
• Biomathematik. Dieses Fach behandelt die Theorie und Anwen dung mathematischer Methoden im Bereich der Biowissenschaften. Sie beinhaltet außer der Statistik noch weitere mathematische Disziplinen. • Stochastik. Dieser Begriff umfasst den gesamten Wissenschaftsbe reich, der sich mit der mathematischen Behandlung von Zufallserscheinungen befasst. Teilgebiete der Stochastik sind:
ŷ die Statistik, ŷ die Wahrscheinlichkeitsrechnung sowie ŷ fachspezifische Anwendungsgebiete. • Statistik. Im allgemeinen Sinne versteht man darunter eine Me thode, mit der Daten analysiert werden, um so zu neuen Erkenntnissen zu gelangen. Man unterscheidet generell zwischen deskriptiver und induktiver Statistik. Während in der deskriptiven Statistik Daten strukturiert, zusammengefasst und übersichtlich dargestellt werden, ermöglicht die induktive Statistik den Schluss über den Beobachtungsbereich hinaus auf die darüber liegende Grundgesamtheit. Mit den Methoden der induktiven Statistik lassen sich Hypothesen, die vor Studienbeginn aufgestellt werden, überprüfen und statistisch absichern. In den letzten zwanzig Jahren hat sich eine weitere Form der Datenanalyse herauskristallisiert – nämlich die explorative Statistik. Deren Ziel besteht darin, bei einer großen Datenmenge Auffälligkeiten und Hinweise auf mögliche Zusammenhänge zu entdecken und darauf basierend neue Hypothesen zu generieren. • Wahrscheinlichkeitsrechnung. Sie befasst sich mit den mathema tisch-theoretischen Gesetzmäßigkeiten, auf denen die Verfahren der induktiven Statistik basieren. Zu den fachspezifischen Anwendungsgebieten zählen u. a. die medizinische Statistik, die Qualitätssicherung und die Entscheidungstheorie in der Unternehmensforschung.
13 1.4 Die Phasen einer medizinischen Studie
1.4
Die Phasen einer medizinischen Studie
Die Medizin ist eine empirische Wissenschaft, deren Erkenntnisse auf Erfahrungen basieren. Ein Forschungsprozess beginnt in der Regel damit, dass ein Wissenschaftler, nachdem er hinreichend viele Erfahrungen gesammelt hat, nach längerem Nachdenken oder aufgrund einer genialen Idee einen Zusammenhang entdeckt, der bis dahin noch unbekannt gewesen ist. Diese neue Erkenntnis ist allerdings zunächst nicht mehr als eine vage Vermutung. Um sie zu verifizieren, muss eine wissenschaftliche Studie durchgeführt werden. • Beginn einer Studie. Zunächst sollte sich der Forscher in der so genannten Erkundungsphase anhand von relevanter Literatur über den aktuellen Wissensstand kundig machen und eventuell mit kompetenten Fachleuten darüber diskutieren, ob die geplante Studie sinnvoll und notwendig ist. Danach wird er in der theoretischen Phase seine Vermutung als Hypothese formulieren und versuchen, diese in eine logisch konsistente Theorie einzubetten. Damit ist die Hypothese theoretisch abgesichert und herleitbar. Diese Art wissenschaftlicher Methodik – das Herleiten einer neuen Hypothese aus einer bekannten Theorie – nennt man deduktiv. • Statistische Analyse. Streng deduktiv arbeitet man fast nur in der reinen Mathematik. Neue mathematische Sätze werden aus bekannten Theorien hergeleitet; weitergehende Studien oder Experimente sind dazu nicht notwendig. Erkundungsphase - Literaturstudium, Diskussion mit Fachleuten etc. | Theoretische Phase - Formulierung einer Hypothese, Einbetten in eine Theorie | Analytisch-statistische Phase - Planung, Datenerhebung, -beschreibung und -analyse | Interpretation der Ergebnisse - Entscheidung für oder gegen die Hypothese Abb. 1.1 Die Phasen einer medizinischen Studie
1
14
1
Kapitel 1 · Einleitung
Da jedoch eine Theorie in der Medizin niemals vollständig sein kann und deshalb die Realität nicht in allen Details genau beschreibt, muss die zu verifizierende Hypothese empirisch bestätigt werden. Dazu ist die analytisch-statistische Phase erforderlich. Diese beinhaltet eine detaillierte Planung sowie die Datenerhebung und Datenauswertung mit statistischen Methoden. Bei retrospektiven Studien sind die Daten in der Regel bereits dokumentiert und müssen nur noch in passender Weise aufbereitet werden; bei prospektiven Beobachtungsstudien oder experimentellen Studien sind die Daten zunächst zu erheben, ehe sie statistisch analysiert werden können. • Interpretation der Ergebnisse. Wenn die Ergebnisse der statisti schen Analyse die Theorie bestätigen, wird man sich für die Richtigkeit der daraus hergeleiteten Hypothese entscheiden. Diese ist damit zwar nicht bewiesen im mathematischen Sinne, aber doch wesentlich besser abgesichert als vor der statistischen Analyse. Eine falsche Entscheidung ist hierbei nicht ausgeschlossen – dieses Risiko ist jedoch kalkulierbar. Falls das Ergebnis der Datenanalyse mit der Theorie nicht in Einklang zu bringen ist, muss überprüft werden, ob die Theorie einen Fehler enthält, oder ob die analytisch-statistische Phase nicht optimal verlaufen ist. Eventuell kann eine Wiederholung der Studie in modifizierter Form in Erwägung gezogen werden. Die Methode, wonach vom Besonderen (nämlich der Stichprobe) auf das Allgemeine (die Grundgesamtheit) geschlossen wird, nennt man induktiv. Dieses Verfahren wurde aus den Naturwissenschaften übernommen. Auch bei naturwissenschaftlichen Experimenten werden – ähnlich wie bei medizinischen Studien – Daten erhoben und ausgewertet, um funktionale Zusammenhänge zu erkennen und diese dann zu allgemein gültigen Naturgesetzen zu erklären. Allerdings unterscheiden sich naturwissenschaftliche Experimente in einem wichtigen Punkt von medizinischen Untersuchungen. In den Naturwissenschaften arbeitet man unter kontrollierten Bedingungen im Labor; der Zufall spielt dabei keine oder allenfalls eine untergeordnete Rolle. Dagegen hat man es in der Medizin mit Individuen zu tun, bei denen die potentiellen Einflussgrößen wegen ihrer Vielzahl und Komplexität kaum kontrollierbar sind. Aus diesem Grund müssen sich alle Wissenschaftler, die menschliche Eigenschaften untersuchen – seien es Mediziner, Psychologen, Soziologen oder Politologen –, mit dem Zufall und mit Statistik auseinander setzen.
15 1.5 Anwendungen in Beruf und Studium
1.5
Anwendungen in Beruf und Studium
Die meisten medizinischen Publikationen (Artikel in Fachzeitschriften, Dissertationen und Habilitationen) beinhalten statistische Analysen. Ausnahmen bilden allenfalls Publikationen in Fächern wie Geschichte oder Ethik der Medizin sowie Einzelfalldarstellungen, bei denen nur ein einziger oder einige wenige, besonders interessante Fälle untersucht und beschrieben werden. Diese liefern möglicherweise Hinweise auf andere, ähnlich gelagerte Fälle. Sie lassen jedoch im Gegensatz zu einer Stichprobenuntersuchung keine Verallgemeinerungen zu. Alle Mediziner, die forschen und publizieren, benötigen statistische Methoden, um Untersuchungen durchzuführen, deren Ergebnisse darzustellen und zu verallgemeinern. Die Statistik ist dabei eine unentbehrliche Hilfswissenschaft – ähnlich wie die Mathematik in der Physik. Auch ein praktisch tätiger Arzt betreibt Statistik – wenn auch nicht in formalisierter Form, sondern eher auf intuitive Art und Weise. Wenn er etwa einen Laborwert danach bewertet, ob er innerhalb oder außerhalb des Normbereichs liegt, wenn er aufgrund eines diagnostischen Tests zu beurteilen versucht, ob eine bestimmte Krankheit vorliegt oder nicht, wenn er aufgrund vorhandener Symptome eine Diagnose stellt, wenn er den zu erwartenden Nutzen und die Risiken einer Therapie gegeneinander abwägt und sich dann für oder gegen eine bestimmte Maßnahme entscheidet – dann liegen all diesen Entscheidungen, oft unbewusst, statistische Analysen zugrunde. Theoretische Kenntnisse auf diesem Gebiet lassen erkennen, dass man bei spontanen, intuitiven Entscheidungen oft einem großen Irrtum unterliegt. Sie tragen deshalb wesentlich dazu bei, vorsichtig zu entscheiden und verantwortungsbewusst zu handeln. Im Übrigen ist jeder Arzt – unabhängig von seinem Arbeitsgebiet – angehalten, sich permanent weiterzubilden, da sich das medizinische Wissen rasant vermehrt. Dabei benötigt er statistische Kenntnisse, um gute von schlechten Studien zu unterscheiden und um die Relevanz der dargestellten Ergebnisse für seine Patienten oder sein Labor beurteilen zu können. Nicht zuletzt schult die Biomathematik einen Anwender im problemorientierten, logisch-analytischen Denken. Auch diese Fähigkeiten sind für einen Arzt unentbehrlich.
1
16
1
Kapitel 1 · Einleitung
Insofern ist die Beschäftigung mit der Biostatistik als Vorbereitung für den künftigen Beruf nützlich und sinnvoll. Im Allgemeinen ist ein Student spätestens beim Erstellen seiner Dissertation gezwungen, sich mit Statistik auseinander zu setzen. Zum einen ist dies notwendig, um relevante Fachartikel und Vorträge zu verstehen und zu bewerten; zum anderen liegt fast jeder Dissertation eine statistische Datenanalyse zugrunde. Es ist für einen Doktoranden der Medizin oder für einen in der Forschung tätigen Arzt durchaus empfehlenswert, sich dabei von einem Statistiker beraten zu lassen. Dies ist aber nur dann hilfreich, wenn er selbst zumindest über elementare, statistische Kenntnisse verfügt – so wie dieses Buch sie zu vermitteln sucht.
2
Theoretische Grundlagen 2.1
Grundgesamtheit und Stichprobe 19
2.2
Die Aufgaben der deskriptiven Statistik 20
2.3
Merkmale 21
2.3.1
Grundbegriffe 21
2.3.2
Ziel- und Einflussgrößen 22
2.3.3
Klassifikation nach Skalenniveau 23
2.3.4
Diskrete und stetige Merkmale 25
2.3.5
Skalentransformationen 25
2.3.6
Merkmalsausprägungen 28
2.4
Besondere Problematiken 29
2.5
Listen und Tabellen 32
19
2
2.1 Grundgesamtheit und Stichprobe
2.1
Grundgesamtheit und Stichprobe
Die Hypothesen, die in den Bio- und Sozialwissenschaften aufgestellt werden, beziehen sich meist auf eine sehr große Anzahl von Individuen oder Objekten. Es wäre aus organisatorischen und zeitlichen Gründen viel zu aufwendig oder sogar vollkommen unmöglich, die gesamte Population zu untersuchen, auf die eine Hypothese zutreffen könnte. Dies ist im Allgemeinen auch gar nicht notwendig. Die moderne Statistik stellt nämlich Methoden zur Verfügung, die es ermöglichen, basierend auf einer relativ kleinen Stichprobe allgemein gültige Aussagen bezüglich einer weitaus größeren Grundgesamtheit herzuleiten. Eine Total- oder Vollerhebung wird daher nur in Ausnahmefällen durchgeführt. Beispielsweise beruhen die Todesursachenstatistiken, die im jährlich erscheinenden Statistischen Jahrbuch der Bundesrepublik Deutschland veröffentlicht werden, medizinische Register oder die Ergebnisse einer politischen Wahl auf einer Vollerhebung. Im Allgemeinen beschränkt man sich jedoch – insbesondere in der medizinischen Forschung – auf die Untersuchung einer relativ kleinen Teilmenge, nämlich der Stichprobe, und überträgt die daraus gewonnenen Erkenntnisse auf die Grundgesamtheit. Dies ist allerdings nur unter der Voraussetzung sinnvoll, dass die charakteristischen Eigenschaften der Stichprobe – abgesehen von zufällig bedingten Abweichungen – mit denen der Grundgesamtheit übereinstimmen. Eine solche Stichprobe heißt repräsentativ. Bei vielen Untersuchungen ist man vor das Problem gestellt, aus einer konkret vorgegebenen Grundgesamtheit eine repräsentative Stichprobe zu wählen. Ein Beispiel hierfür stellt eine Umfrage vor einer politischen Wahl dar. Die Grundgesamtheit besteht in diesem Fall aus allen wahlberechtigten Bürgern. Um eine Prognose zu erstellen, beschränkt man sich auf eine Stichprobe von einigen tausend Personen. Diese Stichprobe muss repräsentativ und hinreichend groß sein, damit sie das endgültige Wahlergebnis in brauchbarer Weise widerspiegelt. Bei Untersuchungen in der Medizin ist die Problemstellung häufig umgekehrt: Gegeben sind eine oder mehrere konkrete Stichproben (beispielsweise Patienten, die im Rahmen einer klinischen Studie beobachtet werden). Dann ist zu klären, wie die dazugehörende Grundgesamtheit beschaffen ist und ob die Stichprobenergebnisse auf diese übertragbar sind. Eine Antwort auf diese Frage beruht mehr auf sachlogischen als auf wahrscheinlichkeitstheoretischen
20
2
Kapitel 2 · Theoretische Grundlagen
Überlegungen und ist eng mit dem jeweiligen Forschungsvorhaben verknüpft. Oft lässt sich die entsprechende Grundgesamtheit gar nicht konkret angeben. Man sollte sich in jedem Fall davor hüten, allzu weit reichende Schlussfolgerungen zu ziehen, die sich hinterher als falsch herausstellen könnten. Dieses Problem kann man zwar umgehen, indem man eine Untersuchung nur für einen speziellen, eng begrenzten Personenkreis durchführt und diesen als Grundgesamtheit auffasst. Allerdings gelten die dadurch gewonnenen Ergebnisse nur eingeschränkt auf die Menge der untersuchten Personen und lassen sich nicht verallgemeinern.
2.2
Die Aufgaben der deskriptiven Statistik
Aus dem obigen Abschnitt geht hervor, dass bei einer Stichprobenuntersuchung die statistische Analyse aus zwei Teilen besteht. Zunächst werden die Daten der Stichprobe ausgewertet mit dem Ziel, deren charakteristische Eigenschaften zu beschreiben. Dies ist das Aufgabengebiet der deskriptiven Statistik. Dazu zählen im Einzelnen:
ŷ das Zusammenfassen und Ordnen der Daten in Tabellen, ŷ das Erstellen von Diagrammen und ŷ das Berechnen charakteristischer Kenngrößen oder Maßzahlen › Kapitel 4). (z. B. Mittelwert und Standardabweichung, z
Abb. 2.1 Grundgesamtheit und Stichprobe
Grundgesamtheit Stichprobe
deskriptive Statistik
induktive Statistik
21
2
2.3 Merkmale
Wenn zwei oder mehrere Stichproben miteinander zu vergleichen sind (beispielsweise zwei Therapiegruppen bei einer klinischen Studie), sollte man zunächst für jede einzelne Stichprobe graphische Darstellungen erstellen und geeignete Kenngrößen berechnen. Damit lässt sich bereits überblicken, ob und wie sich die Stichproben unterscheiden. In einem zweiten Schritt versucht man dann, mit geeigneten Methoden der induktiven Statistik die Ergebnisse, die aus den Stichproben gewonnen wurden, zu verallgemeinern und statistisch abzusichern. So gesehen, ist die deskriptive Statistik die Vorstufe zur induktiven Statistik. Beide Teilbereiche sind zur Datenanalyse notwendig und ergänzen sich.
2.3
Merkmale
2.3.1
Grundbegriffe
• Untersuchungseinheiten. Die Personen oder Objekte einer Stich probe werden als Untersuchungseinheiten (oder Merkmalsträger) bezeichnet. In der medizinischen Forschung handelt es sich dabei meist um Patienten, Probanden, Versuchstiere oder Laborproben. • Beobachtungseinheiten. Das sind die kleinsten Einheiten, an de nen die einzelnen Beobachtungen registriert werden. Häufig sind die Beobachtungseinheiten mit den Untersuchungseinheiten identisch. Oft ist es jedoch angebracht, die Untersuchungseinheiten näher zu spezifizieren. Wenn etwa bei Patienten beide Augen untersucht werden, versteht man unter den Untersuchungseinheiten die Patienten und unter den Beobachtungseinheiten die einzelnen Augen. Wenn Patienten im Rahmen einer Studie mehrmals untersucht werden, dann ist eine Beobachtungseinheit identisch mit einem Patienten bezogen auf eine einzelne Untersuchung. • Merkmale. Die Beobachtungseinheiten sind durch bestimmte Merkmale charakterisiert – das sind Eigenschaften, die für die zu untersuchende Fragestellung relevant sind und statistisch ausgewertet werden. Andere Eigenschaften der Beobachtungseinheiten sind – zumindest im Rahmen der jeweiligen Studie – uninteressant. Anstelle von Merkmalen spricht man auch von Variablen oder Zufallsvariablen, insbesondere dann, wenn damit Rechnungen durchgeführt oder mathematische Gleichungen erstellt werden.
22
Kapitel 2 · Theoretische Grundlagen
• Merkmalsausprägungen. Darunter versteht man die Werte oder Ausprägungen, die ein bestimmtes Merkmal annehmen kann.
2
Die Art der Merkmale ist entscheidend für die Planung und Durchführung einer Studie, insbesondere für den erforderlichen Stichprobenumfang und die geeigneten Analysemethoden. Deshalb sind zu Beginn der Planungsphase die zu erfassenden Merkmale genau festzulegen und deren Eigenschaften zu spezifizieren. Merkmale lassen sich nach verschiedenen Aspekten klassifizieren:
ŷ nach ihrer Funktion bei der statistischen Analyse (z› Abschnitt 2.3.2),
ŷ nach ihrem Skalenniveau (z› Abschnitt 2.3.3) ŷ und danach, ob sie diskret oder stetig sind (z› Abschnitt 2.3.4). 2.3.2
Ziel- und Einflussgrößen
Merkmale lassen sich grob einteilen in Ziel- und Einflussgrößen. Der eigentliche Zweck einer Studie besteht darin, Erkenntnisse über eine oder mehrere Zielgrößen zu gewinnen. Die Merkmale, die in einem funktionalen Zusammenhang zu den Zielgrößen stehen und diese möglicherweise beeinflussen, heißen Einflussgrößen. Diese lassen sich wiederum unterteilen in:
ŷ Faktoren, die erfasst und ausgewertet werden (im engeren Sinne versteht man unter den Einflussgrößen nur die Faktoren),
ŷ Störgrößen, die im Versuchsplan nicht berücksichtigt sind oder nicht erfasst werden, und
ŷ Begleitmerkmale, die zwar erfasst, aber im Rahmen der aktuellen Studie nicht ausgewertet werden (z. B. Nebenwirkungen bei einer klinisch-kontrollierten Studie). Abb. 2.2 Einflussgrößen und Zielgrößen
Faktor(en)
Störgrößen
Begleitmerkmal(e)
Zielgröße(n)
23
2
2.3 Merkmale
Beispiel 2.1 Die Hypothese „Zigarettenrauchen beeinflusst das Entstehen eines Lungenkarzinoms“ impliziert, dass „das Entstehen eines Lungenkarzinoms“ die Zielgröße ist, während „Zigarettenrauchen“ der zu untersuchende Faktor ist. Üblicherweise werden noch weitere Faktoren wie etwa Alter und Geschlecht der Untersuchungseinheiten analysiert. Individuelle Besonderheiten – die erfasst, aber nicht explizit ausgewertet werden – sind mögliche Begleitmerkmale. Zu den Störgrößen zählen genetische Veranlagungen, Umweltbelastungen etc. – also Merkmale, die ebenfalls das Entstehen eines Lungenkarzinoms beeinflussen, aber nicht explizit erfasst werden. ! Störgrößen können nicht-verzerrend (wie in Beispiel 2.1) oder verzerrend z
sein. Die nicht-verzerrenden sind verantwortlich für die zufallsbedingte Streuung der Versuchsergebnisse. Die verzerrenden (Confounder) sind gefährlicher: Sie werden mitunter fälschlicherweise in einen kausalen Zusammenhang mit der Zielgröße gebracht und können dadurch zu Fehlinterpretationen verleiten. Sie sind jedoch bei einer sorgfältigen Ver› Abschnitt 13.4.2). suchsplanung vermeidbar (z
Es geht bei einer statistischen Analyse letztlich darum, herauszufinden, von welchen Faktoren eine bestimmte Zielgröße abhängt und diese Zusammenhänge in geeigneter Weise zu beschreiben. 2.3.3
Klassifikation nach Skalenniveau
Jedes Merkmal lässt sich einem bestimmten Skalenniveau zuordnen. Dieses gibt Auskunft über das Messniveau und darüber, wie die entsprechenden Daten weiterverarbeitet werden können. • Nominalskala. Sie hat das niedrigste Niveau; die Ausprägungen unterscheiden sich nur begrifflich voneinander. Beispiele stellen die Augenfarbe oder die Blutgruppe dar. Eine spezielle Form bilden die Alternativmerkmale (die auch als dichotome oder binäre Merkmale bezeichnet werden) mit nur zwei Ausprägungen. So ist etwa das Geschlecht mit den Ausprägungen „männlich“ und „weiblich“ ein Alternativmerkmal, ebenso der Rhesusfaktor mit den Ausprägungen „positiv“ und „negativ“. Auch ein Zustand, bei dem nach „pathologisch“ und „nicht pathologisch“ unterschieden wird oder Fragen, die sich mit „ja“ oder „nein“ beantworten lassen, sind als Alternativmerkmale anzusehen. • Ordinalskala (oder Rangskala). Sie besitzt ein höheres Niveau als die Nominalskala; die Ausprägungen dieser Merkmale lassen sich in einer natürlichen Rangfolge anordnen. Ein bekanntes Beispiel bilden
24
2
Kapitel 2 · Theoretische Grundlagen
Zensuren mit den Ausprägungen 1 bis 6. Auch klinische Scores sind ordinal skaliert, ebenso das Merkmal „Therapieerfolg“ mit den möglichen Abstufungen „vollständig geheilt“ bis hin zu „Patient verstorben“ oder ein Krebsstadium mit den Ausprägungen I bis IV. Nominal und ordinal skalierte Merkmale werden zusammenfassend als qualitative (oder kategoriale) Merkmale bezeichnet. Es ist allgemein üblich, diese Merkmale zahlenmäßig zu codieren. So kann das Geschlecht einer Person durch die Zahlen 0 (männlich) und 1 (weiblich) angegeben werden; der Therapieerfolg lässt sich mit natürlichen Zahlen 0, 1, 2, ... beschreiben. Diese Zahlen haben jedoch keine rechnerische Bedeutung. Man kann zwar zwei Ausprägungen A und B eines nominalen Merkmals durch A = B oder A B miteinander in Beziehung setzen; bei einem ordinalen Merkmal lässt sich eine der Relationen A = B, A < B oder A > B angeben. Mathematische Operationen wie beispielsweise die Bildung einer Differenz oder eines Quotienten sind jedoch sinnlos. Es leuchtet ein, dass bei qualitativen Merkmalen weder der Abstand zwischen zwei Ausprägungen noch deren Verhältnis definiert ist. • Intervallskala (oder Abstandsskala). Sie hat einen höheren Infor mationsgehalt als die Ordinalskala. Die Ausprägungen unterscheiden sich zahlenmäßig. Bei diesen Merkmalen ist ein Nullpunkt festgelegt (z. B. bei der Temperatur in Celsius-Graden); daher gibt es auch negative Messwerte. Es ist möglich und sinnvoll, die Differenz zwischen zwei Ausprägungen A í B anzugeben. • Verhältnisskala (oder Ratioskala). Sie hat einen absoluten Null punkt; ansonsten können nur positive Messwerte auftreten. Außer der Differenz kann auch das Verhältnis A : B zwischen zwei Ausprägungen bestimmt werden (falls B 0). Beispiel 2.2 Das Merkmal „Temperatur in Celsiusgraden“ hat einen festgelegten Nullpunkt (Gefrierpunkt des Wassers) und ist deshalb intervallskaliert. Beim Vergleich der beiden Ausprägungen 20°C und 40°C lässt sich zwar der Abstand berechnen; es wäre aber unsinnig, die Werte in ein Verhältnis zu setzen und zu sagen, 40°C seien doppelt so warm wie 20°C. Viele Merkmale in der Medizin sind verhältnisskaliert: etwa das Körpergewicht, der Cholesteringehalt oder die Leukozytenanzahl pro µl Blut. Vergleiche der Art „10.000 Leukozyten pro µl Blut sind doppelt so viel wie 5.000“ sind bei diesen Merkmalen durchaus sinnvoll. Auch die Temperaturangabe in Kelvin-Graden kann als verhältnisskaliert aufgefasst werden.
25
2
2.3 Merkmale
Intervall- oder verhältnisskalierte Merkmale werden als quantitativ oder metrisch skaliert bezeichnet. Diese Strukturen findet man vor allem im physikalisch-naturwissenschaftlichen Umfeld und damit auch in der Medizin. 2.3.4
Diskrete und stetige Merkmale
• Diskret. Ein Merkmal heißt diskret, wenn es nur abzählbar viele Werte annehmen kann. Alle qualitativen Merkmale sind trivialer Weise diskret. Quantitative Merkmale sind dann diskret, wenn die Merkmalsausprägungen durch einen Zählvorgang ermittelt werden. Beispiele sind die Anzahl der Schwangerschaften einer Frau oder die Anzahl richtig gelöster Klausuraufgaben in Tabelle 2.1. • Stetig. Ein stetiges Merkmal kann dagegen alle Werte innerhalb eines bestimmten Intervalls annehmen; die Ausprägungen werden in der Regel durch einen Messvorgang ermittelt. Beispiele sind die Körpergröße oder der Blutdruck. Allerdings lässt die begrenzte Messgenauigkeit bei der Bestimmung eines stetigen Merkmals nur abzählbar viele Ausprägungen zu. So wird die Körpergröße meist in der Einheit cm in ganzen Zahlen angegeben, wobei im Einzelfall aufoder abgerundet wird. Deshalb ist bei praktischen Untersuchungen letzten Endes jedes Merkmal diskret. Andererseits sind stetige Merkmale bei Anwendern der Statistik recht beliebt, da sie sich im Hinblick auf die Informationsgewinnung effizienter und häufig einfacher analysieren lassen als diskrete Merkmale. Statistische Analysemethoden, die ein stetiges Merkmal voraussetzen, können dann angewandt werden, wenn das relevante Merkmal innerhalb eines bestimmten Bereichs zahlreiche, fein abgestufte Ausprägungen hat (wie z. B. die Leukozytenanzahl pro µl Blut). Insofern ist eine Unterscheidung zwischen diskreten und stetigen Merkmalen nicht nur theoretisch, sondern auch für praktische Anwendungen sinnvoll. 2.3.5
Skalentransformationen
Es ist generell möglich, ein höheres Skalenniveau auf ein niedrigeres zu transformieren. Jede Verhältnisskala ist automatisch eine Intervallskala; diese wiederum kann als eine Ordinalskala aufgefasst werden. Die Nominalskala kann grundsätzlich jedem Merkmal zugeordnet werden.
26
Kapitel 2 · Theoretische Grundlagen
Übersicht 1: Die Skalenniveaus Merkmalsart
2
Vergleich 2er Ausprägungen
Skalenniveau Beispiele
Hinweise
qualitativ
Nominalskala Blutgruppe, Rhesusfaktor
niedrigstes Niveau
ŷ
qualitativ
Ordinalskala (Rangskala)
Zensuren, med. Scores
Rangfolge ist definiert
ŷ
quantitativ Intervallskala (Abstandsskala)
Temperatur in CelsiusGraden
Skala mit festgelegtem Nullpunkt, Abstand ist definiert
ŷ
quantitativ Ratioskala (Verhältnisskala)
Leukozytenanzahl pro µl Blut, Körpergröße
höchstes Niveau, Skala mit absolutem Nullpunkt, Verhältnis ist definiert
ŷ
A = B oder A≠ B
A = B oder A≠ B ŷ A=B, A > B oder A< B A = B oder A≠ B ŷ A=B, A > B oder A< B ŷ d = A− B
A = B oder A≠ B ŷA=B, A > B oder A< B ŷ ŷ
d = A− B c = A: B
Beispiel 2.3 Wir betrachten das Merkmal „Zigarettenkonsum eines Patienten“. Die Merkmalsart und das Skalenniveau sind abhängig von der Art, wie man dieses Merkmal erfasst: Ausprägungen Merkmalsart Skala quantitativ; Menge des pro Tag Verhältnisskala konsumierten Tabaks in Gramm stetig Anzahl der pro Tag quantitativ; Verhältnisskala gerauchten Zigaretten diskret Nichtraucher – schwacher Raucher – mäßiger Raucher – qualitativ Ordinalskala starker Raucher qualitativ; Nichtraucher – Raucher Nominalskala binär
27
2
2.3 Merkmale
Das Beispiel 2.3 macht deutlich, dass eine Reduktion des Skalenniveaus einerseits mit einer einfacheren Messtechnik einhergeht, andererseits einen Informationsverlust beinhaltet. Dennoch ist eine Skalentransformation bei praktischen Anwendungen zuweilen sinnvoll. Um beispielsweise bei Routineuntersuchungen den Glukosegehalt im Blut zu bestimmen, ist es nicht notwendig, diesen exakt in mg zu erfassen. Stattdessen verwendet man Teststreifen mit den Ergebnissen „negativ“ und „positiv“. Im Einzelfall ist stets abzuwägen, ob es sinnvoll ist, das Skalenniveau zugunsten eines einfachen Messverfahrens zu reduzieren. In den folgenden Kapiteln wird gezeigt, dass statistische Analysemethoden für quantitative (und insbesondere für stetige) Merkmale differenziertere Auswertungen ermöglichen als Methoden für qualitative Merkmale. Eine Skalentransformation sollte man deshalb nur dann durchführen, wenn praktische Gründe dies erfordern, und ansonsten versuchen, ein möglichst hohes Niveau beizubehalten. Wenn jedoch Zweifel bestehen, ob ein höheres Skalenniveau überhaupt angenommen werden kann, sollte man sicherheitshalber das nächst niedrigere zugrunde legen. Beispiel 2.4 Die Wahl des adäquaten Skalenniveaus ist nicht immer einfach oder unumstritten. So werden in der Regel Zensuren als quantitativ-diskrete Merkmale angesehen, und es entspricht gängiger Praxis, Durchschnittsnoten (also Mittelwerte) zu berechnen. Dies ist aber nicht korrekt. Die Differenz zwischen zwei Noten ist nämlich nicht sinnvoll definiert. So ist etwa der Unterschied zwischen den Noten 4 (ausreichend) und 6 (ungenügend) keinesfalls gleichzusetzen mit dem Unterschied zwischen den Noten 2 (gut) und 4. Auch das Berechnen von Verhältnissen (etwa: Die Note 2 ist doppelt so gut wie die 4) ist nicht angebracht. Lediglich die Rangfolge der Ausprägungen 1 bis 6 ist sinnvoll. Demnach handelt es sich nur um ein ordinal skaliertes (also ein qualitatives) Merkmal. ! Eine Schwierigkeit ergibt sich bei begrifflich unscharfen Bezeichnungen, z
die hin und wieder bei ordinal skalierten Merkmalen auftreten. Während sich die Ausprägungen eines nominal skalierten Merkmals in der Regel eindeutig bestimmen lassen und die Werte eines quantitativen Merkmals hinreichend exakt gezählt oder gemessen werden, sind die Grenzen zwischen den Ausprägungen eines ordinalskalierten Merkmals oft unscharf. Dies kann zu ungenauen Ergebnissen und zu fehlerhaften Schlussfolgerungen führen. Bei ordinal skalierten Daten sollte man deshalb darauf achten, dass die Abgrenzungen zwischen den einzelnen Ausprägungen möglichst genau definiert und nachvollziehbar sind.
28
2
Kapitel 2 · Theoretische Grundlagen
Merke Um geeignete Analysemethoden wählen zu können, sind vor der Datenerfassung unbedingt folgende Punkte zu klären: 1. Fragestellung (Hypothese) der Studie formulieren 2. Geeignete Ziel- und Einflussgrößen auswählen 3. Spezifische Eigenschaften für jedes Merkmal bestimmen
2.3.6
Merkmalsausprägungen
Nachdem zu Beginn einer Studie festgelegt worden ist, welche Merkmale erhoben und welche Skalenniveaus zugrunde gelegt werden, ist für jedes Merkmal eine Ausprägungsliste zu erstellen. Bei quantitativen Merkmalen handelt es sich dabei um die Mess- oder Zählwerte. Die Ausprägungen qualitativer Merkmale werden häufig numerisch codiert. Dabei ist auf zwei Dinge zu achten:
ŷ Die Liste muss vollständig sein, damit jeder Beobachtung eine Ausprägung zugeordnet werden kann. Dies bedeutet, dass auch sehr seltene Ausprägungen repräsentiert sind. ŷ Sie muss disjunkt sein. Das heißt: Je zwei Ausprägungen bzw. deren Codierungen sind unterscheidbar und schließen sich gegenseitig aus. Die Zuordnung Codierung ļ Ausprägung muss also für beide Richtungen eindeutig sein. Der Vollständigkeit wegen fügt man bei qualitativen Merkmalen häufig eine Ausprägung der Art „Sonstiges“ oder „nicht feststellbar“ hinzu. Bei quantitativen Merkmalen (z. B. bei der Körpergröße) werden hin und wieder Ausprägungen wie etwa „ < 150 cm “ oder „ ≥ 200 cm “ angegeben. Dabei ist allerdings zu bedenken, dass das Skalenniveau sinkt. Wenn man bei einem ordinalen Merkmal wie dem Therapieerfolg in die Ausprägungsliste „nicht feststellbar“ aufnimmt, reduziert sich das Niveau auf das einer Nominalskala. Eine sinnvolle Ausprägungsliste ist nicht zuletzt abhängig von der konkreten Fragestellung. So ist beispielsweise für das Merkmal „Geschlecht“ eine Liste mit den Ausprägungen „männlich“ und „weiblich“ in der Regel vollständig und disjunkt. Es sind jedoch auch Situationen denkbar, in denen eine zusätzliche Ausprägung wie „intersexuell“ oder „nicht feststellbar“ erforderlich ist. Bei quantitativen Merkmalen sind das Messverfahren und die Messgenauigkeit zu berücksichtigen. Während man das Körpergewicht von Erwachsenen in der Regel in ganzzahligen kg-Werten erfasst, erscheint dies bezogen auf das Körpergewicht von Neugeborenen nicht sinnvoll.
29
2
2.4 Besondere Problematiken
Beispiel 2.5 Die Ausprägungsliste für das Merkmal „Augenfarbe“ mit den Codierungen: 1 = blau 2 = grün 3 = braun 4 = grau Summe aus diesen Zahlen = Farbkombination ist weder vollständig (es fehlt eine Ausprägung für die Augenfarbe von Albinos) noch disjunkt (die Codierungen für die Farbe „braun“ und die Kombination „blaugrün“ sind nicht unterscheidbar). Die folgende Liste erfüllt dagegen die Bedingungen bezüglich Vollständigkeit und Disjunktheit: 1 = blau 2 = grün 4 = braun 8 = grau 16 = Sonstiges Summe aus diesen Zahlen = Farbkombination Es ist auch möglich, für jede der vier Farben eine eigene Variable einzuführen, die die Werte 0 (nein) und 1 (ja) annehmen kann. Wenn alle vier Variablen den Wert 0 haben, bedeutet dies „Sonstiges“; bei Farbkombinationen nehmen mehrere Variable den Wert 1 an. Diese Variablen enthalten alle Informationen des Merkmals „Augenfarbe“ in codierter Form. Man bezeichnet sie als „Dummyvariablen“. ! Bezüglich der Anzahl der Ausprägungen bei qualitativen Merkmalen z
sollte man darauf achten, dass sie in einem sinnvollen Verhältnis zur Anzahl der Beobachtungseinheiten steht. Es ist wenig hilfreich bei der Datenanalyse, wenn viele Ausprägungen nur vereinzelt vorkommen, weil sich dann ein Zusammenhang mit einem anderen Merkmal nicht mehr nachweisen lässt.
2.4
Besondere Problematiken
Bei der Durchführung medizinischer Studien gibt es eine Reihe von Besonderheiten bezüglich der Analyse der Daten: • Klinische Scores und Skalen. Quantitative Merkmale lassen sich effizienter auswerten als qualitative. Daraus resultierte die Tendenz, Sachverhalte, die eigentlich nur qualitativ beschreibbar sind, quantitativ messbar zu machen. Dies führte dazu, dass in den letzten Jahren eine Vielzahl von klinischen Scores und Skalen eingeführt wurde, mit denen komplexe Merkmale – wie etwa der Allgemeinzustand eines Patienten – erfasst werden. Man spricht dabei etwas abfällig auch von „weichen Daten“ im Gegensatz zu „harten Daten“, die sich exakt messen lassen. Ein Beispiel stellt der Apgar-Score dar, der zur Beurteilung des Zustands Neugeborener herangezogen wird. Diesem Score liegen Einschätzungen für mehrere Merkmale (Herzfrequenz, Atmung, Muskeltonus, Reflexe und Hautfarbe) zugrunde, die jeweils mit 0, 1
30
2
Kapitel 2 · Theoretische Grundlagen
oder 2 Punkten bewertet werden. Die Summe ergibt dann einen Scorewert zwischen 0 und 10. Ein anderes Beispiel ist die Karnofsky-Skala, die verwendet wird, um den Allgemeinzustand eines Patienten zu beschreiben. Sie kann Werte zwischen 0 und 100 annehmen. Zur Beschreibung der Schmerzintensität dient die visuelle Analog-Skala, auf der ein Patient auf einer 10 cm langen Linie sein Schmerzempfinden markieren soll. Es liegt nahe, solche Merkmale als quantitativ anzusehen und entsprechend zu analysieren. Folgendes ist dazu anzumerken:
ŷ Es handelt sich bei den Score- oder Skalenwerten keineswegs um Mess- oder Zählwerte, sondern um Einschätzungen, die in gewisser Weise subjektiv sind. ŷ Zwei benachbarte Ausprägungen sind nicht unbedingt äquidistant. So ist etwa beim Merkmal „Herzfrequenz“ des Apgar-Scores der Unterschied zwischen 0 (kein Herzschlag) und 1 (Frequenz unter 100) nicht gleichzusetzen mit dem Unterschied zwischen 1 und 2 (Frequenz über 100). ŷ Es erscheint sogar problematisch, zwei gleiche Ausprägungen miteinander in Beziehung zu setzen. So besagt ein Apgar-Wert von 7 lediglich, dass zwei oder drei Merkmale nicht optimal ausgeprägt sind. Das bedeutet jedoch nicht unbedingt, dass der Zustand zweier Neugeborener mit dem Apgar-Wert 7 identisch ist. Demnach handelt es sich bei diesen Scores und Skalen bestenfalls um ordinal skalierte, aber nicht um quantitative Merkmale. Dies sollte man bei der Datenanalyse und der Präsentation der Ergebnisse beachten. • Ausreißer. Dies sind extrem hohe oder extrem niedrige Werte, bei denen fraglich ist, ob sie unter denselben Bedingungen wie die anderen Werte der Datenreihe entstanden sind. Die Einstufung eines Wertes als Ausreißer muss in erster Linie inhaltlich motiviert sein. Man erkennt Ausreißer am ehesten anhand einer graphischen Darstellung. Wie soll man dann verfahren? Zunächst sollte man nachforschen, wie diese Werte entstanden sind. Möglicherweise handelt es sich um Mess- oder Dokumentationsfehler oder pathologische Besonderheiten. Wenn sich herausstellt, dass es sich um fehlerhafte Werte handelt, muss man sie von der Analyse ausschließen. Ansonsten ist es sinnvoll, die Analysen zweimal durchzuführen: mit und ohne Ausreißer. Wenn sich die Ergebnisse ähneln, spielen die Ausreißer keine große Rolle. Wenn sie sich jedoch unterscheiden, sollte man auf statistische Verfahren zurückgreifen, die unempfindlich gegen Ausreißer sind.
31
2
2.4 Besondere Problematiken
• Surrogatmerkmale. Manche Krankheiten können nicht direkt oder nur mit einem hohen Aufwand diagnostiziert werden. Dann behilft man sich gerne mit so genannten Surrogatmerkmalen, die eine Funktionsstörung anzeigen und die einfach zu bestimmen sind. So wird beispielsweise der Kreatinin-Wert herangezogen, um ein Nierenversagen nachzuweisen. Gegen Surrogatvariable ist nichts einzuwenden, sofern sie in engem und validiertem Zusammenhang mit der zu evaluierenden Krankheit stehen. Dies sollte man kritisch hinterfragen und beim Ziehen von Schlussfolgerungen eine gewisse Vorsicht walten lassen! • Ungenaue Definitionen. Vorsicht ist geboten, wenn Zielgrößen untersucht und beschrieben werden, die nicht klar definiert sind. Ein Beispiel ist das Merkmal „Therapieerfolg“. Im Allgemeinen verbindet man damit etwas Positives – dennoch ist dieser Begriff per se keineswegs exakt definiert: Nicht nur eine vollständige Heilung, sondern auch eine Besserung der Symptome oder des Allgemeinzustands kann als Erfolg gewertet werden. Eine exakte Definition solcher Merkmale ist erforderlich, damit der Leser einer Publikation praxisrelevante Schlussfolgerungen ziehen und Vergleiche anstellen kann. • Falsche oder unvollständige Informationen. Häufig ist man beim Einholen von Informationen auf die Mithilfe von Patienten oder deren Angehörigen angewiesen. Dabei kann es vorkommen, dass die befragten Personen falsche oder unvollständige Angaben machen – sei es unbewusst, weil sie sich nicht richtig erinnern, oder absichtlich, weil sie aus Scham oder anderen Gründen gewisse Dinge verschweigen. Nicht jeder Patient wird uneingeschränkt die Wahrheit sagen, wenn er nach seinem Nikotin- oder Alkoholkonsum gefragt wird. Bei manchen Studien muss man auf die mitunter mangelhafte Dokumentation in Patientenakten zurückgreifen. Es ist schwierig, derlei Datenmaterial auszuwerten. Entsprechende Vorsicht ist bei der Interpretation der Ergebnisse geboten! • Zensierte Daten. Bei Überlebenszeitstudien wird die Zeit unter sucht, die bis zum Eintreten eines bestimmten Ereignisses (etwa bis zum Tod eines Patienten) vergeht. Mehrere Gründe können dazu führen, dass sich im Einzelfall die Überlebenszeit nicht exakt feststellen lässt: Sei es, dass der Patient während der Studie ausscheidet (etwa wegen mangelnder Bereitschaft zur weiteren Teilnahme oder weil der Kontakt zum Studienleiter abreißt), oder dass er am Ende der Studie noch lebt (jede Studie ist zeitlich limitiert). Dann kennt man nur die Zeitspanne, die überlebt wurde – was danach geschieht,
32
2
Kapitel 2 · Theoretische Grundlagen
bleibt unbekannt. Solche Zeiten nennt man zensiert. Es würde zu verzerrten Ergebnissen führen, wenn man alle zensierten Daten bei der Analyse eliminieren würde. Mit speziellen Verfahren (z. B. › Abschnitt 16.2) ist es Kaplan-Meier-Methode oder Logrank-Test, z möglich, zensierte Daten bei der Analyse zu berücksichtigen. Freilich sollte man eine Studie so anlegen, dass zensierte Daten so weit wie möglich vermieden werden.
2.5
Listen und Tabellen
• Listen. Bei einer Studie ist darauf zu achten, dass für jede einzelne Beobachtungseinheit alle relevanten Informationen (Ort und Zeit der Untersuchungen, die untersuchenden Personen, die erhobenen Daten, Besonderheiten etc.) sorgfältig in einer Liste dokumentiert werden. Falls ein Datum nicht erhoben werden kann, ist dies mit Angabe von Gründen zu vermerken. Zu einem späteren Zeitpunkt ist kaum noch nachvollziehbar, warum eine Information fehlt – ob beispielsweise nur die Dokumentation vergessen wurde (das sollte freilich nicht passieren), oder ob und warum ein Wert nicht gemessen wurde. Für die statistische Analyse sind diese Informationen mitunter sehr wichtig. • Tabellen. Die für die statistische Analyse relevanten Daten wer den in einer Tabelle übersichtlich zusammengefasst. Diese stellt die Basis für alle nachfolgenden Analysemethoden und für die daraus resultierenden Erkenntnisse dar. Eine Tabelle wird üblicherweise mit einer Software (z. B. dem Tabellenkalkulationsprogramm Excel) erstellt. Sie enthält folgende Elemente:
ŷ Tabellenzeilen. Für jede Beobachtungseinheit ist eine eigene Zeile mit einer eindeutigen Identifikationsnummer in der ersten Spalte reserviert. Namen oder Initialen sind – nicht zuletzt aus Datenschutzgründen – zur Identifikation ungeeignet. ŷ Tabellenspalten. Jede Spalte enthält die Daten eines bestimmten Merkmals. Angaben dazu findet man in der ersten Tabellenzeile, dem so genannten Tabellenkopf. ŷ Legende. Wenn die Tabelle Teil einer Publikation oder einer Dissertation ist, sollten weitere Informationen, die zum Verständnis notwendig sind (Abkürzungen, Maßeinheiten etc.), in der Legende oder Überschrift enthalten sein.
33
2
2.5 Listen und Tabellen ! Fehlende Daten müssen gekennzeichnet werden (etwa durch einen z
Punkt). Sie sollten nach Möglichkeit vermieden werden, da sich dadurch der Stichprobenumfang reduziert und die Ergebnisse ungenauer werden.
Oft enthält eine Tabelle in der letzten Zeile oder in der letzten Spalte Randsummen (die so genannten Spalten- bzw. Zeilensummen), Mittelwerte oder Häufigkeiten. Falls es zweckmäßig erscheint, kann sie nach einem oder mehreren Merkmalen sortiert sein. Die Tabelle auf der folgenden Doppelseite enthält die Daten von sieben Merkmalen, die bei 71 Studenten im ersten klinischen Semester erfasst wurden. Sie dient als Grundlage für diverse statistische Analysen, die in den folgenden Kapiteln erläutert werden. Alle Ergebnisse lassen sich anhand dieser Tabelle explizit nachvollziehen. Charakteristische Eigenschaften der erhobenen Merkmale und deren Zusammenhänge treten jedoch – zumindest auf den ersten Blick – anhand einer Tabelle nicht in Erscheinung. Deshalb ist es erforderlich, die Daten anschaulich graphisch darzustellen und die Merkmale quantitativ zu beschreiben. Dabei empfiehlt sich folgendes Vorgehen:
ŷ Zunächst wird jedes Merkmal einzeln – also unabhängig von den anderen und separat für jede Stichprobe – mittels deskriptiver Statistik untersucht. Geeignete Methoden werden in den Kapiteln 3 und 4 vorgestellt. ŷ Danach lassen sich einfache Zusammenhänge beschreiben. Hinweise dazu findet man in Kapitel 5. ŷ Mit Methoden der induktiven Statistik lässt sich nachweisen, ob und mit welcher Irrtumswahrscheinlichkeit die Stichprobenergebnisse verallgemeinerbar sind. Dieses Thema ist Gegenstand der Kapitel 9 bis 12. ! Üblicherweise wird eine Tabelle mit dem Tabellenkalkulationsprogramm z
Excel, das im Office-Paket der Firma Microsoft enthalten ist, angelegt. Diese Software ist für die Datenerfassung geeignet; auch einfache statistische Berechnungen lassen sich damit durchführen. Für Analysen der induktiven Statistik empfiehlt sich jedoch ein leistungsstarkes Statistikprogrammpaket wie beispielsweise SAS oder SPSS.
34
Kapitel 2 · Theoretische Grundlagen
Tabelle 2.1. Geschlecht (M = männlich, W = weiblich), Blutgruppe, Rhesusfaktor, Raucher, Körpergröße in cm, Körpergewicht in kg und die Anzahl richtig gelöster Klausuraufgaben
2 ID
Geschlecht
Blutgruppe
Rhesusfaktor
Raucher
Größe
Gewicht
Klausur
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
M M M M M M M M M M M M M M M M M M M M M M M W W W W W W W W W W W W W W W W W W W W W
A 0 B A 0 0 A A 0 B 0 0 A 0 A A A 0 A 0 AB A 0 0 A 0 A B 0 A 0 0 A A 0 A 0 B A 0 A A 0 B
+ + – + + + + + + + – + + + + + + – + + + – + + + + – + + + + + + + – – + + + + + + – +
ja ja nein nein nein nein ja ja nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein nein ja nein nein nein nein nein nein nein nein nein ja ja ja nein nein
172 193 193 180 180 180 182 179 186 180 190 196 178 177 176 175 186 178 185 180 165 178 179 164 167 170 179 156 156 168 172 168 170 175 169 168 176 173 163 157 169 172 168 170
82 106 75 75 90 90 70 72 80 80 80 84 69 71 65 65 85 79 85 85 61 60 74 52 55 56 75 46 50 63 60 60 57 52 65 58 69 56 60 50 60 65 62 53
6 10 8 11 2 10 8 12 3 9 10 4 8 9 11 4 10 7 9 5 8 11 8 1 7 7 9 8 12 9 6 4 10 3 9 6 9 11 11 8 10 6 7 12
2
35 2.5 Listen und Tabellen
Tabelle 2.1 (Fortsetzung). Geschlecht (M = männlich, W = weiblich), Blutgruppe, Rhesusfaktor, Raucher, Körpergröße in cm, Körpergewicht in kg und die Anzahl richtig gelöster Klausuraufgaben ID
Geschlecht
Blutgruppe
Rhesusfaktor
Raucher
Größe
Gewicht
Klausur
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
W W W W W W W W W W W W W W W W W W W W W W W W W W W
0 A A 0 0 A A 0 B A 0 A AB 0 A A B 0 A B A 0 A B 0 A AB
+ + + + + + + + – + + + + + – + + + + + + + + + – + +
nein nein nein nein nein nein nein nein nein ja ja nein nein nein nein nein ja ja ja nein nein nein nein nein nein nein nein
163 168 165 174 156 172 173 176 173 178 174 174 180 166 157 160 170 162 180 180 172 178 172 165 168 165 164
57 79 60 . 48 55 74 80 63 70 63 60 65 54 49 50 75 56 72 79 60 55 54 54 70 77 50
7 8 6 9 9 11 10 3 10 2 9 12 7 8 4 9 12 5 11 9 4 8 10 7 10 9 5
3
Häufigkeiten 3.1
Häufigkeiten bei diskreten Merkmalen 39
3.1.1
Absolute und relative Häufigkeiten 39
3.1.2
Graphische Darstellungen 40
3.2
Häufigkeiten bei stetigen Merkmalen 42
3.2.1
Das Prinzip der Klassenbildung 42
3.2.2
Graphische Darstellungen 44
3.3
Die empirische Verteilungsfunktion 46
3.4
2-dimensionale Häufigkeiten 49
3.4.1
Die Kontingenztafel 49
3.4.2
Die Beschreibung einer Assoziation 50
3.4.3
Ausblick auf die induktive Statistik 52
3
39 3.1 Häufigkeiten bei diskreten Merkmalen
3.1
Häufigkeiten bei diskreten Merkmalen
3.1.1
Absolute und relative Häufigkeiten
Um sich einen Überblick bezüglich wesentlicher Eigenschaften eines Merkmals anzueignen, beginnt man mit der Häufigkeitsverteilung. Diese Verteilung beschreibt, wie häufig die einzelnen Merkmalsausprägungen in der Stichprobe zu finden sind. Häufigkeiten lassen sich für jedes Merkmal und jedes Skalenniveau ermitteln. In den Abschnitten 3.1 und 3.2 werden – getrennt für diskrete und stetige Merkmale – Häufigkeitsbegriffe erörtert und graphische Darstellungen vorgestellt. Zu den diskreten Merkmalen zählen alle qualitativen sowie die quantitativ-diskreten Merkmale. Die Anzahl der Ausprägungen ist in der Regel wesentlich kleiner als der Stichprobenumfang und damit überschaubar. So gehören beispielsweise zum qualitativen Merkmal „Blutgruppe“ die vier Ausprägungen 0, A, B und AB. Durch einfaches Abzählen lässt sich ermitteln, wie häufig die einzelnen Ausprägungen in der Stichprobe vertreten sind. Allgemein formuliert man diesen Sachverhalt folgendermaßen: Ein diskretes Merkmal A habe k verschiedene Ausprägungen A1 ,..., Ak . Die absolute Häufigkeit einer Ausprägung Ai wird mit ni bezeichnet. Der Buchstabe i ist der so genannte Laufindex, der zwischen 1 und k variiert. Die Summe aller absoluten Häufigkeiten ni entspricht der Anzahl der Beobachtungseinheiten in der Stichprobe – das ist der Stichprobenumfang n: k
¦n
i
=n
(3.1)
i =1
i Bei dem Summen-Zeichen ƶ handelt es sich um den griechischen z Buchstaben Sigma. Damit werden Summen in verkürzter Schreibweise k
dargestellt. Der Ausdruck
¦n
i
entspricht der Summe n1 + n2 + ... + nk .
i =1
Unter der relativen Häufigkeit hi einer Ausprägung Ai versteht man den Quotienten ´
hi =
ni n
(3.2)
40
Kapitel 3 · Häufigkeiten
Aus dieser Definition folgt, dass 0 ≤ hi ≤ 1, und dass sich die relativen Häufigkeiten aller Ausprägungen zu 1 aufaddieren: k
¦h
i
i =1
3
¦n
i
k
=
i =1
n
=
n =1 n
(3.3)
In der Praxis gewinnt man die Häufigkeiten am einfachsten durch das Erstellen einer Strichliste oder – weniger mühsam – mittels einer › Beispiel 3.1). geeigneten Software (z Beispiel 3.1 Wir betrachten das qualitative Merkmal „Blutgruppe“ mit den Daten der in Tabelle 2.1 aufgelisteten Stichprobe von n = 71 Beobachtungseinheiten. Es ergeben sich folgende Häufigkeiten: Ausprägung absolute Häufigkeiten relative Häufigkeiten n1 = 28 A1 =Blutgruppe 0 h1 = 39 % A2 =Blutgruppe A
n2 = 31
h2 = 44 %
A3 =Blutgruppe B
n3 = 9
h3 = 13 %
A4 =Blutgruppe AB
n4 = 3
h4 = 4 %
Summe
n = 71
100%
! Die relative Häufigkeit wird oft in Prozentwerten angegeben. Da der z
Ausdruck Prozent „von Hundert“ bedeutet, sind derlei Angaben nur bei einem hinreichend großen Stichprobenumfang sinnvoll. Wenn man bei kleineren Stichproben mit weniger als 50 Beobachtungseinheiten Prozente berechnet, täuscht man eine höhere Genauigkeit vor als in Wirklichkeit vorhanden ist. In diesen Fällen sollte man anstelle der Prozentangaben einfache Quotienten bevorzugen – wie z. B.: Die relative Häufigkeit der Blutgruppe A bei den männlichen Studenten beträgt 10/23.
3.1.2
Graphische Darstellungen
Graphische Darstellungen bringen die oben beschriebenen Sachverhalte prägnant zum Ausdruck. • Kreisdiagramm. Bei dieser Darstellung geben die einzelnen Kreissektoren die Häufigkeiten ni wieder. Anstelle der absoluten Häufigkeiten ni lassen sich auch die relativen Häufigkeiten hi darstellen; dabei ändert sich nur der Maßstab des Diagramms, nicht jedoch dessen Aussehen. Bei einem Kreisdiagramm kommt allerdings
41
3
3.1 Häufigkeiten bei diskreten Merkmalen
nicht (zumindest nicht auf den ersten Blick) zur Geltung, welches die kleinste oder die größte Ausprägung ist – deshalb eignet sich › diese Art der Darstellung nur für nominal skalierte Merkmale (z Abbildung 3.1). • Rechteckdiagramm (oder Blockdiagramm). Hier ist ein Rechteck entsprechend der einzelnen Häufigkeiten unterteilt. Diese Darstellung eignet sich auch für ordinal skalierte Merkmale, da die kleinste und die größte Ausprägung zu erkennen sind. • Balkendiagramm. Diese Art von Diagrammen eignet sich für alle diskreten Merkmale. Die Längen der einzelnen Balken entsprechen › Abbildung 3.2). Dabei sind zahlreiden Häufigkeiten ni oder hi (z che Varianten denkbar. Die 2-dimensionalen Balken lassen sich durch 1-dimensionale Striche oder 3-dimensionale Säulen ersetzen. Bei senkrechter Anordnung spricht man auch von einem Säulendiagramm; wenn anstelle der Säulen 1-dimensionale Striche verwendet werden, bezeichnet man dies als Stabdiagramm. Darüber hinaus können die Balken horizontal anstatt vertikal angeordnet werden; bezüglich Farben, Mustern und Hintergründen sind – nicht zuletzt dank geeigneter Software- und Hardwareprodukte – der Phantasie keine Grenzen gesetzt. Man sollte jedoch bei solchen Darstellungen vor allem darauf achten, dass die wesentlichen Eigenschaften der Häufigkeitsverteilung optimal zur Geltung kommen und nicht zugunsten optischer Effekte in den Hintergrund treten. Abb. 3.1 Kreisdiagramm; Darstellung der Häufigkeiten des Merkmals „Blutgruppe“ (Beispiel 3.1)
Abb. 3.2 Balkendiagramm; Darstellung der Häufigkeiten des Merkmals „Anzahl richtig gelöster Klausuraufgaben“
42
Kapitel 3 · Häufigkeiten
• Punktediagramm. Dies ist eine Darstellung einfachster Art für quantitative Merkmale. Die Stichprobenwerte werden entlang einer Achse (die waagrecht oder senkrecht angeordnet sein kann) als einzelne Punkte eingetragen. Diese Art der Darstellung eignet sich weniger zu Präsentationszwecken als vielmehr dazu, schnell und einfach einen Überblick über die Häufigkeitsverteilung zu gewinnen.
3 3.2
Häufigkeiten bei stetigen Merkmalen
3.2.1
Das Prinzip der Klassenbildung
Bei der Erfassung eines stetigen Merkmals (z. B. der Körpergröße) werden – bedingt durch die begrenzte Messgenauigkeit – die gemessenen Werte im Einzelfall auf- oder abgerundet. Im Vergleich zum Stichprobenumfang ergeben sich zahlreiche Ausprägungen, deren Häufigkeiten meist gering und daher wenig informativ sind. So schwankt beispielsweise die Körpergröße der Studenten in Tabelle 2.1 zwischen 156 cm und 196 cm – dies sind 41 verschiedene Werte für 71 Beobachtungseinheiten. Davon haben 14 Ausprägungen die Häufigkeit 0, neun sind nur einmal vertreten. Es erweist sich in solchen Fällen als sinnvoll, mehrere nebeneinander liegende Ausprägungen zusammenzufassen und Klassen zu bilden. Dies ist auch bei einem quantitativ-diskreten Merkmal mit extrem vielen, fein abgestuften Ausprägungen gerechtfertigt (z. B. die Leukozytenanzahl). Ein solches Merkmal kann für praktische Analysen wie ein stetiges Merkmal behandelt werden. Damit verbindet sich die Frage, wie die Anzahl der Klassen und deren Breiten festzulegen sind. Bei sehr vielen, schmalen Klassen ist die Darstellung unübersichtlich und der Verteilungstyp schwer erkennbar. Dagegen ist eine geringe Anzahl von breiten Klassen mit einem hohen Informationsverlust verbunden; charakteristische Eigenschaften der Verteilung werden eventuell verdeckt. Es gibt bezüglich der Klassenbildung zwar keine strengen Vorschriften, jedoch einige Faustregeln, die einen Kompromiss zwischen einer übersichtlichen Darstellung einerseits und einem geringen Informationsverlust andererseits beinhalten:
ŷ Die Klassenanzahl k richtet sich nach dem Stichprobenumfang n.
Als Anhaltspunkt gilt: k ≈ n . Für größere Stichprobenumfänge n ≥ 1000 verwendet man k ≈ 10 ⋅ lg n (wobei lg der Zehnerlogarithmus bedeutet), damit die Klassenanzahl nicht zu groß wird.
3
43 3.2 Häufigkeiten bei stetigen Merkmalen
ŷ Weniger als drei Klassen sind generell nicht sinnvoll. ŷ Am übersichtlichsten ist die Darstellung, wenn die Klassenbreiten gleich sind. Wenn jedoch Ausreißer vorhanden sind, ist es eventuell sinnvoll, am jeweiligen Rand eine breite Klasse zu bilden. Klassen mit den Grenzen -∞ oder +∞ sind zu vermeiden. ŷ Es muss eindeutig geklärt sein, welcher Klasse ein Datum zugeordnet wird, das auf eine Klassengrenze fällt. Man umgeht dieses Problem, indem man die Grenzen so definiert, dass sie nicht mit Werten der Stichprobe zusammenfallen. Ansonsten muss man die Klassen als halboffene Intervalle festlegen (meist benutzt man Intervalle, die links offen und rechts abgeschlossen sind). Bei klassierten Daten ermittelt man die absolute Häufigkeit oder die Besetzungszahl einer Klasse und bezeichnet diese als ni . Der Laufindex i kennzeichnet die Klassen in aufsteigender Reihenfolge ( i = 1 bezeichnet also die erste Klasse mit den kleinsten Messwerten, i = k die letzte Klasse mit den größten Werten). Basierend auf den absoluten Häufigkeiten ni berechnet man die relativen Klassenhäufigkeiten hi ebenso wie bei diskreten Merkmalen. Beispiel 3.2 Die Messwerte für die Körpergröße der 71 Studenten in Tabelle 2.1 variieren zwischen 156 und 196 cm. Das Intervall (152,5 cm; 197,5 cm) wird in 9 Klassen der Klassenbreite 5 cm eingeteilt. Dadurch ist gewährleistet, dass kein Messwert auf eine Klassengrenze fällt. relative absolute relative absolute Laufindex Klassengrenzen Häufigkeit Häufigkeit Summenh. Summenh. i in cm hi Ni Hi ni 1 2 3 4 5 6 7 8 9
(152,5 ; 157,5) (157,5 ; 162,5) (162,5 ; 167,5) (167,5 ; 172,5) (172,5 ; 177,5) (177,5 ; 182,5) (182,5 ; 187,5) (187,5 ; 192,5) (192,5 ; 197,5)
5 2 10 18 12 17 3 1 3
0,07 0,03 0,14 0,25 0,17 0,24 0,04 0,01 0,04
5 7 17 35 47 64 67 68 71
0,07 0,10 0,24 0,49 0,66 0,90 0,94 0,96 1
Um die Häufigkeitsbegriffe zu verdeutlichen, betrachten wir die 4. Klasse. Die absolute und die relative Häufigkeit n4 bzw. h4 bedeuten: 18 Studenten (das entspricht 25 %) haben eine Körpergröße zwischen 167,5 cm und 172,5 cm. Die ab› Abschnitt 3.3) N 4 bzw. H 4 besasolute und die relative Summenhäufigkeit (z gen, dass 35 insgesamt Studenten bzw. 49 % kleiner als 172,5 cm sind.
44
Kapitel 3 · Häufigkeiten
i Wenn eine Intervallgrenze durch eine runde Klammer angegeben wird, z bedeutet dies, dass der Grenzwert nicht im Intervall enthalten ist. Eine eckige Klammer ([ oder ]) zeigt an, dass der Grenzwert zum Intervall gehört.
! In früheren Zeiten – als man einen Mittelwert noch per Hand oder mit z
3
einem Taschenrechner ermittelte – erleichterte man sich bei umfangreichem Datenmaterial die Arbeit, indem man die Daten in eine überschaubare Anzahl von Klassen zusammenfasste und den Mittelwert und andere Kenngrößen aus den Klassenmitten ermittelte. Deshalb legte man Wert darauf, dass die Klassenmitten rechentechnisch günstige Werte waren. Heute – im Zeitalter benutzerfreundlicher Statistiksoftware – ist dieses Argument obsolet. Die Einteilung in Klassen wird hauptsächlich vorgenommen, um die Daten übersichtlich graphisch darzustellen.
3.2.2
Graphische Darstellungen
• Histogramm. Bei dieser Darstellung wird jede Klasse durch ein Rechteck repräsentiert, dessen Flächen proportional zu den jeweiligen Klassenhäufigkeiten sind. Am übersichtlichsten ist ein › Abbildung 3.3); dann Histogramm mit gleichen Klassenbreiten (z sind auch die Höhen der Rechtecke proportional zu den Häufigkeiten. Falls Daten auf eine Klassengrenze fallen, muss gekennzeichnet werden, welcher Klasse diese Daten zugerechnet werden (üblicherweise wählt man die untere Klasse). Die mathematische Funktion, die ein Histogramm beschreibt, bezeichnet man als empirische Dichte. Sie ist definiert als: 0 für x ≤ a0 ° ° hi für ai −1 < x ≤ ai (i = 1,..., k ) f ( x) = ® ° ai − ai −1 °¯0 für x > ak
(3.4)
Dabei sind a i −1 und a i die untere bzw. die obere Grenze der i. Klasse, k ist die Klassenanzahl. Dieses Histogramm besteht aus k Rechtecken der Fläche hi . Die Gesamtfläche hat den Wert 1. • Häufigkeitspolygon. Diese Darstellung erhält man, indem man senkrecht auf die Klassenmitten Strecken in Höhe der entsprechenden Häufigkeiten aufträgt und deren Endpunkte miteinander ver› Abbildung 3.4). bindet (z
45
3
3.2 Häufigkeiten bei stetigen Merkmalen
• Stamm-und-Blatt-Diagramm. Hier werden die Daten zunächst nach ihrer Größe geordnet und dann von unten nach oben aufgetragen. Der Stamm besteht aus den ersten Stellen der Stichproben› Abbildung werte, die Blätter stellen die folgenden Ziffern dar (z 3.5). Diese Darstellung benutzt man, um sich einen schnellen Überblick über die Häufigkeitsverteilung zu verschaffen. Für Präsentationszwecke ist sie weniger geeignet. Eine graphische Darstellung liefert zwar auf einen Blick wesentliche Informationen; sie allein ist jedoch für eine statistische Datenanalyse unzureichend. Kenngrößen, die die oben genannten Eigenschaften quantitativ beschreiben, sind Gegenstand des Kapitels 4.
Abb. 3.3 Histogramm für das Merkmal „Körpergröße“ (Beispiel 3.2), Einteilung in 9 Klassen
Abb. 3.4 Häufigkeitspolygon für das Merkmal „Körpergröße“ (Beispiel 3.2)
Abb. 3.5 Stamm- und Blattdiagramm; Darstellung der Körpergewichte der männlichen Studenten
46
3
Kapitel 3 · Häufigkeiten
Merke Anhand eines Diagramms lassen sich bei quantitativen Merkmalen folgende Eigenschaften ablesen: ŷ Lage: In welchem Bereich konzentrieren sich die Werte? Welches ist der größte, welches der kleinste Wert? Welche Ausprägungen sind häufig, welche selten oder gar nicht vertreten? ŷ Streuung: Streuen die Werte weit um den Mittelwert? Gibt es Ausreißer? ŷ Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch oder schief? Wie viele Gipfel sind erkennbar?
3.3
Die empirische Verteilungsfunktion
Bei quantitativen oder ordinal skalierten Merkmalen mag es sinnvoll sein, die Häufigkeiten beginnend bei der kleinsten Ausprägung in aufsteigender Reihenfolge aufzuaddieren. Dadurch erhält man die Anzahl der Daten, die eine bestimmte obere Grenze nicht überschreiten. Diese Häufigkeiten nennt man kumulative oder Summenhäufigkeiten. Unter der Annahme, dass die Ausprägungen sortiert sind mit A1 < A2 < ...< Ak , gilt für die absoluten Summenhäufigkeiten: i
N i = ¦ n j (für i = 1,..., k )
(3.5)
j =1
Die relativen Summenhäufigkeiten sind entsprechend definiert als: i
H i = ¦ h j (für i = 1,..., k )
(3.6)
j =1
Die zu den einzelnen Ausprägungen gehörenden relativen Summenhäufigkeiten H i werden durch die empirische Verteilungsfunktion F (x ) mathematisch beschrieben: 0 für x < A1 ° F ( x ) = ® H i für Ai ≤ x < Ai +1 (i = 1,..., k − 1) °1 für x ≥ A ¯ k
(3.7)
3
47 3.3 Die empirische Verteilungsfunktion
Beispiel 3.3 Für die Körpergrößen der Studenten ergeben sich mit den Daten aus Tabelle 2.1 folgende Summenhäufigkeiten, auf denen die empirische Verteilungsfunktion › Abbildung 3.6). Angegeben sind die absoluten und relativen Häufigbasiert (z keiten ni und hi sowie die Summenhäufigkeiten N i und Hi . Ni Ausprägung Körpergröße ni hi Hi A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16 A17 A18 A19 A20 A21 A22 A23 A24 A25 A26 A27
156 157 160 162 163 164 165 166 167 168 169 170 172 173 174 175 176 177 178 179 180 182 185 186 190 193 196
3 2 1 1 2 2 4 1 1 6 2 4 6 3 3 2 3 1 5 3 8 1 1 2 1 2 1
0,04 0,03 0,01 0,01 0,03 0,03 0,06 0,01 0,01 0,08 0,03 0,06 0,08 0,04 0,04 0,03 0,04 0,01 0,07 0,04 0,11 0,01 0,01 0,03 0,01 0,03 0,01
3 5 6 7 9 11 15 16 17 23 25 29 35 38 41 43 46 47 52 55 63 64 65 67 68 70 71
0,04 0,07 0,08 0,10 0,13 0,15 0,21 0,23 0,24 0,32 0,35 0,41 0,49 0,54 0,58 0,61 0,65 0,66 0,73 0,77 0,89 0,90 0,92 0,94 0,96 0,99 1
F (x) gibt die relativen Häufigkeiten an, mit der in der Stichprobe Werte vorhanden sind, die gleich x oder kleiner als x sind. Für das obige Beispiel 3.3 gilt etwa: F (172) = 0,49 . Das bedeutet: Knapp die Hälfte der Studenten ist 172 cm groß oder kleiner; 51 % sind größer als 172 cm.
48
3
Kapitel 3 · Häufigkeiten
Abb. 3.6 empirische Verteilungsfunktion F ( x ) für das Merkmal „Körpergröße“ (Beispiel 3.3)
Die Abbildung 3.6 verdeutlicht wesentliche Eigenschaften der Verteilungsfunktion F (x) :
ŷ F (x) ist eine Treppenfunktion; ŷ F ( x) = 0 für alle x, die kleiner als der kleinste Stichprobenwert x min sind;
ŷ F (x) wächst ab x min monoton von 0 bis 1; ŷ F ( x) = 1 ab dem größten Wert x max . i Eine Funktion heißt monoton wachsend, wenn für zwei x-Werte mit z x1 < x2 gilt: F ( x1 ) ≤ F ( x2 ) . Falls sogar gilt: F ( x1 ) < F ( x2 ) für x1 < x2 , heißt die Funktion streng monoton wachsend. Die empirische Verteilungsfunktion F ( x ) ist demnach monoton, aber nicht streng monoton wachsend.
Bei fein abgestuften Ausprägungen ist die Anzahl der Treppen zahlreich und die Stufen sind entsprechend niedrig; die Treppenfunktion nähert sich einer glatten Kurve. In der Pharmakologie werden Verteilungsfunktionen zur Analyse der dosisabhängigen Wirksamkeit eines Pharmakons verwendet. Dabei beschreibt die empirische Funktion F (x) den relativen Anteil der Untersuchungseinheiten, bei denen ein Effekt der Dosis x erkennbar ist. Die graphische Darstellung von F (x) bezeichnet man als Dosiswirkungskurve. Auch in der Labormedizin arbeitet man häufig mit der Verteilungsfunktion. Wenn etwa für einen Cholesterinwert x gilt F ( x) = 0,98 , informiert diese Angabe darüber, dass dieser Wert im oberen 2%-Bereich liegt.
49
3
3.4 2-dimensionale Häufigkeiten
3.4
2-dimensionale Häufigkeiten
3.4.1
Die Kontingenztafel
Bisher wurde lediglich die Häufigkeitsverteilung eines einzelnen Merkmals betrachtet. Bisweilen ist es interessant, den Zusammenhang zwischen zwei Merkmalen, die an den Beobachtungseinheiten erhoben wurden, näher zu beleuchten. Wenn es sich dabei um zwei qualitative Merkmale handelt, spricht man von Assoziation oder Kontingenz. Wir betrachten im Folgenden zwei diskrete Merkmale mit den Ausprägungen Ai ( i = 1,..., k ) und B j ( j = 1,..., A) . Dann beträgt die Anzahl aller denkbaren Kombinationen k ⋅ A . Die absoluten Häufigkeiten nij bezeichnen die Anzahl der Beobachtungseinheiten, bei denen die Ausprägungen Ai und B j gemeinsam auftreten. Für die relativen Häufigkeiten ergibt sich dann: hij =
nij
mit i = 1,..., k und j = 1,..., A
n
(3.8)
Die hij erstrecken sich zwischen 0 und 1. Wenn man alle Häufigkeiten aufaddiert, erhält man: k
A
¦¦ n
ij
=n
(3.9)
=1
(3.10)
i =1 j =1 k
A
¦¦ h
ij
i =1 j =1
Die Häufigkeiten, die sich nur auf die Ausprägungen Ai oder B j beziehen, sind die so genannten Randhäufigkeiten oder Randsummen. All diese Häufigkeiten lassen sich übersichtlich in einer Tabelle – der so genannten Kontingenztafel – darstellen. Im Kopf und in der Vorspalte sind die Ausprägungen der beiden Merkmale aufgelistet. Im Innern enthält die Tabelle Felder mit den jeweiligen Häufigkeiten. In der letzten Tabellenspalte oder der letzten Zeile können Randsummen eingetragen werden. In Beispiel 3.4 werden zwei Alternativmerkmale betrachtet; daher enthält die Tabelle im Innern nur vier Felder. Diese einfachste Form der Kontingenztafel nennt man auch Vierfeldertafel. Die dazu gehörenden absoluten Häufigkeiten werden üblicherweise mit a, b, c und d bezeichnet. Außer den absoluten Häufigkeiten lassen sich bei
50
Kapitel 3 · Häufigkeiten
Bedarf zusätzlich die relativen Häufigkeiten (die sich auf den gesamten Stichprobenumfang beziehen) sowie die relativen Reihenoder Spaltenhäufigkeiten (die sich auf die Reihen- bzw. Spaltensummen beziehen) angeben.
3
Beispiel 3.4 Für die Merkmale „Rauchen und Geschlecht“ ergeben sich aus den Daten der Tabelle 2.1 folgende Zusammenhänge. Angegeben sind jeweils die absoluten Häufigkeiten nij, die relativen Häufigkeiten hij, die relativen Reihenhäufigkeiten, die relativen Spaltenhäufigkeiten. Raucher
Nichtraucher
a=4 b = 19 (0,06) (0,27) 23 männlich (0,17) (0,83) (0,32) (0,31) (0,33) c=9 d = 39 (0,13) (0,55) 48 weiblich (0,19) (0,81) (0,68) (0,69) (0,67) 13 58 71 (0,18) (0,82) Daraus geht hervor, dass sich die Menge der 71 Studenten aus 13 Rauchern (das sind 18 %) und 58 Nichtrauchern (82 %) bzw. aus 23 Männern (32 %) und 48 Frauen (68 %) zusammensetzt. Die 19 nicht rauchenden Männer stellen 27 % des Gesamtkollektivs dar. 17 % der Männer und 19 % der Frauen rauchen. Die Raucher sind zu 31 % männlich; die Nichtraucher zu 33 %. Für › Abschnitt 3.4.2) ergibt sich OR = (4 ⋅39) /(19 ⋅ 9) = 0,912 . die Odds Ratio (z
3.4.2
Die Beschreibung einer Assoziation
Die Kontingenztafeln enthalten zwar genaue Informationen bezüglich der Häufigkeiten; sie sind jedoch wenig geeignet, um den Grad eines Zusammenhangs zu erfassen. Zu diesem Zweck bedient man sich graphischer Darstellungen und geeigneter Assoziationsmaße. • Balkendiagramm. Die Zusammenhänge zweier qualitativer Merkmale lassen sich mittels eines Balkendiagramms darstellen. Die Längen der Balken repräsentieren die Häufigkeiten der Ausprägungen des ersten Merkmals. Außerdem ist jeder Balken entsprechend
51
3
3.4 2-dimensionale Häufigkeiten
der Häufigkeiten der Ausprägungen des zweiten Merkmals unterteilt › Abbildung 3.7). Eine andere Möglichkeit besteht darin, für jede (z Merkmalskombination einen 3-dimensionalen Balken zu erstellen, der die jeweilige Häufigkeit nij repräsentiert, und die k ⋅ A Balken in › Abbildung 3.8). räumlicher Perspektive anzuordnen (z • Odds Ratio. Dies ist ein Assoziationsmaß, das den Grad eines Zu sammenhangs zwischen zwei Alternativmerkmalen quantifiziert. Es wird gebildet, indem man aus den Häufigkeiten im Innern der Vierfeldertafel das Kreuzprodukt bildet: OR =
ad bc
(3.11)
Diese Maßzahl ist der Quotient aus den beiden „Odds“ a / c und b / d . Ein Odds ist das Verhältnis aus zwei zusammen gehörenden Häufigkeiten. So stellt etwa der Quotient a / c die Anzahl der männlichen Raucher im Verhältnis zu den weiblichen Rauchern dar. Eine Odds Ratio mit dem Wert 1 zeigt, dass kein Zusammenhang zwischen den beiden Merkmalen besteht. Die berechnete Odds Ratio von 0,912 in Beispiel 3.4 lässt vermuten, dass bei den Studenten kein wirklicher Zusammenhang zwischen den Merkmalen „Rauchen“ und „Geschlecht“ nachzuweisen ist. Abb. 3.7 Zusammenhang zwischen Rauchen und Geschlecht, 2-dimensionales Balkendiagramm (Beispiel 3.4)
Abb. 3.8 Zusammenhang zwischen Rauchen und Geschlecht, 3-dimemsionales Balkendiagramm (Beispiel 3.4)
52
Kapitel 3 · Häufigkeiten
• Assoziationskoeffizient nach Yule (George Yule, 1871-1951, war ein Mitarbeiter von Karl Pearson). Dieses Maß wird berechnet nach: Q=
3
ad − bc ad + bc
(3.12)
Q nimmt den Wert 0 an, falls ad = bc (vollkommene Unabhängigkeit). Ansonsten erstreckt sich Q zwischen -1 und +1. In Beispiel 3.4 nimmt Q den Wert -0,046 an. Weitere Assoziationsmaße für qualitative Merkmale sind Gegenstand des Abschnitts 12.2.4. Zusammenhangsmaße für quantitative Merkmale werden in Kapitel 5 erörtert. 3.4.3
Ausblick auf die induktive Statistik
In diesem Kapitel wurden Methoden vorgestellt, die dazu dienen, eine Häufigkeitsverteilung zu quantifizieren und optisch darzustellen. Die Beschreibung einer Stichprobe ist – für sich allein genommen – jedoch unbefriedigend. Bisher wurde die Frage ausgeklammert, inwieweit sich die Ergebnisse verallgemeinern lassen. Bei der Betrachtung des Beispiels 3.4 drängen sich folgende Fragen auf:
ŷ Aus der Vierfeldertafel geht hervor, dass etwa 2/3 aller Medizinstudenten des 1. klinischen Semesters weiblich sind. Kann man daraus schließen (unter der Annahme, dass die beobachtete Stichprobe repräsentativ für die Medizinstudenten des 1. klinischen Semesters in Deutschland ist), dass die Frauen die Mehrheit darstellen? Oder ist dieser Schluss zu gewagt? ŷ 17 % der Männer rauchen, wohingegen dieser Anteil bei den Frauen 19 % beträgt. Kann man daraus schließen, dass Frauen mehr rauchen, oder sind die unterschiedlichen Anteile nur zufällig bedingt und haben ansonsten keine tiefere Bedeutung? Auf derlei Fragen kann die deskriptive Statistik keine befriedigenden Antworten geben. Intuitiv würde man wohl annehmen, dass zum im WS 2006/07 tatsächlich mehr Frauen als Männer Medizin studierten, und dass sich aus dem minimalen Unterschied zwischen den Raucheranteilen bei Männern und Frauen kein Hinweis darauf ergibt, dass die Rauchgewohnheiten vom Geschlecht abhängen. Dabei handelt es sich jedoch nur um Vermutungen, die nicht statistisch abgesichert sind. Zu diesem Zweck bedarf es Methoden der induktiven Statistik. In den Kapiteln 9 bis 12 werden wir auf darauf zurückkommen.
4
Die Beschreibung eines Merkmals 4.1
Die Methoden der univariaten Statistik 55
4.2
Lagemaße 55
4.2.1
Das arithmetische Mittel 55
4.2.2
Der Median 57
4.2.3
Quartile und Quantile 60
4.2.4
Der Modus 62
4.2.5
Minimum und Maximum 63
4.2.6
Das geometrische Mittel 63
4.2.7
Das harmonische Mittel 64
4.3
Streuungsmaße 64
4.3.1
Varianz und Standardabweichung 65
4.3.2
Der Variationskoeffizient 66
4.3.3
Die Spannweite 67
4.3.4
Weitere Streuungsmaße 68
4.4
Formmaße 69
4.4.1
Die Schiefe 69
4.4.2
Die Wölbung 71
4.5
Der Vergleich mehrerer Stichproben 73
4.5.1
Beispiele für Gruppenvergleiche 73
4.5.2
Graphische Darstellungen 74
4.5.3
Anforderungen an die Stichproben 76
4.5.4
Ausblick auf die induktive Statistik 76
55
4
4.1 Die Methoden der univariaten Statistik
4.1
Die Methoden der univariaten Statistik
In diesem Kapitel werden Methoden vorgestellt, mit denen sich die charakteristischen Eigenschaften eines einzelnen Merkmals beschreiben lassen. Die geeigneten Methoden sind abhängig von der Art des jeweiligen Merkmals, insbesondere von dessen Skalenniveau. Zur quantitativen Analyse eines Merkmals bedarf es aussagekräftiger statistischer Kenngrößen (oder Maßzahlen). Man unterscheidet hierbei Lagemaße, Streuungsmaße und Formmaße. Diese werden in den Abschnitten 4.2 bis 4.4 besprochen. Abschließende Bemerkungen zu den Stichproben finden sich in Abschnitt 4.5. i Die Daten einer Stichprobe werden allgemein mit x ,..., x bezeichnet. z 1 n Diese Werte bilden die so genannte Urliste. Die tief gestellten Indizes geben normalerweise die Reihenfolge an, in der die Daten erhoben wurden; sie haben darüber hinaus keine Bedeutung. Die Zahl n symbolisiert den Stichprobenumfang. Die Kenngrößen werden aus den Daten der Stichprobe ermittelt und dienen als Schätzwerte für die entsprechenden Parameter der Grundgesamtheit. Man nennt sie deshalb empirische Größen.
4.2
Lagemaße
Die Lagemaße (auch Lokalisationsmaße genannt) geben an, in welchem Bereich sich die Stichprobenwerte konzentrieren. 4.2.1
Das arithmetische Mittel
Das bekannteste Lagemaß ist der Mittelwert (das arithmetische Mittel oder der Durchschnitt). Er wird mit x (sprich: x quer) bezeichnet und nach folgender Formel berechnet: n
¦ xi x=
i =1
n
(4.1)
Es werden also alle Stichprobenwerte addiert und deren Summe durch den Stichprobenumfang n dividiert (zur Erklärung des ƶ-Zei› Abschnitt 3.1). chens: z
56
Kapitel 4 · Die Beschreibung eines Merkmals
Beispiel 4.1 Von den Merkmalen der Tabelle 2.1 lassen sich Mittelwerte für die Körpergröße, das Körpergewicht und die Anzahl der richtig gelösten Klausuraufgaben berechnen. Für die mittlere Körpergröße erhält man: xm = 181,22 cm (männliche Studenten, n = 23 )
4
xw = 169,06 cm
(weibliche Studenten, n = 48 )
x ges = 173,00 cm
(alle Studenten, n = 71 )
Es fällt auf, dass die weiblichen Studenten im Durchschnitt wesentlich kleiner sind als ihre männlichen Kommilitonen. Ob dieser Unterschied nur zufällig bedingt ist oder ob er ein Hinweis darauf ist, dass weibliche Studenten generell kleiner sind, kann an dieser Stelle nicht beurteilt werden. Die induktive Statistik stellt Methoden zur Verfügung, die eine Entscheidung diesbezüglich › Kapitel 11). gestatten (z
Der Mittelwert hat dieselbe Maßeinheit wie die Daten der Stichprobe. Bei einem kleinen Stichprobenumfang bis n = 10 sollte er mit einer zusätzlichen Kommastelle angegeben werden; bis n = 100 erscheinen zwei und erst ab n = 1000 drei zusätzliche Stellen sinnvoll (auch wenn der Taschenrechner oder der PC wesentlich mehr Kommastellen angeben). Ansonsten täuscht man eine höhere Messgenauigkeit vor als in Wirklichkeit gegeben ist. Der Mittelwert ist sicherlich die bekannteste Kenngröße der deskriptiven Statistik; allerdings wird seine Bedeutung häufig überschätzt. Viele Anwender wissen nicht, dass dessen Berechnung nicht in jedem Fall sinnvoll ist und dass andere Lagemaße existieren, die sich zur Beschreibung einer Häufigkeitsverteilung eventuell besser eignen. Ein Nachteil des Mittelwerts besteht darin, dass er von Ausreißern stark beeinflusst wird und daher bei schiefen Verteilungen › Beispiel 4.3). ein verzerrtes Bild der Verteilung wiedergibt (z Aus der mathematischen Herleitung geht hervor, dass der Mittelwert nur dann berechnet werden darf, wenn die Differenz zwischen zwei Ausprägungen definiert ist. Dies setzt quantitative Merkmale voraus. Ein Mittelwert, der einem ordinalen oder gar einem nominalen Merkmal zugeordnet wird, ist nicht sinnvoll interpretier› Beispiel 4.4). bar (z Ob ein Merkmal annähernd symmetrisch verteilt ist, kann anhand einer geeigneten graphischen Darstellung (z. B. Histogramm) › Abschnitt 4.4.1) beurteilt werden. oder am Wert der Schiefe (z
57
4
4.2 Lagemaße
Merke Der Mittelwert
ŷ ŷ ŷ
darf nur für quantitative Merkmale (nicht für ordinal skalierte) berechnet werden; ist vor allem bei symmetrischen, eingipfeligen Verteilungen sinnvoll; nutzt im Gegensatz zu anderen Lagemaßen alle Informationen der Stichprobenwerte.
Mathematische Herleitung des Mittelwertes Vom Mittelwert x erwartet man, dass er die Lage der Werte xi optimal repräsentiert; d. h. die Abweichungen der x i von x sollten möglichst gering sein. Die Summe aller Abstände ¦ ( xi − x ) zu minimieren ist nicht sinnvoll, da sich positive und negative Abweichungen gegenseitig ausgleichen. Daher berechnet man x so, dass die Summe der Abstandsquadrate ¦ ( xi − x ) 2 minimal wird. Dieses Vorgehen bezeichnet man als die Methode der kleinsten Quadrate. Aus der Analysis ist bekannt, dass eine Funktion im Punkt x ein relatives Minimum hat, wenn gilt: f ' ( x ) = 0 und f ' ' ( x ) > 0 . Man berechnet also für die Funktion n
n
n
i =1
i =1
i =1
f ( x ) = ¦ ( xi − x )2 = ¦ xi 2 − 2 x ¦ xi + n ⋅ x 2
ein x , für das gilt:
n
f '( x ) = −2¦ xi + 2nx = 0 und
f '' ( x ) = 2 n > 0 .
i =1
n
Offensichtlich erfüllt der Wert x = ¦ xi / n diese Voraussetzungen. i =1
Da mit diesem x die Summe der Abstandsquadrate minimiert ist, gilt: n
¦(x i =1
n
i
− x )2 ≤ ¦ ( xi − c )2 für alle reellen Zahlen c. i =1
Diese Ungleichung beschreibt die so genannte Minimumeigenschaft des Mittelwertes.
4.2.2
Der Median
Der empirische Median (oder Zentralwert) teilt die Stichprobenwerte in zwei Hälften: Die eine Hälfte der Daten ist höchstens so groß wie der Median, die andere Hälfte ist mindestens so groß. Um diese Kenngröße, die üblicherweise mit x (sprich: x Schlange) bezeichnet wird, zu ermitteln, sind die Stichprobenwerte der Größe nach zu sortieren. Die geordneten Werte werden mit tief gestellten, in Klammern gesetzten Indizes versehen, sodass gilt:
58
Kapitel 4 · Die Beschreibung eines Merkmals
x(1) ≤ x(2) ≤ ... ≤ x(n )
4
Demnach ist x (1) der kleinste Wert der Stichprobe, also das Minimum (er wird auch als xmin bezeichnet); x (n ) oder x max ist der größte Wert, das Maximum. Die sortierten Stichprobenwerte nennt › Tabelle 4.1). Das dazugehörende Merkmal muss man Rangliste (z mindestens ordinal skaliert sein, da für nominal skalierte Daten keine sinnvolle Reihenfolge angegeben werden kann. Der empirische Median x wird in Abhängigkeit vom Stichprobenumfang n nach folgender Formel ermittelt: x § n +1 · ° ¨© 2 ¸¹ ° ~ x = ®x n + x n § · § · ¨ +1¸ ° ¨© 2 ¸¹ ©2 ¹ ° 2 ¯
für n ungerade
(4.2) für n gerade
Aus (4.2) folgt, dass x entweder ein Wert der Urliste ist (falls n ungerade) oder der Durchschnittswert der beiden mittleren Werte (falls n gerade). Deshalb hat der empirische Median dieselbe Maßeinheit wie die xi -Werte und höchstens eine Stelle mehr nach dem Dezimalkomma. Beispiel 4.2 Nach der Formel (4.2) ergeben sich für die Körpergröße folgende Werte für › Tabelle 4.1): die Mediane (z ~ xm = xm(12) = 180 cm (männliche Studenten, n = 23 ) xw( 24) + xw( 25) ~ xw = = 169,5 cm 2 ~ x ges = x(36) = 173 cm
(weibliche Studenten, n = 48 ) (alle Studenten, n = 71 )
Da bei ordinal skalierten Daten die Berechnung des Mittelwerts nicht statthaft ist, wird stattdessen gerne der Median als Lagemaß benutzt. Ein weiterer Vorteil des Medians liegt darin, dass er gegenüber Ausreißern robust ist. Ausreißer bewirken, dass Mittelwert und Median stark voneinander abweichen – in diesen Fällen ist die Verteilung schief. Wenn Mittelwert und Median in etwa übereinstimmen, ist dies ein Hinweis darauf, dass die Verteilung symmetrisch ist. Ein Vergleich der beiden Lagemaße liefert demnach Hinweise auf die Form der zugrunde liegenden Verteilung.
59
4
4.2 Lagemaße
Beispiel 4.3 Die postoperative Krankenhaus-Aufenthaltsdauer von vier Patienten nach einer Appendektomie betrug 4, 5, 5 und 6 Tage. Bei einem weiteren Patienten traten Komplikationen ein; er blieb 20 Tage im Krankenhaus. Aus diesen 5 Werten ergibt sich eine mittlere Aufenthaltsdauer von 8 Tagen; der Median beträgt dagegen nur 5 Tage. Der Mittelwert wird wesentlich vom Ausreißer bestimmt; er gibt die tatsächlichen Verhältnisse verzerrt wieder. Der Median ist dagegen von diesem Ausreißer weitgehend unbeeinflusst. Beispiel 4.4 Wir betrachten das ordinal skalierte Merkmal „Therapieerfolg“ mit den Ausprägungen 0 (Patient verstorben), 1 (Zustand verschlechtert), 2 (keine Veränderung eingetreten), 3 (Zustand verbessert) und 4 (Patient vollständig geheilt). Wenn jeweils die eine Hälfte der Patienten verstorben und die andere vollständig geheilt ist, besagt der Median ~ x = 2 , dass bei der Hälfte der Patienten keine Veränderung oder ein schlechterer Zustand eingetreten ist, während bei der anderen Hälfte der Zustand unverändert geblieben ist oder sich gebessert hat. Es ist jedoch vollkommen sinnlos, aus den Codierungen einen Mittelwert von 2 zu berechnen und zu behaupten, „keine Veränderung“ sei der Durchschnitt zwischen „tot“ und „vollständig geheilt“.
Bei zensierten Daten (etwa bei Überlebenszeitanalysen) hat der Median den Vorteil, dass er bereits berechnet werden kann, nachdem die Hälfte der Studienteilnehmer verstorben ist. Um einen Mittelwert zu berechen, müsste man den Tod aller Untersuchungseinheiten abwarten. Wenn es sich bei dem Merkmal um die verabreichte Dosis eines Pharmakons handelt, ist der Median die Dosis, die bei der Hälfte der Untersuchungseinheiten einen Effekt erkennen lässt. Mathematische Beschreibung des Medians Der Median x ist der Wert, für den die Summe der Abweichungsbeträge n
¦x
i
i =1
− x minimal ist; d. h.:
n
¦x
i
i =1
n
− x ≤ ¦ xi − c für alle reellen Zahlen c. i =1
Diese Ungleichung beschreibt die Minimumeigenschaft des Medians. Diese Eigenschaft setzt metrisch skalierte Merkmale voraus, da Differenzen bei ordinal skalierten Merkmalen nicht definiert sind. Für die Berechnung des Medians werden jedoch nicht alle Werte benötigt; nur deren Reihenfolge ist maßgebend. Da diese Reihenfolge auch bei einer Ordinalskala definiert ist, ist die Berechnung des Medians auch bei diesen Merkmalen üblich.
60
Kapitel 4 · Die Beschreibung eines Merkmals
Merke Die Angabe des Medians ist sinnvoll
ŷ ŷ ŷ ŷ
4
bei ordinal skalierten Daten; bei quantitativen Merkmalen, die schief verteilt sind; bei Verdacht auf Ausreißer; bei zensierten Daten.
Wenn der Mittelwert und der Median stark voneinander abweichen, sollte dies bei der Präsentation der Ergebnisse und ihrer Interpretation berücksichtigt werden.
4.2.3
Quartile und Quantile
Während der Median die Stichprobe in zwei Hälften einteilt, teilen die Quartile die Stichprobe in vier Viertel. • Unteres oder erstes Quartil Q1 . Dieses besagt, dass 25% der Stichprobenwerte kleiner als oder gleich Q1 sind, während dementsprechend 75% der Werte größer als oder gleich Q1 sind. • Oberes oder drittes Quartil Q3 . Analog gilt, dass 75% der Werte maximal so groß wie Q3 und die Werte des restlichen Viertels mindestens so groß wie Q3 sind. • Mittleres oder zweites Quartil Q2 . Es entspricht dem Median x . Eine weitere Verfeinerung der Häufigkeitsverteilung gestatten die Quantile (oder Fraktile) xα , die für alle reellen Zahlen α mit 0 < α < 1 definiert sind. Ein α-Quantil wird folgendermaßen berechnet: Man ermittelt zunächst den Wert α ⋅ n und davon abhängig eine Rangzahl k und das Quantil xα nach folgenden Formeln:
ŷ Falls α ⋅ n keine ganze Zahl ist, sei k die direkt auf α ⋅ n folgende ganze Zahl und xα = x( k ) ŷ Falls α ⋅ n eine ganze Zahl ist, sei k = α ⋅ n und x( k ) + x( k +1 ) xα = 2
(4.3a) (4.3b)
Spezielle Quantile sind der Median (α = 0,50) sowie die beiden Quartile (α = 0,25 bzw. α = 0,75). Von Dezilen spricht man, falls α = 0,1 , 0,2 ,..., 0,9 ; von Perzentilen bei 2-stelligen Kommazahlen α = 0,01 , ..., 0,99 .
4
61 4.2 Lagemaße
Die Angabe eines Perzentils kann sehr hilfreich sein, um einen Messwert größenmäßig einzuordnen. So werden etwa in der Kinderheilkunde die individuellen Werte eines Kindes bezüglich Größe, Gewicht oder Kopfumfang mit den altersgemäßen 5%- und 95%Perzentilen verglichen, um zu beurteilen, ob es Auffälligkeiten in der Entwicklung gibt. Beispiel 4.5 Wir bestimmen mit Hilfe der Rangliste in Tabelle 4.1 einige Quantile bezüglich der Körpergröße der weiblichen Studenten nach Formel 4.3b ( n = 48 ): 1. Quartil: α ⋅ n = 0,25 ⋅ 48 = 12 ; also k = 12 und Q1 = ( x(12) + x(13) ) / 2 = 165 cm α ⋅ n = 0,75 ⋅ 48 = 36 ; also k = 36 und
3. Quartil:
Q3 = ( x(36) + x(37) ) / 2 = 173,5 cm α ⋅ n = 0,90 ⋅ 48 = 43,2 ; also k = 44 und
9. Dezil:
x0,90 = x(44) = 178 cm
Daraus folgt, dass eine 164 cm große Studentin bezüglich ihrer Körpergröße im unteren Viertel liegt, während eine 180 cm große Dame den oberen 10% angehört.
Tabelle 4.1. Rangliste bezüglich des Merkmals „Körpergröße“ für weibliche Studenten mit Daten aus Tabelle 2.1. Angegeben sind der Rang, die Körpergröße sowie die ID. Rang
Größe
ID
Rang
Größe
ID
Rang
Größe
ID
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
156 156 156 157 157 160 162 163 163 164 164 165 165 165 166 167
28 29 49 40 59 60 62 39 45 24 71 47 68 70 58 25
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
168 168 168 168 168 168 169 169 170 170 170 170 172 172 172 172
30 32 36 43 46 69 35 41 26 33 44 61 31 42 50 65
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
172 173 173 173 174 174 174 175 176 176 178 178 179 180 180 180
67 38 51 53 48 55 56 34 37 52 54 66 27 57 63 64
62
Kapitel 4 · Die Beschreibung eines Merkmals
Merke Der Median, die Quartile und alle sonstigen Quantile lassen sich über die empirische Verteilungsfunktion F (x) beschreiben und graphisch abschätzen. Nach Definition ist nämlich: F (x~α ) = α . Für den Median und › die Quartile gelten also: F ( ~x ) = 0,5 , F (Q1 ) = 0,25 und F (Q3 ) = 0,75 (z Abbildung 3.6). ! In der Literatur werden teilweise etwas andere Berechnungsarten vorgez
4
schlagen, die jedoch ähnliche Werte wie die Formeln (4.3a) und (4.3b) liefern. In jedem Fall ist zu beachten, dass derlei Angaben nur bei einem entsprechend hohen Stichprobenumfang sinnvoll sind.
4.2.4
Der Modus
Der Modus (auch Modalwert oder Dichtemittel genannt) ist die Ausprägung mit der größten Häufigkeit. Er wird mit dem Buchstaben D (oder M) abgekürzt und kann bei allen Skalenniveaus ermittelt werden. Bei Daten, die in Klassen eingeteilt sind, gibt man statt des Modalwertes gerne die modale Klasse an – das ist die Klasse mit der größten Besetzungszahl – und bezeichnet deren Mitte als Modus. Beispiel 4.6 › Beispiel 3.1). Bei der Anzahl Der Modus des Merkmals „Blutgruppe“ ist A (z › Abbildung 3.2). Die richtig gelöster Klausuraufgaben ist der Modus 9 (z modale Klasse bei der Körpergröße der Studenten ist (167,5 cm; 172,5 cm) mit › Beispiel 3.2). Dieser Gipfel ist der Häufigkeit 18 und dem Modus 170 cm (z jedoch nur schwach ausgeprägt. Die Klasse (177,5 cm; 182,5 cm) ist nahezu ebenso stark.
Anhand der graphischen Darstellung ist erkennbar, ob die Verteilung eingipfelig (unimodal), zweigipfelig (bimodal) oder mehrgipfelig (multimodal) ist. Zwei- und mehrgipfelige Verteilungen beobachtet man in der Regel bei heterogenen Populationen, in denen sich mehrere Verteilungen überlappen. So gibt es beispielsweise in der Abbildung 3.4 (Häufigkeitspolygon der Körpergrößen) zwei Gipfel, wobei einer von Männern und einer von Frauen gebildet wird. Uförmige Verteilungen sind durch zwei Modalwerte an ihren Rändern und einem Tiefpunkt in der Mitte charakterisiert. Der Mittelwert einer solchen Verteilung repräsentiert einen atypischen Wert. Ein Beispiel ist das Merkmal „Intensität der Einstellung zu einer alternativen Heilmethode“. Es gibt viele Ablehnende (niedrige Intensität), viele Zustimmende (hohe Intensität), aber wenig Neutrale (mit Werten in der Mitte der Skala).
4
63 4.2 Lagemaße
Merke Modalwerte werden hauptsächlich angegeben: ŷ bei nominalen Merkmalen, da andere Lagemaße bei diesem Skalenniveau nicht zulässig sind; ŷ bei ordinalen und quantitativen Merkmalen, wenn es sich um einen „ausgeprägten Gipfel“ handelt (dies setzt in der Regel einen sehr hohen Stichprobenumfang voraus). ŷ bei einer U-Verteilung. Die Angabe eines Modalwertes ist nicht empfehlenswert: ŷ bei Alternativmerkmalen (etwa Geschlecht oder Rhesusfaktor); ŷ wenn es keinen „ausgeprägten Gipfel“ gibt.
4.2.5
Minimum und Maximum
Dies sind die beiden extremsten Werte eines ordinal oder metrisch skalierten Merkmals. Sie geben einen sehr groben Überblick über die Streuung der Daten. Außerdem sind diese Maße hilfreich, um die Daten auf Plausibilität zu überprüfen: Fehler, die bei der Dateneingabe entstehen (wenn etwa das Dezimalkomma falsch gesetzt wird), werden am ehesten durch einen Blick auf das Minimum und das Maximum offensichtlich. 4.2.6
Das geometrische Mittel
Das geometrische Mittel wird bei relativen Änderungen verwendet, bei denen sich der Unterschied zweier Merkmalswerte sinnvoller durch einen Quotienten als durch eine Differenz beschreiben lässt. Dies ist der Fall bei Verdünnungsreihen (z. B. bei Antikörpertitern in der Immunologie) oder bei Wachstumserscheinungen (z. B. die Zunahme der Unterhaltskosten einer Klinik). Wenn xi die relativen Änderungen bezeichnen (wobei xi > 0 und dimensionslos), berechnet es sich das geometrische Mittel als:
xG = n x1⋅...⋅xn
(4.4)
Beispiel 4.7 Die Titer von fünf Kaninchenseren sind: 1/100, 1/200, 1/400, 1/800 und 1/1000. Dann berechnet man für das geometrische Mittel: xG = 5
1 1 1 1 1 1 ⋅ ⋅ ⋅ ⋅ ≈ 100 200 400 800 1000 364
64
Kapitel 4 · Die Beschreibung eines Merkmals
i Häufig wird das geometrische Mittel herangezogen, wenn die Stichz › Abschnitt 4.4.1). probenwerte rechtsschief verteilt sind (z
4.2.7
4
Das harmonische Mittel
Das harmonische Mittel dient als Lagemaß, wenn die Beobachtungswerte xi Verhältniszahlen (also Quotienten) sind, die sich nur in ihren Nennern unterscheiden. Damit lässt sich etwa eine Durchschnittsgeschwindigkeit oder eine durchschnittliche Dichte berechnen. Es ist definiert als: xH =
n n
1 ¦x i =1 i
(4.5)
Beispiel 4.8 Derselbe Weg s wird einmal mit der Geschwindigkeit v1 = 20 km/h und ein anderes Mal mit v2 = 30 km/h zurückgelegt. Die Geschwindigkeiten sind definiert als Quotienten v1 = s / t1 bzw. v 2 = s / t2 (wobei t1 und t2 die benötigten Zeiten darstellen). Zur Berechnung der Durchschnittsgeschwindigkeit verwendet man das harmonische Mittel nach (4.5): 2 vH = = 24 1 1 + 20 30 i Ein Vorteil des harmonischen Mittels liegt darin, dass auch „unendlich z lange“ Zeiten berücksichtigt werden können. Falls am Ende einer Studie einige Probanden (oder Versuchstiere) noch leben, wird deren Überlebenszeit als unendlich angenommen. Der Kehrwert ist dann 0 und fließt als solcher in die Summe des Nenners ein. Damit kann das harmonische Mittel nach (4.5) berechnet werden.
4.3
Streuungsmaße
Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund ihrer Streuung sehr unterschiedlich sein. Die Streuungsmaße (oder Dispersionsmaße) geben Auskunft über die Variabilität der Stichprobenwerte.
4
65 4.3 Streuungsmaße
4.3.1
Varianz und Standardabweichung
Bei quantitativen Merkmalen ist der Mittelwert das am häufigsten benutzte Lagemaß. Es liegt deshalb nahe, ein Streuungsmaß zu definieren, das die Abweichungen der Stichprobenwerte vom Mittelwert quantifiziert. Ein solches Maß ist die Varianz – das ist die mittlere quadratische Abweichung der Daten vom Mittelwert. Wenn man nun (wie es nahe liegend erscheint) die Varianz berechnet, indem man die Summe der Abstandsquadrate ( xi − x ) 2 durch n dividiert, erhält man die Varianz der Stichprobe. Allerdings ist diese Stichproben-Varianz im Durchschnitt etwas kleiner als die › Abschnitt 9.2.3) geVarianz der Grundgesamtheit. Es wird später (z zeigt, dass man aus den Messwerten der Stichprobe einen optimalen Schätzwert für die Varianz der Grundgesamtheit erhält, wenn man die empirische Varianz nach folgender Formel ermittelt: n
n
¦ ( xi − x ) 2 ¦ xi2 − nx 2 Var =
i =1
n −1
=
i =1
n −1
(4.6)
Wegen der quadratischen Dimension ist die Varianz schwer zu interpretieren. Um ein Streuungsmaß mit gleicher Dimension wie die der Stichprobendaten zu erhalten, zieht man die Wurzel aus der Varianz und erhält die Standardabweichung: s = Var
(4.7)
Beispiel 4.9 Für die Standardabweichungen des Merkmals „Körpergröße“ berechnet man: sm = 7,12 cm (männliche Studenten, n = 23 ) s w = 6,60 cm
(weibliche Studenten, n = 48 )
s ges = 8,83 cm
(alle Studenten, n = 71 )
Die „gemischte“ Gruppe ist also bzgl. der Körpergröße wesentlich heterogener ist als die beiden Gruppen der männlichen und der weiblichen Studenten.
Die Standardabweichung stellt ein Maß für die Homogenität bzw. Heterogenität der Stichprobe dar. Sie ist wie der Mittelwert nur bei quantitativen Merkmalen sinnvoll. Im Allgemeinen ist diese Maßzahl positiv; nur im Extremfall – wenn alle Werte identisch sind und die Stichprobe vollkommen homogen ist – nimmt sie den Wert 0 an.
66
Kapitel 4 · Die Beschreibung eines Merkmals
Es ist üblich, quantitative, annähernd symmetrisch verteilte Daten durch den Mittelwert und die Standardabweichung in der Form x ± s unter Angabe des Stichprobenumfangs n zu charakterisieren, wie zum Beispiel für die Körpergröße der männlichen Studenten: x ± s = (181,22 ± 7,12) cm ( n = 23 ). Die Standardabweichung erlaubt folgende Abschätzungen:
ŷ Bei Normalverteilungen liegen etwa 2/3 aller Werte zwischen
4
x − s und x + s ; zwischen den Grenzen x − 2s und x + 2 s lie› Tabelle 8.1). gen ungefähr 95% aller Werte (z ŷ Bei symmetrischen, eingipfeligen Verteilungen liegen mindestens 8/9 aller Werte innerhalb der Grenzen x ± 2 s und 95% im › Formel 8.21). Bereich x ± 3s (z ŷ Generell findet man bei allen (also auch bei schiefen) Verteilungen mindestens 3/4 aller Werte im Intervall x ± 2 s und 8/9 in › Formel 8.19). x ± 3s (z Mathematische Herleitung der Varianz Die Idee, anstelle des mittleren Abstandsquadrats einfach den mittleren Abstand der Messwerte vom Mittelwert zu berechnen, erweist sich als unsinnig, da sich positive und negative Abweichungen ausgleichen: n
¦(x
i
i =1
n
− x ) = ¦ xi − nx = nx − nx = 0 i =1
Dies erklärt, weshalb man bei der Berechnung der Varianz die Summe der Abstandsquadrate zugrunde legt. Wenn man im Zähler von (4.6) die einzelnen Terme ausmultipliziert und addiert, erhält man: n
¦(x
i
i =1
n
n
n
n
i =1
i =1
i =1
i =1
− x )2 = ¦ xi 2 − 2 x ¦ xi +nx 2 = ¦ xi2 − 2nx 2 + nx 2 = ¦ xi2 −nx 2
Die Division durch n − 1 ist dadurch begründet, dass nur n − 1 Summanden des Zählers eine Information beinhalten. Wenn nämlich n − 1 Stichprobenwerte und der Mittelwert bekannt sind, lässt sich aus diesen Angaben der noch fehlende Summand ermitteln. Die Zahl f = n − 1 wird auch als die Anzahl der Freiheitsgrade bezeichnet. Das bedeutet: Man hat die „Freiheit“, n − 1 Werte nach Belieben zu verändern und den letzten Wert entsprechend anzupassen, ohne dass sich dabei der Wert der Varianz ändert.
4.3.2
Der Variationskoeffizient
Eine Standardabweichung von 7,12 cm – bezogen auf die Körpergröße von männlichen Studenten mit einem Durchschnittswert von 181,22 cm – wiegt wesentlich weniger als dieselbe Standardabweichung bezogen auf eine Gruppe von Kleinkindern mit einer mittle-
4
67 4.3 Streuungsmaße
ren Größe von 90 cm. Dieser Sachverhalt lässt sich durch den Variationskoeffizienten quantitativ beschreiben: V = s / x (falls x > 0 )
(4.8)
Dieses Maß ist dimensionslos und nur für verhältnisskalierte Merkmale geeignet. Sein Maximum beträgt n . Der relative Variationskoeffizient kann daher nur Werte zwischen 0 und 1 annehmen: Vr =
s/ x n
(4.9)
i Ein relativer Variationskoeffizient bis zu 0,30 ist in den Biowissenschafz ten keine Seltenheit. Wenn er jedoch wesentlich höher ist, ist dies ein Hinweis darauf, dass die Verteilung extrem schief ist, oder dass zwei inhomogene Gruppen gemeinsam untersucht werden. Dies sollte man nach Möglichkeit vermeiden.
Mathematische Herleitung des relativen Variationskoeffizienten Die Varianz ist minimal (d. h. gleich 0), wenn alle Werte der Stichprobe identisch sind. Dann ist auch der relative Variationskoeffizient 0. Die Varianz ist bei gegebenem Mittelwert x maximal, wenn eine Beobachtungseinheit den Wert n ⋅ x annimmt, während die anderen n −1 Werte gleich 0 sind. Für diesen Extremfall berechnet man: 1 ⋅ ( nx − x ) 2 + ( n − 1) ⋅ (0 − x )2 ( n − 1) 2 ⋅ x 2 + ( n − 1) ⋅ x 2 s2 = = = n ⋅ x2 n −1 n −1 Daraus folgt: 0 ≤ V = s / x ≤ n und 0 ≤ Vr ≤ 1 .
4.3.3
Die Spannweite
Das am einfachsten zu berechnende Streuungsmaß ist die Spannweite oder Variationsbreite:
R = xmax − xmin = x( n ) − x(1)
(4.10)
Ebenso wie die Standardabweichung ist die Spannweite nur dann gleich 0, wenn alle Stichprobenwerte identisch sind, und ansonsten positiv. Sie ist wesentlich leichter zu berechnen als die Standardabweichung; allerdings berücksichtigt sie nur die beiden extremsten Werte und ist daher sehr stark von Ausreißern beeinflusst. Deshalb wird diese Maßzahl hauptsächlich bei diskreten Merkmalen mit wenigen Ausprägungen verwendet.
68
Kapitel 4 · Die Beschreibung eines Merkmals
i Die Spannweite ist streng genommen nur für quantitative Merkmale z geeignet, da bei niedrigeren Skalenniveaus Differenzen nicht sinnvoll sind. Vielfach wird R jedoch auch bei ordinal skalierten Merkmalen berechnet. Dies ist dann zu vertreten, wenn die Ausprägungen mit natürlichen, aufeinander folgenden Zahlen codiert sind. Die Spannweite ist in diesem Fall nicht als Differenz, sondern als die Anzahl der Abstufungen zwischen dem größten und dem kleinsten Wert zu verstehen.
4
4.3.4
Weitere Streuungsmaße
• Dezilabstand. Ein Streuungsmaß, das weniger empfindlich ist als die Spannweite, erhält man, wenn man an beiden Rändern der Verteilung jeweils 10 % abschneidet und die Länge dieses so genannten Interdezilbereichs berechnet: I80 = x0,90 − x0,10
(4.11)
• Quartilsabstand. Dies ist die Länge des Interquartilsbereichs Q1 ,Q3 , der die mittleren 50 % der Stichprobenwerte enthält: I50 = Q3 − Q1 = x0,75 − x0,25
(4.12)
Beispiel 4.10 Für das Merkmal „Körpergröße“ (Daten aus Tabelle 2.1) berechnet man: I 50, m = 186 cm − 178 cm = 8 cm (männliche Studenten, n = 23 ) I 50, w = 173,5 cm − 165 cm = 8,5 cm
(weibliche Studenten, n = 48 )
I 50 ges = 179 cm − 168 cm = 11 cm
(alle Studenten, n = 71 )
Auch diese Zahlen zeigen, dass die Gruppe aller Studenten heterogener ist als die beiden anderen, geschlechtshomogenen Gruppen.
• Mittlere Abweichung vom Median. Auch dieses Streuungsmaß wird – zusammen mit dem Median als Lagemaß – gelegentlich bei ordinal skalierten oder schief verteilten Daten verwendet: n
¦ x − x i
MAx =
i =1
n
(4.13)
• Variation Ratio. Schließlich gibt es sogar ein Streuungsmaß für nominal skalierte Merkmale: die Variation Ratio VR (ein deutscher Begriff hat sich dafür noch nicht eingebürgert). Es handelt sich dabei
4
69 4.4 Formmaße
um die relative Häufigkeit der Beobachtungen, die nicht in die modale Kategorie fallen: VR = 1 − hmodal
(4.14)
(wobei hmodal die relative Häufigkeit des Modalwertes ist). VR nimmt den Wert 0 an, falls alle Beobachtungen identisch sind; ansonsten liegt VR zwischen 0 und 1. Je größer die Anzahl der Merkmalsausprägungen und je weniger sich die Häufigkeiten der einzelnen Kategorien unterscheiden, desto näher liegt VR an 1. Beispiel 4.11 Aus Beispiel 3.1 geht hervor, dass die Blutgruppe A mit 44 % relativer Häufigkeit der Modus ist. Demnach ist VR = 0,56 .
Merke Lagemaße und Streuungsmaße müssen zusammen passen wie z. B.: ŷ Mittelwert und Standardabweichung bei symmetrisch verteilten Daten ŷ Median und Quartilsabstand (Dezilabstand oder mittlere Abw. vom Median) bei schief verteilten Daten oder Verdacht auf Ausreißer ŷ Modus und Spannweite bei diskreten Merkmalen mit wenigen Ausprägungen ŷ Modus und Variation Ratio bei nominal skalierten Merkmalen
4.4
Formmaße
Einige statistische Methoden setzen eine bestimmte Verteilungsform › Abschnitt 8.2) voraus. Einen ersten Ein(z. B. Normalverteilung, z druck diesbezüglich liefern die graphischen Darstellungen. Sie lassen erkennen, ob eine Verteilung einen oder mehrere Gipfel hat, ob sie symmetrisch ist und ob sie stark oder eher schwach gewölbt ist. Die dritte Art der Kenngrößen – die Formmaße – dient dazu, die Verteilungsform quantitativ zu beschreiben. 4.4.1
Die Schiefe
Die Schiefe ist ein Formmaß, das die Symmetrie bzw. Asymmetrie einer Verteilung kennzeichnet. Sie ist definiert als:
70
Kapitel 4 · Die Beschreibung eines Merkmals
g1 =
4
1 ⋅ n
n
¦ (x − x)
3
i
i =1
s3
(4.15)
Die Schiefe ist dimensionslos und kann sowohl positive als auch negative Werte annehmen. Große Abweichungen der Werte vom Mittelwert werden der 3. Potenz wegen stark betont; kleinere Abweichungen fallen dagegen kaum ins Gewicht. Falls sich positive und negative Abweichungen ausgleichen, ergibt sich für die Schiefe der Wert 0. Die Verteilung ist dann symmet› Abbildung 4.1a). Das bekannteste risch bezüglich des Mittelwerts (z Beispiel einer symmetrischen Verteilung ist wohl die Normalverteilung. Einige, aber bei weitem nicht alle Merkmale in der Medizin sind annährend normalverteilt – etwa die Körpergröße erwachsener Männer oder erwachsener Frauen. Die eigentliche Bedeutung dieser Verteilung werden wir in Kapitel 8 kennen lernen. Viele medizinisch relevante Merkmale sind rechtsschief (linksgipfelig oder linkssteil) verteilt (z. B. das Körpergewicht erwachsener Männer). Die Dichtefunktion hat einen Gipfel an der linken Seite › Abbildung 4.1b). Linksschiefe und einen langen Ausläufer rechts (z › Abbildung 4.1c) (rechtsgipfelige oder rechtssteile) Verteilungen (z findet man in den Biowissenschaften eher selten; ein Beispiel ist die Tragezeit bei Säugetieren. Diese Verteilungen haben einen Gipfel am rechten Rand. Für eingipfelige Verteilungen gilt: ŷ Bei symmetrischen Verteilungen ist g1 = 0 und x = ~x = D , ŷ bei rechtsschiefen Verteilungen ist g1 > 0 und x > x > D , ŷ bei linksschiefen Verteilungen ist g1 < 0 und x < x < D . Wesentlich einfachere, dafür etwas grobere Abschätzungen für die Schiefe unimodaler Verteilungen lassen sich nach den Formeln von Pearson ermitteln: g1 ≈
3 ⋅ ( x − x ) s
(4.16a)
g1 ≈
x−D s
(4.16b)
Auf eine schiefe Verteilung kann nur dann geschlossen werden, wenn das empirisch ermittelte g1 stark von 0 abweicht und der Stichprobenumfang hinreichend groß ist. Kleinere Abweichungen
4
71 4.4 Formmaße
von 0 können zufallsbedingt sein und sind insofern kein Hinweis auf eine schiefe Verteilung der Grundgesamtheit. Um eine „echte“ Schiefe einigermaßen sinnvoll abschätzen zu können, sollte ein Stichprobenumfang von mindestens n ≥ 100 vorliegen. 4.4.2
Die Wölbung
Die Wölbung (auch Kurtosis oder Exzess genannt) beschreibt die Massenanhäufungen an den Enden bzw. um den Mittelwert der Verteilung. Sie ist definiert als:
g2 =
1 n ⋅ ¦ ( xi − x ) 4 n i =1 s4
−3
(4.17)
Für symmetrische, eingipfelige Verteilungen gilt:
ŷ Falls g2 = 0 , sind die Daten normalverteilt. ŷ Falls g2 > 0 , ist die Verteilung schmaler und steilgipfeliger als
die Glockenkurve der Normalverteilung mit gleicher Standardabweichung, das Maximum ist größer (positiver Exzess, starke Wölbung). Die Werte häufen sich in der Umgebung des Mittel› Abbildung 4.1d). werts und an den Ausläufern (z ŷ Falls g2 < 0 , ist die Verteilung flacher als die Glockenkurve der Normalverteilung, und das Maximum ist kleiner (negativer Exzess, schwache Wölbung). Eine solche Verteilung hat „ausge› Abbildung 4.1e). prägte Schulterpartien“ (z Beispiel 4.12 Für die Körpergröße der weiblichen Studenten ergibt sich g1 = −0,337 . Dieser Wert weicht nur geringfügig von 0 ab; man darf deshalb annehmen, dass dieses Merkmal annähernd symmetrisch verteilt ist. Ein Vergleich der Lagemaße xw = 169,1 cm und ~ xw = 169,5 cm bestätigt dies. Der Wert der Kurtosis beträgt g 2 = −0,416 . Dieser Wert nahe bei 0 ist ein Hinweis darauf, dass dieses Merkmal nicht nur symmetrisch, sondern annähernd normalverteilt ist.
Auch bei der Kurtosis ist zu beachten: Nur größere Abweichungen von 0 lassen den Schluss zu, dass die Daten nicht normalverteilt sind. Kleinere Abweichungen sind in der Regel zufallsbedingt und haben keine tiefere Bedeutung, insbesondere bei nicht allzu großen Stichproben.
72
Kapitel 4 · Die Beschreibung eines Merkmals
Abb. 4.1 a-e: empirische Verteilungen mit unterschiedlicher Schiefe und unterschiedlicher Wölbung
4 a. symmetrische Verteilung (Schiefe=0)
b. rechtsschiefe Verteilung (Schiefe>0)
c. linksschiefe Verteilung (Schiefe0)
e. symmetrische Verteilung (Wölbung 0 impliziert einen gleichsinnigen Zu sammenhang. Wenn beide Messwerte einer Beobachtungseinheit größer oder beide kleiner sind als der jeweilige Mittelwert, haben die Terme ( xi − x ) und ( yi − y ) dasselbe Vorzeichen, sodass deren › Abbildung 5.2a). Produkt positiv ist (z • Eine negative Kovarianz sxy < 0 ergibt sich, wenn sich die beiden Merkmale gegensinnig verhalten. Dann haben die Abweichungen ( xi − x ) und ( yi − y ) unterschiedliche Vorzeichen, sodass deren Pro› Abbildung 5.2b). dukt negativ ist (z • Eine Kovarianz nahe bei 0 signalisiert, dass nahe beieinander lie gende x-Werte sowohl mit positiven als auch mit negativen Abweichungen ( yi − y ) korrelieren, sodass sich die Produkte ( xi − x ) ⋅ ( yi − y ) ausgleichen und in ihrer Summe einen Wert nahe › Abbildung 5.2c). Falls sxy ≈ 0 , bedeutet dies jebei 0 annehmen (z doch keineswegs, dass generell kein Zusammenhang besteht. Dies zeigt lediglich, dass kein linearer Zusammenhang nachzuweisen ist.
Abb. 5.2a gleichsinniger Abb. 5.2b gegensinniger Zusammenhang, Zusammenhang, posinegative Kovarianz tive Kovarianz
Abb. 5.2c kein linearer Zusammenhang, Kovarianz ≈ 0
84
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Die Einheit der Kovarianz ist das Produkt der Einheiten der beiden zugrunde liegenden Merkmale. Sowohl der Zahlenwert als auch die Einheit der Kovarianz sind abhängig von deren Maßstäben (die mitunter recht willkürlich gewählt sind) und deshalb schwer zu interpretieren. Die Kovarianz ist – für sich allein betrachtet – wenig informativ zur Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist. Sie informiert lediglich anhand des Vorzeichens darüber, ob der Zusammenhang gleichsinnig oder gegensinnig ist.
5
5.2.4
Der Korrelationskoeffizient nach Pearson
Der Pearson’sche Korrelationskoeffizient (auch Produkt-MomentKorrelationskoeffizient genannt) stellt ein normiertes Maß zur Quantifizierung eines linearen Zusammenhangs dar. Man erhält diesen Koeffizienten, indem man die Kovarianz s xy durch die beiden Standardabweichungen sx und s y dividiert: r=
s xy sx ⋅ s y
(5.2)
Der Korrelationskoeffizient kann nur Werte zwischen -1 und +1 annehmen; er ist dimensionslos. Der Buchstabe r weist darauf hin, dass die Korrelations- und die Regressionsanalyse eng miteinander verbunden sind. Das Vorzeichen von r ist identisch mit dem Vorzeichen der Kovarianz sxy : Ein positives Vorzeichen steht demnach für einen gleichsinnigen, ein negatives Vorzeichen für einen gegensinnigen Zusammenhang. Beispiel 5.2 Aus den Daten der Körpergröße und des Körpergewichts von 47 Studentinnen ergibt sich eine Kovarianz von 36,856 cm · kg. Wenn man nun durch die Standardabweichungen s x = 6,63 cm und s y = 9,16 kg dividiert, erhält man den Pearson’schen Korrelationskoeffizienten r = 0,607 . Die Stärke des Zusammenhangs ist also mittelmäßig. Einerseits ist r deutlich größer als 0 – daher besteht durchaus ein Zusammenhang zwischen den beiden Merkmalen. Andererseits ist r kleiner als 1 – weil das Gewicht nicht nur von der Größe, sondern von zahlreichen weiteren Faktoren abhängt.
5
85 5.2 Die Korrelationsanalyse
Der Betrag von r hat folgende Bedeutung:
ŷ Je näher r bei 0 liegt, desto schwächer ist der Zusammenhang und desto weiter streut die Punktwolke um die Gerade.
ŷ Je näher der Betrag von r bei 1 liegt, desto stärker ist der Zusammenhang und desto dichter liegen die Punkte ( xi , yi ) an der Regressionsgeraden. ŷ Die Extremfälle r = 1 und r = −1 ergeben sich bei einem funktionalen Zusammenhang, der durch eine lineare Gleichung der Form y = a + bx exakt beschrieben werden kann. Alle Punkte ( xi , yi ) liegen dann auf der Regressionsgeraden. Mathematische Herleitung des Korrelationskoeffizineten nach Pearson Es ist offenkundig, dass die Kovarianz sxy genau dann maximal wird, wenn der Zusammenhang funktional ist und durch eine lineare Gleichung y = a + bx exakt beschrieben werden kann. Dann erhält man nach den Definitionen der Kovarianz und der Varianz in (5.1) und (4.6): n
¦x y i
n
i
− nxy
i =1
i
= i =1 n −1 Für die Varianz s y 2 ergibt sich: s xy =
n
¦( y
b( ¦ xi2 − nx 2 )
i
n −1
=
i =1
n −1
= bsx 2
n
i
− y )2
b2 ¦ ( xi − x )2
= i =1 = b2 sx 2 n −1 n −1 Für positives b ist s y = bsx und s xy = bs x 2 = sx ⋅ s y . Für negatives b folgt anasy2 =
i =1
n
¦ x (a + bx ) − nx (a + bx )
log: s y = − bsx und sxy = − sx ⋅ s y . Da es sich hierbei um die beiden Extremfälle handelt, folgt für die Kovarianz: − sx ⋅ s y ≤ sxy ≤ sx ⋅ s y . Daraus ergibt sich für sxy den Korrelationskoeffizienten r = : −1 ≤ r ≤ 1 . sx ⋅ s y
5.2.5
Interpretation eines Korrelationskoeffizienten
Häufig wird ein Korrelationskoeffizient falsch interpretiert, oder seine Bedeutung wird überschätzt. Ein empirischer Koeffizient, dessen Betrag größer als 0 ist, besagt lediglich, dass ein Zusammenhang aufgrund der Stichprobe nicht auszuschließen ist. Er besagt jedoch nichts darüber, worauf dieser Zusammenhang zurückzuführen ist und welche Schlussfolgerungen gezogen werden können. Mittels einer geeigneten Statistiksoftware ist die Berechnung eines Korrelationskoeffizienten auch bei umfangreichem Datenmaterial problemlos möglich. Die Software berechnet diese Maßzahl je-
86
Kapitel 5 · Die Beschreibung eines Zusammenhangs
doch auch dann, wenn die Voraussetzungen nicht erfüllt sind; sie überprüft auch nicht, ob sachliche Gründe für den Zusammenhang sprechen. So kommt es, dass hin und wieder Zusammenhänge beschrieben werden, die zwar formal korrekt, aber sachlogisch in keiner Weise nachvollziehbar sind. Es gibt zahlreiche Beispiele für derartige Schein- oder Nonsens-Korrelationen:
5
• Formale Korrelation. Sie entsteht beispielsweise dann, wenn zwei relative Anteile miteinander in Beziehung gesetzt werden, die sich zu 100 % addieren. Wenn etwa die Merkmale x und y die relativen Anteile von Eiweiß und Fett in Nahrungsmitteln darstellen (so dass die Summe 100 % beträgt), ergibt sich rein mathematisch ein funktionaler Zusammenhang mit einem Korrelationskoeffizienten von -1 (Abweichungen wären allein durch Messfehler zu erklären). • Selektionskorrelation. In der Stichprobe muss die gesamte Vari ationsbreite der zu untersuchenden Merkmale repräsentiert sein. Wenn man jedoch bei der Wahl der Beobachtungseinheiten selektiert, ergibt sich eine Korrelation, die nicht die Verhältnisse in der Grundgesamtheit widerspiegelt. Ein Beispiel hierfür ist gegeben, wenn zur Beurteilung der Frage, ob das Geburtsgewicht in Beziehung zum Zigarettenkonsum der Mutter steht, nur Risikopatientinnen einer Spezialklinik herangezogen werden. Eine Selektion wird auch dann vorgenommen, wenn einzelne Werte aus der Stichprobe eliminiert werden, um einen vermeintlich starken Zusammenhang künstlich zu erzeugen (selbstverständlich ist dieses Vorgehen höchst unwissenschaftlich). • Korrelation durch Ausreißer. Ein Ausreißer – das ist ein Punkt, › Abbildung 5.3a) der sehr weit vom Punkteschwarm entfernt liegt (z – kann mitunter einen betragsmäßig hohen Korrelationskoeffizienten verursachen. Die Punktwolke lässt Ausreißer auf einen Blick er› Abschnitt 2.4). kennen (z • Inhomogenitätskorrelation. Sie ergibt sich, wenn für zwei inho mogene Gruppen ein gemeinsamer Korrelationskoeffizient berechnet wird. Die graphische Darstellung besteht aus zwei Punktwolken, die › Abbildung 5.3b), und die – sich nicht oder nur wenig überlappen (z isoliert betrachtet – keinen Zusammenhang offenbaren. Wenn beispielsweise die Schuhgrößen und die Gehälter der Angestellten eines Klinikums miteinander verglichen werden, ist ein Korrelationskoeffizient zu erwarten, der deutlich größer als 0 ist. Er kommt dadurch zustande, dass Männer im Allgemeinen größere Füße als Frauen haben und gleichzeitig Positionen mit höheren Einkommen innehaben.
87
5
5.2 Die Korrelationsanalyse
Abb. 5.3a Korrelation, die durch einen Ausreißer verursacht ist
Abb. 5.3b InhomogenitätsKorrelation
• Gemeinsamkeitskorrelation. Wenn zwei Merkmale durch ein drittes beeinflusst werden, liegt eine Gemeinsamkeitskorrelation vor. So ergibt sich beispielsweise rechnerisch eine positive Korrelation, wenn man die Entwicklung des Storchenbestands in Deutschland mit der Entwicklung der Geburtenrate vergleicht – obwohl allgemein bekannt sein dürfte, dass diese beiden Größen nicht kausal zusammenhängen. Die Korrelation wird durch eine dritte Größe – nämlich die allgemeine zeitliche Tendenz – künstlich erzeugt. Sie beeinflusst gleichermaßen den Storchenbestand und die Geburtenrate und täuscht somit eine typische Nonsens-Korrelation vor. Diese Ausführungen belegen, dass es in keinem Fall ausreichend ist, einen Korrelationskoeffizienten rechnerisch zu bestimmen und diesen Wert dann kritik- und kommentarlos als Maß für die Stärke eines Zusammenhangs anzugeben. Auf zwei weit verbreitete Fehlinterpretationen sei an dieser Stelle hingewiesen: ! Ein betragsmäßig hoher Korrelationskoeffizient allein ist kein Beleg für z
eine kausale Beziehung, sondern allenfalls als Hinweis zu werten. Er besagt jedoch nichts darüber, welches der beiden Merkmale das andere kausal bedingt, ob die Merkmale wechselseitig aufeinander einwirken, oder ob möglicherweise beide Merkmale durch ein drittes beeinflusst sind. ! Eine andere Fehlinterpretation wird vorgenommen, wenn beim Verz gleich zweier Messverfahren ein hoher Korrelationskoeffizient als Beweis dafür gewertet wird, dass die Messwerte beider Verfahren übereinstimmen. Um dies zu beurteilen, sollten zusätzlich der Mittelwert der Differenzen und deren Standardabweichung untersucht werden (Bland-Altman-Analyse). Als graphische Darstellung eignet sich der Bland-AltmanPlot, bei dem die Mittelwerte der einzelnen Messungen ( xi + yi ) / 2 gegen die Differenzen ( xi − yi ) aufgetragen werden.
88
5
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Merke Um Fehlinterpretationen zu vermeiden, empfiehlt sich bei der Berechnung eines Korrelationskoeffizienten folgendes Vorgehen: ŷ Theoretische Herleitung. Man sollte zunächst darüber nachdenken, ob und wie der zu quantifizierende Zusammenhang begründet werden kann. Das Erarbeiten eines theoretischen Hintergrundes trägt wesentlich dazu bei, Nonsens-Korrelationen zu vermeiden. ŷ Erstellen der Punktwolke. Die graphische Darstellung ist hilfreich bei der Beurteilung, ob der Zusammenhang linear ist. Außerdem deckt sie Ausreißer und inhomogene Gruppen auf. ŷ Überprüfen der Voraussetzungen. Dies ist insbesondere dann wichtig, wenn der empirische Korrelationskoeffizient den Zusammenhang › Abschnitte 9.3.4, 11.1.6). in der Grundgesamtheit schätzen soll (z ŷ Interpretation. Nachdem ein Zusammenhang zwischen zwei Merkmalen x und y theoretisch hergeleitet und statistisch abgesichert ist, können vorsichtig Schlussfolgerungen gezogen werden. Dazu bedarf es überwiegend medizinisch-fachlicher Überlegungen. Folgende Möglichkeiten sind zu prüfen: x beeinflusst y. y beeinflusst x. x und y bedingen sich gegenseitig. Beide Merkmale werden durch eine dritte Größe beeinflusst. Der Zusammenhang kam zufällig zustande.
5.3
Die Regressionsanalyse
5.3.1
Herleitung der Regressionsgeraden
Die Regressionsanalyse ist ein flexibles und häufig eingesetztes Verfahren, das in der Medizin u. a. für Ursachen- und Wirkungsanalysen und Zeitreihenanalysen angewandt wird. Ihre Aufgabe besteht darin, eine mathematische Gleichung herzuleiten, welche die Art des Zusammenhangs zwischen zwei quantitativen Merkmalen optimal beschreibt. Anhand dieser Gleichung lässt sich dann aus einem bekannten Wert für das x-Merkmal ein entsprechender Wert für das y-Merkmal prognostizieren. i Das Wort „Regression“ geht zurück auf den englischen Naturforscher z Francis Galton (1822-1911), ein Vetter von Charles Darwin, der die Beziehung zwischen den Körpergrößen von Vätern und ihren Söhnen untersuchte. Er fand heraus, dass die Söhne großer Väter und die Söhne
89
5
5.3 Die Regressionsanalyse
kleiner Väter eine Körpergröße haben, die weniger vom Durchschnittswert abweicht als die Größe der Väter. Dieses Phänomen bezeichnete er als „Regression“ (Rückschritt zum Mittelwert). Galtons Freund Karl Pearson hat in 1.078 Familien die Größen von Vätern und Söhnen verglichen und seine Ergebnisse zusammen mit dem nach ihm benannten Korrelationskoeffizienten im Jahre 1903 veröffentlicht. Im Laufe der Zeit wurde der Begriff „Regression“ allgemein verwendet, um den stochastischen Zusammenhang zwischen zwei oder mehr Merkmalen zu beschreiben.
Aufgrund sachlogischer Überlegungen sollte vorab geklärt werden, welches der beiden Merkmale sinnvollerweise als das unabhängige x-Merkmal bzw. als das abhängige y-Merkmal bezeichnet wird. Für praktische Zwecke ist es nahe liegend, dasjenige Merkmal, das einfacher, billiger oder früher erfasst werden kann, als das x-Merkmal anzusehen. Wenn diesbezüglich keine Entscheidung möglich ist, ist die Herleitung einer Regressionsgleichung nicht sinnvoll. Man sollte sich in diesem Fall darauf beschränken, den Zusammenhang durch einen Korrelationskoeffizienten zu beschreiben. Die einfachste Form der Regressionsanalyse ist die Beschreibung des Zusammenhangs durch eine Gerade. Dies ist erlaubt, nachdem man sich davon überzeugt hat, dass der zu beschreibende Zusam› menhang annähernd linear ist. Ein Blick auf den Punkteschwarm (z Abbildung 5.1) macht deutlich, dass es bei stochastischen Zusammenhängen keine Gerade geben kann, auf der alle Punkte liegen. Dies ist dadurch begründet, dass das y-Merkmal nicht nur vom xMerkmal, sondern auch von anderen Faktoren beeinflusst wird, die in der Geradengleichung nicht berücksichtigt sind. Die Aufgabe der Regressionsanalyse besteht nun darin, eine Gerade zu finden, die die Punktwolke optimal repräsentiert – die so genannte Regressionsgerade. Diese ist so konstruiert, dass das durchschnittliche Abstandsquadrat der Beobachtungspunkte von der Geraden minimal ist. Sie ist eindeutig bestimmt durch die Steigung b=
s xy sx 2
(5.3)
und den y-Achsenabschnitt a = y − bx
(5.4)
Dabei sind s xy die in Abschnitt 5.2.3 eingeführte Kovarianz und s x 2 die Varianz der x-Werte. Der Parameter b wird als Regressionskoeffizient bezeichnet. Aus (5.3) geht hervor, dass sich der Variationsbe-
90
Kapitel 5 · Die Beschreibung eines Zusammenhangs
reich von b generell zwischen -∞ und +∞ erstreckt. Ein Vergleich mit der Formel (5.2) auf Seite 84 zeigt, dass die Vorzeichen von b und dem Korrelationskoeffizienten r übereinstimmen. Das bedeutet: Bei einem gleichsinnigen Zusammenhang ist die Steigung der Regressionsgeraden positiv, bei einem gegensinnigen Zusammenhang ist sie negativ. Mit den Parametern a und b lässt sich bei Vorliegen eines Wertes xi nach folgender Formel ein Wert yˆ i für das abhängige Merkmal prognostizieren: s xy
yˆ i = a + bxi = y +
5
s x2
( xi − x )
(5.5)
Mathematische Herleitung der Regressionsgeraden Von der Regressionsgeraden y = a + bx erwartet man, dass sie die y-Werte optimal prognostiziert; das heißt die Abweichungen ( yi − yˆ i ) sollten möglichst gering sein. Es gilt also, passende Werte für a und b zu finden, die eine Gerade mit dieser Eigenschaft definieren. Dazu minimiert man nach der Methode der kleinsten Quadrate die Summe der Abstandsquadrate: n
¦(y
n
i
i =1
− yˆ i )2 = ¦ ( yi − a − bxi ) 2 = f ( a, b) . i =1
Das Minimum dieser Funktion erhält man, indem man die Ableitungen (nach der Kettenregel der Differentialrechnung) bildet und gleich 0 setzt: n df = −2¦ ( yi − a − bxi ) = −2n( y − a − bx ) = 0 und da i =1 n n n df = −2¦ xi ( yi − a − bxi ) = 2b¦ xi 2 − 2¦ xi yi + 2anx = 0 db i =1 i =1 i =1 Aus der ersten Gleichung folgt: a = y − bx . Wenn man diesen Term in die zweite Gleichung einsetzt und nach b auflöst, ergibt sich:
n
¦x y i
b=
i
− nxy
i =1 n
¦x
i
i =1
= 2
− nx 2
sxy sx 2
.
n d2 f d2 f Da für die zweiten Ableitungen gilt: = 2¦ xi 2 > 0 , = 2n > 0 und 2 2 da i =1 handelt es sich bei den berechneten Ausdrücken für a und db b um Minima der Funktion f(a,b) und damit um optimale Parameter für die Regressionsgerade. Mit einem statistischen Test lässt sich überprüfen, ob der beschriebene Zusammenhang wirklich existiert und ob anzunehmen ist, dass er rein zufällig › Abschnitt 11.1.6). zustande kam (z
5
91 5.3 Die Regressionsanalyse
Der Mittelwert der berechneten y i -Werte ist gleich dem Mittelwert der beobachteten yi -Werte, also y . Der Punkt ( x , y ) liegt auf der Regressionsgeraden; er ist der Schwerpunkt der Punktwolke. Wenn der Zusammenhang funktional ist ( r = ±1 ), liegen alle Punkte auf der Regressionsgeraden. Beispiel 5.3 Bezüglich des Zusammenhangs zwischen Körpergröße und Gewicht von 47 Studentinnen ergibt sich folgende Regressionsgerade: yˆi = −81,111 + 0,839 xi . Für eine 170 cm große Studentin würde man ein Gewicht von 61,5 kg prognostizieren. Aus dieser Gleichung geht auch hervor, dass das Gewicht um durchschnittlich 0,839 kg pro cm Körpergröße zunimmt. Der y-Achsenabschnitt -81,111 hat keine praktische Bedeutung. ! Es ist wichtig zu beachten, dass eine Extrapolation über den Beobachz
tungsbereich hinaus problematisch ist. In unserem Beispiel wurden bei der Berechnung der Regressionsgeraden x-Werte zwischen 156 cm und 180 cm zugrunde gelegt. Wenn man mit dieser Geraden das Gewicht eines 90 cm großen Kindes bestimmen würde, erhielte man -5,6 kg. Dies zeigt, dass eine Extrapolation unsinnige Werte liefern kann. Wenn man trotzdem extrapoliert, sollte man dies mit der gebotenen Vorsicht tun.
Wenn das y-Merkmal von mehreren x-Variablen bestimmt wird, verwendet man die multiple Regressionsanalyse. Die Regressionsgleichung enthält dann mehrere x-Variablen, die die y-Zielgröße beeinflussen, und entsprechend viele Regressionskoeffizienten. Ausführliche Informationen findet man in [2], [4] und [10]. 5.3.2
Regression 1. Art und 2. Art
Bei der Regressionsanalyse unterscheidet man nach der Eigenschaft der x-Variablen zwischen Regression 1. Art und Regression 2. Art. Bei der Regression 1. Art sind die Ausprägungen der x-Variablen explizit vorgeben. Zu jedem x-Wert existieren dann mehrere, zufällig bedingte y-Werte. Als Beispiel sei der Zusammenhang zwischen der Dosis eines Medikaments und dessen Wirkung genannt. Wenn – wie beim Zusammenhang zwischen Körpergröße und Gewicht –
• • • ••
• • • • • • •
• Abb. 5.4 Regression 1. Art
• • •• • • •
•• • • • •
92
Kapitel 5 · Die Beschreibung eines Zusammenhangs
beide Merkmale Zufallsvariable darstellen, spricht man von der Regression 2. Art. In beiden Fällen ist die Bestimmung der Regressionsgleichung nützlich, um die Art des Zusammenhangs zu beschreiben. Der Korrelationskoeffizient nach Pearson als Maße der Stärke des Zusammenhangs ist allerdings nur sinnvoll bei der Regression 2. Art. 5.3.3
5
Das Bestimmtheitsmaß
Ein Problem der Regressionsanalyse liegt in der Verlässlichkeit der Schätzung. Meistens wird der zu einem Messwert xi gehörende Wert y i , der durch die Gleichung der Regressionsgeraden prognostiziert wird, vom Beobachtungswert yi abweichen. Ein einfaches Maß für diese Abweichung ist das Residuum: ei = yi − yˆ i
(5.6)
Um die Schätzung durch die Regressionsgerade generell zu beurteilen, bedarf es eines Maßes, das alle Residuen berücksichtigt. Da sich die Residuen gegenseitig ausgleichen, sodass deren Summe gleich 0 ist, legt man die Summe der Abweichungsquadrate ei 2 zugrunde. Diese Summe ist ein Teil des Zählers der Varianz der yi -Werte, die sich aus zwei Komponenten zusammensetzt: n
n
n
i =1
i =1
i =1
¦ ( yi − y ) 2 =¦ ( yi − yˆ i ) 2 +¦ ( yˆ i − y ) 2
(5.7)
Der Einfachheit halber sind in dieser Gleichung die Nenner ( n − 1) weggelassen. Der Term auf der linken Seite des Gleichheitszeichens steht für die Gesamtvarianz der Beobachtungswerte yi . Der erste Summand rechts vom Gleichheitszeichen bezieht sich auf die Varianz der Residuen ei (mit dem Mittelwert 0), der zweite auf die Varianz der mit der Regressionsgleichung berechneten Werte y i . Der zweite Teil der Gesamtvarianz wird auch als die erklärte Varianz bezeichnet (diese lässt sich durch die Gleichung der Regressionsgeraden erklären). Der erste Summand, nämlich die Residualvarianz, ist dagegen auf die Abweichung der Beobachtungswerte von der Regressionsgeraden zurückzuführen. Gleichung (5.7) lässt sich also verbal folgendermaßen formulieren: Gesamtvarianz = Residualvarianz + erklärte Varianz
5
93 5.3 Die Regressionsanalyse
Es ist offensichtlich, dass die Schätzung durch die Regressionsgerade dann besonders gut ist, wenn der Anteil der Residualvarianz möglichst klein und die erklärte Varianz entsprechend groß ist. Andererseits gilt: Je kleiner die erklärte Varianz ist, desto schlechter können die y-Werte über das Regressionsmodell geschätzt werden. Aus diesen Überlegungen ergibt sich, dass die erklärte Varianz im Verhältnis zur Gesamtvarianz ein geeignetes Maß für die Güte des Modells darstellt. Es lässt sich nachweisen, dass dieser Quotient mit r 2 übereinstimmt: n
r2 =
s yˆ
2
sy
2
¦ ( yˆ i − y ) 2 =
i =1 n
¦ ( yi − y ) 2
erklärte Varianz Gesamtvarianz
=
(5.8)
i =1
Man bezeichnet r 2 als das Bestimmtheitsmaß oder den Determinationskoeffizienten. Der Wertebereich des Bestimmtheitsmaßes r 2 erstreckt sich zwischen 0 und 1. Im Extremfall r 2 = 1 ist die Residualvarianz gleich 0. Mathematische Herleitung des Bestimmtheitsmaßes Die Gleichung (5.7) lässt sich durch elementare Umformungen unter Zuhilfenahme der Gleichungen (5.3) bis (5.5) nachweisen. Ein geeignetes Maß für die Güte der Schätzung ist die Varianz der berechneten yi -Werte (das ist die durch das Regressionsmodell erklärte Varianz) dividiert durch die Gesamtvarianz. Für die erklärte Varianz erhalten wir: n
s 2yˆ =
¦ ( yˆ
n
i
− y )2
i =1
n −1
¦ (bx
i
=
− bx ) 2 = b 2 sx2
i =1
n −1
Daraus folgt für die Güte der Schätzung: Mit b =
sxy sx
2
(Formel 5.3) erhalten wir:
s y 2 sy
s y 2 sy
2
2
=
=
b2sx 2 . sy 2 sxy 2
sx 2 ⋅ s y 2
= r 2 (nach Formel 5.2).
Beispiel 5.4 Aus r = 0,607 (Beispiel 5.2) ergibt sich für den Determinationskoeffizienten: r 2 = 0,368 . Diese Zahl besagt, dass 37 % der Varianz des Gewichts durch das Modell der Regressionsgeraden (also durch die Körpergröße) bedingt sind. 63 % sind durch andere, nicht im Modell berücksichtigte Einflüsse verursacht.
94 5.3.4
5
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Nicht-lineare Regression
Nicht jeder Zusammenhang wird durch eine Gerade optimal beschrieben. Es gibt exponentielle Zusammenhänge (die beispielsweise durch Wachstumsprozesse bedingt sind) oder Zusammenhänge, die sich durch eine logarithmische Funktion beschreiben lassen. Diese nicht-linearen Beziehungen erfordern spezielle Methoden zur Regressionsanalyse. Ehe man einen nicht-linearen Zusammenhang genauer untersucht, sollte man darüber nachdenken, ob es eine Theorie gibt, die diesen Trend erklärt. Danach versucht man, die Art des Zusammenhangs zu finden und eine allgemeine Regressionsgleichung mit Parametern a, b etc. aufzustellen. Diese Wahl ist oft recht schwierig und erfordert sehr viel Erfahrung sowie genaue Kenntnisse der theoretischen Hintergründe. Wertvolle Hinweise liefert auch hier die graphische Darstellung der Wertepaare als Punktwolke. Generell gibt es zwei Möglichkeiten, geeignete Werte für die Parameter a, b etc. zu finden:
• Manchmal ist es möglich, die nichtlineare Regressionsgleichung in eine lineare zu transformieren. Anstelle der Gleichung y = a ⋅ ebx würde man die Funktion lny = lna + bx betrachten und nach der Methode der kleinsten Quadrate optimale Werte für lna (und damit auch für a) sowie für b erhalten. • Man verwendet – ähnlich wie bei der linearen Regression – die Methode der kleinsten Quadrate. So würde man etwa bei der Funktion f ( x ) = a ⋅ ebx die Ableitungen von ¦ ( yi − a ⋅ ebxi ) 2 nach a und b bilden und diese gleich 0 setzen. i Die Güte eines multiplen oder eines nicht-linearen Modells lässt sich z ebenfalls mit dem Determinationskoeffizienten r 2 (der das Verhältnis der erklärten zur Gesamtvarianz wiedergibt) abschätzen. Mit Hilfe dieses Koeffizienten lassen sich auch mehrere Modelle miteinander vergleichen.
5.4
Weitere Techniken
5.4.1
Der Korrelationskoeffizient nach Spearman
Die Berechnung des Korrelationskoeffizienten nach Pearson ist an einige Bedingungen geknüpft. Es muss sich um quantitative Merkmale handeln, und der Zusammenhang muss annähernd linear sein.
95
5
5.4 Weitere Techniken
Als Alternative bietet sich der Korrelationskoeffizient nach Spearman an (Charles Spearman, 1863-1945, war ein britischer Psychologe). Dies ist ein Maß für die Stärke eines monotonen Zusammenhangs. Es wird auch als Rangkorrelation bezeichnet, da es auf den Rangzahlen der Beobachtungswerte ( xi , yi ) basiert. i Spearman untersuchte den Zusammenhang zwischen intellektuellen Leisz tungen und einem allgemeinen Intelligenzfaktor. Er veröffentlichte seine Ergebnisse etwa zeitgleich mit Pearson im Jahr 1904. In dieser Publikation wurde die Rangkorrelation erstmals erwähnt.
•
•
• ••• • •• • • •• • •• • • • • • •• • • • • • •
Abb. 5.5 gleichsinniger, monotoner Zusammenhang; Rangkorrelation positiv
Um diesen Koeffizienten zu berechnen, werden alle x-Werte sortiert und mit Rangzahlen versehen. Der kleinste Wert erhält den Rang 1, der größte den Rang n. Falls mehrere Ausprägungen übereinstimmen (man spricht dann von verbundenen Rängen), ermittelt man mittlere Rangzahlen, indem man die Rangzahlen der gleichen Ausprägungen addiert und die Summe durch deren Anzahl dividiert. Mit den Daten des yMerkmals verfährt man ebenso.
Jeder Beobachtungseinheit wird also eine Rangzahl für das x-Merkmal und eine für das y-Merkmal zugeordnet. Die Differenz dieser beiden Rangzahlen sei di . Aus diesen Differenzen wird der Spearman’sche Korrelationskoeffizient berechnet nach: n
6 ⋅ ¦ di 2 rs = 1 −
i =1
n ⋅ (n 2 − 1)
(5.9)
Ebenso wie der Korrelationskoeffizient nach Pearson erstreckt sich auch der Korrelationskoeffizient nach Spearman rs zwischen –1 und +1. rs nimmt den maximalen Betrag 1 an, wenn der Zusammenhang streng monoton ist (dies umfasst den Begriff „streng linear“). Ein positives Vorzeichen symbolisiert einen gleichsinnigen, ein negatives Vorzeichen einen gegensinnigen Zusammenhang. rs = 0 bedeutet, dass kein monotoner Zusammenhang nachweisbar ist.
96
Kapitel 5 · Die Beschreibung eines Zusammenhangs
! Die Voraussetzungen, die zur Berechnung des Spearman’schen Korrelatiz
onskoeffizienten erfüllt sein müssen, sind schwächer als die Voraussetzungen, die der Berechnung des Pearson’schen Koeffizienten zugrunde liegen. Wenn allerdings zusätzlich eine Regressionsgleichung ermittelt werden soll, wird – wenn es statthaft erscheint – dem Korrelationskoeffizienten nach Pearson den Vorzug gegeben.
5
Beispiel 5.5 Bei 10 Frauen wird der BMI-Wert zu Beginn ihrer Schwangerschaft gemessen; später wird der Apgar-Wert des neugeborenen Kindes ermittelt. Zum Nachweis eines Zusammenhangs eignet sich der Korrelationskoeffizient nach Spearman, da es sich beim Apgar-Score um ein ordinal skaliertes Merkmal handelt. Es ergeben sich folgende Werte (wobei x i der Apgar-Score, yi der BMI, R( xi ) und R( yi ) die Ränge und d i = R( xi ) − R ( yi ) deren Differenzen bezeichnen): xi 4 5 6 6 7 8 8 8 9 10 yi 27,1 24,9 26,4 25,9 25,3 23,2 21,0 22,4 19,6 20,1 R ( xi ) 1 2 3,5 3,5 5 7 7 7 9 10 R ( yi ) 10 6 9 8 7 5 3 4 1 2 di -9 -4 -5,5 -4,5 -2 2 4 3 8 8 81 16 30,25 20,25 4 4 16 9 64 64 di 2 10
Daraus berechnet man
¦d i =1
2 i
= 308,5 und rs = 1 −
6 ⋅ 308,5 = −0,87 . Bei der 990
kleinen Stichprobe ist also ein gegensinniger Zusammenhang erkennbar: Je höher der BMI-Wert der Mutter, desto geringer der Apgar-Score des Kindes. i Streng mathematisch gesehen setzt der Spearman-Koeffizient voraus, dass z zwei benachbarte Merkmalsausprägungen äquidistant sind (was bekanntlich bei ordinalen Merkmalen problematisch ist). Die Rang-Korrelation τ (griechischer Buchstabe tau) nach Kendall setzt dies nicht voraus; dabei werden ausschließlich die ordinalen Informationen verwendet. Ausführlich beschrieben ist dieser Koeffizient in [5]. Der Spearman’sche Korrelationskoeffizient ist bekannter und wird häufiger angewandt.
Merke Die Rangkorrelation nach Spearman eignet sich für folgende Konstellationen: ŷ Beide Merkmale sind ordinal skaliert. ŷ Ein Merkmal ist metrisch, das andere ordinal skaliert. ŷ Beide Merkmale sind quantitativ; der Zusammenhang ist monoton, aber nicht linear.
5
97 5.4 Weitere Techniken
Mathematische Herleitung des Korrelationskoeffizienten nach Spearman Dieser Koeffizient wird berechnet, indem man in die Formel zur Bestimmung des Pearson’schen Korrelationskoeffizienten (5.2) anstelle der Messwerte x i und yi deren Ränge R( xi ) und R( yi ) und für x und y den mittleren Rang R einsetzt. Durch vollständige Induktion lässt sich nachweisen, dass n n n n n ⋅ ( n + 1) n ⋅ ( n + 1) ⋅ (2n + 1) R( xi ) = ¦ i = und ¦ R 2 ( xi ) = ¦ i 2 = ¦ 2 6 i =1 i =1 i =1 i =1 Daraus resultiert für den Mittelwert und die Summe der Abstandsquadrate: n n n ⋅ ( n 2 − 1) n +1 R= und ¦ ( R( xi ) −R )2 = ¦ R 2 ( xi ) − nR 2 = 2 12 i =1 i =1
Analoges gilt für die Ränge des y-Merkmals; d. h. die Standardabweichungen von R( xi ) und R( yi ) sind gleich. Deren Produkt entspricht dem Nenner von Formel (5.2). Für den Zähler ergibt sich durch Umformen: n
¦ ( R( x ) − R ) ⋅ ( R( y ) − R ) = i
i
i =1 n
n
n
¦ ( R( x ) − R ) + ¦ ( R( y ) − R ) − ¦ d 2
n
2
i
2
5.4.2
i =1
i =1
i
¦d
2
n ⋅ ( n − 1) i =1 i = − . 2 12 2 Wenn man Zähler und Nenner zusammenfasst, erhält man die Formel (5.9). i =1
i
2
Der Zusammenhang zwischen einem quantitativen und einem Alternativmerkmal
In diesem Kapitel wurde der Frage nachgegangen, wie sich der Zusammenhang zwischen zwei quantitativen Merkmalen – etwa zwischen Körpergröße und Gewicht – beschreiben lässt. Nun hängt das Gewicht bekanntlich nicht nur von der Größe, sondern auch vom Geschlecht einer Person ab. Um den Unterschied zwischen zwei Gruppen abzusichern, verwendet man üblicherweise einen statistischen Test wie etwa den t-Test für zwei unverbundene Stichproben › Abschnitt 11.1.3). Ein solcher Test beinhaltet jedoch kein (z Assoziationsmaß, das die Stärke des Zusammenhangs quantifiziert. Die Stärke des Zusammenhangs zwischen einem quantitativen und einem Alternativmerkmal kann durch die punktbiseriale Korrelation rpb ausgedrückt werden. Dabei werden für die Ausprägungen des Alternativmerkmals die Werte 0 oder 1 eingesetzt; damit lässt sich dann nach (5.2) ein Korrelationskoeffizient berechnen.
98
Kapitel 5 · Die Beschreibung eines Zusammenhangs
Beispiel 5.6 Um die Stärke des Zusammenhangs zwischen Geschlecht und Körpergewicht zu quantifizieren, codiert man das Geschlecht mit 0 (männlich) und 1 (weiblich). Die x-Werte nehmen dann entweder den Wert 0 oder 1 an; die y-Werte sind die Messwerte für das Gewicht. Mit den Daten in Tabelle 2.1 erhalten wir einen biserialen Korrelationskoeffizienten rpb = −0,638 . Der Zusammenhang ist gegensinnig – d. h. Männer (mit dem kleineren x-Wert 0 codiert) wiegen mehr als Frauen. Aus diesen Angaben folgt außerdem: rpb2 = 0,407 . Dies besagt, dass – bezogen auf alle Studenten – etwa 41 % des Körpergewichts durch den Einfluss des Geschlechts erklärt werden können.
5 5.4.3
Der Zusammenhang zwischen qualitativen Merkmalen
In Abschnitt 3.4.2 wurden die Odds Ratio und der Assoziationskoeffizient nach Yule erwähnt, die geeignet sind, den Zusammenhang zwischen zwei Alternativmerkmalen zu quantifizieren. In Abschnitt 12.2.4 werden Assoziationsmaße vorgestellt, mit denen sich der Zusammenhang zwischen zwei nominal skalierten Merkmalen beschreiben lässt. Allgemein gilt: Je höher das Skalenniveau der zugrunde liegenden Merkmale ist, desto präziser lassen sich die Stärke und die Art eines Zusammenhangs beschreiben. 5.4.4
Ausblick auf die induktive Statistik
Zur sinnvollen Interpretation eines Korrelationskoeffizienten, einer Regressionsgleichung oder eines Assoziationskoeffizienten ist es wichtig, dass der Stichprobenumfang hinreichend groß ist. Allgemein gilt: Je näher ein Korrelationskoeffizient bei 0 liegt und je kleiner der Stichprobenumfang ist, umso weniger kann auf einen real existierenden Zusammenhang geschlossen werden. In diesen Fällen muss man davon ausgehen, dass die empirisch ermittelte Korrelation zufallsbedingt ist. Um abschätzen zu können, ob und inwieweit der anhand der Stichprobe ermittelte Zusammenhang auf die Grundgesamtheit übertragbar ist, erscheint es sinnvoll, Vertrauensbereiche zu ermitteln und einen geeigneten statistischen Test durchzuführen. Dies geschieht – in Abhängigkeit von den Skalenniveaus der beiden › Abschnitte Merkmale – mit Methoden der induktiven Statistik (z 9.3.4, 11.1.6 und 12.2.4).
6
Wahrscheinlichkeiten in der Medizin 6.1
Die Aufgaben der Wahrscheinlichkeitsrechnung 101
6.2
Das Rechnen mit Wahrscheinlichkeiten 102
6.2.1
Zufallsexperimente und deren Beschreibung 102
6.2.2
Das Ermitteln einer Wahrscheinlichkeit 103
6.2.3
Die Verknüpfung zweier Ereignisse 105
6.2.4
Die Axiome von Kolmogoroff und deren Folgerungen 107
6.2.5
Abhängigkeit und bedingte Wahrscheinlichkeit 109
6.2.6
Das Bayes-Theorem 110
6.3
Wahrscheinlichkeiten in der Epidemiologie 111
6.4
Bevölkerungsstatistiken 114
6.4.1
Spezielle Wahrscheinlichkeiten 114
6.4.2
Sterbetafeln 115
6.5
Diagnostische Tests 118
6.5.1
Die Gütekriterien eines diagnostischen Tests 118
6.5.2
Vorhersagewerte 119
6.1 Die Aufgaben der Wahrscheinlichkeitsrechnung
6.1
101
6
Die Aufgaben der Wahrscheinlichkeitsrechnung
Unser Alltag ist bestimmt von unendlich vielen Zufälligkeiten und Irregularitäten. Wir haben gelernt, Wahrscheinlichkeiten intuitiv abzuschätzen, um unseren Alltag regeln zu können – ansonsten würden wir im Überangebot der auf uns einströmenden Informationen zugrunde gehen. Wir verlassen uns beispielsweise darauf, dass wir sicher am Ziel ankommen, wenn wir ein Auto besteigen, und wir kalkulieren bei unseren Zukunftsplänen keinen Lottogewinn ein. Ein Arzt vertraut darauf, dass die von ihm verordnete Therapie den gewünschten Erfolg erzielt, oder dass ein Patient durch eine Impfung einer möglichen Epidemie entgeht. Mit einem unwahrscheinlichen Ereignis befassen wir uns erst dann, wenn dieses – entgegen unseren Erwartungen – eingetreten ist. Wir orientieren uns also nicht nur nach Sicherheiten, sondern geben uns meistens notgedrungen mit Wahrscheinlichkeiten zufrieden. Der Begriff „wahrscheinlich“ und davon abgeleitete Ausdrücke entstammen unserer Umgangssprache. Mit Sätzen wie „Morgen scheint wahrscheinlich die Sonne“ oder „Es ist unwahrscheinlich, dass nach einer Impfung dauerhafte Schäden zurückbleiben“ drücken wir Vermutungen aus bezüglich Ereignissen, die wir nicht vorhersehen können. Dabei handelt es sich meist um subjektive Wahrscheinlichkeiten, die auf alltäglichen Erfahrungen basieren. Diese können wir nach unserem persönlichen Empfinden grob als hoch oder eher niedrig einstufen; es ist jedoch nicht möglich, sie exakt zu quantifizieren. Manchmal sind derlei Einschätzungen allerdings völlig unrealistisch, weil wir uns bei subjektiven Beurteilungen gerne von Wunschdenken oder anderen psychisch bedingten, intellektuell kaum nachvollziehbaren Einflüssen täuschen lassen. Auch die Prozesse und Entwicklungen in den Biowissenschaften unterliegen dem Zufall. Man bezeichnet sie als probabilistisch – im Gegensatz zu deterministischen Vorgängen, die sich exakt berechnen lassen. Für wissenschaftliche Untersuchungen ist es notwendig, den Begriff der Wahrscheinlichkeit zu präzisieren und quantitativ zu beschreiben. Diese Zahlenangaben bezeichnet man als objektive Wahrscheinlichkeiten. Die Aufgaben der Wahrscheinlichkeitsrechnung und der induktiven Statistik bestehen darin, die Realität durch ein statistisches Modell hinreichend genau zu beschreiben und anhand dieses Modells Gesetzmäßigkeiten herzuleiten und Wahrscheinlichkeiten zu bestimmen. Dabei ist es unerheblich, ob die zu
102
6
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
beschreibenden Vorgänge prinzipiell nicht erfassbar sind (wie z. B. der Zerfall eines radioaktiven Atoms), oder ob sie so komplex sind, dass sie sich einer deterministischen Beschreibung entziehen und deshalb als probabilistisch angesehen werden. Die mathematisch-theoretischen Aussagen, die in der Wahrscheinlichkeitsrechnung hergeleitet werden, bilden die Basis der induktiven Statistik. Für den praktischen Anwender sind Kenntnisse aus der Wahrscheinlichkeitsrechnung hilfreich und notwendig, um die Methoden der induktiven Statistik zu verstehen und sinnvoll mit ihnen umgehen zu können. In diesem Kapitel werden zunächst in Abschnitt 6.2 Grundlagen bezüglich des Rechnens mit Wahrscheinlichkeiten vermittelt. In den Abschnitten 6.3 bis 6.5 werden einige für die Medizin relevante Wahrscheinlichkeiten vorgestellt.
6.2
Das Rechnen mit Wahrscheinlichkeiten
6.2.1
Zufallsexperimente und deren Beschreibung
Um einen probabilistischen Vorgang zu untersuchen und relevante Wahrscheinlichkeiten herzuleiten, genügt es nicht, ihn ein einziges Mal durchzuführen. Es erscheint vielmehr angebracht, diesen Vorgang mehrmals zu wiederholen, die Ergebnisse der einzelnen Experimente zu dokumentieren und auszuwerten. Diese Art von Untersuchungen bezeichnet man als Zufallsexperimente. Ein Zufallsexperiment ist durch die folgenden Eigenschaften charakterisiert:
ŷ ŷ ŷ ŷ
Es wird nach einer bestimmten Vorschrift durchgeführt, es ist (zumindest prinzipiell) beliebig oft wiederholbar, mehrere Ausgänge oder Ergebnisse sind möglich, und das Ergebnis eines einzelnen Experiments ist vorab ungewiss.
So stellen beispielsweise das Würfeln oder das Werfen einer Münze Zufallsexperimente dar. Beim Würfeln gibt es sechs mögliche Ausgänge, beim Münzwurf zwei. Auch das Erfassen der Blutgruppe oder des Rhesusfaktors einer Person lässt sich als Zufallsexperiment auffassen mit den möglichen Ergebnissen 0, A, B und AB bzw. „Rhesusfaktor positiv“ und „Rhesusfaktor negativ“. Zur Beschreibung von Zufallsexperimenten bedient sich die Wahrscheinlichkeitsrechnung der Mengentheorie. Die Menge aller möglichen Ergebnisse bildet den so genannten Ereignisraum. Diese
6
103 6.2 Das Rechnen mit Wahrscheinlichkeiten
Menge wird mit dem griechischen Großbuchstaben Ω (Omega) bezeichnet. Teilmengen von Ω nennt man Ereignisse, 1-elementige Teilmengen Elementarereignisse. Ereignisse werden üblicherweise mit großen lateinischen Buchstaben A, B usw. angegeben. Spezielle Ereignisse sind der Ereignisraum Ω , der als das sichere Ereignis bezeichnet wird, und die leere Menge ∅ , die dem unmöglichen Ereignis entspricht. Beispiel 6.1 Der Ereignisraum für das Zufallsexperiment „Würfeln“ ist die 6-elementige Menge Ω = {1,2,3,4,5,6} . Das Ereignis „gerade Zahl“ lässt sich durch die Teilmenge A = {2,4,6} beschreiben. Man sagt: „Das Ereignis A ist eingetreten“, falls ein Elementarereignis aus der Menge A eingetreten ist.
An diesem Beispiel wird der Zusammenhang zwischen der Wahrscheinlichkeitsrechung und der deskriptiven Statistik deutlich. Das Analogon zum Ereignisraum ist die Ausprägungsliste; einzelne Merkmalsausprägungen sind vergleichbar mit Elementarereignissen. Der grundlegende Unterschied ist folgender: Die deskriptive Statistik befasst sich mit Stichproben und Merkmalen; die Wahrscheinlichkeitsrechnung untersucht die mathematisch-theoretischen Eigenschaften von Grundgesamtheiten. 6.2.2
Das Ermitteln einer Wahrscheinlichkeit
• Theoretische Herleitung. Um eine Wahrscheinlichkeit quantita tiv anzugeben, ist es notwendig, diesen Begriff zu objektivieren. Eine erste Definition geht auf den französischen Mathematiker Pierre Simon Marquis de Laplace zurück, der sich für die Zufallsgesetze bei Glücksspielen interessierte. Er definierte basierend auf dem Begriff des Zufallsexperiments die Wahrscheinlichkeit, dass ein bestimmtes Ereignis A eintritt, folgendermaßen: P( A ) =
Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse
(6.1a)
Mit der Mengenschreibweise lässt sich die Formel (6.1a) auch darstellen als: P ( A) =
Anzahl der Elemente von A Anzahl der Elemente von Ω
(6.1b)
104
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
Die Laplace’sche Definition ordnet demnach jedem Ereignis eine Zahl zwischen 0 und 1 zu. Der Buchstabe P leitet sich ab vom englischen Ausdruck „probability“. Die Wahrscheinlichkeit eines Ereignisses ist vergleichbar mit der relativen Häufigkeit einer Merkmalsausprägung.
6
Beispiel 6.2 Mit der Definition von Laplace lässt sich berechnen, wie groß die Chance ist, eine gerade Zahl zu würfeln. Unter sechs möglichen Ergebnissen gibt es drei „günstige“ (nämlich die Augenzahlen 2, 4 und 6). Damit erhält man: P( A ) = 3 / 6 = 1 / 2 . Für das unmögliche Ereignis (beispielsweise die Zahl 7) ergibt sich P( ∅ ) = 0 , da die Anzahl der günstigen Ereignisse gleich 0 beträgt. Für das sichere Ereignis (Augenzahl zwischen 1 und 6) erhält man P( Ω ) = 1 , da die Anzahl der günstigen der Anzahl der möglichen Ereignisse entspricht.
Mit der Laplace’schen Definition lassen sich auch kompliziertere Wahrscheinlichkeiten herleiten – so z. B. die Wahrscheinlichkeit, sechs Richtige im Lotto zu erzielen. Dennoch ist diese Definition nur eingeschränkt anwendbar: Sie setzt nämlich voraus, dass alle Elementarereignisse mit gleicher Wahrscheinlichkeit eintreten. Für das Würfeln und den Münzwurf trifft dies auch zu. So ist beispielsweise leicht nachvollziehbar, dass man bei einem idealen Würfel jeder Augenzahl die Wahrscheinlichkeit 1/6 zuordnet, oder dass die Wahrscheinlichkeit, beim Münzwurf „Wappen“ oder „Zahl“ zu erhalten, jeweils 1/2 beträgt. Für Ereignisse im medizinischen Bereich ist dieser Ansatz jedoch im Allgemeinen unbrauchbar. • Empirische Herleitung. Bei medizinisch-wissenschaftlichen Fragestellungen wird eine Wahrscheinlichkeit in der Regel empirisch ermittelt. Dazu wird eine hinreichend große Stichprobe bezüglich eines Merkmals untersucht; der Wert der relativen Häufigkeit einer Merkmalsausprägung wird dann als Näherungswert für die entsprechende Wahrscheinlichkeit zugrunde legt. Dieses Vorgehen › Ablässt sich durch das „Gesetz der großen Zahlen“ rechtfertigen (z schnitt 8.3.2). Beispiel 6.3 Aus den Daten aus Tabelle 2.1 von 71 Studenten ergeben sich folgende Häufigkeiten: 28 (Blutgruppe 0), 31 (Blutgruppe A), 9 (Blutgruppe B) und 3 (Blutgruppe AB). 60 Studenten haben Rhesusfaktor positiv (R+), 11 Rhesusfaktor negativ (R–). Damit lassen sich folgende Wahrscheinlichkeiten schätzen: P (0) = 39% , P ( A) = 44% , P ( B) = 13% und P ( AB) = 4% ; P ( R +) = 85% , P ( R −) = 15% .
105
6
6.2 Das Rechnen mit Wahrscheinlichkeiten
• Computersimulation. Bei sehr komplexen Problemen, insbeson dere aus dem technisch-wissenschaftlichen Bereich, ist auch die empirische Vorgehensweise nicht brauchbar. Um beispielsweise die Wahrscheinlichkeit zu ermitteln, dass ein Flugzeug abstürzt oder dass bei einem Atomkraftwerk ein GAU eintritt, kann man keine Zufallsexperimente durchführen. In diesen Fällen ist es sinnvoll, das Problem im Computer zu simulieren und mit Hilfe dieses Modells die Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignisses zu ermitteln. Die Computersimulation wird in den letzten Jahren – dank der Entwicklung hochleistungsfähiger Rechner und adäquater Software – zunehmend auch für medizinische Fragestellungen angewandt. Im Rahmen dieses Buches kann jedoch nicht näher auf diese Thematik eingegangen werden. 6.2.3
Die Verknüpfung zweier Ereignisse
Im vorangegangenen Abschnitt wurden Methoden vorgestellt, mit denen sich die Wahrscheinlichkeit für das Auftreten eines bestimmten Ereignisses A ermitteln lässt. Bei vielen Fragestellungen interessieren jedoch nicht nur einzelne Ereignisse, sondern bestimmte Ereigniskonstellationen. Fragen dieser Art lauten z. B.: Wie groß ist die Wahrscheinlichkeit,
ŷ dass eine Person eine andere Blutgruppe als 0 hat? ŷ dass eine Person an zwei Krankheiten gleichzeitig erkrankt? ŷ dass eine männliche Person an Hämophilie erkrankt? Verbindungen zwischen zwei oder mehreren Ereignissen lassen sich durch mengentheoretische Operationen beschreiben. Zur graphischen Darstellung dieser Beziehungen eignen sich die so genannten VENN-Diagramme (benannt nach dem britischen Mathematiker John Venn, 1834-1923). So bezeichnen die Vereinigungsmenge A ∪ B : (sprich: A vereinigt B) die Schnittmenge A ∩ B : (sprich: A Schnitt B) die Differenzmenge A − B : (sprich: A minus B)
das Ereignis, dass A allein oder B allein oder beide Ereignisse gemeinsam eintreten (Abb. 6.1a) das Ereignis, dass A und B gemeinsam eintreten (Abb. 6.1b) das Ereignis, dass A aber nicht B eintritt (Abb. 6.1c)
106
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
B
A Abb. 6.1a Vereinigung A ∪ B
6
B
B
A Abb. 6.1b Schnitt A ∩ B
A Abb. 6.1c Differenz A − B
Beispiel 6.4 Wenn A das Ereignis „Blutgruppe A“ und R + das Ereignis „Rhesusfaktor positiv“ bezeichnet, dann bedeutet A ∪ R + das Ereignis, dass die Blutgruppe A oder der Rhesusfaktor positiv vorliegt. Das Wort „oder“ wird dabei im nichtausschließlichen Sinne verwendet: A ∪ R + beinhaltet, dass nur das Ereignis A (Blutgruppe A, Rhesusfaktor negativ) oder nur das Ereignis R+ (andere Blutgruppe als A, Rhesusfaktor positiv) eintritt oder beide Ereignisse gemeinsam (Blutgruppe A und Rhesusfaktor positiv) eintreten.
Zwei Ereignisse A und B, deren Durchschnitt die leere Menge bildet, heißen disjunkt (oder unvereinbar). Als Beispiel seien „männliches Geschlecht“ und „schwanger“ genannt. Formal gilt für disjunkte Ereignisse: A ∩ B = ∅ . Zwei disjunkte Ereignisse, die sich zum Ereignisraum Ω ergänzen, nennt man komplementär. Das zu A komplementäre Ereignis wird üblicherweise mit A (sprich: A quer) bezeichnet. Für A und A gelten:
ŷ A ∪ A = Ω (die Ereignisse ergänzen sich) und ŷ A ∩ A = ∅ (die Ereignisse sind disjunkt). Beispiele für komplementäre Ereignisse sind: gerade und ungerade Augenzahl beim Würfeln, männliches und weibliches Geschlecht, „Rhesusfaktor positiv“ und „Rhesusfaktor negativ“ oder „Blutgruppe A“ und „andere Blutgruppe als A“.
107
6
6.2 Das Rechnen mit Wahrscheinlichkeiten
6.2.4
Die Axiome von Kolmogoroff und deren Folgerungen
Um mit Wahrscheinlichkeiten zu rechnen, ist es notwendig, deren mathematische Eigenschaften zu präzisieren. Der russische Mathematiker Andrej Kolmogoroff (1903-1987) hat im Jahre 1930 drei Axiome aufgestellt, die diese Eigenschaften definieren. Demnach heißt eine Funktion P(A), die einem Ereignis A eine reelle Zahl zuordnet, Wahrscheinlichkeit, falls die folgenden Axiome erfüllt sind: 1. 0 ≤ P( A ) ≤ 1 2. P( Ω ) = 1 3. P( A ∪ B ) = P( A ) + P( B ) für disjunkte Ereignisse A und B i Axiome sind einfache mathematische Aussagen, die nicht beweisbar sind. z Sie werden aufgestellt, um einen Begriff zu definieren oder um eine Theorie aufzubauen. Mittels der Axiome lassen sich weitere Aussagen deduktiv herleiten.
Beispiel 6.5 Wir betrachten die Funktion P, die den Blutgruppen folgende Wahrscheinlichkeiten zuordnet (Beispiel 6.3): P (0) = 0,39 , P ( A) = 0,44 , P( B ) = 0,13 und P ( AB) = 0,04 . Der Ereignisraum Ω ist die Menge {0, A, B, AB} . Man kann leicht nachprüfen, dass die Axiome von Kolmogoroff erfüllt sind. Jeder Funktionswert liegt zwischen 0 und 1 (Axiom 1), außerdem gilt P( Ω ) = 1 – denn eine der vier Blutgruppen liegt mit Sicherheit vor (Axiom 2). Die Wahrscheinlichkeit, dass eine der Blutgruppen A oder B gegeben ist, ist: P ( A ∪ B) = P ( A) + P ( B) = 0,44 + 0,13 = 0,57 ; Analoges gilt für die anderen Ereignispaare (demnach ist Axiom 3 erfüllt). Somit handelt es sich bei der Funktion P um eine Wahrscheinlichkeit im Sinne von Kolmogoroff.
Die Definition der Wahrscheinlichkeit nach Kolmogoroff schließt die Definition von Laplace ein – sie ist jedoch wesentlich allgemeiner als diese. Während Laplace davon ausgeht, dass alle Elementarereignisse mit gleicher Wahrscheinlichkeit eintreten, verlangt Kolmogoroff lediglich, dass die Wahrscheinlichkeit jedes Elementarereignisses eine Zahl zwischen 0 und 1 ist, und dass deren Summe 1 ergibt. Man kann leicht nachvollziehen, dass diese Eigenschaften auch für relative Häufigkeiten und die daraus geschätzten Wahrscheinlichkeiten gelten. Aus den Axiomen von Kolmogoroff lassen sich mehrere Rechenregeln herleiten:
• Wahrscheinlichkeit für das komplementäre Ereignis. Aus P( A) ergibt sich sehr einfach die Wahrscheinlichkeit für das Ereignis A :
108
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
P ( A ) = 1 − P ( A)
(6.2)
Daraus und aus Axiom 2 folgt für das unmögliche Ereignis:
P (∅ ) = 0
(6.3)
Beispiel 6.6 Die Wahrscheinlichkeit für die Blutgruppe 0 beträgt P (0) = 0,39 . Damit berechnet sich die Wahrscheinlichkeit, dass eine andere Blutgruppe als 0 vorliegt, als P ( 0 ) = 1 − 0,39 = 0,61 .
• Satz von der totalen Wahrscheinlichkeit. Er besagt, dass ein Er eignis A entweder zusammen mit dem Ereignis B oder B auftritt:
6
P ( A) = P ( A ∩ B ) + P ( A ∩ B )
(6.4)
Das Ereignis A ∩ B ist identisch mit der Differenzmenge A − B . Des› Abbildung 6.1c): halb folgt aus der Formel (6.4) sofort (z P( A − B ) = P( A ) − P( A ∩ B )
(6.5)
• Additionssatz. Für die Vereinigung zweier Ereignisse A und B gilt allgemein: P( A ∪ B ) = P( A ) + P( B ) − P( A ∩ B )
(6.6)
Wenn die beiden Ereignisse A und B disjunkt sind, ist A ∩ B = ∅ . Dann hat der Additionssatz eine etwas einfachere Form: P( A ∪ B ) = P( A ) + P( B )
(6.7)
Beispiel 6.7 Seien A und R+ die Ereignisse „Blutgruppe A“ bzw. „Rhesusfaktor positiv“. Dann entspricht R- dem Ereignis „Rhesusfaktor negativ“. Der Satz von der totalen Wahrscheinlichkeit (6.4) besagt, dass eine Person mit Blutgruppe A entweder „Rhesusfaktor positiv“ oder „Rhesusfaktor negativ“ hat. Die Wahrscheinlichkeit P ( A) = 0,44 ist die Summe aus P( A ∩ R + ) = 0, 374 und P( A ∩ R − ) = 0, 066 (die Wahrscheinlichkeiten der Schnittmengen werden im nächsten Abschnitt hergeleitet). Die Wahrscheinlichkeit für Rhesusfaktor positiv oder Blutgruppe A beträgt nach dem Additionssatz (6.6):
P( A ∪ R + ) = P( A) + P ( R + ) − P ( A ∩ R + ) = 0, 44 + 0,85 − 0, 374 = 0, 916
6
109 6.2 Das Rechnen mit Wahrscheinlichkeiten
Mathematische Herleitung der Rechenregeln Alle genannten Rechenregeln lassen sich auf die drei Axiome von Kolmogoroff zurückführen. Aus den Axiomen 2 und 3 folgt sofort: 1 = P( Ω ) = P( A ∪ A ) = P( A ) + P( A ) Daraus ergibt sich Formel (6.2). Der Satz von der totalen Wahrscheinlichkeit (Formel 6.4) folgt ebenfalls direkt aus Axiom 3. Um den Additionssatz herzuleiten (Formel 6.6), zerlegt man die Menge A ∪ B in drei disjunkte Teilmengen: P( A ∪ B ) = P( A ∩ B ) + P( A ∩ B ) + P( A ∩ B ) Nach dem Satz von der totalen Wahrscheinlichkeit ergibt die Summe der ersten beiden Summanden P( A ) ; für den dritten Summanden gilt: P( A ∩ B ) = P( B ) − P( A ∩ B ) . Demnach ist P( A ∪ B ) = P( A ) + P( B ) − P( A ∩ B ) .
6.2.5
Abhängigkeit und bedingte Wahrscheinlichkeit
In gewissen Situationen ist es nicht zweckmäßig, Wahrscheinlichkeiten anzugeben, die sich auf die Grundgesamtheit beziehen. Viele Krankheiten stehen in Zusammenhang mit dem Geschlecht der Patienten (z. B. Hämophilie, Rot-Grün-Blindheit oder Brustkrebs) oder sind abhängig von bestimmten Risiken. In diesen Fällen ist es sinnvoll, die Wahrscheinlichkeiten für bestimmte Teilmengen der Grundgesamtheit getrennt zu berechnen – etwa für Männer und für Frauen oder für Patienten mit und ohne Risikofaktor. Man spricht dann von einer bedingten Wahrscheinlichkeit und bezeichnet diese als P( A| B ) (sprich: „P von A gegeben B“ oder „P von A unter der Bedingung B“). Sie ist folgendermaßen definiert: P( A| B ) =
P( A ∩ B ) P( B )
(6.8)
Diese Formel quantifiziert die Wahrscheinlichkeit für das Eintreten des Ereignisses A eingeschränkt auf die Menge, die dem Ereignis B entspricht. Beispiel 6.8 Die Wahrscheinlichkeit, an Diabetes mellitus zu erkranken, beträgt für einen Mann P( D| M ) ≈ 0 ,07 und für eine Frau P( D|W ) ≈ 0 ,02 . Daraus geht hervor, dass das Risiko bei Männern wesentlich höher ist als bei Frauen. Die Wahrscheinlichkeit P( D ) ≈ 0 ,045 , die sich auf die gesamte Population bezieht, ist weniger informativ.
110
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
Durch einfaches Umschreiben von (6.8) erhält man den Multiplikationssatz, mit dem sich die Wahrscheinlichkeit berechnen lässt, dass zwei Ereignisse A und B gemeinsam eintreten: P( A ∩ B ) = P( A| B ) ⋅ P( B )
(6.9)
Wenn A und B unabhängig sind, bedeutet dies, dass das Eintreten von B keinerlei Einfluss auf das Eintreten von A hat. Formal drückt man dies folgendermaßen aus: P( A| B ) = P( A ) . Damit erhält man den Multiplikationssatz und den Additionssatz für unabhängige Ereignisse als Spezialfälle von (6.9) und (6.6):
6
P( A ∩ B ) = P( A ) ⋅ P( B )
(6.10)
P( A ∪ B ) = P( A ) + P( B ) − P( A ) ⋅ P( B )
(6.11)
Beispiel 6.9 Die Ereignisse „Blutgruppe A“ und „Rhesusfaktor positiv“ sind unabhängig mit den Wahrscheinlichkeiten P ( A) = 0,44 und P ( R +) = 0,85 . Die Wahrscheinlichkeit, dass eine Person Blutgruppe A und Rhesusfaktor positiv hat, ist dann (siehe auch Beispiel 6.7): P( A ∩ R + ) = P( A) ⋅ P ( R + ) = 0, 44 ⋅ 0,85 = 0, 374
6.2.6
Das Bayes-Theorem
Das Bayes-Theorem geht zurück auf den englischen Geistlichen Thomas Bayes (1702-1761), der sich u. a. mit Glücksspielen befasste. Es erlaubt die Berechnung der bedingten Wahrscheinlichkeit P( A | B ) , wenn außer der Wahrscheinlichkeit P ( A) auch die bedingten Wahrscheinlichkeiten P( B | A) und P ( B | A ) bekannt sind. Die Formel ist: P( A| B ) =
P( A ) ⋅ P( B| A ) P( A ) ⋅ P( B| A ) + P( A ) ⋅ P( B| A )
(6.12)
Das Bayes-Theorem ermöglicht also Rückschlüsse von der a-prioriWahrscheinlichkeit P( A ) auf die a-posteriori-Wahrscheinlichkeit P ( A | B ) . Diese Formel wird in der Medizin bei diagnostischen Tests benutzt: Wenn A das Ereignis „Vorliegen einer bestimmten Krankheit“ und B das Ereignis „Testergebnis positiv“ symbolisieren, lässt sich mit obiger Formel die Wahrscheinlichkeit P ( A | B ) berechnen, mit der ein Patient mit einem positiven Befund tatsächlich erkrankt › Abschnitt 6.5.2). ist (falls die Prävalenz P( A ) bekannt ist, z
111
6
6.3 Wahrscheinlichkeiten in der Epidemiologie
Übersicht 3: Rechenregeln für Wahrscheinlichkeiten Name des Satzes
Rechenregeln
Satz für das komplementäre Ereignis A
P( A ) = 1 − P( A )
Satz von der totalen Wahrscheinlichkeit
P ( A) = P ( A ∩ B ) + P ( A ∩ B )
Additionssatz
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
A und B disjunkt P ( A ∪ B ) = P ( A) + P ( B ) A und B unabhängig P ( A ∪ B ) = P ( A) + P( B ) − P( A) ⋅ P ( B )
Multiplikationssatz
P( A ∩ B) = P( A | B) ⋅ P( B)
A und B disjunkt P ( A ∩ B) = 0 A und B unabhängig P ( A ∩ B ) = P ( A) ⋅ P ( B )
Mathematische Herleitung des Bayes-Theorems Nach der Definition der bedingten Wahrscheinlichkeit in (6.8) ist P( A ∩ B ) . P( A| B ) = P( B ) Der Zähler dieses Quotienten lässt sich – wenn man die Ereignisse A und B in der Formel (6.9) des Multiplikationssatzes vertauscht – schreiben als: P ( A ∩ B) = P ( A) ⋅ P ( B | A) . Analog leitet man her: P( A ∩ B) = P( A ) ⋅ P( B | A ) Mittels des Satzes von der totalen Wahrscheinlichkeit (6.4) ergibt sich dann für den Nenner des obigen Quotienten: P( B ) = P( A ∩ B ) + P( A ∩ B ) = P( A ) ⋅ P( B| A ) + P( A ) ⋅ P( B| A ) Mit diesen Ausdrücken erhält man für P( A| B ) die Formel (6.12).
6.3
Wahrscheinlichkeiten in der Epidemiologie
Die Epidemiologie befasst sich mit dem Auftreten von Krankheiten in einer größeren Population. Die Ziele der epidemiologischen Forschung sind: das Erkennen von Ursachen und Risikofaktoren von Krankheiten; das Bestimmen deren Verbreitung in der Bevölkerung; die Untersuchung des natürlichen Verlaufs und relevanter prognostischer Faktoren; die Evaluation präventiver und therapeutischer Maßnahmen sowie das Schaffen von Grundlagen für politische Ent-
112
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
scheidungen. Zur Beschreibung demographischer Charakteristika werden folgende Wahrscheinlichkeiten verwendet:
6
• Prävalenz (im engeren Sinne: Punktprävalenz).. Dies ist der rela tive Krankenbestand zu einem bestimmten Zeitpunkt – also die Wahrscheinlichkeit P( K t ) für eine beliebige Person aus der Population, zum Zeitpunkt t erkrankt zu sein. Dieses Maß eignet sich für Krankheiten, die chronisch sind oder wiederholt auftreten; es wird üblicherweise im Rahmen einer Querschnittstudie bestimmt. Die Punktprävalenz muss immer zusammen mit dem Zeitpunkt angegeben werden, auf den sie sich bezieht. Es handelt sich dabei nicht um einen Zeitpunkt im physikalischen Sinne, sondern meist um einen bestimmten Tag oder Monat. Die Kenntnis der Prävalenz ist eine wertvolle Hilfe für die Bedarfsplanung im Öffentlichen Gesundheitswesen. • Periodenprävalenz. Das Bestimmen einer Punktprävalenz kann bei Krankheiten von sehr kurzer Dauer methodische Schwierigkeiten mit sich bringen. Dann mag es sinnvoll sein, anstelle der Punktprävalenz eine Periodenprävalenz zu bestimmen, die sich auf einen längeren Zeitraum bezieht. Dabei werden alle Personen berücksichtigt, die zu Beginn, während oder am Ende des Beobachtungszeitraums erkrankt waren (üblicherweise im Rahmen einer Kohortenstudie). Eine spezielle Form stellt die Lebenszeitprävalenz dar; sie quantifiziert die Wahrscheinlichkeit einer Person, krank geboren zu werden oder einmal im Laufe des Lebens zu erkranken. • Inzidenz. Dies ist die Neuerkrankungsrate, also die Wahrschein lichkeit P ( K ) für eine beliebige Person, während einer Beobachtungszeit zu erkranken. Dabei geht man von einer Population aus, deren Mitglieder zu Beginn des Beobachtungszeitraumes nicht erkrankt sind. Die Inzidenz wird immer in Verbindung mit einem Zeitraum (z. B. ein bestimmtes Jahr oder die Dauer eines Klinikaufenthaltes) angegeben. Dieses Maß hat nur Aussagekraft bei Erkrankungen, die bei einer Person während der Beobachtungszeit maximal einmal auftreten. Bei länger andauernden Krankheiten lässt sich die Prävalenz aus der Inzidenz berechnen nach: Prävalenz = Inzidenz · durchschnittliche Dauer Diese Gleichung erklärt, weshalb viele chronische Krankheiten zwar eine geringe Inzidenz, aber dennoch eine hohe Prävalenz aufweisen. Während die Inzidenz angibt, wie groß das Erkrankungsrisiko für eine einzelne Person ist, informiert die Prävalenz über die Auswirkungen einer Krankheit auf die Gesamtpopulation.
6
113 6.3 Wahrscheinlichkeiten in der Epidemiologie
Beispiel 6.10 Im Oktober 2003 lebten in Deutschland 39.000 HIV-positive Menschen; dies entspricht bei einer Gesamtbevölkerung von 82 Millionen etwa 4,76 von 10.000 (Prävalenz). Bei Asthma beträgt die jährliche Inzidenz aller Kinder und Jugendlichen zwischen 6 und 16 Jahren 3/1.000; die durchschnittliche Dauer beträgt etwa 11 Jahre. Dann lässt sich nach obiger Formel ermitteln, dass 33 von 1.000 Personen in dieser Altersgruppe zu einem bestimmten Zeitpunkt an Asthma erkrankt sind (Prävalenz).
• Krankheitsspezifische Mortalität. Darunter versteht man die To desrate – also die Wahrscheinlichkeit P ( K ∩ T ) , während der Beobachtungszeit an der Krankheit K zu erkranken und daran zu versterben. • Letalität. Die Tödlichkeitsrate der Erkrankten ist die bedingte Wahrscheinlichkeit P( T| K ) . Die Angabe der Letalität ist nur sinnvoll für Erkrankungen, deren Beginn und Ende innerhalb des Beobachtungszeitraums liegen. Nach dem Multiplikationssatz (6.9) gilt: P( K ∩ T ) = P( K ) ⋅ P( T | K )
(6.13)
oder in Worten: Mortalität = Inzidenz · Letalität Beispiel 6.11 Ignaz Semmelweis ermittelte für den April des Jahres 1846 in der Ärzte-Abteilung des Wiener Gebärhauses, dass 24 % der gebärenden Frauen während des Klinikaufenthaltes an Kindbettfieber erkrankten (Inzidenz) und von den Erkrankten 80 % verstarben (Letalität). Mit Formel (6.13) berechnet man daraus eine Mortalität von etwa 19 %.
• Morbidität. Dieser Begriff ist in der Literatur unterschiedlich de finiert: Teilweise wird er synonym für Prävalenz, teilweise synonym für Inzidenz verwendet. ! Die Prävalenz, Inzidenz oder Mortalität sind keine absoluten Häufigkeiz
ten, sondern Wahrscheinlichkeiten. Die Angabe der Bezugspopulation ist unbedingt erforderlich. Man stellt diese Größen entweder als Prozentzahl dar oder – wenn diese sehr gering ist – als relative Häufigkeit bezogen auf 1.000, 10.000 oder mehr Personen.
Bei Infektionskrankheiten sind außerdem folgende Wahrscheinlichkeiten interessant:
114
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
• Kontagionsindex. Dieser Index gibt die Wahrscheinlichkeit an, dass sich eine nicht immune Person, die mit dem Erreger in Kontakt kommt, infiziert. Er ist also ein Maß für die Ansteckungsfähigkeit. • Manifestationsindex. Dies ist die Wahrscheinlichkeit, mit der eine infizierte Person manifest erkrankt (die Krankheitsbereitschaft). Je kleiner dieser Index ist, desto mehr Infektionsfälle verlaufen klinisch stumm. Beispiel 6.12 Bei Masern beträgt der Kontagionsindex fast 100 %; der Manifestationsindex liegt bei etwa 95 %. Das heißt: Fast alle Personen, die mit dem Virus in Kontakt kommen, infizieren sich. Davon erkranken 95 % manifest, während 5 % der Infektionen klinisch stumm verlaufen.
6
Schließlich sei noch angemerkt, dass all diese Maßzahlen keineswegs Naturkonstanten sind, die – nachdem man sie einmal bestimmt hat – für alle Zeit ihren Wert behalten. Es handelt sich vielmehr um Größen, die abhängig sind von den sozialen Rahmenbedingungen sowie den aktuellen diagnostischen und therapeutischen Möglichkeiten. Mit besseren diagnostischen Mitteln werden mehr Krankheitsfälle erkannt – dadurch steigt die Inzidenz. Wenn für eine Krankheit eine bessere Therapie zur Verfügung steht, werden mehr Personen überleben – damit steigt bei chronischen Erkrankungen die Prävalenz, während die Mortalität und die Letalität sinken. Weitere interessante Hinweise dazu findet man in [6].
6.4
Bevölkerungsstatistiken
6.4.1
Spezielle Wahrscheinlichkeiten
• Natalität. Das ist die Geburtenrate (auch Geburtenziffer genannt), also der Anteil lebend geborener Kinder im Verhältnis zur Gesamtpopulation während eines Beobachtungszeitraums. Sie ist abhängig von der Altersstruktur der beobachteten Population. Ein hoher Altenanteil impliziert automatisch eine niedrige Geburtenrate. • Fertilitätsziffer. Dieses Maß beschreibt die Fruchtbarkeitsrate (oder Fruchtbarkeitsziffer) – das ist die Wahrscheinlichkeit, dass eine Frau im gebärfähigen Alter ein lebendes Kind zur Welt bringt (bezogen auf ein Jahr). Sie ist – im Gegensatz zur Geburtenziffer – unabhängig von der Altersstruktur der Population.
6
115 6.4 Bevölkerungsstatistiken
• Pearl-Index. Dies ist ein Risikomaß bezüglich der Sicherheit einer Verhütungsmethode. Zu dessen Schätzung müssen hinreichend viele Frauen, die eine bestimmte Verhütungsmethode anwenden, über einen längeren Zeitraum beobachtet werden. Der Index wird bestimmt, indem die Anzahl der ungewollten Schwangerschaften im Verhältnis zur Anzahl der beobachteten Zyklen mit dem Faktor 1.200 multipliziert wird. Er gibt somit an, wie viele von 100 Frauen in einem Jahr ungewollt schwanger werden (wobei davon ausgegangen wird, dass eine nicht-schwangere Frau zwölf Zyklen pro Jahr hat). Dieses Maß ist im Gegensatz zur Fertilitätsziffer keine Wahrscheinlichkeit! • Sterbeziffer. Dies ist die Gesamtmortalität – also der Anteil der im Beobachtungszeitraum Verstorbenen. Darüber hinaus gibt es auch spezifische Sterbeziffern, wie Sterbeziffern für Neugeborene oder Sterbeziffern bezogen auf bestimmte Krankheiten. Beispiel 6.13 Im Jahre 2004 betrug die Geburtenziffer im EU-Durchschnitt 10,9 pro 1.000 Einwohner. In Deutschland wurden damals 8,5 Kinder pro 1.000 Einwohner geboren – das war eine der niedrigsten Geburtenziffern der Länder der Europäischen Union. Wenn man bedenkt, dass die Sterbeziffer 10,4 Personen pro 1.000 Einwohner betrug, bedeutet das einen Bevölkerungsrückgang um 1,9 Personen je 1.000 Einwohner. Dieser Rückgang konnte durch Zuwanderungen teilweise ausgeglichen werden. Die Fertilitätsrate lag bei 46 Geburten pro 1.000 Frauen im gebärfähigen Alter.
6.4.2
Sterbetafeln
Eine Sterbetafel beschreibt die Verteilung von Lebensdauern. Sie basiert auf folgenden Häufigkeiten:
A 0 : Anzahl von Lebendgeborenen innerhalb eines Beobachtungszeitraums (z. B. in einem bestimmten Jahr) A x : Anzahl der Personen, die ihren x-ten Geburtstag erleben und danach noch unbestimmte Zeit leben. Dann ist d x = A x − A x +1
(6.14)
die Anzahl der Lebendgeborenen, die zwischen ihrem x-ten und (x+1)-ten Geburtstag sterben. Der Einfachheit halber wird die Lebensdauer als diskretes Merkmal aufgefasst mit den Ausprägungen x (Anzahl der erreichten Lebensjahre) und den absoluten Häufigkeiten dx .
116
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
Die Sterbeziffern sind die altersspezifischen Mortalitätsraten qx = d x / A x ( x = 0,..., ω )
(6.15)
Ein Wert q x drückt die Wahrscheinlichkeit aus, dass jemand, der seinen x-ten Geburtstag erlebt hat, vor seinem (x+1)-ten Geburtstag stirbt. Dabei ist ω das letzte in der Sterbetafel berücksichtige Alter. Man nimmt also an: A ω+1 = 0 (oft wird ω = 100 gesetzt). Die durchschnittliche Lebenszeit (oder Lebenserwartung) eines Neugeborenen lässt sich schätzen als: e0 =
6
1 1 + 2 A0
ω
¦A
(6.16)
x
x =1
Die Lebenserwartung eines x-jährigen berechnet sich analog als:
ex =
1 1 + 2 Ax
ω
¦A
(6.17)
y
y = x +1
Die Verteilungsfunktion F ( x ) gibt den relativen Anteil der Lebendgeborenen an, deren Sterbealter kleiner als x ist: F ( x) = 1 −
Ax A0
für 0 ≤ x ≤ ω
(6.18)
Mathematische Herleitung der Lebenserwartungen Die Anzahl der Personen, die x Jahre alt werden (und vor dem (x+1). Geburtstag sterben), beträgt d x . Damit ist die mittlere Lebensdauer bei A 0 Lebendgeboreω
nen leicht herleitbar als: e0 = ¦ x ⋅ d x / A 0 . x =0
Nach (6.14) und unter Berücksichtigung von A ω+1 = 0 ergibt sich daraus: ω
Ax 0( A 0 − A1 ) + 1( A1 − A 2 ) + 2(A 2 − A 3 ) + ... + ω(A ω − A ω+1 ) ¦ e0 = = x =1 A0 A0
Üblicherweise wird zu e0 der Term ½ addiert, da man annimmt, dass die Lebensdauer eines Menschen, der im Jahr nach seinem x-ten Geburtstag stirbt, durchschnittlich x + 1 / 2 beträgt. Der Anteil der Lebendgeborenen, die maximal x −1
das Alter x erreichen, ist
¦d i =0
i
/ A 0 = ( A 0 − A x ) / A 0 = 1 − A x / A 0 . Daraus folgt (6.18).
117
6
6.4 Bevölkerungsstatistiken
Tabelle 6.1: Sterbetafel aus den Jahren 1901/10, entnommen aus dem Statistischen Jahrbuch der Bundesrepublik Deutschland. Die Tafel enthält folgende Angaben: Anzahl A x der Personen, die das Alter x erreichen, Sterbeziffern qx ⋅1000 und Lebenserwartung e x in Jahren.
x 0 1 2 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
männliche Bevölkerung bezogen auf 100.000 lebend geborene Personen Ax qx ⋅1000 ex 100.000 202,34 44,82 79.766 39,88 55,12 76.585 14,92 56,39 74.211 5,28 55,15 72.827 2,44 51,16 72.007 2,77 46,71 70.647 5,04 42,56 68.881 5,13 38,59 67.092 5,56 34,55 65.104 6,97 30,53 62.598 9,22 26,64 59.405 12,44 22,94 55.340 16,93 19,43 50.186 23,57 16,16 43.807 32,60 13,14 36.079 47,06 10,40 27.136 69,36 7,99 17.586 106,40 5,97 8.987 157,87 4,38 3.212 231,60 3,18 683 320,02 2,35
weibliche Bevölkerung bezogen auf 100.000 lebend geborene Personen Ax qx ⋅1000 ex 100.000 170,48 48,33 82.952 38,47 57,20 79.761 14,63 58,47 77.334 5,31 57,27 75.845 2,56 53,35 74.887 3,02 49,00 73.564 4,22 44,84 71.849 5,37 40,84 69.848 5,97 36,94 67.679 6,86 33,04 65.283 7,71 29,16 62.717 8,54 25,25 59.812 11,26 21,35 55.984 16,19 17,64 50.780 24,73 14,17 43.540 39,60 11,09 34.078 62,06 8,45 23.006 98,31 6,30 12.348 146,50 4,65 4.752 217,39 3,40 1.131 295,66 2,59
Die Sterbetafel in Tabelle 6.1 beinhaltet – getrennt für männliche und weibliche Personen – die Lebenserwartungen zu Beginn des 20. Jahrhunderts im damaligen deutschen Reich. Bei neueren Sterbetafeln sind die Sterbeziffern und Lebenserwartungen nicht alle exakt (da einige Personen, deren Lebenserwartung aufgelistet ist, noch leben). Sie werden deshalb aufgrund von Erfahrungswerten aus vergangenen Jahren geschätzt.
118
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
6.5
Diagnostische Tests
6.5.1
Die Gütekriterien eines diagnostischen Tests
Diagnostische Tests – wie z. B. der HIV-Test – werden benutzt, um größere Sicherheit bezüglich des Krankheitsstatus eines Patienten zu gewinnen. Im einfachsten Fall sind nur zwei Testergebnisse möglich. Von einem guten Test erwartet man:
ŷ ein positives Ergebnis bei einer erkrankten Person und ŷ ein negatives Ergebnis bei einer nicht-erkrankten Person.
6
Seien nun T+ und T− die Ereignisse, dass das Testergebnis positiv bzw. negativ ist; K und K seien die Ereignisse, dass die zu untersuchende Krankheit vorliegt bzw. nicht vorliegt. Die Güte eines diagnostischen Tests wird quantifiziert durch:
• Sensitivität. Dies ist die bedingte Wahrscheinlichkeit P (T+ | K ) , dass der Test bei einer kranken Person richtig (also positiv) reagiert. • Spezifität. Darunter versteht man die bedingte Wahrscheinlich keit P(T− | K ) , dass eine nicht-erkrankte Person ein richtiges (also negatives) Testergebnis erhält. Im Idealfall – wenn alle Testergebnisse richtig sind – nehmen beide Wahrscheinlichkeiten den Wert 1 an. In der Praxis muss man leider damit rechnen, dass sich hin und wieder ein falscher Befund ergibt. Wenn der Test die Krankheit eines Patienten übersieht, erhält man ein falsch negatives Ergebnis. Die Wahrscheinlichkeit dafür ergibt sich aus der Sensitivität. Da nämlich T− und T+ komplementäre Ereignisse sind, berechnet man mit (6.2): P (T− | K ) = 1 − P (T+ | K )
(6.19)
In analoger Weise lässt sich aus der Spezifität die Wahrscheinlichkeit für ein falsch positives Ergebnis ermitteln:
P(T+ | K ) = 1 − P(T− | K )
(6.20)
6
119 6.5 Diagnostische Tests
Beispiel 6.14 Ein HIV-Test habe eine Sensitivität von 99% und eine Spezifität von 99,5%. Dann werden 99% der infizierten und 99,5% der nicht-infizierten Personen richtig klassifiziert. Die Wahrscheinlichkeit, dass eine infizierte Person fälschlicherweise ein negatives Ergebnis erhält, ist nach (6.19) 1%. Die Wahrscheinlichkeit, dass sich bei einer nicht-infizierten Person ein falsch positives Ergebnis ergibt, berechnet sich nach (6.20) als 0,5%. Wenn dieser Test bei einer Population von 100.000 homosexuellen Männern (Prävalenz = 0,001) angewandt wird, erwartet man theoretisch folgende Häufigkeiten: positiver Befund negativer Befund infiziert 99 1 100 nicht infiziert 500 99.400 99.900 599 99.401 100.000 Nur etwa 1/6 der positiven Ergebnisse ist auf eine Infektion zurückzuführen; der Rest ist falsch positiv. Die negativen Befunde sind dagegen fast alle richtig.
6.5.2
Vorhersagewerte
Für den behandelnden Arzt und die betroffenen Patienten sind nicht so sehr die Sensitivität und die Spezifität als vielmehr die Vorhersagewerte (oder prädiktiven Werte) interessant – das sind die Wahrscheinlichkeiten, dass das Testergebnis den richtigen Krankheitsstatus anzeigt. Unter dem positiven Vorhersagewert versteht man die bedingte Wahrscheinlichkeit P ( K | T+ ) ; der negative Vorhersagewert ist die bedingte Wahrscheinlichkeit P ( K | T− ) . Mit dem BayesTheorem (6.12) leitet man her: P( K|T+ ) =
P( K ) ⋅ P( T+| K ) P( K ) ⋅ P( T+ | K ) + P( K ) ⋅ P( T+ | K )
(6.21)
P( K |T− ) =
P( K ) ⋅ P( T−| K ) P( K ) ⋅ P( T− | K ) + P( K ) ⋅ P( T− | K )
(6.22)
Während die Prävalenz P( K ) die Wahrscheinlichkeit bezeichnet, erkrankt zu sein, bevor das Testergebnis bekannt ist, ist der positive Vorhersagewert die Wahrscheinlichkeit, erkrankt zu sein, nachdem das positive Ergebnis vorliegt. Deshalb wird die Prävalenz auch „apriori-Wahrscheinlichkeit“ genannt, während der positive Vorhersagewert als „a-posteriori-Wahrscheinlichkeit“ bezeichnet wird.
120
6
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
Beispiel 6.15 Wir greifen zurück auf den HIV-Test in Beispiel 6.14 (Sensitivität 99%, Spezifität 99,5%) und betrachten die Risikogruppe „homosexuelle Männer“ (Prävalenz 0,001). Für den positiven Vorhersagewert berechnet man nach (6.21): 0,001 ⋅ 0,99 P ( K | T+ ) = = 0,165 0,001 ⋅ 0,99 + 0,999 ⋅ 0,005 Dieser Wert gibt die a-posteriori-Wahrscheinlichkeit an, dass eine Person mit einem positiven Testergebnis auch tatsächlich infiziert ist. Für den negativen Vorhersagewert berechnet man nach (6.22): 0,999 ⋅ 0,995 P ( K | T− ) = = 0,99999 0,999 ⋅ 0,995 + 0,001 ⋅ 0,01 Das bedeutet, dass man bei einem negativen Testergebnis fast sicher sein kann, dass die betreffende Person nicht infiziert ist. Diese Werte entsprechen den relativen Häufigkeiten, die sich in Beispiel 6.14 ergeben: 99 99.400 = 0,165 und P ( K | T− ) = = 0,99999 P ( K | T+ ) = 599 99.401
Der geringe positive und der hohe negative Vorhersagewert in Beispiel 6.15 sind keine Besonderheit, sondern eher typisch für einen diagnostischen Test. Ein positiver Befund kann sich nämlich auch bei gesunden Personen ergeben aufgrund von Einflüssen, die in keinem Zusammenhang mit der relevanten Krankheit stehen. Deshalb ist bei niedriger Prävalenz (wenn der Test bei weitaus mehr gesunden als bei kranken Personen durchgeführt wird) oft nur ein kleiner Teil der positiven Befunde auf die zu diagnostizierende Krankheit zurückzuführen. Die negativen Befunde sind dagegen fast ausschließlich gesunden Personen zuzuordnen; nur ein sehr kleiner Anteil ist falsch negativ. Beispiel 6.16 Für den HIV-Test ergeben sich in Abhängigkeit von der Prävalenz folgende Vorhersagewerte: positiver negativer Population Prävalenz Vorhersagewert Vorhersagewert ohne Risiko 0,00001 0,00198 1,00000 (Rechenbeispiel) 0,0001 0,01942 1,00000 homosexuelle Männer 0,001 0,16541 0,99999 Drogenabhängige 0,01 0,66667 0,99990 (Rechenbeispiel) 0,1 0,95652 0,99888
121
6
6.5 Diagnostische Tests
An Beispiel 6.16 wird deutlich, dass die Vorhersagewerte von der Prävalenz abhängen. Dies kann bei klinischen Anwendungen zu Problemen führen, da ein exakter Wert für die Prävalenz im Einzelfall oft gar nicht bekannt ist. Bei den meisten Krankheiten ist die Prävalenz glücklicherweise gering – was sich jedoch nachteilig auf den positiven Vorhersagewert auswirkt. Aus Beispiel 6.16 geht hervor, dass dieser insbesondere bei kleiner Prävalenz extrem niedrig sein kann. Nur bei besonderen Risikogruppen oder in Spezialkliniken sind die Prävalenz und damit auch die Aussagekraft eines diagnostischen Tests höher. Die negativen Vorhersagewerte haben dagegen alle einen Wert, der nahe bei 1 liegt. Während also bei einem negativen Ergebnis die Krankheit mit hoher Wahrscheinlichkeit ausgeschlossen werden kann, ist ein positiver Befund weitaus schwieriger zu bewerten. In jedem Fall muss der Arzt ihn ernst nehmen; er sollte sich jedoch hüten, voreilig falsche Schlussfolgerungen zu ziehen. Das Testergebnis ist lediglich ein Hinweis darauf, dass die Krankheit vorliegen könnte. Um eine sichere Diagnose zu erstellen, bedarf es weiterer Untersuchungen. Leider sind sich viele Anwender darüber nicht im Klaren und interpretieren ein positives Testergebnis intuitiv so, als seien Zweifel an der Erkrankung eines Patienten quasi ausgeschlossen. Sie folgern naiv, dass – wenn mit 99%-iger Wahrscheinlichkeit aus der Bedingung „Krankheit vorhanden“ die Aussage „Testergebnis positiv“ folgt – auch der Umkehrschluss gilt: dass also aus einem positiven Ergebnis mit 99%-iger Sicherheit auf die Krankheit geschlossen werden kann. Dabei unterliegen sie jedoch einer kognitiven Täuschung – sei es aufgrund von Selbstüberschätzung, Bequemlichkeit oder einfach nur wegen mangelnder Erfahrung im Umgang mit Wahrscheinlichkeiten (siehe dazu [3] und [8]). Um ein Testergebnis zu beurteilen, bedarf es jedoch weniger Intuition als vielmehr fachlicher Fähigkeiten und solider Statistik-Kenntnisse. Merke ŷ Die Vorhersagewerte sind abhängig von der Prävalenz. ŷ Der positive Vorhersagewert kann bei geringer Prävalenz sehr niedrig sein – auch dann, wenn die Sensitivität und Spezifität hoch sind. ! In einigen Publikationen taucht der Begriff „accuracy“ im Zusammenz
hang mit diagnostischen Tests auf. Dies bezeichnet die Wahrscheinlichkeit, dass eine beliebige Person, die sich dem Test unterzieht, einen korrekten Befund erhält. Allerdings ist dieses Maß für praktische Anwendungen wenig geeignet, da es von der Prävalenz abhängt und keine Information bezüglich der Vorhersagewerte beinhaltet.
122
Kapitel 6 · Wahrscheinlichkeiten in der Medizin
Übersicht 4: Kenngrößen diagnostischer Tests formelle Schreibweise
Testergebnis richtig positiv Testergebnis falsch negativ Testergebnis richtig negativ
Bezeichnung der Wahrscheinlichkeit Prävalenz (a-priori-Wahrscheinlichkeit) Sensitivität --Spezifität
Testergebnis falsch positiv Krankheit liegt vor, falls Testergebnis positiv
--positiver Vorhersagewert (a-posteriori-Wahrscheinl.)
P( T+| K )
Krankheit liegt nicht vor, falls Testergebnis negativ
negativer Vorhersagewert
P( K |T− )
Ereignis Krankheit liegt vor
6
P( K ) P( T+ | K ) P( T−| K ) P( T−| K ) P( K|T+ )
! Weitere Hinweise zu diagnostischen Tests finden sich in Kapitel 15. z
7
Diskrete Verteilungen 7.1
Diskrete Zufallsvariable 125
7.1.1
Die Bedeutung einer Zufallsvariablen 125
7.1.2
Wahrscheinlichkeiten 126
7.1.3
Lageparameter 127
7.1.4
Streuungsparameter 128
7.2
Die Binomialverteilung 129
7.2.1
Das Bernoulli-Experiment 129
7.2.2
Eigenschaften der Binomialverteilung 130
7.2.3
Die symmetrische Binomialverteilung 134
7.3
Andere diskrete Verteilungen 136
7.3.1
Die Poissonverteilung 136
7.3.2
Die Polynomialverteilung 138
7.3.3
Die negative Binomialverteilung 139
7.3.4
Die hypergeometrische Verteilung 140
7.3.5
Die diskrete Gleichverteilung 141
125
7
7.1 Diskrete Zufallsvariable
In diesem und dem nächsten Kapitel werden einige Verteilungen behandelt, die für die Biowissenschaften von Bedeutung sind. Häufigkeitsverteilungen, die bei empirischen Studien beobachtet werden, lassen sich oft über eine solche Verteilung approximieren und in ihren wesentlichen Eigenschaften beschreiben. Zunächst wird in Abschnitt 7.1 der Begriff der Zufallsvariablen eingeführt, und es wird erläutert, wie eine Verteilung mittels statistischer Kenngrößen beschrieben werden kann. Danach werden die Binomialverteilung und andere diskrete Verteilungen vorgestellt. Die Normalverteilung und weitere stetige Verteilungen werden in Kapitel 8 besprochen.
7.1
Diskrete Zufallsvariable
7.1.1
Die Bedeutung einer Zufallsvariablen
Der Begriff des Merkmals ist fundamental für die deskriptive Statistik. Die Beschreibung einer Stichprobe beruht im Wesentlichen auf den Häufigkeiten der Merkmalsausprägungen und auf statistischen Kenngrößen wie etwa Mittelwert und Standardabweichung. In der Wahrscheinlichkeitsrechnung benutzt man anstelle des konkreten Begriffs „Merkmal“ den abstrakten Begriff „Zufallsvariable“. Theoretisch handelt es sich dabei um eine Funktion, die jedem möglichen Ergebnis eines Zufallsexperiments eine reelle Zahl zuordnet. Diese Zahlenwerte entsprechen den Merkmalsausprägungen und werden mit Kleinbuchstaben vom Ende des Alphabets (z. B. xi ) symbolisiert. Die Zufallsvariable selbst bezeichnet man in der Regel mit dem passenden Großbuchstaben (z. B. X ). Es ist für das Verständnis der Wahrscheinlichkeitsrechnung sehr hilfreich, sich die Analogie der Begriffe „Merkmal“ und „Zufallsvariable“ immer wieder vor Augen zu halten. Die xi werden Realisationen (oder Realisierungen) der Zufallsvariablen X genannt. Bei quantitativen Merkmalen sind die xi die Mess- oder Zählwerte; bei qualitativen Merkmalen entsprechen die › xi den numerischen Codierungen der einzelnen Ausprägungen (z Beispiel 2.5). Ebenso wie ein Merkmal lässt sich auch eine Zufallsvariable einem bestimmten Skalenniveau zuordnen; ferner lassen sich diskrete und stetige Zufallsvariablen unterscheiden. Dieses Kapitel 7 befasst sich mit diskreten Zufallsvariablen und deren Verteilungen.
126
Kapitel 7 · Diskrete Verteilungen
7.1.2
Wahrscheinlichkeiten
Diskrete Zufallsvariable ergeben sich bei der Beobachtung von Zufallsexperimenten, bei denen abzählbar viele Ergebnisse möglich sind. So lassen sich beispielsweise die Merkmale „Münzwurf“, „Blutgruppe“ oder die Anzahl der Schwangerschaften einer Frau durch diskrete Zufallsvariablen beschreiben. Ein Elementarereignis A lässt sich darstellen durch X = xi (das heißt: Die Zufallsvariable X nimmt den Wert xi an). Für die Wahrscheinlichkeit P ( X = xi ) sind folgende Schreibweisen gebräuchlich: P ( A) = P( X = xi ) = P( xi ) = pi
7
(7.1)
Beispiel 7.1 Beim Münzwurf gibt es zwei Möglichkeiten: Wappen oder Zahl. A sei das Ereignis „Zahl“. Dieses Merkmal lässt sich durch eine diskrete Zufallsvariable X beschreiben, die die beiden Werte 0 (Wappen) oder 1 (Zahl) annehmen kann. Wenn man mehrmals nacheinander eine Münze wirft, bedeutet xi = 1 , dass sich beim i-ten Wurf eine Zahl ergeben hat; das Ereignis „Wappen“ wird beschrieben durch xi = 0 . Dabei gilt: P( A) = P( X = 1) = 1/ 2 .
Die Wahrscheinlichkeiten aller Elementarereignisse (deren Anzahl sei k) summieren sich – ebenso wie die relativen Häufigkeiten – zu 1: k
k
¦ p = ¦ f (x ) = 1 i
i =1
i
(7.2)
i =1
Die Wahrscheinlichkeitsfunktion f ( x ) ordnet jedem Wert xi dessen Wahrscheinlichkeit pi zu; sie ist definiert als: p für x = xi (i = 1,...k ) f ( x) = ® i ¯0 sonst
(7.3)
Die Formel (7.2) entspricht dem 2. Axiom von Kolmogoroff, nach dem die Wahrscheinlichkeit des Ereignisraums gleich 1 ist. Die Verteilungsfunktion F ( x) = P ( X ≤ x) einer diskreten Zufallsvariablen (die mindestens ordinal skaliert sein muss) gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert annimmt, der kleiner als x oder gleich x ist. Man erhält die Funktionswerte F ( x ) durch › Beispiel 7.3). Aufaddieren der Wahrscheinlichkeiten pi (z
7
127 7.1 Diskrete Zufallsvariable
7.1.3
Lageparameter
• Erwartungswert. Das bekannteste Lagemaß einer Stichprobe ist der Mittelwert; das Analogon zur Charakterisierung einer Grundgesamtheit wird Erwartungswert genannt. Während die Parameter einer Stichprobe gewöhnlich mit lateinischen Buchstaben dargestellt werden, werden die Parameter einer Grundgesamtheit mit griechischen Buchstaben bezeichnet. So wird der Erwartungswert mit µ (sprich: mü) symbolisiert; dies entspricht dem lateinischen m. Bei einer diskreten Zufallsvariablen mit k möglichen Realisationen ist µ definiert als: k
µ = ¦ xi ⋅ pi
(7.4)
i =1
Der Erwartungswert von X wird auch mit E( X ) , EX oder µ x bezeichnet. Diese Schreibweisen bevorzugt man, wenn der Variablenname X hervorgehoben werden soll. Zwei unmittelbar einleuchtende Rechenregeln seien an dieser Stelle genannt: E ( aX + b) = a ⋅ EX + b
(7.5)
n
E ( X 1 + ... + X n ) = ¦ EX i
(7.6)
i =1
Die Gleichung (7.6) beschreibt die Additivität der Erwartungswerte. ! Der Begriff des Erwartungswertes wurde bereits im Jahr 1657 vom niez
derländischen Mathematiker Christiaan Huygens in dessen Buch „De Ratiociniis in Alea Ludo“ eingeführt. Dieses Werk war das erste gedruckte Lehrbuch der Wahrscheinlichkeitsrechnung und hatte großen Einfluss auf die weitere Entwicklung dieses Gebietes.
Abgesehen von den Begriffen „Mittelwert“ bzw. „Erwartungswert“ stimmen bei den anderen Parametern die Bezeichnungen für die Stichprobe und die Grundgesamtheit weitgehend überein. ~ (sprich: mü Schlange) einer • Median und Quantile. Der Median µ Grundgesamtheit ist durch die Verteilungsfunktion bestimmt. Bei einer diskreten Zufallsvariablen ist der Median die kleinste Zahl ~ ) ≥ 0,5 . Analog dazu ist ein zwischen 0 und k, für die gilt: F (µ ~ beliebiges α-Quantil µ α (mit 0 < α < 1 ) definiert als die kleinste ~ ) ≥ α . So ist etwa der Median in Beispiel 7.3 gleich 2. Zahl mit F (µ α
128
Kapitel 7 · Diskrete Verteilungen
Übersicht 5: Analoge Begriffe aus der deskriptiven Statistik und der Wahrscheinlichkeitsrechnung
7
deskriptive Statistik
Wahrscheinlichkeitsrechnung
Merkmal Ausprägungsliste Merkmalsausprägung ermittelter Merkmalswert der Beobachtungseinheit i relative Häufigkeit hi empirische Verteilungsfunktion Fˆ ( x) Mittelwert x
Zufallsvariable X Ereignisraum Ω Elementarereignis A Realisation xi der Zufallsvariablen Wahrscheinlichkeit pi Verteilungsfunktion F ( x) Erwartungswert µ
• Modus. Der Modus der Grundgesamtheit ist der Wert mit der größten Wahrscheinlichkeit. Bei bi- oder multimodalen Verteilungen existieren eventuell mehrere Modalwerte. 7.1.4
Streuungsparameter
• Varianz. In der deskriptiven Statistik ist die empirische Varianz definiert als die mittlere quadratische Abweichung der StichprobenDaten vom Mittelwert. Das Analogon in der Wahrscheinlichkeitsrechnung ist der Erwartungswert der quadratischen Abweichung der Zufallsvariablen X vom Erwartungswert µ : σ2 = E ( ( X − µ ) 2 ) = E ( X 2 ) − µ 2
(7.7)
Das griechische σ (Sigma) entspricht dem lateinischen s. Für diskrete Zufallsvariable ist die Varianz äquivalent zu: k
σ2 = ¦ ( xi − µ) 2 pi
(7.8)
i =1
Wegen der quadratischen Dimension einer Varianz gilt:
Var( aX + b) = a 2 ⋅ Var(X )
(7.9)
Daraus folgt sofort (für a = 0 ): Var(b) = 0 . Dies beinhaltet die triviale Feststellung: Eine Konstante hat keine Varianz. Analog zur deskriptiven Statistik erhält man die Standardabweichung ı aus der Wurzel der Varianz. Für verhältnisskalierte Zufallsvariable ist der
7
129 7.2 Die Binomialverteilung
Variationskoeffizient definiert als der Quotient σ / µ . Für die Summe zweier Zufallsvariablen gilt allgemein: Var( X + Y ) = Var( X ) + Var(Y ) + 2 ⋅ Cov( X , Y )
(7.10)
Dabei gilt für die Kovarianz: Cov( X , Y ) = E ( ( X − µ x ) ⋅ (Y − µ y ) ) = E ( XY ) − µ x ⋅ µ y
(7.11)
Die Kovarianz ist 0, wenn X und Y unabhängige Variable sind. Für die Summe von mehreren unabhängigen Zufallsvariablen gilt: n
n
i =1
i =1
Var( ¦ X i ) = ¦ Var(X i )
(7.12)
Mathematische Herleitung der Rechenregeln zur Varianz Aus der Definition der Varianz ergibt sich unter Berücksichtigung der Rechenregeln (7.5) und (7.6) die Formel (7.7): σ2 = E (( X − µ )2 ) = E ( X 2 − 2µ ⋅ X + µ 2 ) = E ( X 2 ) − 2µ ⋅ E ( X ) + µ 2 = = E ( X 2 ) − 2µ 2 + µ 2 = E ( X 2 ) − µ 2
Die Formel (7.8) folgt dann direkt aus (7.4), indem man xi durch ( xi − µ) 2 ersetzt. Für die Variable aX + b erhält man aus der Definition der Varianz in (7.7) die Formel (7.9): Var (aX + b) = E (aX + b − aµ − b) 2 = a 2 ⋅ E ( X − µ) 2 = a 2 ⋅ Var ( X ) i Weitere Kenngrößen zur Beschreibung einer Verteilung, nämlich die z Formmaße, werden in Abschnitt 8.1.3 erläutert.
7.2
Die Binomialverteilung
7.2.1
Das Bernoulli-Experiment
Die Binomialverteilung basiert auf einem Zufallsexperiment einfachster Art, bei dem nur zwei Ausgänge möglich sind. Man bezeichnet dies als ein Bernoulli-Experiment, benannt nach dem Schweizer Mathematiker Jakob Bernoulli (1654-1705). Generell lassen sich alle Experimente, bei denen ein Alternativmerkmal beobachtet wird (z. B. der Münzwurf oder die Bestimmung des Geschlechts einer Person) als ein Bernoulli-Experiment auffassen. Die-
130
Kapitel 7 · Diskrete Verteilungen
ses Modell ist anwendbar bei allen qualitativen und quantitativen Merkmalen, deren Ausprägungen in zwei Gruppen oder Klassen eingeteilt sind (z. B. Blutgruppe A oder andere Blutgruppe, Laborwert normal oder pathologisch). Um ein Bernoulli-Experiment formal zu beschreiben, betrachten wir zwei komplementäre Ereignisse A und A . Wir führen eine Zufallsvariable X ein, welche die Werte 1 (falls A eintritt) und 0 (falls › Beispiel 7.1). Die dazugehörenden A eintritt) annehmen kann (z Wahrscheinlichkeiten seien:
P( A) = P( X = 1) = p P( A) = P( X = 0) = q Nach Formel (6.2) erhalten wir für die Wahrscheinlichkeit des komplementären Ereignisses A : q = 1− p
7
(7.13)
Die Wahrscheinlichkeit p kann – wie bereits in Abschnitt 6.2.2 erwähnt – empirisch geschätzt werden, indem man ein Bernoulli-Experiment hinreichend oft wiederholt und dann die relative Häufigkeit des Ereignisses A als Schätzwert für p verwendet. › Abschnitt 8.3.2) fini Diese Variante des Gesetzes der großen Zahlen (z z det sich bereits in Bernoullis Schrift „Ars conjectandi“, die erst nach seinem Tod im Jahr 1713 veröffentlicht wurde. Das Neue und Besondere an diesem Werk ist die Idee, die Statistik auf wirtschaftliche und gesellschaftliche Probleme anzuwenden. 7.2.2
Eigenschaften der Binomialverteilung
Wenn ein Bernoulli-Experiment mehrfach wiederholt wird und diese Wiederholungen unabhängig voneinander sind, bezeichnet man dies als einen Bernoulli-Prozess. Wenn beispielsweise bei einer Wurfserie mit einem Würfel die Anzahl der 6er gezählt wird, oder wenn eine bestimmte Anzahl von Personen danach untersucht wird, wie häufig „Rhesusfaktor positiv“ vorkommt, dann handelt es sich bei diesen Beobachtungsserien formal um Bernoulli-Prozesse. Ein solcher Prozess ist folgendermaßen charakterisiert:
ŷ Es werden n unabhängige Bernoulli-Experimente durchgeführt,
die durch gleich verteilte Zufallsvariable X i ( i = 1,..., n ) beschrieben werden.
7
131 7.2 Die Binomialverteilung
ŷ Jedes X i nimmt mit der Wahrscheinlichkeit p den Wert 1 (bei
Eintreten des Ereignisses A) und mit der Wahrscheinlichkeit q = 1 − p den Wert 0 (bei Eintreten von A ) an. ŷ Dann quantifiziert die Zufallsvariable X = X 1 + X 2 + ... + X n , wie häufig bei n Experimenten das Ereignis A eingetreten ist. X wird durch eine Binomialverteilung beschrieben. Eine binomialverteilte Zufallsvariable X ist durch die Parameter n und p eindeutig festgelegt und wird mit X ~ B (n, p ) angegeben. Der Erwartungswert und die Varianz sind berechenbar als: n
E ( X ) = ¦ EX i = n ⋅ p
(7.14)
i =1
n
Var( X ) = ¦ Var( X i ) = n ⋅ p ⋅ q
(7.15)
i =1
Beispiel 7.2 Eine Klausur in Biomathematik bestehe aus 10 Aufgaben. Es sind jeweils fünf Antworten vorgegeben, von denen genau eine richtig ist. Wenn ein Student mangels solider Statistik-Kenntnisse darauf angewiesen ist, die richtigen Antworten zu erraten, lässt sich dieses Vorgehen formal ansehen als einen Prozess bestehend aus n = 10 Bernoulli-Experimenten mit den möglichen Ereignissen A (richtig raten) und A (falsch raten). Die Wahrscheinlichkeiten sind: p = P ( A) = 1 / 5 = 0,2 und q = P (A ) = 4 / 5 = 0,8 . X ~ B (10;0,2) sei die Zufallsvariable, die die Anzahl der richtig gelösten Aufgaben angibt. Für den Erwartungswert und die Varianz ergeben sich: µ = 10 ⋅ 0, 2 = 2, 0 nach (7.14) σ2 = 10 ⋅ 0, 2 ⋅ 0, 8 = 1, 6
nach (7.15)
Etwas komplizierter ist die Berechnung der Wahrscheinlichkeiten. Die Zufallsvariable X ~ B (n, p ) kann theoretisch jede natürliche Zahl zwischen 0 und n annehmen. Diese Zahl gibt an, wie oft bei n Zufallsexperimenten das Ereignis A eingetreten ist. Die entsprechenden Wahrscheinlichkeiten berechnet man nach folgender Formel: §n· P ( X = k ) = ¨ ¸ ⋅ p k ⋅ q n − k für k = 0,..., n ©k ¹
(7.16)
132
Kapitel 7 · Diskrete Verteilungen
§n· Der Ausdruck ¨¨ ¸¸ (sprich: n über k) wird als Binomialkoeffizient ©k ¹ bezeichnet. Er quantifiziert die Anzahl der Möglichkeiten, aus einer Menge von n Elementen genau k Elemente auszuwählen, und ist folgendermaßen definiert:
§n· 1 ⋅ 2 ⋅ ... ⋅ n n! = ¨k ¸ = © ¹ k !⋅ ( n − k )! (1 ⋅ ... ⋅ k ) ⋅ ((1 ⋅ ... ⋅ ( n − k ))
(7.17)
Der Zähler dieses Ausdrucks n! (sprich: n Fakultät) bezeichnet das Produkt, das aus allen natürlichen Zahlen von 1 bis n gebildet wird. Entsprechend werden k! und (n − k )! im Nenner berechnet.
7
Mathematische Herleitung der Parameter der Binomialverteilung Wir betrachten den einfachsten Fall n = 1 , also ein einzelnes Bernoulliexperiment mit zwei möglichen Ergebnissen A bzw. A und den Wahrscheinlichkeiten p bzw. q. Nach (7.4) und (7.8) berechnet man: µ = 1⋅ p + 0 ⋅ q = p σ 2 = (1 − p ) 2 ⋅ p + (0 − p ) 2 ⋅ q = q 2 ⋅ p + p 2 ⋅ q = pq ⋅ (q + p ) = pq Für die Summe X = X 1 + ... + X n gilt nach (7.6) und (7.12): EX = np und VarX = npq Bei n unabhängigen Wiederholungen dieses Experiments beträgt die Wahrscheinlichkeit, dass bei den ersten k Experimenten das Ereignis A und bei den folgenden (n-k) Experimenten das Ereignis A eintritt, p k ⋅ q n−k . Diese Wahrscheinlichkeit ergibt bei jeder Kombination, bei der k-mal A und (n-k)mal A eintritt – egal in welcher Reihenfolge. Jetzt bleibt nur noch zu klären, wie viele Möglichkeiten existieren, aus einer Menge von n Elementen eine Teilmenge von k Elementen auszuwählen. Für das 1. Element gibt es n Auswahlmöglichkeiten, für das 2. verbleiben (n − 1) und für das k. Element noch (n − k + 1) Möglichkeiten – dies ergibt insgesamt n! n ⋅ (n − 1) ⋅ ... ⋅ (n − k + 1) = . (n − k )! Da es k! Möglichkeiten gibt, diese k Elemente anzuordnen (und da die Reihenfolge keine Rolle spielt), müssen wir diesen Quotienten durch k! dividieren und erhalten: § n· §n· n! = ¨ ¸ und damit: P( X = k ) = ¨¨ ¸¸ ⋅ p k ⋅ q n−k . (k!) ⋅ (n − k )! ¨© k ¸¹ ©k ¹
7
133 7.2 Die Binomialverteilung
Beispiel 7.3 Wir greifen zurück auf das Beispiel 7.2 (Biomathe-Klausur) und berechnen die Wahrscheinlichkeit dafür, dass 3 von 10 Antworten richtig sind. Die Wahrscheinlichkeit, die ersten 3 Aufgaben richtig und die restlichen 7 falsch zu lösen, ist: p 3 ⋅ q 7 = 0, 23 ⋅ 0,87 ≈ 0, 0017 . Es gibt jedoch nicht nur eine, sondern
§ 10 · insgesamt ¨ ¸ = 120 Möglichkeiten, von 10 Aufgaben genau 3 richtig zu ©3¹ erraten. Demnach beträgt die gesuchte Wahrscheinlichkeit nach (7.16): P ( X = 3) = 120 ⋅ 0,23 ⋅ 0,87 = 0,2013 . Für die anderen Wahrscheinlichkeiten › Abbildung 7.1): ergibt sich (z P( X = k )
k 0
0
10
F ( k ) = P( X ≤ k )
10
1 ⋅ 0, 2 ⋅ 0, 8 = 0, 8 = 0,1074 1
9
0,1074
1
10 ⋅ 0, 2 ⋅ 0, 8 = 0, 2684
0,3758
2
45 ⋅ 0, 22 ⋅ 0, 88 = 0, 3020
0,6778
3
7
3
120 ⋅ 0, 2 ⋅ 0, 8 = 0, 2013
0,8791
4
210 ⋅ 0,2 4 ⋅ 0,86 = 0,0881
0,9672
5
5
5
252 ⋅ 0, 2 ⋅ 0, 8 = 0, 0264
0,9936
6
210 ⋅ 0, 26 ⋅ 0, 84 = 0, 0055
0,9991
7
3
7
120 ⋅ 0, 2 ⋅ 0, 8 = 0, 0008
0,99992
8
45 ⋅ 0, 28 ⋅ 0, 82 = 7 ⋅ 10−5
0,999996
9
10 ⋅ 0, 29 ⋅ 0, 81 = 4 ⋅ 10−6
10
10
0
10
1 ⋅ 0, 2 ⋅ 0, 8 = 0, 2 = 10
0,9999999 −7
1
Die Wahrscheinlichkeit, durch Raten weniger als 6 Punkte zu erreichen, beträgt demnach P ( X ≤ 5) = 99,36% . Wenn 6 Punkte zum Bestehen der Klausur notwendig sind, hat man eine Chance von weniger als 1 %, ohne die geringste Ahnung von Biomathematik die Klausur zu bestehen.
Bezüglich der Formel (7.17) sind folgende Regeln zu beachten:
ŷ Jeder Binomialkoeffizient ist eine natürliche Zahl. ŷ Einen Binomialkoeffizienten berechnet man am einfachsten als einen Bruch mit k natürlichen Zahlen im Zähler (beginnend bei n in absteigender Reihenfolge) und k Zahlen im Nenner (beginnend bei 1 in aufsteigender Reihenfolge). So ist z. B. §10 · 10 ⋅ 9 ⋅ 8 ¨¨ ¸¸ = = 120 . © 3 ¹ 1⋅ 2 ⋅ 3
134
Kapitel 7 · Diskrete Verteilungen
ŷ Für alle p gilt generell: p 0 = 1 und p1 = p . §n·
§ n ·
§ 10 ·
§ 10 ·
¸¸ ; z. B. ¨ ¸ = ¨ ¸ . ŷ Für alle k = 0,..., n gilt: ¨¨ ¸¸ = ¨¨ ©3¹ ©7¹ ©k ¹ ©n − k ¹ § n·
§ n·
© ¹
© ¹
ŷ Per definitionem ist: ¨¨ ¸¸ = ¨¨ ¸¸ = 1 0 n 7.2.3
Die symmetrische Binomialverteilung
Für die symmetrische Binomialverteilung ( p = q = 0,5 ) vereinfachen sich die obigen Formeln zu:
7
E ( X ) = 0,5 ⋅ n
(7.18)
Var( X ) = 0, 25 ⋅ n
(7.19)
§n· P( X = k ) = P( X = n − k ) = ¨ ¸ ⋅ 0,5n ©k ¹
(7.20)
Beispiel 7.4 Eine Familie habe vier Kinder, X sei die Anzahl der Jungen. Wir nehmen an, dass mit der Wahrscheinlichkeit von 0,5 ein Junge geboren wird. Nach (7.18) und (7.19) ergibt sich: E ( X ) = 2 und Var ( X ) = 1 . Für die Wahrschein› Abbildung 7.2): lichkeiten berechnet man nach (7.20) (z
k
P( X = k )
P( X ≤ k )
0
1 ⋅ 0,54 = 1 / 16 = 0,0625
0,0625
1
4
4 ⋅ 0,5 = 1 / 4 = 0,25 4
0,3125
2
6 ⋅ 0,5 = 3 / 8 = 0,375
0,6875
3
4 ⋅ 0,54 = 1 / 4 = 0,25
0,9375
4
4
1 ⋅ 0,5 = 1 / 16 = 0,0625
1
i Die Schiefe einer Binomialverteilung berechnet sich als γ1 = ( q − p ) / σ . z Also ist die Verteilung genau dann symmetrisch ist, wenn p = q .
135 7.2 Die Binomialverteilung
0,4
0,3 0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10 Abb. 7.1 Binomialverteilung mit n = 10 und p = 0,2 0,4
0,3
0,2
0,1
0
0 1 2 3 4 5 6 7 8 9 10 Abb. 7.2 Binomialverteilung mit n = 4 und p = 0,5 0,3
0,2
0,1
0
0 1 2 3 4 5 6 Abb. 7.3 Poissonverteilung mit λ = 2
7
8
9
10
7
136
7
Kapitel 7 · Diskrete Verteilungen
7.3
Andere diskrete Verteilungen
7.3.1
Die Poissonverteilung
Der französische Mathematiker Siméon Denis Poisson (1781-1840) hat die Binomialverteilung für den speziellen Fall untersucht, dass die Anzahl der Wiederholungen n groß und die Wahrscheinlichkeit p für das Eintreten des Ereignisses A klein ist. Fragestellungen dieser Art treten in der Medizin häufig auf. So wird etwa bei epidemiologischen Untersuchungen eine umfangreiche Population beobachtet, wobei die Wahrscheinlichkeit, dass bei einem Individuum eine bestimmte Krankheit eintritt, sehr gering ist. Ein anderes Beispiel stellt der radioaktive Zerfall dar: In einer bestimmten Zeiteinheit zerfällt nur ein minimaler Anteil von Millionen radioaktiver Isotope. Poisson hat nachgewiesen, dass für n ≥ 30 und p ≤ 0,1 die Binomialverteilung durch folgende Grenzverteilung approximiert werden kann:
P( X = k ) =
λ k −λ ⋅e k!
(7.21)
Der Buchstabe e symbolisiert die Euler’sche Zahl, deren Wert ungefähr 2,718 beträgt. Die Formel (7.21) hat gegenüber (7.16) den Vorteil, dass sie für große n und kleine k wesentlich leichter zu handhaben ist. Der griechische Buchstabe λ (Lambda) repräsentiert den Erwartungswert der Verteilung, für den nach (7.14) gilt: E( X ) = λ = n ⋅ p
(7.22)
Nach (7.15) und (7.13) lässt sich die Varianz approximieren durch:
Var( X ) = n ⋅ p ⋅ q = n ⋅
λ λ ⋅ (1 − ) → λ n n n→∞
(7.23)
Demnach stimmen bei der Poissonverteilung der Erwartungswert und die Varianz überein. Durch den Parameter λ ist eine Poissonverteilte Zufallsvariable eindeutig festgelegt; sie wird als X ~ P (λ) angegeben. Wegen des kleinen Wertes für p bezeichnet man diese Verteilung auch als die „Verteilung der seltenen Ereignisse“. ! Für die Berechnung einer Wahrscheinlichkeit nach (7.21) wird nur der z
Erwartungswert NJ benötigt. Weitere Angaben (der Parameter n oder die Wahrscheinlichkeit p für das Eintreten eines Ereignisses im Einzelfall)
137
7
7.3 Andere diskrete Verteilungen
sind nicht erforderlich. Daher kann die Poissonverteilung auch angewandt werden, wenn die Grundgesamtheit nicht konkret angegeben werden kann oder wenn die Wahrscheinlichkeit p nicht explizit quanti› Beispiel 7.6). fizierbar ist (z Beispiel 7.5 In einer Geburtsklinik werden jährlich n = 2.000 Kinder geboren. Die Wahrscheinlichkeit, dass ein Neugeborenes mit einem Down-Syndrom zur Welt kommt, beträgt p = 0,001 . Unter der Annahme, dass die Ereignisse unabhängig sind, lässt sich die Anzahl der Neugeborenen mit Down-Syndrom durch eine Poisson-verteilte Zufallsvariable X beschreiben. Für den charakteristischen Parameter gilt: λ = n ⋅ p = 2.000 ⋅ 0,001 = 2 . Mit (7.21) berechnet man:
k
P( X = k )
0
−2
e
= 0,135
F ( k ) = P( X ≤ k )
0,135
0,406 2 ⋅ e −2 = 0,271 4 −2 ⋅ e = 0, 271 2 0,677 2 8 −2 ⋅ e = 0,180 3 0,857 6 16 −2 ⋅ e = 0,090 4 0,947 24 32 −2 ⋅ e = 0,036 5 0,983 120 64 −2 ⋅ e = 0,012 6 0,995 720 Man erkennt, dass die Wahrscheinlichkeiten für wachsendes k sehr schnell › Abbildung 7.3). Die Wahrscheinlichkeit, dass pro Jahr mehr als abnehmen (z 6 Kinder mit Down-Syndrom geboren werden, ist nahezu 0. 1
Beispiel 7.6 Verdünntes Blut wird in eine Zählkammer eingefüllt. Diese ist in zahlreiche Quadrate identischer Fläche eingeteilt. Unter dem Mikroskop werden die Erythrozyten in 80 Quadraten gezählt. Man ermittelt durchschnittlich 5,9125 Erythrozyten pro Zählquadrat. Es stehen Millionen von Erythrozyten zur Verfügung; die Wahrscheinlichkeit, dass ein bestimmter Erythrozyt in einem Zählquadrat gefunden wird, ist extrem gering. Dies rechtfertigt die Annahme, dass die Anzahl der Erythrozyten pro Quadrat einer Poissonverteilung folgt. Also kann man nach (7.21) mit λ = 5,9125 Wahrscheinlichkeiten berechnen, › Abohne dass die Parameter n und p explizit bekannt sind (siehe auch z schnitt 12.2.6, Beispiel 12.6).
138
Kapitel 7 · Diskrete Verteilungen
Mathematische Herleitung der Poissonverteilung Diese Verteilung ist ein Grenzfall der Binomialverteilung und kann aus dieser hergeleitet werden. Mit (7.16) und λ = n ⋅ p ergibt sich: −k
§n· 1 n ⋅ ( n − 1) ⋅ ... ⋅ ( n − k + 1) k § λ· § λ· P( X = k ) = ¨ ¸ ⋅ p k ⋅ q n − k = ⋅ ⋅ λ ⋅ ¨1 − ¸ ¨1 − ¸ k k ! k n n¹ n © ¹ © © ¹ Für großes n und vergleichsweise kleines k ist das Produkt der k Faktoren des n
Zählers ungefähr n k . Aus der Analysis ist bekannt, dass gilt: n
§ λ· § λ· lim ¨1 − ¸ = e − λ . Außerdem ist lim ¨ 1 − ¸ n →∞ n → ∞© n¹ © n¹
−k
=1.
Damit erhalten wir für obige Formel: P ( X = k ) =
λ k −λ ⋅e k!
i Die Poissonverteilung ist immer rechtsschief (oder linksgipfelig), da für z die Schiefe gilt: γ1 = ( q − p ) / σ → (1 − 0) / λ = 1/ λ > 0 . n →∞
7
7.3.2
Die Polynomialverteilung
Die Polynomialverteilung (oder Multinomialverteilung) stellt eine Verallgemeinerung der Binomialverteilung dar. Sie beschreibt eine Serie von n Zufallsexperimenten, bei denen pro Beobachtung eines von k möglichen Ereignissen A1 , A2 ,..., Ak mit den Wahrscheinlichkeiten p1 , p2 ,..., pk auftreten kann. Die Wahrscheinlichkeit, dass bei n Beobachtungen das Ereignis A1 mit der Häufigkeit n1 , das Ereignis A2 mit der Häufigkeit n2 usw. eintritt, berechnet sich nach: P ( n1 , n2 ,..., nk p1 , p2 ,..., pk ) = k
Dabei ist
¦p
i
i =1
( p1 ) n1 ⋅ ... ⋅ ( pk ) nk ⋅ n! n1 !⋅ ... ⋅ nk !
(7.24)
k
= 1 und
¦n
i
=n.
i =1
Beispiel 7.7 Die Wahrscheinlichkeiten für das Auftreten der Blutgruppen betragen: P (0) = p1 = 0,39 , P (A ) = p2 = 0,44 , P (B) = p3 = 0,13 , P (AB) = p4 = 0,04 . Dann ist die Wahrscheinlichkeit, dass unter n = 10 Personen je 4mal die Blutgruppen 0 und A und je 1mal B und AB vorkommen, nach (7.24):
P(4,4,1,1 0,39;0,44;0,13;0,04 ) =
0,394 ⋅ 0,444 ⋅ 0,131 ⋅ 0,041 ⋅10!= 0,0284 4! ⋅4! ⋅1! ⋅1!
139
7
7.3 Andere diskrete Verteilungen
7.3.3
Die negative Binomialverteilung
Während die Binomialverteilung darüber informiert, mit welcher Wahrscheinlichkeit das Ereignis A bei n unabhängigen Beobachtungen 0, 1, 2, ... oder n-mal gezählt wird, beschreibt die negative Binomialverteilung NB (r , p ) , mit welcher Wahrscheinlichkeit das Ereignis A gerade bei der j-ten Beobachtung zum r-ten Mal eintritt. Diese Verteilung wird häufig zur Analyse von Wartezeiten verwendet. Der einfachste Spezialfall ist die geometrische Verteilung NB (1, p) , die angibt, mit welcher Wahrscheinlichkeit das Ereignis A bei der j-ten Beobachtung erstmals eintritt. Sie lässt sich leicht herleiten als: P ( X = j ) = q j −1 ⋅ p
(7.25)
Dabei wird zugrunde gelegt, dass bei den ersten j − 1 Beobachtungen jeweils das Ereignis A (mit der Wahrscheinlichkeit q = 1 − p ) und bei der j. Beobachtung das Ereignis A (mit der Wahrscheinlichkeit p ) eintritt. Beispiel 7.8 Eine Blutbank benötigt Blut von 10 Personen mit dem Rhesusfaktor positiv. Wie groß ist die Wahrscheinlichkeit, dass man nach der Blutentnahme bei maximal 14 Personen 10 positive Konserven hat? Nach (7.26) berechnet man für X ~ NB(10;0,85) (also r = 10 und p = 0,85 ): §9· P ( X = 10) = ¨¨ ¸¸ ⋅ 0,8510 = 0,1969 ©9¹ §10 · P( X = 11) = ¨¨ ¸¸ ⋅ 0,15 ⋅ 0,8510 = 0,2953 ©9¹ §11· P( X = 12) = ¨¨ ¸¸ ⋅ 0,152 ⋅ 0,8510 = 0,2436 ©9¹
§12 · P( X = 13) = ¨¨ ¸¸ ⋅ 0,153 ⋅ 0,8510 = 0,1462 ©9¹ §13· P ( X = 14) = ¨¨ ¸¸ ⋅ 0,154 ⋅ 0,8510 = 0,0713 ©9¹ Durch Addition erhält man: P ( X ≤ 14) = 0,9533 . Das bedeutet, dass mit 95%iger Wahrscheinlichkeit 14 Entnahmen ausreichen werden, um 10 positive Reserven zu erhalten.
140
Kapitel 7 · Diskrete Verteilungen
Wie groß ist nun die Wahrscheinlichkeit, dass bei der j-ten Beobachtung das Ereignis A zum r-ten Mal eintritt? Dabei ist zu berücksichtigen, dass unter den vorangegangenen ( j − 1) Beobachtungen das Ereignis A genau (r − 1) -mal gezählt worden ist. Also gilt für die negative Binomialverteilung allgemeiner Art:
§ j − 1· j − r r ¸¸ ⋅ q P( X = j ) = ¨¨ ⋅ p für j ≥ r © r − 1¹ 7.3.4
7
(7.26)
Die hypergeometrische Verteilung
Die hypergeometrische Verteilung beschreibt n Beobachtungen, bei denen jeweils alternativ die Ereignisse A und A eintreten können. Im Gegensatz zur Binomialverteilung sind diese Beobachtungen jedoch nicht unabhängig voneinander – das Auftreten eines bestimmten Ereignisses beeinflusst die Wahrscheinlichkeiten aller nachfolgenden Ereignisse. i Die Binomial- und die hypergeometrische Verteilung lassen sich durch z zwei unterschiedliche Urnenmodelle veranschaulichen. Gegeben sei eine Urne mit roten und weißen Kugeln; der Anteil roter Kugeln betrage p. Wenn man aus dieser Urne nacheinander n Kugeln zieht, und nach jeder Ziehung die Kugel zurück in die Urne legt, sind die Ziehungen unabhängig voneinander und die Wahrscheinlichkeit, eine rote Kugel zu ziehen, beträgt bei jedem Zug p. Ein solcher Prozess lässt sich durch eine Binomialverteilung beschreiben. Wenn man jedoch die gezogenen Kugeln nicht zurücklegt, ändern sich bei jedem Zug die Wahrscheinlichkeiten. Die Ziehungen sind voneinander abhängig und werden durch eine hypergeometrische Verteilung charakterisiert.
Der hypergeometrischen Verteilung liegen folgende Annahmen zugrunde:
ŷ Insgesamt stehen N Objekte (also endlich viele) zur Verfügung,
von denen genau M die Eigenschaft A und ( N − M ) die Eigenschaft A aufweisen. ŷ Von den N Objekten werden n zufällig ausgewählt. Die Zufallsvariable X ~ HG (n; N , M ) gibt an, wie häufig das Merkmal A bei n Beobachtungen auftritt. Die Wahrscheinlichkeiten für k = 0,..., n sind:
141
7
7.3 Andere diskrete Verteilungen
§M · §N − M · ¨ k ¸⋅¨ n − k ¸ ¹ P( X = k ) = © ¹ © §N· ¨n¸ © ¹
(7.27)
Der Quotient p = M / N wird auch als Anteilswert bezeichnet. Damit ist der Erwartungswert der hypergeometrischen Verteilung ähnlich wie bei der Binomialverteilung (Formel 7.14): E ( X ) = np = n ⋅
M N
(7.28)
Für die Varianz gilt: Var( X ) =
N −n ⋅ n ⋅ p ⋅ (1 − p ) N −1
(7.29)
Der Faktor ( N − n) /( N − 1) in Formel (7.29) entspricht der Endlichkeitskorrektur. Falls N im Vergleich zu n sehr groß ist, kann die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden. Beispiel 7.9 Von den 71 Studenten in Tabelle 2.1 sind 23 männlich. Wie groß ist die Wahrscheinlichkeit, dass von 5 zufällig ausgewählten Studenten 2 männlich sind? Nach (7.27) ergibt sich mit N = 71 , M = 23 , n = 5 und k = 2 : § 23· § 48 · ¨¨ ¸¸ ⋅ ¨¨ ¸¸ 2 3 253 ⋅17.296 P ( X = 2) = © ¹ © ¹ = = 0,336 13.019.909 § 71· ¨¨ ¸¸ ©5¹
7.3.5
Die diskrete Gleichverteilung
Schließlich sei noch die diskrete Gleichverteilung DG (k ) erwähnt. Sie beschreibt ein Zufallsexperiment, bei dem k Ereignisse A1 , A2 ,..., Ak mit jeweils derselben Wahrscheinlichkeit eintreten können. Ein bekanntes Beispiel ist der ideale Würfel, bei dem jede Augenzahl mit der Wahrscheinlichkeit p = 1 / 6 erzielt wird. In der Statistik spielen diskrete Gleichverteilungen bei Zufallszahlen eine Rolle. Dies sind Ziffernfolgen, bei denen jede Ziffer mit derselben Wahrscheinlichkeit p = 0,1 auftritt. Zwei nebeneinander stehende
142
Kapitel 7 · Diskrete Verteilungen
Ziffern bilden dann eine 2-stellige Zufallszahl zwischen 0 und 99. Diese sind gleichverteilt mit p = 1 / 100 . Übersicht 6: Diskrete Verteilungen
7
Name und Bezeichnung der Verteilung
Abschnitt
Anzahl und Art der mögliche Beobachtungen Einzelereignisse
Binomialverteilung B ( n, p )
7.2
n unabhängige
A und A
Poisson-Verteilung P (λ)
7.3.1
n unabhängige n ≥ 30, p ≤ 0,1
A und A
Polynomial-Verteilung
7.3.2
n unabhängige
A1 ,..., Ak
geometrische Verteilung NB(1, p)
7.3.3
bis A zum 1. Mal eintritt
A und A
negative Binomialverteilung NB(r , p)
7.3.3
bis A zum r. Mal eintritt
A und A
hypergeometrische Verteilung HG (n; N , M )
7.3.4
n abhängige
A und A
Gleichverteilung DG (k )
7.3.5
1
A1 ,..., Ak
8
Stetige Verteilungen 8.1
Stetige Zufallsvariable 145
8.1.1
Funktionen 145
8.1.2
Lage- und Streuungsparameter 147
8.1.3
Die zentralen Momente 147
8.2
Die Normalverteilung 148
8.2.1
Allgemeine Eigenschaften 148
8.2.2
Die Standardnormalverteilung 149
8.2.3
σ-Bereiche und Referenzbereiche 151
8.2.4
Normalisierende Transformationen 152
8.3
Sätze der Wahrscheinlichkeitsrechnung 155
8.3.1
Die Tschebyscheff’sche Ungleichung 155
8.3.2
Das Gesetz der großen Zahlen 157
8.3.3
Der zentrale Grenzwertsatz 159
8.3.4
Die Bedeutung der Normalverteilung 161
8.4
Die Verteilung von Überlebenszeiten 162
8.4.1
Einige wichtige Begriffe 162
8.4.2
Die Exponentialverteilung 164
8.4.3
Die Weibull-Verteilung 165
8.5
Prüfverteilungen 166
8.5.1
Die t-Verteilung 167
8.5.2
Die Chi2-Verteilung 168
8.5.3
Die F-Verteilung 170
145
8
8.1 Stetige Zufallsvariable
8.1
Stetige Zufallsvariable
8.1.1
Funktionen
Eine stetige Zufallsvariable X (z. B. Körpergewicht oder Körpergröße) kann theoretisch alle Zahlenwerte innerhalb eines bestimmten Intervalls annehmen. Die Wahrscheinlichkeitsverteilung wird durch die Dichtefunktion (oder Dichte) beschrieben. Diese Funktion ordnet jedem Wert xi der Zufallsvariablen einen Funktionswert f ( xi ) > 0 zu. Die Gesamtfläche unter der Kurve f (x) ist gleich 1: +∞
³ f ( x)dx = 1
(8.1)
−∞
Diese Gleichung drückt aus, dass die Zufallsvariable X mit Sicherheit (also der Wahrscheinlichkeit 1) einen Wert zwischen -∞ und +∞ annimmt. Sie ist vergleichbar mit (7.2); das Σ-Zeichen ist ersetzt durch das Integral. Die Verteilungsfunktion einer stetigen Zufallsvariablen ist das Integral über der Dichte: x
F ( x) = P( X ≤ x) =
³ f (t )dt
(8.2)
−∞
Daraus folgt für das komplementäre Ereignis X > x : +∞
P( X > x) =
³ f (t )dt = 1 − F ( x)
(8.3)
x
! Die Dichte wird in den Gleichungen (8.2) und (8.3) mit f ( t ) bezeichnet, z
weil x eine Grenze des Integrals darstellt, während sich die Variable t zwischen den Grenzen -∞ und x bzw. zwischen x und +∞ bewegt.
Aus den obigen Formeln lassen sich folgende allgemeine Eigenschaften der Verteilungsfunktion F ( x ) herleiten:
ŷ F ( x ) ist eine monoton wachsende Funktion, ŷ F ( x ) hat die Grenzwerte F( −∞ ) = 0 und F( +∞ ) = 1 , ŷ die Dichte f ( x ) ist die Ableitung der Verteilungsfunktion; es gilt nämlich: f ( x ) = F' ( x ) .
146
Kapitel 8 · Stetige Verteilungen
Die Wahrscheinlichkeit, dass X einen Wert zwischen a und b annimmt, wird folgendermaßen berechnet:: b
P ( a ≤ X ≤ b) =
³ f ( x)dx = F (b) − F (a)
(8.4)
a
Dieses Integral beschreibt eine Fläche, die von der x-Achse, der Kurve f ( x ) und den Parallelen zur y-Achse x = a und x = b be› Abbildung 8.1). Dies entspricht einem Teil der Gegrenzt wird (z samtfläche unter der Dichtefunktion, deren Wert nach (8.1) 1 beträgt. Infolgedessen hat das Integral in (8.4) immer einen Wert zwischen 0 und 1. Für die Wahrscheinlichkeit, dass X einen bestimmten Wert a annimmt, berechnet man: P( X = a) = F (a) − F (a) = 0
8
(8.5)
Dieses Ergebnis mag manchen Leser überraschen. Es sei an einem konkreten Beispiel erläutert: Wir betrachten die Zufallsvariable X, die das Merkmal „Körpergröße“ symbolisiert. Dann ist es sinnlos, nach der Wahrscheinlichkeit zu fragen, mit der X einen Wert von beispielsweise 178 cm annimmt. Dieser scheinbare Widerspruch zur Realität wird dadurch erklärt, dass die gemessene Körpergröße nicht exakt 178 cm beträgt, sondern sich – bei einer Messgenauigkeit von 1 cm – zwischen 177,5 cm und 178,5 cm bewegt.
Abb. 8.1 Dichte einer stetigen Zufallsvariablen. Die eingezeichnete Fläche entspricht P ( a ≤ X ≤ b) .
P(a ≤ x ≤ b)
a
b
147
8
8.1 Stetige Zufallsvariable
8.1.2
Lage- und Streuungsparameter
Für den Erwartungswert einer stetigen Zufallsvariablen gilt: +∞
µ=
³ x ⋅ f ( x)dx
(8.6)
−∞
Der Median und die α-Quantile sind definiert als: F( µ ) = 0 ,5 bzw. F( µ α ) = α . Der Modus ist der Wert, an dem die Dichtefunktion f ( x ) ein Maximum aufweist (bei multimodalen Verteilungen gibt es mehrere relative Maxima). Die Varianz lässt sich darstellen als: +∞ 2
σ =
³ ( x − µ)
2
f ( x)dx
(8.7)
−∞
Ansonsten gelten die in Abschnitt 7.1 dargelegten Rechenregeln analog. 8.1.3
Die zentralen Momente
Weitere Charakterisierungen einer quantitativen Zufallsvariablen gestatten die so genannten Momente EX k und die zentralen Momente E ( X − EX )k (wobei k eine natürliche Zahl ist). Das erste Moment EX haben wir bereits als den Erwartungswert µ kennen gelernt. Das zweite zentrale Moment E( X − EX )2 ist die Varianz. Aus dem 3. zentralen Moment lässt sich die Schiefe γ1 (Gamma) herlei› Formel 4.15): ten (z γ1 = E ( X − EX ) 3 σ 3
(8.8)
Da sich wegen der 3. Potenz negative und positive Abweichungen der x-Werte vom Mittelwert ausgleichen, ergibt sich bei symmetrischen Verteilungen für die Schiefe der Wert 0. Bei rechtsschiefen Verteilungen ist γ1 > 0 , bei linksschiefen ist γ1 < 0 . Mit dem 4. zentralen Moment wird die Wölbung definiert als γ 2 = E ( X − EX ) 4 σ 4 − 3
(8.9)
› Formel 4.17). Das 4. Moment der Normalverteilung ist 3σ 4 . Mit (z der Definition nach (8.9) erreicht man, dass die Wölbung einer normalverteilten Zufallsvariablen den Wert 0 annimmt.
148
Kapitel 8 · Stetige Verteilungen
8.2
Die Normalverteilung
8.2.1
Allgemeine Eigenschaften
Die Normalverteilung ist für die Statistik und deren praktische Anwendung von grundlegender Bedeutung. Ihre Dichte wird durch die Gauß’sche Glockenkurve dargestellt (sie war ehemals zusammen mit dem Konterfei von Carl Friedrich Gauß auf dem 10-Mark-Schein abgebildet). Die zugrunde liegende mathematische Funktion lautet: f ( x) =
8
1 2π ⋅ σ
−( x −µ) 2 2 ⋅ e 2σ
(8.10)
Eine normalverteilte Zufallsvariable X ist durch den Erwartungswert µ und die Standardabweichung σ eindeutig charakterisiert. Sie wird deshalb allgemein als X ~ N (µ, σ 2 ) angegeben (so auch in diesem Buch); andere Autoren verwenden die Schreibweise X ~ N (µ, σ) . Aus (8.10) lassen sich folgende Eigenschaften der Normalverteilung herleiten:
ŷ Die Glockenkurve ist symmetrisch um den Erwartungswert µ; es gilt also: f (µ + x) = f (µ − x) .
ŷ Sie hat zwei Wendepunkte bei x = µ − σ und x = µ + σ . ŷ Ihr Maximum ist an der Stelle x = µ . ŷ Der Erwartungswert, der Median und der Modalwert von X stimmen überein.
ŷ Die Dichte f ( x) ist für jede reelle Zahl definiert und größer als 0. Für x → ±∞ nähert sie sich asymptotisch der x-Achse.
Der Ausdruck „asymptotisch“ bedeutet in diesem Zusammenhang, dass die Glockenkurve für hinreichend große x-Beträge beliebig nahe an die x-Achse herankommt, ohne diese jedoch zu erreichen. Die spezielle Form der Glockenkurve hängt von der Standardabweichung σ ab: Bei kleinem σ ist sie schmal und hoch; bei großem σ ist › Abbildung 8.2). In jedem Fall ist die sie dagegen breit und niedrig (z Gesamtfläche unter der Kurve gemäß Formel (8.1) gleich 1. Die Schiefe γ1 ist – wie bei jeder symmetrischen Verteilung – gleich 0. Auch die Wölbung γ 2 ist nach (8.9) so definiert, dass sie bei einer Normalverteilung den Wert 0 annimmt. Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X einen Wert zwischen zwei Grenzwerten a und b annimmt, berechnet man nach (8.4) über die Verteilungsfunktion F ( x ) :
149
8
dx = F (b) − F (a)
(8.11)
8.2 Die Normalverteilung
P ( a ≤ X ≤ b) =
b
1 2π ⋅ σ
⋅³e
− ( x −µ ) 2 2σ 2
a
Diese Wahrscheinlichkeit entspricht der Fläche, die von der Glockenkurve, der x-Achse und den Parallelen zur y-Achse x = a und › Abbildung 8.1). Die Bestimmung eines solx = b begrenzt wird (z chen Intervalls ist allerdings problematisch: Es ist nicht möglich, die Funktion F (x ) analytisch aufzulösen, und ein Taschenrechner hilft hier im Allgemeinen auch nicht weiter. Man kann sich jedoch heutzutage – wenn man Zugang zu einem Rechner mit geeigneter Software hat – die gewünschten Werte einfach und schnell berechnen lassen. Mathematische Betrachtung der Gauß’schen Glockenkurve Für die Ableitungen von f (x) berechnet man mit der Kettenregel der Diffe§ ( x − µ) 2 1 · − 2¸. und f ' ' ( x) = f ( x) ⋅ ¨ ¨ σ4 σ ¸¹ σ © Daraus folgt: Das Maximum (d. h. der Modalwert) ist bei x = µ ( f ' (µ) = 0 , f ' ' (µ) < 0 ); die Wendepunkte bei x = µ ± σ ( f ' ' (µ ± σ) = 0 ). Der Nachweis, dass die gesamte Fläche unter der Glockenkurve gleich 1 ist, erfordert die Lösung des bestimmten Integrals über den Ausdruck in Formel (8.10).
rentialrechnung: f ' ( x) = − f ( x) ⋅
x−µ 2
Um nachzuweisen, dass es sich bei den Parametern µ und σ 2 tatsächlich um den Erwartungswert bzw. die Varianz handelt, reichen schulmathematische Kenntnisse nicht aus. Deshalb wird an dieser Stelle auf den Beweis verzichtet.
8.2.2
Die Standardnormalverteilung
Um eine bestimmte Wahrscheinlichkeit einer normalverteilten Zufallsvariablen auszurechnen, ist man ohne geeignete Statistik-Software auf Tabellen angewiesen, in denen die Funktionswerte der Verteilungsfunktion aufgelistet sind und die in jedem Statistik-Buch zu finden sind. Diesen Tabellen liegt generell die Standardnormalverteilung zugrunde – das ist eine spezielle Normalverteilung mit dem Erwartungswert 0 und der Varianz 1. Jede normalverteilte Zufallsvariable X ~ N (µ, σ 2 ) lässt sich in die Standardnormalverteilung Z ~ N (0,1) transformieren durch:
Z=
X −µ σ
(8.12)
150
Kapitel 8 · Stetige Verteilungen
Mit den Rechenregeln (7.5) und (7.9) lässt sich nachweisen, dass EZ = 0 und VarZ = 1 . Durch die Transformation wird die Glockenkurve entlang der x-Achse so verschoben, dass der Erwartungswert 0 wird. Außerdem wird die Kurve aufgrund der Division durch ı in ihrer Form so angepasst, dass die Standardabweichung den Wert 1 annimmt. Für die Dichte und die Verteilungsfunktion der Standardnormalverteilung erhält man mit (8.10) und (8.2): ϕ( z ) =
1 2π
−z2 ⋅e 2
(8.13) z
Φ( z ) = P(Z ≤ z ) =
³ ϕ(t )dt =
−∞
1 2π
z
³
−t 2 e 2
dt
(8.14)
−∞
Die griechischen Buchstaben ϕ (klein Phi) und ĭ (groß Phi) entsprechen den lateinischen Buchstaben f bzw. F. In der Tabelle A im Anhang dieses Buches sind diverse z-Perzentile zusammen mit den Funktionswerten ϕ(z ) und Φ (z ) aufgelistet.
8
Beispiel 8.1 Die Körpergröße einer Population von jungen Männern X sei normalverteilt mit µ = 180 cm und σ = 10 cm . Gesucht ist die Wahrscheinlichkeit P (170 cm ≤ X ≤ 190 cm) . Nach (8.12) berechnet man für die entsprechenden Grenzen der standardisierten Variablen: 190 − 180 170 − 180 = +1 . z1 = = −1 und z2 = 10 10 Aus den z-Variablen geht hervor, dass die Körpergrößen 170 cm und 190 cm eine Standardabweichung unter bzw. über dem Erwartungswert liegen. Nach (8.11) ist die gesuchte Wahrscheinlichkeit: P (-1 ≤ Z ≤ +1) = P ( Z ≤ 1) − P ( Z ≤ −1) . Nun ist P ( Z ≤ 1) = φ(1) . Wegen der Symmetrie der Glockenkurve gilt: P ( Z ≤ −1) = P ( Z ≥ 1) = 1 − P ( Z ≤ 1) = 1 − Φ (1) . Demnach ist P (-1 ≤ Z ≤ +1) = Φ (1) − (1 − Φ (1)) = 2Φ (1) − 1 Aus Tabelle A ist zu entnehmen: Φ (1) = 0,84 . Daraus ergibt sich: P (170 cm ≤ X ≤ 190 cm) = 2 ⋅ 0,84 - 1 = 0,68 . i Eine Tabelle mit Funktionswerten der Standardnormalverteilung wurde z erstmals 1812 von Laplace in „Théorie Analytique des Probabilités“ publiziert. Ihr Umgang erfordert einige Übung, da man die gesuchten Werte nicht immer direkt ablesen kann. Aus Platzgründen enthalten derlei Tabellen nämlich im Allgemeinen nur Funktionswerte für z ≥ 0 . Für negative -z gilt Φ (− z ) = P ( Z ≤ − z ) = P ( Z ≥ z ) = 1 − Φ ( z ) aufgrund der Symmet-
8
151 8.2 Die Normalverteilung
rie der Glockenkurve. Heute lassen sich mit einer geeigneten Software derlei Wahrscheinlichkeiten für jede beliebige Normalverteilung leicht ermitteln. Dennoch mag die Berechnung der standardisierten z-Variablen sinnvoll sein: Sie informiert, um wie viele Standardabweichungen der › Beispiel 8.1). entsprechende x-Wert vom Erwartungswert Nj abweicht (z
8.2.3
σ-Bereiche und Referenzbereiche
Obwohl die Normalverteilung theoretisch für alle x zwischen −∞ und +∞ definiert ist, konzentrieren sich die Werte in unmittelbarer Umgebung des Erwartungswertes µ. Einige oft benutzte Intervalle und deren Wahrscheinlichkeiten lassen sich generell für jede Normalverteilung angeben. Aus Tabelle 8.1 geht hervor, dass etwa 2/3 › Beispiel 8.2). aller Messwerte innerhalb der Grenzen µ ± σ liegen (z Die Wahrscheinlichkeit, einen Wert außerhalb des 3σ -Bereichs zu finden, beträgt nahezu 0. Deshalb wird die Normalverteilung häufig verwendet, um quantitative, symmetrisch verteilte, eingipfelige Merkmale zu beschreiben – auch wenn der Wertebereich in der Praxis immer eine obere und eine untere Grenze aufweist. Für medizinische Fragestellungen sind so genannte Normberei› Abbildung 8.3) wichtig, die 95% oder che (oder Referenzbereiche, z 99% aller Werte enthalten. So legt man bei normalverteilten Daten zugrunde, dass ein Wert außerhalb eines bestimmten Referenzbereichs überprüft werden sollte (etwa auf Messfehler, pathologische Besonderheiten etc.). Allerdings muss darauf hingewiesen werden, dass anhand eines Normbereichs keine Entscheidung wie etwa „pathologisch / nicht pathologisch“ getroffen werden kann.
Abb. 8.2 Normalverteilungen mit gleichem Erwartungswert µ = 0 und unterschiedlicher Streuung. Obere Kurve: σ = 0,6 , mittlere Kurve: σ = 1 , untere Kurve: σ = 2
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0 -4
-2
0
2
4
152
Kapitel 8 · Stetige Verteilungen
Tabelle 8.1 Spezielle Intervalle und Wahrscheinlichkeiten der Normalverteilung
X : N (µ, σ 2 )
Intervallgrenzen für Z : N (0,1)
Bezeichnung des Intervalls
Wahrscheinlichkeit P
µ−σ ≤ X ≤ µ+σ
−1 ≤ Z ≤ 1
1σ-Bereich
0,6827
µ − 2σ ≤ X ≤ µ + 2σ
−2 ≤ Z ≤ 2
2σ-Bereich
0,9545
µ − 3σ ≤ X ≤ µ + 3σ
−3 ≤ Z ≤ 3
3σ-Bereich
0,9973
µ − 1,96σ ≤ X ≤ µ + 1,96σ
−1,96 ≤ Z ≤ 1,96
95%-Referenzbereich
0,95
µ − 2,58σ ≤ X ≤ µ + 2,58σ
−2,58 ≤ Z ≤ 2,58
99%-Referenzbereich
0,99
Intervallgrenzen für
8
Beispiel 8.2 Die Körpergröße einer männlichen Population X sei normalverteilt mit µ = 180 cm und σ = 10 cm . Gesucht ist das Intervall um den Erwartungswert, in dem sich mit einer Wahrscheinlichkeit von 95% ein Messwert befindet. Der Tabelle 8.1 ist zu entnehmen, dass dieses Intervall durch µ ± 1,96σ begrenzt ist. Damit berechnet man für die untere bzw. obere Grenze: x1 = µ − 1,96σ = 160,4 cm und x2 = µ + 1,96σ = 199,6 cm . Also gilt: P (−1,96 ≤ Z ≤ +1,96) = P (160,4 cm ≤ X ≤ 199,6 cm) = 0,95 . Diese Wahrscheinlichkeit lässt sich graphisch darstellen als die Fläche unter der Glockenkurve, bei der an beiden Seiten 2,5% „abgeschnitten“ sind. Jeweils 2,5 % aller Studenten sind kleiner als 160,4 cm oder größer als 199,6 cm; 95 % haben eine Größe zwischen diesen beiden Werten.
8.2.4
Normalisierende Transformationen
Bei den Anwendern der Statistik ist die Normalverteilung aus verschiedenen Gründen recht beliebt. Zum einen lassen sich Referenzbereiche auch ohne Computer sehr leicht berechnen; zum anderen setzen – wie wir später sehen werden – viele Verfahren der induktiven Statistik normalverteilte Daten voraus. Leider sind jedoch etliche Merkmale in der Medizin rechtsschief verteilt. Das heißt: Die Dichtefunktion hat einen Gipfel am linken Rand und einen langen Auslauf an der rechten Seite. Bei empirischen Daten ist dies optisch erkennbar am Histogramm. Rechnerisch lässt sich die Verteilungsform über die empirische Schiefe nach Formel (4.15) nachprüfen; sie ist bei einer rechtsschiefen Verteilung › Abbildung 4.1b). größer als 0 (z
8
153 8.2 Die Normalverteilung
Abb. 8.3 95%-Referenzbereich einer Normalverteilung 95% 2,5 %
2,5 %
Eine solche Verteilung entsteht dadurch, dass ein Merkmal nach unten eine natürliche Grenze aufweist, während im oberen Wertebereich die Einflussfaktoren multiplikativ zusammen wirken. Dadurch ist die Variabilität der Messwerte am unteren Rand eingeschränkt, wohingegen im oberen Bereich die Werte durch zufällige Änderungen wesentlich stärker beeinflusst werden. Als Beispiele seien das Körpergewicht der erwachsenen Bevölkerung, der systolische und der diastolische Blutdruck oder die Senkungsgeschwindigkeit von Erythrozyten genannt (jeweils mit 0 als untere Grenze). In diesen Fällen ist es eventuell möglich, durch eine logarithmische Transformation der Originaldaten eine angenäherte Normalverteilung zu erhalten. Man betrachtet also anstelle der X-Variablen die transfomierte Y-Variable Y = ln X
(8.15)
Wenn Y = ln X normalverteilt ist, heißt X logarithmisch normalverteilt (oder lognormalverteilt). Dabei ist „ln“ der natürliche Logarithmus zur Basis e (Euler’sche Zahl). Man schreibt abkürzend X ~ LN (µ, σ 2 ) , wobei µ den Erwartungswert und σ 2 die Varianz von Y bezeichnen. Eine lognormalverteilte Zufallsvariable X muss positiv sein, da andernfalls die Transformation X → ln X nicht möglich ist. Auf diese Weise werden kleine x-Werte zwischen 0 und 1 in negative y-Werte abgebildet; große x-Werte am rechten Rand der Verteilung werden gestaucht. Die Rücktransformation erfolgt über: X = eY
(8.16)
Die Umrechnungen (8.15) oder (8.16) sind mühelos mit einem Taschenrechner zu bewältigen. Da die e-Funktion streng monoton
154
Kapitel 8 · Stetige Verteilungen
wachsend ist, gilt für jede Zahl c > 0 : Y ≤ c ist gleichbedeutend mit X = eY ≤ e c . Daraus folgt: P (Y ≤ c) = P ( X ≤ e c )
(8.17)
Aus dieser Eigenschaft lassen sich folgende Aussagen herleiten:
ŷ Allgemein lassen sich aus den Quantilen von Y = ln X nach ŷ ŷ ŷ
8
ŷ
Rücktransformation die entsprechenden Quantile von X bestimmen. Die zurücktransformierten Grenzen der Referenzbereiche von Y sind die Grenzen der Referenzbereiche von X . Der Median der transformierten Variablen Y ist gleich deren Erwartungswert µ (da Y normalverteilt ist). Dann ist der Median der log-normalen Verteilung X gleich e µ ; denn wegen (8.17) gilt: P ( X ≤ e µ ) = P (Y ≤ µ) = 0,5 . Der Erwartungswert von X ist nicht einfach zu bestimmen; bei › Abdieser Verteilung ist jedoch das geometrische Mittel (z schnitt 4.2.6) ohnedies das sinnvollere Lagemaß. Aus der Formel (4.4) lässt sich mit elementaren Berechnungen herleiten: Das geometrische Mittel der x-Werte entspricht dem Median e µ .
Beispiel 8.3 Die Konzentrationswerte von Serum-IgM bei Kindern seien log-normalverteilt mit Werten zwischen 0,1 und 2,8 g/l. Durch Logarithmieren erhalte man eine normalverteilte Zufallsvariable Y mit dem Erwartungswert µ y = −0,36 und der Standardabweichung s y = 0,51 . Dann ergibt sich für den Median und
~ = e −0,36 = 0,70 g/l. das geometrische Mittel von X: µ x Für den 95%-Referenzbereich von Y berechnet man folgende Grenzwerte: y1 = µ − 1,96σ = −0,36 − 1,96 ⋅ 0,51 = −1,36 und y2 = µ + 1,96σ = −0,36 + 1,96 ⋅ 0,51 = 0,64
Innerhalb der Grenzen x1 = e −1,36 = 0,26 g/l und
x2 = e0,64 = 1,90 g/l liegen
demnach 95% aller IgM-Werte. Nur 2,5% sind größer als 1,90 g/l, und 2,5 % sind kleiner als 0,26 g/l. i Wenn sich die 0 oder negative Werte unter den Original-Daten befinden, z bietet sich eine Transformation der Form Y = ln( X + a) (wobei a eine konstante, positive Zahl ist) an. Bei sehr schiefen Verteilungen mit extrem großen Werten erreicht man eine Normalverteilung eventuell durch 2-faches Logarithmieren: Y = ln ln ( X ) . Die optimale Art der Transformation muss empirisch bestimmt werden.
155
8
8.3 Sätze der Wahrscheinlichkeitsrechnung
Weit seltener werden in den Biowissenschaften linksschiefe Verteilungen beobachtet. Sie zeichnen sich aus durch einen langen Anlauf › Abbildung 4.1c). Ihre links und einen Gipfel am rechten Rand (z Schiefe ist kleiner als 0. Bei diesen Verteilungen finden sich viele Daten im unteren Wertebereich, während nach oben eine natürliche Grenze existiert. Beispiele sind die Schwangerschaftsdauer, die Tragezeit von Säugetieren oder der Kopfumfang von Neugeborenen. Eine Normalisierung dieser Verteilungen erreicht man durch eine Potenztransformation wie z. B.: Y = X 1,5
(8.18)
Dadurch wird der Gipfel am rechten Rand in die Breite gezogen. Bei besonders stark ausgeprägter Rechtsgipfeligkeit potenziert man mit einem höheren Wert.
8.3
Sätze der Wahrscheinlichkeitsrechnung
Um die eigentliche Bedeutung der Normalverteilung ermessen zu können, benötigen wir einige bekannte Sätze aus der Wahrscheinlichkeitsrechnung, die in diesem Abschnitt vorgestellt werden. 8.3.1
Die Tschebyscheff’sche Ungleichung
Von dem russischen Mathematiker Pafnutij Tschebyscheff (18211879) wurde im Jahr 1874 die nach ihm benannte Tschebyscheff’sche Ungleichung hergeleitet. Sie erlaubt eine Abschätzung der Wahrscheinlichkeit, mit der die Zufallsvariable X um mehr als eine feste Zahl vom Erwartungswert µ abweicht. Es gilt:
P(| X − µ |> kσ) ≤
1 k2
für alle k > 0
(8.19)
Diese Ungleichung lässt sich auch in einer anderen Form schreiben, indem man den Faktor kσ durch ε (Epsilon) ersetzt: P (| X − µ |> ε) ≤
σ2 ε2
für alle ε > 0
(8.20)
Die Tschebyscheff’sche Ungleichung setzt keine besondere Verteilungsform voraus – sie gilt generell für alle, also für symmetrische
156
Kapitel 8 · Stetige Verteilungen
und schiefe Verteilungen. Allerdings sind die daraus hergeleiteten Abschätzungen recht grob. Für k = 1 ergibt sich aus (8.19) lediglich die triviale Feststellung: P (| X − µ |> σ) ≤ 1
Für k = 2 und k = 3 berechnet man: P (| X − µ |> 2σ) ≤
1 4
P (| X − µ |> 3σ) ≤
1 9
Demnach liegen bei jeder Verteilung mindestens 8/9 aller Werte innerhalb der Grenzen µ±3σ. Wenn genauere Informationen bezüglich der Verteilungsform vorliegen, sind bessere Abschätzungen möglich. Gauß hat bereits 1821 für symmetrische, eingipfelige Verteilungen eine schärfere Ungleichung nachgewiesen: P (| X − µ |> kσ) ≤
8
4 9k 2
für alle k ≥ 2
3 ≈ 1,155
(8.21)
Für k = 2 oder k = 3 erhält man damit folgende Abschätzungen:
1 ≈ 0,111 9 4 P (| X − µ |> 3σ) ≤ ≈ 0,049 81
P(| X − µ |> 2σ) ≤
Mathematische Herleitung der Tschebyscheff’schen Ungleichung Zunächst betrachten wir eine stetige Zufallsvariable X mit dem Erwartungswert µ, die nur positive Werte annehmen kann. Dann gilt nach der Definition des Erwartungswertes in (8.6) und nach (8.3) für alle c > 0 : +∞
µ=
³0
xf ( x)dx ≥
+∞
³
+∞
xf ( x)dx ≥ cµ
cµ
³ f ( x)dx = cµ ⋅ P( X > cµ)
cµ
Daraus folgt: P ( X > cµ) ≤ 1 / c . Wenn man nun anstelle von X die Variable ( X − µ) 2 mit dem Erwartungswert σ 2 betrachtet und für c eine Konstante k 2 einsetzt, erhält man:
(
)
P ( EX − µ) 2 > k 2σ 2 ≤ 1 / k 2 .
Da der Ausdruck in der Klammer gleichbedeutend ist mit: EX − µ > kσ , folgt daraus die Tschebyscheff’sche Ungleichung in der Form (8.19).
8
157 8.3 Sätze der Wahrscheinlichkeitsrechnung
Beispiel 8.4 Wir betrachten die Körpergröße X einer Grundgesamtheit einer männlichen Population mit µ x = 180 cm und σ x = 10 cm . X ist symmetrisch verteilt. Dann gilt nach der Ungleichung von Gauß: 8/9=89% der Studenten haben eine Körpergröße zwischen 160 cm und 200 cm.
8.3.2
Das Gesetz der großen Zahlen
Es ist intuitiv klar, dass sich der Erwartungswert einer Grundgesamtheit durch einen Mittelwert umso genauer schätzen lässt, je größer der zugrunde liegende Stichprobenumfang ist. Das Gesetz der großen Zahlen ist die mathematisch präzise Formulierung dieses Sachverhalts. Vorab einige Überlegungen: Wir wissen, dass der Mittelwert aus n Werten berechnet wird, die zufällig in die Stichprobe gelangen. Wenn man aus derselben Grundgesamtheit eine andere Stichprobe des Umfangs n ziehen würde, erhielte man andere StichprobenWerte und damit auch einen anderen Mittelwert. Bei einer großen Grundgesamtheit sind eine enorme Vielzahl von Stichproben des Umfangs n und fast ebenso viele verschiedene Mittelwerte denkbar. Demzufolge ist jeder Mittelwert vom Zufall abhängig und lässt sich insofern auffassen als die Realisation einer Zufallsvariablen: n
¦ Xi X =
i =1
n
Alle Variablen X i haben den Erwartungswert µ und die Varianz σ 2 . Für die Funktional-Parameter von X leitet man her: E( X ) = µ
(8.22) 2
Var( X ) = σx =
σ n
σ n
(8.23) (8.24)
Diese Betrachtung der Zufallsvariablen X ist für jemanden, der sich zum ersten Mal mit Wahrscheinlichkeitsrechnung befasst, eine eigenartige Sichtweise. Normalerweise liegt eine konkrete Stichprobe vor, aus der ein einziger Mittelwert resultiert. Wieso spricht man nun von der Verteilung der Mittelwerte, und was bedeuten in
158
8
Kapitel 8 · Stetige Verteilungen
diesem Zusammenhang der Erwartungswert und die Standardabweichung von X ? Man muss sich – um einen Mittelwert beurteilen zu können – darüber im Klaren sein, dass dieser Wert zufällig zustande gekommen ist, und dass sich ebenso gut ein anderer aus einer immensen Vielzahl von Möglichkeiten hätte ergeben können. Die Variabilität dieser möglichen Mittelwerte wird durch die Standardabweichung σ x quantifiziert. Sie wird deshalb auch als der Standardfehler des Mittelwerts bezeichnet. Dieser ist umso geringer, je kleiner die Standardabweichung der Grundgesamtheit σ und je größer der Stichprobenumfang n ist. Aus diesem Grund ermöglichen homogene Grundgesamtheiten mit kleinem σ bessere Schätzungen des Erwartungswerts als heterogene Populationen mit großem σ . Wir werden in Kapitel 9 bei der Behandlung von Schätzverfahren darauf zurückkommen. Im nächsten Abschnitt 8.3.3 wird gezeigt, dass die Verteilung der Mittelwerte einer Normalverteilung entspricht. Nach diesen theoretischen Überlegungen lässt sich nun das so genannte schwache Gesetz der großen Zahlen herleiten. Es beinhaltet die Aussage, dass sich ein Mittelwert x mit wachsendem Stichprobenumfang dem Erwartungswert µ nähert. Mathematisch formuliert man dies folgendermaßen:
X =
1 n ¦ Xi → µ n i =1 n →∞
(8.25)
Man sagt auch: Der Mittelwert konvergiert gegen den Erwartungswert. Die schärfere Form – das starke Gesetz der großen Zahlen – besagt, dass diese Annäherung mit einer Wahrscheinlichkeit von nahezu 1 erfolgt. Sei ε > 0 eine beliebige positive Zahl; dann gilt: P (| X − µ |< ε ) → 1 n →∞
(8.26)
Verbal formuliert bedeutet die Formel (8.26), dass die Differenz ε zwischen Mittelwert und Erwartungswert beliebig klein gehalten werden kann, wenn n entsprechend groß ist. Einerseits rechtfertigt dieses Gesetz einen hohen Stichprobenumfang. Andererseits besagt es auch, dass ab einer gewissen Größe der Unterschied zwischen Mittelwert und Erwartungswert so gering ist, dass eine Erhöhung des Stichprobenumfangs nicht mehr sinnvoll ist.
159
8
8.3 Sätze der Wahrscheinlichkeitsrechnung
Mathematische Herleitung des Gesetzes der großen Zahlen Zunächst berechnen wir den Erwartungswert und die Varianz des Mittelwerts. Mit (7.5) und (7.6) leitet man her: n 1 n n ⋅µ E ( X ) = E (¦ X i / n) = ¦ E ( X i ) = =µ n n i =1 i =1 Für die Varianz berechnet man mit (7.9) und (7.12): n
Var ( X ) = Var(
n
X i / n) = ¦ ¦ Var( X i ) = n i i 1
2
=1
=1
n ⋅ σ2 n2
=
σ2 n
Dann folgt mit der Tschebyscheff’schen Ungleichung (8.20):
(
)
Var( X )
σ2
→ 0 ε2 nε 2 n → ∞ Wenn man nun die Wahrscheinlichkeit für das komplementäre Ereignis P | X − µ |> ε ≤
=
X − µ < ε betrachtet, ergibt sich das Gesetz der großen Zahlen nach (8.26).
8.3.3
Der zentrale Grenzwertsatz
Der zentrale Grenzwertsatz sagt aus, dass – unter sehr allgemeinen Bedingungen – die Summe einer großen Anzahl von Zufallsvariablen normalverteilt ist. Mathematisch präzise formuliert lautet dieser Satz: Seien X i ( i = 1,..., n ) unabhängige, identisch verteilte Zufallsvariablen mit dem Erwartungswert µ und der Varianz σ 2 . Dann ist die Summe der X i asymptotisch normalverteilt mit dem Erwartungswert n ⋅ µ und der Varianz n ⋅ σ 2 . Das bedeutet wiederum, dass die Variable n
¦X Zn =
i
− n ⋅µ
i =1
n ⋅σ
=
X −µ σ/ n
asymptotisch standardnormalverteilt ist. Daraus ergeben sich unmittelbar einige wichtige Konsequenzen bezüglich der:
• Verteilung von Zufallsvariablen. Dieser Satz rechtfertigt die An nahme, dass eine Zufallsvariable normalverteilt ist, wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken. Aus diesem Grund sind beispielsweise Messfehler normalverteilt. Carl Friedrich Gauß hat dies bereits im Jahre 1794 erkannt und beschrieben; deshalb wird die Normalverteilung ihm zu Ehren auch Gauß-Verteilung genannt.
160
Kapitel 8 · Stetige Verteilungen
• Verteilung von Mittelwerten. Aus dem Gesetz der großen Zahlen geht hervor, dass die Gesamtheit aller theoretisch denkbaren Mittelwerte, die aus Stichproben des Umfangs n derselben Grundgesamtheit berechnet werden, den Erwartungswert µ und die Varianz σ 2 / n hat. Aus dem zentralen Grenzwertsatz folgt nun, dass – falls der Stichprobenumfang n hinreichend groß ist (etwa n ≥ 25 ) – diese Mittelwerte normalverteilt sind (auch wenn die Grundgesamtheit nicht normalverteilt ist). Diese Aussage hat weit reichende Fol› Beispiel 8.5). gen für die Methoden der induktiven Statistik (z • Binomialverteilung. Eine binomialverteilte Zufallsvariable X ~ B (n, p ) lässt sich nämlich auffassen als die Summe von n identisch verteilten, unabhängigen Variablen X i , die jeweils die Werte 1 oder 0 (mit den Wahrscheinlichkeiten p bzw. q = 1 − p ) annehmen können. Nach dem zentralen Grenzwertsatz kann eine Binomialverteilung für hinreichend großes n durch eine Normalverteilung X mit › Abdem Erwartungswert µ = np und der Varianz σ2 = npq (z schnitt 7.2.2) approximiert werden. Als Faustregel gilt, dass dazu die Ungleichung npq ≥ 9 erfüllt sein muss.
8
Beispiel 8.5 Das Körpergewicht weiblicher Studenten habe einen Erwartungswert von µ = 61 kg und eine Standardabweichung von σ = 6,2 kg . Wir führen nun folgendes Gedankenexperiment durch: Aus der Grundgesamtheit werden mehrere Stichproben vom Umfang n = 30 entnommen und jeweils der Mittelwert bestimmt. Nach dem zentralen Grenzwertsatz sind diese Mittelwerte normalverteilt mit einem Erwartungswert von µ x = 61 kg und einer Standardabweichung von σ x = 6,2 / 30 kg = 1,13 kg . Wegen der Normalverteilung der x definieren µ x ± 1,96 ⋅ σ x = (61 ± 1,96 ⋅1,13) kg einen 95%-Referenzbereich, d. h. P(58,8 kg ≤ x ≤ 63,2 kg) = 0,95 . Man wird also bei einer Stichprobe des Umfangs n = 30 mit 95%-iger Wahrscheinlichkeit einen Mittelwert zwischen 58,8 und 63,2 kg erhalten; die Wahrscheinlichkeiten, dass der Mittelwert kleiner ist als 58,8 kg oder größer als 63,2 kg, betragen jeweils 2,5 %. i Der Zusammenhang zwischen Binomial- und Normalverteilung wurde z von dem französischen Mathematiker Abraham de Moivre (1667-1754) im Jahre 1718 erkannt und in seinem Werk „The doctrine of chances“ beschrieben. De Moivre hat die Normalverteilung sozusagen „entdeckt“. Von Gauß wurde sie einige Jahrzehnte später bei der Erarbeitung seiner Fehlertheorie wiederentdeckt. Es wurde schon früh vermutet, dass die Aussage des zentralen Grenzwertsatzes gilt. Der Beweis für diesen Satz wurde jedoch erst im Jahre 1920 erbracht.
161
8
8.3 Sätze der Wahrscheinlichkeitsrechnung
8.3.4
Die Bedeutung der Normalverteilung
Die zentrale Bedeutung der Normalverteilung für die Statistik und deren Anwendung in den Biowissenschaften muss unter verschiedenen Aspekten beurteilt werden. Sie lässt sich ansehen als:
• Eine empirische Verteilung. Der belgische Astronom und Physi ker Adolphe Quetelet (1796-1874) gab ein frühes Beispiel für die Normalverteilung eines Merkmals menschlicher Individuen: Ihm war aufgefallen, dass die Daten des Brustumfangs von 5.738 schottischen Soldaten angenähert normalverteilt sind. Der Name „Normalverteilung“ wurde von Francis Galton im Jahr 1880 eingeführt. Einige Wissenschaftler vertraten damals die Auffassung, dass die belebte Natur bei jedem Merkmal die Normalverteilung anstrebe. „Normal“ wird dabei im Sinne von „allgemein üblich“ oder „physiologisch“ verwendet. Wir wissen heute, dass dieser Ansatz nicht stimmt. Es gibt zwar einige medizinisch relevante Merkmale, die angenähert normalverteilt sind (z. B. die Körpergröße erwachsener Männer). Andere wichtige Verteilungen in der Medizin sind jedoch › Abschnitt 8.4). nicht symmetrisch (z. B. Überlebenszeiten, z • Eine approximative Verteilung. Schiefe Verteilungen lassen sich › Abschnitt eventuell in eine Normalverteilung transformieren (z 8.2.4). Die Binomial- und auch die Poissonverteilung lassen sich unter gewissen Bedingungen durch die Normalverteilung approximie› Abschnitt 8.3.3). ren (z • Eine Verteilung für statistische Kennwerte. Nach dem zentralen Grenzwertsatz sind die Mittelwerte aus Stichproben des Umfangs n beliebiger Verteilungen normalverteilt. Bei normalverteilten Grundgesamtheiten sind auch andere Kenngrößen wie z. B. der Median, die Varianz etc. normalverteilt. Ansonsten können allerdings die Verteilungen statistischer Kennwerte – außer der des Mittelwertes – erheblich von der Normalverteilung abweichen. • Eine Basisverteilung für Prüfverteilungen. Die Normalverteilung bildet die Grundlage für die wichtigsten Prüfverteilungen, die in der › Abschnitt 8.5). induktiven Statistik Anwendung finden (z
162
Kapitel 8 · Stetige Verteilungen
8.4
Die Verteilung von Überlebenszeiten
8.4.1
Einige wichtige Begriffe
In diesem Abschnitt werden zwei wichtige Verteilungen vorgestellt, die in der medizinischen Forschung bei Überlebenszeitanalysen benutzt werden.
8
• Überlebenszeit. Das wesentliche Merkmal, das bei diesen Studien untersucht wird, ist die Dauer, die zwischen einem definierten Anfangsereignis und dem Eintritt eines zufallsbedingten Endereignisses vergeht. Diese Zeitspanne wird Überlebenszeit genannt. Die Anfangsereignisse sind beispielsweise die Geburt eines Individuums oder der Beginn einer therapeutischen Maßnahme; bei den Endereignissen handelt es sich üblicherweise um den Tod eines Patienten, den eingetretenen Heilerfolg, das Ende der Beschwerdefreiheit, das Auftreten eines bestimmten Symptoms oder den Ausfall eines transplantierten Organs. Wenn ein Lebewesen vom Zeitpunkt der Geburt bis zu seinem Tod beobachtet wird, spricht man von Lebensdauer. Dieser Begriff wird auch in der Technik verwendet, wo er die Zeit zwischen dem Betriebsbeginn und dem Ausfall eines Objekts bezeichnet. Der Begriff „Überlebenszeit“ ist also nicht unbedingt gleichbedeutend mit der Zeit, die bis zum Tod eines Individuums vergeht. Wenn wir im Folgenden dennoch das kritische Endereignis mit „Tod“ oder „Sterben“ gleichsetzen, dann geschieht dies deshalb, weil diese Begriffe anschaulicher und prägnanter sind als Formulierungen wie etwa „das Eintreten des kritischen Endereignisses“. • Überlebensfunktion. Sei T eine Zufallsvariable zur Beschreibung einer Überlebenszeit. T kann sinnigerweise nur positive Werte annehmen, die im Folgenden – da es sich um Zeiten handelt – mit dem Buchstaben t (vom lateinischen tempus) symbolisiert werden. Die dazugehörende Verteilungsfunktion F(t) gibt die Wahrscheinlichkeit an, mit der ein Individuum vor dem Zeitpunkt t stirbt. Daraus ergibt sich die Überlebenswahrscheinlichkeit oder Überlebensfunktion: S (t ) = P(T > t ) = 1 − F (t )
(8.27)
S (t ) ist also die Wahrscheinlichkeit, dass ein Individuum den Zeitpunkt t überlebt. Der Buchstabe S ist abgeleitet vom englischen Ausdruck „survival function“.
163
8
8.4 Die Verteilung von Überlebenszeiten
• Bedingte Überlebenswahrscheinlichkeit. Sie quantifiziert die Wahrscheinlichkeit für ein Individuum, das den Zeitpunkt t erreicht hat, eine weitere Zeitspanne der Länge ∆t (Delta t) zu überleben. Sie lässt sich nach Formel (6.8) berechnen als: P (T > t + ∆t T > t ) =
P (T > t + ∆t ) P (T > t )
(8.28)
• Momentane Sterberate r (t ) (auch Hazard-Rate oder im techni schen Bereich Ausfallrate genannt). Sie ist durch folgende Beziehung charakterisiert: r (t ) =
f (t ) S (t )
(8.29)
Dabei ist f (t ) die Dichtefunktion der Variablen T. Die momentane Sterberate hat gegenüber der in Abschnitt 6.3 eingeführten Mortalität den Vorteil, dass sie unabhängig vom Beobachtungszeitraum ist und für jeden Zeitpunkt t angegeben werden kann. Mathematische Herleitung der Sterberate Die Sterberate r (t ) basiert auf der bedingten Wahrscheinlichkeit, dass ein Individuum, nachdem es den Zeitpunkt t überlebt hat, im darauf folgenden Zeitintervall der Länge t + ∆t stirbt. Diese Wahrscheinlichkeit ist wegen der Definition von F (t ) und S (t ) : P(t < T ≤ t + ∆t ) F (t + ∆t ) − F (t ) = P (T > t ) S (t ) Unter der momentanen Sterberate versteht man nun diese Wahrscheinlichkeit bezogen auf ein infinitesimal kleines Zeitintervall der Länge ∆t : F (t + ∆t ) − F (t ) 1 r (t ) = lim ⋅ ∆t → 0 ∆t S (t ) P (t < T ≤ t + ∆t | X > t ) =
Für den Differentialquotienten gilt: lim
∆t → 0
Daraus ergibt sich: r (t ) =
f (t ) . S (t )
F (t + ∆t ) − F (t ) dF (t ) = = f (t ) . d (t ) ∆t
164 8.4.2
Kapitel 8 · Stetige Verteilungen
Die Exponentialverteilung
Im einfachsten Fall lässt sich die Überlebenswahrscheinlichkeit modellieren als (wobei λ > 0 ): S (t ) = P(T > t ) = e −λt
(8.30)
(λ = griechischer Buchstabe lambda). Die Wahrscheinlichkeit, mit der ein Individuum vor dem Zeitpunkt t stirbt, ist demnach: F (t ) = 1 − S (t ) = P (T ≤ t ) = 1 − e −λt
(8.31)
Eine Zufallsvariable T mit dieser Verteilungsfunktion nennt man exponentialverteilt T ~ Exp(λ ) . Für die Dichtefunktion ergibt sich: f (t ) = F ' (t ) = λe −λt
8
(8.32)
Die Exponentialverteilung hat einige bemerkenswerte Eigenschaften. Für die bedingte Überlebenswahrscheinlichkeit folgt mit (8.28) und (8.30): P (T > t + ∆t T > t ) =
e − λ (t + ∆t ) e
− λt
= e −λ⋅∆t
(8.33)
Die Wahrscheinlichkeit, noch eine Zeitspanne der Länge ∆t zu leben, ist also unabhängig vom Alter. Deshalb wird die Exponentialverteilung auch gedächtnislose Verteilung genannt. Wegen dieser Eigenschaft ist die Sterberate über die Zeit konstant; mit (8.29), (8.32) und (8.30) berechnet man nämlich: r (t ) =
f (t ) λe − λt = − λt = λ S (t ) e
(8.34)
Deshalb eignet sich die Exponentialverteilung zur Beschreibung von Lebensdauern nicht alternder Objekte oder von Überlebenszeiten bei Individuen, deren Tod unabhängig vom aktuellen Alter eintritt. Typische Beispiele sind die Lebensdauern radioaktiver Teilchen oder das Überleben nach einer schweren Erkrankung mit kurzer Lebenserwartung. Weitere wichtige Kenngrößen sind der Median (der bei Überlebenszeitstudien auch mediane Überlebenszeit genannt wird), der Erwartungswert (auch mittlere Lebensdauer genannt) und die Varianz:
165
8
8.4 Die Verteilung von Überlebenszeiten
~ = 1 ⋅ ln 2 µ λ
(8.35)
1 λ
(8.36)
µ=
σ2 =
1
(8.37)
λ2
Diese Maßzahlen sind also umso größer, je kleiner die momentane Sterberate λ ist. Die Schiefe beträgt grundsätzlich 2 – demnach ist die Exponentialverteilung ebenso wie die Lognormalverteilung rechtsschief. i Der Median lässt sich relativ einfach berechnen, indem man die Funktion z ~ ) = 0,5 in (8.31) nach µ ~ auflöst. Der Erwartungswert, die Varianz F (µ und die Schiefe ergeben sich durch aufwendige Integralrechnungen.
8.4.3
Die Weibull-Verteilung
Die Weibull-Verteilung ist nach dem schwedischen Ingenieur Waloddi Weibull (1887-1979) benannt, der damit die Bruchfestigkeit von Werkzeugen beschrieb. Im medizinischen Umfeld wird sie hauptsächlich zur Analyse von Überlebenszeiten verwendet. Eine Zufallsvariable T heißt Weibull-verteilt mit den Parametern λ > 0 und γ > 0 , wenn für ihre Verteilungsfunktion gilt:
F (t ) = 1 − e − λ⋅t
γ
für t > 0
(8.38)
Durch die beiden Parameter λ (lambda) und γ (gamma) ist die Verteilung eindeutig festgelegt; man schreibt: T ~ WB(λ, γ ) . Im Vergleich mit (8.31) wird deutlich, dass die Weibull-Verteilung eine Verallgemeinerung der Exponentialverteilung darstellt. Durch den zusätzlichen Parameter γ ist sie wesentlich flexibler; die Dichteund die Überlebensfunktion sowie die Parameter sind allerdings erheblich komplizierter zu berechnen. Aus der Verteilungsfunktion (8.38) leitet man her: S (t ) = P( X > t ) = 1 − F (t ) = e − λ⋅t f (t ) = F '(t ) = λγ ⋅ t ( γ−1) ⋅ e −λ⋅t
γ
γ
(8.39) (8.40)
166
Kapitel 8 · Stetige Verteilungen
Daraus ergibt sich für die momentane Sterberate: r (t ) =
f (t ) = λγ ⋅ t γ −1 S (t )
(8.41)
Es lassen sich nun drei Fälle unterscheiden:
ŷ Sterberate konstant ( γ = 1 ). Dieser Spezialfall ist die Exponentialverteilung.
ŷ Sterberate monoton wachsend ( γ > 1 ). Eine Weibullverteilung mit γ > 1 ist geeignet, ein Überleben mit Altern zu beschreiben.
ŷ Sterberate monoton fallend ( 0 < γ < 1 ). Diese Verteilung be-
schreibt ein Überleben mit Regeneration, bei dem mit wachsendem Alter die Sterberate abnimmt.
Den Median einer Weibullverteilung berechnet man, indem man die ~ ) = 0,5 auflöst; aus (8.38) ergibt sich unter AnwenGleichung F (µ dung elementarer Rechenregeln: 1/ γ
~ = §¨ ln 2 ·¸ µ © λ ¹
8
(8.42)
Dieser Parameter gibt an, nach welcher Zeit die Hälfte der Beobachtungseinheiten verstorben ist. i Die Berechnung anderer Parameter (Erwartungswert, Varianz) erfordert z die Kenntnis einer speziellen Funktion (nämlich der so genannten Gamma-Funktion). Ausführliche Informationen zu diesem Thema findet man in [9].
8.5
Prüfverteilungen
Wir wissen, dass nicht nur einzelne Messwerte xi , sondern auch statistische Kennwerte wie etwa der Mittelwert x oder die empirische Standardabweichung s dem Zufall unterliegen und damit als Realisationen einer Zufallsvariablen X bzw. S aufgefasst werden können. Die Prüfverteilungen dienen dazu, die Verteilung von statistischen Kenngrößen zu beschreiben. Die Prüfverteilungen sind die Grundlage für die Schätz- und Testmethoden der induktiven Statistik. Deren Anwendung setzt zwar nicht unbedingt spezielle Kenntnisse bezüglich der Prüfverteilungen voraus. Mathematisch weniger interessierte Leser können
167
8
8.5 Prüfverteilungen
daher diesen Abschnitt 8.5 überschlagen. Allerdings erscheinen die Verfahren der induktiven Statistik logischer und leichter nachvollziehbar, nachdem man sich mit dem theoretischen Hintergrund dieser Verteilungen etwas näher befasst hat. 8.5.1
Die t-Verteilung
Diese Verteilung wurde im Jahre 1908 von dem Engländer William Sealy Gosset (1876-1937) veröffentlicht. Gosset befasste sich mit der Schätzung von Mittelwerten, deren Verteilung nach dem zentralen › Abschnitt 8.3.3) durch die standardnormalverGrenzwertsatz (z teilte Zufallsvariable Z=
X −µ σ/ n
beschrieben wird. In der Praxis ist jedoch der Parameter σ meist unbekannt. Deshalb ist die Verteilung von Z nur theoretisch interessant, aber für praktische Untersuchungen wenig aufschlussreich. Aus diesem Grund ersetzte Gosset das σ durch die empirische Standardabweichung s und betrachtete anstelle von Z die Variable T=
X −µ S/ n
(8.43)
Diese Verteilung ging als Student- oder t-Verteilung in die Literatur ein. Sie ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen X i , aus denen X und S berechnet werden, normalverteilt sind mit dem Erwartungswert µ und der Varianz σ 2 . Die t-Verteilung hat ähnliche Eigenschaften wie die Standardnormalverteilung:
ŷ Sie ist symmetrisch um 0, stetig und glockenförmig, ŷ sie kann Werte zwischen −∞ und +∞ annehmen, und ŷ der Erwartungswert ist 0. Es gibt allerdings zwei wesentliche Unterschiede:
ŷ Sie ist nicht direkt abhängig von σ (sondern nur von s), ŷ sie ist aber abhängig vom Parameter f, der die Anzahl der Frei-
heitsgrade angibt. Die t-Verteilung nach (8.43) hat f = n − 1 Freiheitsgrade. Diese Anzahl begründet sich dadurch, dass in die
168
Kapitel 8 · Stetige Verteilungen
Berechnung der t -Größe n Beobachtungen einfließen, die einer einschränkenden Bedingung (durch die Vorgabe des Mittelwertes x ) unterliegen. Es existiert also für jeden Freiheitsgrad f eine spezielle t-Verteilung. Die Varianz beträgt f /( f − 2) für alle f ≥ 3 und ist damit größer als 1. Demzufolge hat die t-Verteilung für kleine Freiheitsgrade einen flacheren Verlauf als die Standard-Normalverteilung. Für große Freiheitsgrade geht sie in die Normalverteilung über. Die t-Verteilung spielt eine wichtige Rolle bei der Schätzung › Kapitel 9 bis 11). Einige und dem Vergleich von Lagemaßen (z Quantile, die für Schätz- und Testverfahren wichtig sind, sind in Tabelle B im Anhang aufgelistet. i Gosset war eigentlich als Chemiker bei der bekannten Bierbrauerei Guinz ness angestellt und betrieb Statistik als Hobby. Weil er als Angestellter seiner Firma nicht unter seinem Namen veröffentlichen wollte, benutzte er das Pseudonym „Student“.
8
8.5.2
Die Chi2-Verteilung
Die Chi2-Verteilung (sprich: Chi-Quadrat, auch mit dem griechischen Buchstaben χ 2 geschrieben) beschreibt in ihrer einfachsten Form die Verteilung des Quadrats einer standnormalverteilten Zufallsvariablen Z ~ N (0,1) . Für den Erwartungswert von χ12 = Z 2 gilt: EZ 2 = VarZ + ( EZ ) 2 = 1
(8.44)
Die Gleichung (8.44) leitet man aus der Definition der Varianz nach (7.7) her, indem man X durch Z ersetzt. Falls nun mehrere Variablen Z1 ,..., Z n unabhängig voneinander nach N (0,1) verteilt sind, ist deren Quadratsumme
¦Z
2 i
χ 2 -verteilt
mit n Freiheitsgraden oder (anders ausgedrückt): χ 2n -verteilt. Wegen (8.44) ist der Erwartungswert dieser Zufallsvariablen gleich n, die Varianz beträgt 2n und die Schiefe γ 1 = 8 / n . Die χ 2n › Abbildung 8.4). Mit wachVerteilung ist also immer rechtsschief (z sendem n nähert sie sich einer Normalverteilung. Wir betrachten nun n unabhängige, normalverteilte Variable X i ~ N (µ, σ2 ) . Dann sind die ( X i − µ) / σ standardnormalverteilt, und demnach gilt für deren Quadratsumme:
169
8
8.5 Prüfverteilungen
Abb. 8.4 Dichtefunktionen von Chi2-Verteilungen mit unterschiedlichen Freiheitsgraden n
2
§ Xi − µ · χn2 σ ¸¹ i =1 n
¦ ¨©
(8.45)
Wenn wir in diesem Ausdruck den Erwartungswert µ durch die Variable X ersetzen, erhalten wir eine χ 2 -Verteilung mit n − 1 Freiheitsgraden, da die X i wegen des Mittelwerts X einer einschränkenden Bedingung unterliegen. Daraus folgt: 2
§ Xi − X · ( n − 1) ⋅ S 2 χ2n −1 = ¦ ¨ ¸ σ ¹ σ2 i =1 © n
(8.46)
Der Erwartungswert dieser Variablen ist n − 1 , die Varianz beträgt 2( n − 1) . Diese Eigenschaften sind fundamental für die Schätzung der Varianz aus einer Stichprobe vom Umfang n . Zahlreiche statistische Tests (insbesondere Homogenitäts- und Unabhängigkeitstests, › Kapitel 12) basieren auf der χ 2 -Verteilung. Wichtige Quantile z findet man im Anhang in Tabelle E. i Die Chi2-Verteilung verdanken wir Forschungen auf dem Gebiet der z Astronomie. Sie geht zurück auf den Physiker und Astronomen Ernst Abbe (1840-1905), der sie erstmals 1863 erwähnt. Abbe war Professor an der Universität in Jena und Direktor der dortigen Sternwarte. Unabhängig von Abbe wurde die Chi2-Verteilung von Friedrich Robert Helmert (1843-1917), der Astronom und Mathematiker war, entdeckt. Sie geriet dann in Vergessenheit, bis sie von Karl Pearson einige Jahre später wiederentdeckt wurde und seither vielfältige Anwendung bei den Verfahren der induktiven Statistik findet.
170
Kapitel 8 · Stetige Verteilungen
8.5.3
Die F-Verteilung
Als dritte Prüfverteilung sei die F-Verteilung erwähnt (benannt nach Sir Ronald Aylmer Fisher). Seien S12 und S 22 die Varianzen zweier unabhängiger Stichproben aus zwei normalverteilten Grundgesamtheiten mit derselben Varianz σ2. Dann folgt die Variable Fm ,n =
S12 S22
(8.47)
einer F-Verteilung mit m und n Freiheitsgraden im Zähler bzw. im Nenner. Diese Zahlen entsprechen den um 1 reduzierten Stichprobenumfängen. Die F-Verteilung findet u. a. Anwendung bei der Varianzanalyse. Es lassen sich folgende Beziehungen nachweisen: F1,n = tn2
Fm ,n =
8
(8.48)
χm2 n ⋅ χ n2 m
(8.49)
Übersicht 7: Stetige Verteilungen Name und Bezeichnung der Verteilung
Abschnitt
X beschreibt
Beispiele
N (µ, σ 2 )
8.2.1 8.2.3
symmetrisch verteilte Daten, Dichte glockenförmig
Messfehler, Körpergröße
logarithmische Normalverteilung
8.2.4
rechtsschief verteilte Daten
Körpergewicht, Blutdruck
Exponentialverteilung Exp(λ)
8.4.2
Lebensdauern mit konstanter Sterberate
Zerfall radioaktiver Teilchen
Weibullverteilung WB(λ, γ )
8.4.3
Lebensdauern mit nicht konstanter Sterberate
Überleben mit Altern, Überleben mit Regeneration
Normalverteilung
2
LN (µ, σ )
9
Schätzverfahren 9.1
Grundlagen 173
9.2
Punktschätzungen 173
9.2.1
Der Begriff der Punktschätzung 173
9.2.2
Kriterien zur Güte einer Schätzung 174
9.2.3
Spezielle Schätzfunktionen 175
9.3
Intervallschätzungen 177
9.3.1
Die Bedeutung eines Konfidenzintervalls 177
9.3.2
Konfidenzintervalle für einen Erwartungswert 179
9.3.3
Konfidenzintervall für eine Wahrscheinlichkeit 182
9.3.4
Konfidenzintervalle für Zusammenhangsmaße 183
9.4
Abschließende Bemerkungen 184
9.4.1
Die Bedeutung des Stichprobenumfangs 184
9.4.2
Zu den Voraussetzungen 186
173
9
9.1 Grundlagen
9.1
Grundlagen
Wir haben in den vorangegangenen Kapiteln Zufallsvariablen X und deren Verteilungen kennen gelernt und durch charakteristische Parameter beschrieben. Diese Betrachtungen waren allerdings rein theoretischer Natur. Die Eigenschaften von X können in der Regel nicht exakt bestimmt werden, da man sich bei empirischen Untersuchungen normalerweise nur auf eine Stichprobe stützen kann. Man ist also darauf angewiesen, anhand einzelner Stichprobenwerte Informationen bezüglich der Grundgesamtheit und der Zufallsvariablen X zu gewinnen. Dazu dienen die Methoden der induktiven Statistik (auch schließende, analytische oder beurteilende Statistik genannt). Bei diesen Verfahren muss grundsätzlich vorausgesetzt werden, dass eine zufällige Stichprobe vorliegt, die repräsentativ für ein übergeordnetes Kollektiv (die Grundgesamtheit) ist. Oft sind gewisse Eigenschaften von X (etwa der Verteilungstyp) aus Erfahrung bekannt oder ergeben sich aus der Beschreibung der zugrunde liegenden Zufallsexperimente. Die charakteristischen Parameter sind dagegen meist unbekannt. So kann man beispielsweise leicht nachvollziehen, dass bei einer klinischen Studie mit einer bestimmten Anzahl von Patienten der Heilungserfolg eines Medikaments durch eine Binomialverteilung beschrieben werden kann, wobei die einzelnen Zufallsvariablen X i die Werte 1 (Heilung erfolgreich) oder 0 (Heilung nicht erfolgreich) annehmen können. Es liegt jedoch in der Natur der Sache, dass eine exakte Angabe der Erfolgswahrscheinlichkeit p a priori nicht möglich ist. Man ist daher bemüht, anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit annähernd zu bestimmen. Bisher haben wir kaum Gedanken darüber angestellt, welche Anforderungen an ein Schätzverfahren zu stellen sind und wie die Güte eines Schätzwertes zu beurteilen ist. Diesen Fragen werden wir in den folgenden Abschnitten nachgehen.
9.2
Punktschätzungen
9.2.1
Der Begriff der Punktschätzung
Es liegt intuitiv nahe, die Funktionalparameter einer Grundgesamtheit durch die entsprechenden Kenngrößen einer zufälligen Stichprobe zu schätzen. So erscheint der Mittelwert als Schätzwert für
174
Kapitel 9 · Schätzverfahren
den Erwartungswert geeignet; eine Wahrscheinlichkeit wird durch eine relative Häufigkeit geschätzt. Man nennt ein solches Verfahren, bei dem ein unbekannter Parameter durch einen einzigen Wert geschätzt wird, eine Punktschätzung. Die Schätzfunktion (oder der Schätzer) ist eine Vorschrift, nach der aus den Daten einer Stichprobe des Umfangs n ein angenäherter Wert für den unbekannten Parameter berechnet wird. So lautet z. B. die Schätzfunktion für den Erwartungswert: n
¦ Xi X =
i =1
n
(9.1)
Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe annimmt, nennt man Schätzwerte. 9.2.2
9
Kriterien zur Güte einer Schätzung
Die oben genannten Punktschätzungen sind nicht so selbstverständlich, wie es auf den ersten Blick scheinen mag. Niemand bezweifelt zwar, dass der Erwartungswert durch den Mittelwert optimal geschätzt wird. Was aber spricht dagegen, bei symmetrischen Verteilungen den Erwartungswert durch den empirischen Median zu schätzen – zumal dies mit weniger Rechenaufwand verbunden wäre? Außerdem ist bisher nicht eindeutig geklärt, weshalb bei der empirischen Varianz oder bei der empirischen Kovarianz durch n − 1 dividiert wird (und nicht durch den Stichprobenumfang n ). Um diese Fragen zu beantworten, bedarf es objektiver und nachprüfbarer Eigenschaften, nach denen sich die Güte einer Schätzung beurteilen lässt. Hierzu orientiert man sich an den folgenden vier Kriterien, die von Sir Ronald Aylmer Fisher aufgestellt wurden: • Erwartungstreue. Man kann nicht erwarten, dass eine einzelne Stichproben-Kenngröße den unbekannten Parameter exakt wiedergibt. Allerdings sollte die Schätz-Vorschrift nicht systematisch einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Durchschnitt (oder genauer: der Erwartungswert) aller theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n mit dem unbekannten Parameter übereinstimmt. Eine erwartungstreue Schätzung heißt unverzerrt. • Konsistenz. Es ist außerdem plausibel, von einem guten Schätzer Folgendes zu verlangen: Je größer der Stichprobenumfang n, desto
175
9
9.2 Punktschätzungen
genauer sollte die Schätzung sein. Ein Schätzer ist immer dann konsistent, wenn dessen Varianz für große n gegen 0 geht. • Effizienz. Die Varianz des Schätzers sollte möglichst gering sein. Je geringer sie ist, desto präziser ist die Schätzung. Eine hohe Effizienz bedeutet, dass auch eine kleine Stichprobe einen brauchbaren Schätzwert liefert. Die Effizienz ist insbesondere dann wichtig, wenn zwei verschiedene Schätzverfahren für einen Parameter zu vergleichen sind. • Exhaustivität. Ein Schätzer ist exhaustiv (oder erschöpfend), wenn er alle Informationen, die in den Daten einer Stichprobe enthalten sind, berücksichtigt. Alle diese Forderungen scheinen plausibel und wünschenswert zu sein; wir werden jedoch sehen, dass sie nicht unbedingt bei allen bekannten Schätzfunktionen erfüllt sind. 9.2.3
Spezielle Schätzfunktionen
• Erwartungswert. Wir wollen die oben genannten Kriterien zu nächst an dem wohl bekanntesten Beispiel überprüfen und betrachten dazu den Mittelwert x einer Stichprobe, der den Erwartungswert µ der Grundgesamtheit schätzt. Wir wissen aus Abschnitt 8.3.2, dass gilt:
E ( X ) = µ und
Var ( X ) =
σ2 → 0 n n →∞
Demnach ist diese Schätzung erwartungstreu und konsistent. Die Konsistenz ergibt sich auch aus dem Gesetz der großen Zahlen.
• Median. Etwas komplizierter liegen die Dinge beim empirischen Median. Man kann zeigen: Falls die Verteilung stetig und symmet~ ~ . In diesem Fall risch ist, ist X ein erwartungstreuer Schätzer für µ ~ ist ~ aber µ = µ ; deshalb ist etwa bei Normalverteilungen der Median X ein erwartungstreuer Schätzer für den Erwartungswert µ . Für die Varianz des Medians gilt (dies sei ohne Beweis angeführt): π σ2 ~ Var( X ) = ⋅ (9.2) → 0 2 n n →∞ ~ eine konsistente Schätzung. Allerdings ist die Somit ist X auch ~ Varianz von X größer als die Varianz von X ; deshalb ist der
176
Kapitel 9 · Schätzverfahren
Mittelwert der effizientere Schätzer für µ . Der Median ist (im Gegensatz zum Mittelwert) nicht erschöpfend, weil nicht alle Stichprobenwerte in dessen Berechnung einfließen. Der Mittelwert hat also im Vergleich zum empirischen Median die günstigeren Schätzeigenschaften.
• Varianz. Die daraus berechnete Standardabweichung ist bei quan titativen Merkmalen das am häufigsten benutzte Streuungsmaß. Die Varianz wird bekanntlich nach folgender Vorschrift geschätzt: n
S2 =
¦ ( X i − X )2 i =1
(9.3)
n −1
Es lässt sich nachweisen, dass gilt: E (S 2 ) = σ 2 Var( S 2 ) =
9
(9.4)
2σ 4 → 0 n − 1 n →∞
(9.5)
Demnach ist diese Schätzung erwartungstreu und konsistent. Die Schätzung der Standardabweichung σ durch S ist zwar konsistent, aber merkwürdigerweise nicht erwartungstreu.
• Wahrscheinlichkeit. Die Wahrscheinlichkeit p wird über eine relative Häufigkeit geschätzt. Deren Erwartungswert ist p : n
E (¦ X i / n) = i =1
n 1 np E (¦ X i ) = =p n i =1 n
(9.6)
wobei Xi ~ B (1, p) . Die Schätzung ist also erwartungstreu. Die Konsistenz ergibt sich aus dem Gesetz der großen Zahlen.
• Parameter der bivariaten Statistik. Man kann nachweisen, dass die Schätzung der Kovarianz erwartungstreu und konsistent ist, ebenso die Schätzung der Parameter der Regressionsgeraden. Die Schätzfunktion für den Pearson’schen Korrelationskoeffizient nach Formel (5.2) ist dagegen nicht erwartungstreu, wohl aber konsistent.
9
177 9.3 Intervallschätzungen
Mathematische Herleitung der Eigenschaften der empirischen Varianz Für den Erwartungswert gilt: § n · § n · E ¨ ¦ ( X i − X ) 2 ¸ E ¨ ¦ ( X i − µ) 2 − n( X − µ)2 ¸ = = i i 1 1 © ¹ © ¹ = E(S 2 ) = n −1 n −1 Da nach der Definition der Varianz (Formel (7.7)) gilt: n
E ( X i − µ) 2 = Var ( X i ) = σ 2 , folgt: E ( ¦ ( X i − µ)2 ) = n ⋅ σ2 . i =1
2
2
Außerdem ist E ( X − µ) = Var ( X ) = σ / n . Wenn man dies in die erste Gleichung einsetzt, erhält man: nσ 2 − σ 2 = σ 2 (Formel (9.4)). n −1 Dies ist die formale Rechtfertigung dafür, dass bei der empirischen Varianz E (S 2 ) =
durch (n − 1) dividiert wird. Nach (8.46) ist die Größe
(n − 1) S 2 σ2
χ 2 -verteilt
mit der Varianz 2(n − 1) . Daraus leitet man mit (7.9) her: Var( S 2 ) =
2(n − 1) ⋅ σ 4 (n − 1)
2
=
2σ 4 (Formel (9.5)). n −1
Wenn man in (7.7) die Variable X durch S und µ durch ES ersetzt, erhält man: Var( S ) = E( S 2 ) − ( ES ) 2 = σ 2 − ( ES ) 2 . Daraus folgt: ( ES ) 2 = σ 2 − Var( S ) und damit ES < σ . Die empirische Standardabweichung s schätzt also σ systematisch zu gering.
9.3
Intervallschätzungen
9.3.1
Die Bedeutung eines Konfidenzintervalls
Wir wissen, dass die gängigen Schätzverfahren günstige Eigenschaften haben und wenden sie an in der Hoffnung, einen brauchbaren Schätzwert zu erhalten. Dennoch sind diese Punktschätzungen in gewisser Weise unbefriedigend – ein einzelner Schätzwert enthält nämlich keine Information darüber, wie sehr er vom „wahren“ Parameter der Grundgesamtheit abweicht. Prinzipiell kann man darüber auch keine exakten Angaben treffen, da der gesuchte Parameter letztlich unbekannt ist. Wir dürfen jedoch bei einem geeigneten Schätzverfahren vermuten, dass er sich in der näheren Umge-
178
9
Kapitel 9 · Schätzverfahren
bung des Schätzwertes befindet. Es geht in diesem Abschnitt darum, diesen unscharfen Ausdruck „nähere Umgebung“ zu präzisieren. In Beispiel 4.1 wurde anhand der Daten von 23 männlichen Medizinstudenten eine mittlere Körpergröße von xm = 181,22 cm berechnet. Wenn wir diese Gruppe auffassen als eine Stichprobe, dann handelt es sich bei diesem Mittelwert um eine Schätzung für den Erwartungswert der Grundgesamtheit. Wir wissen, dass dieser Mittelwert zufallsbedingt ist – eine andere Stichprobe des Umfangs n = 23 würde andere Daten und einen anderen Mittelwert liefern. Die konkrete Frage, die sich nun stellt, lautet: Welcher Erwartungswert Nj könnte dem besagten Mittelwert zugrunde liegen? Es erscheint durchaus möglich, dass er aus einer Grundgesamtheit mit µ = 180 cm oder mit µ = 183 cm resultiert. Wir glauben jedoch nicht, dass der wahre Parameter µ = 170 cm beträgt – obwohl auch diese Möglichkeit nicht ganz ausgeschlossen werden kann. Um Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruiert man aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das den gesuchten Parameter überdeckt. Es ist allerdings möglich, dass die Daten der Stichprobe ein Konfidenzintervall erzeugen, das „daneben liegt“ und das den gesuchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten:
ŷ Mit der Wahrscheinlichkeit 1 − α erhält man ein Intervall, das
den unbekannten Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit (oder Konfidenzniveau) bezeichnet. Für die Irrtumswahrscheinlichkeit α = 5% beträgt die Konfidenzwahrscheinlichkeit 1 − α = 95% . ŷ Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten Parameter nicht enthält. Das Konfidenzintervall selbst liefert leider keinen Anhaltspunkt dafür, welche dieser beiden Möglichkeiten eingetreten ist. Es ist deshalb immer notwendig, die Irrtumswahrscheinlichkeit α mit anzugeben. In den folgenden Abschnitten wird anhand mehrerer Beispiele das Konstruktionsprinzip eines Konfidenzintervalls erläutert.
179
9
9.3 Intervallschätzungen
9.3.2
Konfidenzintervalle für einen Erwartungswert
Der Erwartungswert ist bei quantitativen Daten in der Regel der Parameter des wesentlichen Interesses. Er wird über den Mittelwert x geschätzt. Ein Konfidenzintervall auf dem Niveau 1 − α = 95% ist gegeben durch: ª 1,96 ⋅ σ 1,96 ⋅ σ º ;x + «x − » n n ¼ ¬
(9.7)
Die Wahrscheinlichkeit, dass ein Erwartungswert, der kleiner als die linke oder größer als die rechte Intervallgrenze ist, zu x geführt hat, beträgt jeweils 2,5% – also insgesamt α = 5% . ! Die plausibel klingende Aussage „Der Erwartungswert µ liegt mit einer z
Wahrscheinlichkeit von 95 % innerhalb des Konfidenzintervalls“ ist irreführend. Der Erwartungswert ist zwar unbekannt – er ist jedoch eine feste Größe und nicht vom Zufall abhängig. Dagegen ist das Konfidenzintervall abhängig von der Stichprobe und deshalb vom Zufall mitbestimmt. Eine korrekte Formulierung lautet: „Man erhält mit einer Wahrscheinlichkeit von 95 % ein Konfidenzintervall, das den unbekannten Erwartungswert µ überdeckt“.
Bei einer Irrtumswahrscheinlichkeit von α = 1% ist der Wert 1,96 in (9.7) durch 2,58 zu ersetzen. Theoretisch ist natürlich jede beliebige Irrtumswahrscheinlichkeit denkbar; die Quantile der Standard› Tabelle A normalverteilung sind dementsprechend anzugleichen (z im Anhang). Wegen der Symmetrie dieser Verteilung unterscheiden sich die Quantile, die die beiden Intervallgrenzen bestimmen, nur bezüglich ihres Vorzeichens. Allgemein ist ein zweiseitiges Konfidenzintervall auf dem (1 − α) -Niveau definiert durch die Intervallmitte x und die Grenzen: ª σ σ º ; x + z1− α / 2 ⋅ » « x − z1−α / 2 ⋅ n n¼ ¬
(9.8)
Dabei bezeichnet der Index 1 − α / 2 das jeweilige Quantil der Standardnormalverteilung. Für α = 5% erhält man z1−α / 2 = z0,975 = 1,96 .
180
Kapitel 9 · Schätzverfahren
Mathematische Betrachtung des Konfidenzintervalls für den Erwartungswert Dessen Bestimmung liegt der zentrale Grenzwertsatz zugrunde. Demnach sind alle theoretisch denkbaren Mittelwerte aus Stichproben des Umfangs n normalverteilt (zumindest für n ≥ 25 ) mit dem Erwartungswert µ und der Standardabweichung σ / n . Deshalb gilt: X −µ ≤ 1,96) = 0,95 σ/ n Die Zahlenwerte sind die Grenzen, die den 95%-Referenzbereich der Standardnormalverteilung angeben (Tabelle 8.1). Durch Umformen dieser Ungleichung ergibt sich: 1,96 ⋅ σ 1,96 ⋅ σ P(− ≤ X −µ ≤ ) = 0,95 n n Das bedeutet, dass der Abstand zwischen dem Mittelwert und dem Erwartungswert betragsmäßig mit 95%-iger Wahrscheinlichkeit unterhalb von P (−1,96 ≤
1,96 ⋅ σ / n liegt. Damit ergibt sich ein Konfidenzintervall nach (9.7).
9
Bei diesen Formeln wurde stillschweigend vorausgesetzt, dass die Standardabweichung σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen fast niemals der Fall. Man könnte notgedrungen das σ durch die empirische Standardabweichung s ersetzen. Dies würde aber insbesondere bei kleinen Stichproben – die in den Biowissenschaften eher die Regel als die Ausnahme sind – zu einer weiteren Ungenauigkeit der Schätzung führen. Vor diesem Problem stand Sealy Gosset, als er zu Beginn des 20. Jahrhunderts Mittelwerte für Bieringredenzien schätzen wollte und dabei nur auf kleine Stichproben zurückgreifen konnte. Dies war die Ausgangssituation für die Entwicklung der t-Verteilung. Wenn die Zufallsvariable X normalverteilt ist, lassen sich die Quantile der Standardnormalverteilung in (9.8) ersetzen durch die entsprechenden t-Werte, und man erhält folgendes Konfidenzintervall: tn −1;1−α / 2 ⋅ s t ⋅sº ª ; x + n −1;1−α / 2 » «x − n n ¬ ¼
(9.9)
i Der Ausdruck t n −1;1− α / 2 ist für Anfänger gewöhnungsbedürftig. Die beiz den Angaben im Index sind notwendig, um den speziellen t-Wert exakt zu kennzeichnen. Der Index f = n − 1 bezeichnet die Anzahl der Freiheitsgrade der jeweiligen t-Verteilung (es gibt nämlich für jedes f eine spezielle t-Verteilung), 1 − α / 2 gibt das Quantil an.
9
181 9.3 Intervallschätzungen
Ohne eine geeignete Software, die Konfidenzintervalle berechnet, müssen die Quantile tn −1;1−α / 2 in Tabellen nachgeschlagen werden › Tabelle B im Anhang). Der Faktor s / n in Formel (9.9) ist eine (z Schätzung für den Standardfehler des Mittelwerts σ / n . Theoretisch sind auch einseitige Konfidenzintervalle konstruierbar, die an einer Seite offen sind: ( −∞; x +
tn −1;1−α ⋅ s n
]
oder [ x −
tn −1;1−α ⋅ s n
;+∞)
(9.10)
Auf ein besonderes Problem sei an dieser Stelle hingewiesen: Bisher wurde vorausgesetzt, dass die Grundgesamtheit unendlich groß ist. Wird nun eine Stichprobe des Umfangs n aus einer endlichen Grundgesamtheit des Umfangs N gezogen, muss der Standardfehler korrigiert werden. Diese Endlichkeitskorrektur ergibt sich aus der › Abschnitt 7.3.4). Die Varianz der hypergeometrischen Verteilung (z Grenzen des Konfidenzintervalls bei einer endlichen Grundgesamtheit sind demnach: x ± tn −1;1−α / 2 ⋅ s ⋅
N −n n ⋅ ( N − 1)
(9.11)
Bei großen Grundgesamtheiten mit N / n ≥ 100 nimmt die Endlichkeitskorrektur einen Wert nahe bei 1 an und kann deshalb vernachlässigt werden. Beispiel 9.1 Körpergrößen männlicher Studenten (n = 23): Aus xm ± sm = (181,22 ± 7,12)cm ergibt sich für die Konfidenzintervalle: [178,14 cm ; 184,29 cm] ( α = 0,05 ) mit t22;0,975 = 2,074 [177,04 cm ; 185,40 cm] ( α = 0,01 ) mit t22;0,995 = 2,819 Körpergrößen weiblicher Studenten (n = 48): Aus xw ± sw = (169,06 ± 6,60)cm berechnet man: [167,15 cm ; 170,98 cm] ( α = 0,05 ) mit t47;0,975 = 2,012 [166,51 cm ; 171,62 cm] ( α = 0,01 ) mit t47;0,995 = 2,685 Man erkennt: ŷ Die Konfidenzintervalle der Frauen sind schmaler als die der Männer. Das liegt zum einen am höheren Stichprobenumfang, zum anderen an der geringeren Streuung der Daten. ŷ Die 95%-Intervalle sind schmaler als die 99%-Intervalle. Das liegt an den t-Quantilen, die für α = 0,05 kleiner sind als für α = 0,01 .
182
Kapitel 9 · Schätzverfahren
9.3.3
Konfidenzintervall für eine Wahrscheinlichkeit
Als Punktschätzer für eine Wahrscheinlichkeit p dient bekanntlich eine relative Häufigkeit:
pˆ =
X n
(9.12)
Dabei bezeichnet X die Häufigkeit des Ereignisses A bei n Zufallsexperimenten. Die Grenzen eines Konfidenzintervalls für die unbekannte Wahrscheinlichkeit p lassen sich angeben als: § 1 pˆ ± ¨ +z ⋅ ¨ 2n 1−α / 2 ©
9
pˆ (1 − pˆ ) ·¸ ¸ n ¹
(9.13)
Dabei wird vorausgesetzt, dass npˆ > 5 und n(1 − pˆ ) > 5 . Das bedeutet: Der Stichprobenumfang darf nicht zu klein und die relativen Häufigkeiten sollten nicht zu extrem sein. Das in (9.13) definierte Intervall ist vergleichbar mit dem Konfidenzintervall für den Erwartungswert nach (9.8): pˆ entspricht dem Mittelwert, die Wurzel dem Standardfehler der Schätzung. Bei endlichen Grundgesamtheiten ist auch hier der Standardfehler mit dem Faktor ( N − n) /( N − 1) zu multiplizieren. Der Faktor 1 / 2n in (9.13) ist die so genannte Stetigkeitskorrektur. Mathematische Betrachtung des Konfidenzintervalls für p Dieses Konfidenzintervall basiert auf dem zentralen Grenzwertsatz. Für npq ≥ 9 ist die binomialverteilte Variable X normalverteilt mit µ = np und › Binomialverteilung,, Abschnitt 7.2.2). Also gilt: σ 2 = np(1 − p) (z P( − z1− α / 2 ≤
X − np np(1 − p )
≤ z1− α / 2 ) = 1 − α
Durch Umformen ergibt sich dann das Konfidenzintervall: p(1 − p) n Das unbekannte p unter der Wurzel wird durch den Schätzwert pˆ ersetzt. Um das Intervall auch für kleinere Stichprobenumfänge konstruieren zu können, wird die Stetigkeitskorrektur 1 / 2n hinzugefügt (wodurch das Intervall um insgesamt den Faktor 1 / n verbreitert wird). Dadurch wird versucht, den Fehler auszugleichen, der beim Übergang von den relativen Häufigkeiten pˆ (diskrete Variable) zur Standardnormalverteilung entsteht. pˆ ± z1− α / 2 ⋅
183
9
9.3 Intervallschätzungen
Beispiel 9.2 Der Anteil weiblicher Studenten wird anhand der Daten von Tabelle 2.1 mit pˆ = 48 / 71 = 0,676 geschätzt. Kann man davon ausgehen, dass mehr als die Hälfte der Medizinstudenten weiblich sind – oder ist der höhere Anteil nur zufällig bedingt? Für dass 95%-Konfidenzintervalls erhalten wir nach (9.13): 48 / 71 ⋅ 23 / 71 ·¸ 48 §¨ 1 . Das Intervall ist also: [0,560 ; 0,792] . ± + 1,96 ⋅ ¸ ¨ 71 71 © 142 ¹ Aufgrund dieser Schätzung dürfen wir mit größerem Vertrauen annehmen, dass der Anteil der Frauen tatsächlich mehr als 50% beträgt. Worauf ist dies zurückzuführen? Darüber schweigt sich das Konfidenzintervall aus.
9.3.4
Konfidenzintervalle für Zusammenhangsmaße
Die Berechnung eines Konfidenzintervalls für den Korrelationskoeffizienten nach Pearson wird hier nicht im Detail beschrieben (zumal diese Berechnungen normalerweise nicht manuell durchgeführt werden). Der Anwender muss lediglich wissen, dass X und Y bivariat (also 2-dimensional) normalverteilte Zufallsvariable sein sollten. Die Berechnung eines solchen Intervalls ist auch für den Korrelationskoeffizienten nach Spearman bei einem Stichprobenumfang n ≥ 10 möglich. Beispiel 9.3 Für den Zusammenhang zwischen Körpergröße und Gewicht weiblicher Stu› Beispiel 5.2). Mit einer Statistikdenten ermittelten wir r = 0,607 ( n = 47 , z software lässt sich folgendes 95%-Konfidenzintervall bestimmen: (0,412 ; 0,803). Was besagt dieses? Da beide Intervallgrenzen deutlich größer als 0 sind, können wir einigermaßen sicher sein, dass ein gleichsinniger Zusammenhang existiert. Allerdings wissen wir nicht, ob dieser schwach oder eher stark ist. Für die männlichen Studenten gilt r = 0,570 ( n = 23 ); das Konfidenzintervall ist (0,313 ; 0,827). Dieses ist breiter, weil der Stichprobenumfang geringer und damit die Schätzung ungenauer ist.
Auch für die Steigung der Regressionsgeraden können Konfidenzintervalle berechnet werden. Spezielle Voraussetzungen gelten bei der Regression 1. Art, bei der die Ausprägungen der x-Variablen nach Belieben festgelegt werden, sodass zu jedem x j mehrere Werte yij existieren:
ŷ Die Residuen yij − y j müssen normalverteilt sein mit dem Erwartungswert 0 ( y j sei der Mittelwert der yij ).
184
Kapitel 9 · Schätzverfahren
ŷ Die Varianzen der zu den einzelnen x j -Werten gehörenden yij
sollten gleich sein (diese Eigenschaft bezeichnet man als Homoskedastizität).
Es erscheint zumindest bei hohen Stichprobenumfängen sinnvoll, in einem Koordinatensystem die Residuen gegen die Werte des xMerkmals aufzutragen. Wenn bei dieser Darstellung Muster erkennbar sind, ist dies ein Hinweis darauf, dass die oben genannten Voraussetzungen nicht erfüllt sind. Falls sie erfüllt sind, lässt sich mit einer leistungsfähigen Software für einen fest vorgegebenen x-Wert ein 95%-Vorhersageintervall (Prognoseintervall) für den dazugehörenden y-Wert angeben. Außerdem lassen sich Konfidenzintervalle für die Mittelwerte y j berechnen.
9
9.4
Abschließende Bemerkungen
9.4.1
Die Bedeutung des Stichprobenumfangs
Die Präzision einer Schätzung wird ausgedrückt durch die Breite des Konfidenzintervalls. Je schmaler dieses Intervall ist, desto genauer ist die Schätzung. Ein sehr breites Konfidenzintervall ist dagegen für praktische Zwecke unbrauchbar. So beträgt die Breite des nach (9.9) berechneten zweiseitigen Konfidenzintervalls für den Erwartungswert: BK =
2 ⋅ tn −1;1−α / 2 ⋅ s n
(9.14)
Generell sind also drei Faktoren für die Präzision der Schätzung von › Beispiel 9.1): Bedeutung (z
ŷ Die Irrtumswahrscheinlichkeit α . Für α = 5% ergibt sich ein
schmaleres Intervall als für α = 1% . Ein schmales Intervall lässt sich also erreichen durch eine höhere Irrtumswahrscheinlichkeit und damit zu Lasten der Sicherheit. ŷ Die Standardabweichung s. Je homogener die Grundgesamtheit, desto kleiner sind die Standardabweichung und die Breite des Konfidenzintervalls. ŷ Der Stichprobenumfang n . Die Schätzung ist umso präziser, je höher der Stichprobenumfang ist.
9
185 9.4 Abschließende Bemerkungen
Der Anwender hat also die Möglichkeit, über die Irrtumswahrscheinlichkeit und den Stichprobenumfang die Breite eines Konfidenzintervalls zu beeinflussen. Aus (9.14) geht hervor, dass bei vorgegebener Breite der Mindeststichprobenumfang berechnet werden kann – allerdings nur theoretisch. In der Praxis ist die Standardabweichung σ nicht bekannt; der empirische Schätzwert s ergibt sich erst, nachdem die Daten der Stichprobe vorliegen. Außerdem kann der t-Wert (der von n abhängig ist) nicht explizit angegeben werden, sondern allenfalls grob geschätzt werden (er beträgt für α = 5% und n ≥ 10 ungefähr 2). Aus (9.14) ist außerdem ersichtlich, dass bei gleicher Standardabweichung der vierfache Stichprobenumfang erforderlich ist, um die Breite des Intervalls zu halbieren (da der Stichprobenumfang nur mit n in den Nenner der Formel (9.14) eingeht). Schließlich sei noch die Breite des Konfidenzintervalls für die Wahrscheinlichkeit p angegeben. Aus (9.13) ergibt sich: BK = 2 ⋅ z1− α / 2 ⋅
pˆ (1 − pˆ ) 1 + n n
(9.15)
Auch diese Breite wird durch die Irrtumswahrscheinlichkeit und den Stichprobenumfang bestimmt. Um einen Mindestumfang festlegen zu können, ist zumindest eine grobe Abschätzung der Wahrscheinlichkeit p erforderlich. Beispiel 9.4 Von 71 Studenten haben 60 (das sind ungefähr 85 %) Rhesusfaktor „positiv“. Daraus berechnet sich nach (9.13) das Konfidenzintervall (mit α = 0,05 ): 60 / 71 ⋅11 / 71 ·¸ 60 §¨ 1 = [0,75;0,94] ± + 1,96 ⋅ ¸ ¨ 71 71 © 142 ¹
Wenn man nun den 4-fachen Stichprobenumfang zugrunde legen würde (also n = 284) und annehmen würde, dass 240 Personen „Rhesusfaktor positiv“ haben, erhielte man denselben Schätzwert pˆ = 240 / 284 ≈ 85% . Das Konfidenzintervall wäre jedoch schmaler und die Schätzung wäre präziser: 240 / 284 ⋅ 44 / 284 ·¸ 240 §¨ 1 = [0,80;0,89] ± + 1,96 ⋅ ¨ ¸ 284 284 © 568 ¹
Analoge Überlegungen gelten für andere Parameter: In jedem Fall sind die Breite des Konfidenzintervalls und die Genauigkeit der Schätzung abhängig vom Stichprobenumfang n und von der Irrtumswahrscheinlichkeit Į.
186 9.4.2
9
Kapitel 9 · Schätzverfahren
Zu den Voraussetzungen
Die Beispiele in diesem Kapitel machen deutlich, dass die Angabe eines Konfidenzintervalls eine wesentlich bessere Beurteilung des Schätzwertes erlaubt als eine einfache Punktschätzung. Während aber ein Punktschätzer auf einfache Weise aus den Daten der Stichprobe zu berechnen ist, kann die Bestimmung eines Konfidenzintervalls äußerst kompliziert sein. Sie setzt nämlich voraus, dass die Verteilung der Stichproben-Kenngrößen bekannt ist. So wird beispielsweise bei der Berechnung eines Konfidenzintervalls für den Erwartungswert zugrunde gelegt, dass die Zufallsvariable X normalverteilt ist. Falls die Verteilung der Kenngröße nicht explizit bekannt ist (z. B. bei der Schiefe oder Wölbung), kann man Monte-Carlo-Studien einsetzen. Dabei werden aus einer bekannten Grundgesamtheit zahlreiche Zufallsstichproben des Umfangs n gezogen und jeweils die interessierende Kenngröße berechnet. Aus all diesen Werten wird dann deren Verteilung simuliert. Mit der Monte-Carlo-Methode lässt sich auch überprüfen, ob und inwieweit Verletzungen der Voraussetzungen tolerierbar sind. So kann man beispielsweise zeigen, dass die t-Verteilung einigermaßen robust ist gegenüber Abweichungen von der Normalverteilung. Es ist für den Anwender nicht notwendig, die mathematischen Hintergründe genau zu kennen, zumal die Intervalle in der Regel von einer Statistiksoftware ermittelt werden. Er sollte allerdings in der Lage sein, ein Konfidenzintervall sinnvoll zu interpretieren. Häufig werden die Bedingungen zur Konstruktion eines Konfidenzintervalls nicht überprüft, sondern stillschweigend als erfüllt vorausgesetzt – sei es aus Bequemlichkeit oder Nichtwissen oder schlicht aus Not, weil keine anderen Schätzverfahren zur Verfügung stehen. Nun bedeutet dieses laxe Vorgehen nicht unbedingt, dass die Schätzung insgesamt unbrauchbar ist – es kommt eben darauf an, wie das Schätzverfahren auf eine Verletzung der Voraussetzungen reagiert. Die Verfahren der induktiven Statistik sind insgesamt wesentlich komplexer als die Methoden der deskriptiven Statistik. Eine geeignete Software ist hierbei ein sinnvolles Mittel, ohne das manche Rechnungen gar nicht oder nur mit größter Mühe zu bewältigen wären. Es darf jedoch keineswegs dazu führen, dass man allzu sorglos die Voraussetzungen eines Verfahrens ignoriert. Man sollte in jedem Fall darauf achten, dass sie nicht in extremer Weise verletzt sind und die Ergebnisse mit der gebotenen Vorsicht interpretieren.
10
Das Prinzip eines statistischen Tests 10.1
Die Durchführung eines Tests 189
10.1.1
Die Funktion eines statistischen Tests 189
10.1.2
Das Formulieren der Hypothesen 190
10.1.3
Fehlerarten 192
10.1.4
Der Stichprobenumfang 194
10.2
Testentscheidung und Konsequenzen 195
10.2.1
Die Basis der Testentscheidung 195
10.2.2
p-Wert und Konfidenzintervall 197
10.2.3
Die Interpretation eines signifikanten Ergebnisses 199
10.2.4
Die Interpretation eines nicht-signifikanten Ergebnisses 199
10.2.5
Die Manipulation des Testergebnisses 200
10.2.6
Multiples Testen 201
10.3
Klassifikation der Testmethoden 202
189
10
10.1 Die Durchführung eines Tests
10.1
Die Durchführung eines Tests
10.1.1 Die Funktion eines statistischen Tests Der Fortschritt in einer empirischen Wissenschaft wie der Medizin beruht im Wesentlichen auf Beobachtungen, die ein Arzt bei der Patientenbehandlung oder im Labor macht. Möglicherweise entwickelt er dabei eine Therapie, von der er glaubt, dass sie der herkömmlichen Standardtherapie in irgendeiner Weise überlegen sei, oder er gewinnt neue wissenschaftliche Erkenntnisse. Aus einer Vielzahl von Beobachtungen gepaart mit fachlich-theoretischen Überlegungen entsteht so eine Vermutung und – wenn diese präzise formuliert wird – eine Hypothese. In der Regel ist es nicht möglich, derlei Hypothesen zu beweisen. Ein Forscher wird zwar meist von der Richtigkeit seiner Vermutung überzeugt sein – dies allein kann jedoch kein objektives Kriterium darstellen. Die Überprüfung einer Hypothese hat in zweifacher Hinsicht zu erfolgen:
ŷ Zunächst sollte ein theoretischer Hintergrund erarbeitet werden, um die Hypothese mit sachlichen Argumenten zu untermauern. Dazu bedarf es überwiegend medizinischer Fachkenntnisse und Erfahrungen – mit Statistik hat dies vorerst nichts zu tun. ŷ Darüber hinaus ist es erforderlich, die Hypothese statistisch abzusichern. Zu diesem Zweck müssen relevante Daten erhoben und mit einer geeigneten Testmethode analysiert werden. In diesem Abschnitt 10.1 wird das Prinzip eines statistischen Tests anhand eines einfachen Beispiels erläutert, wofür der t-Test für eine Stichprobe herangezogen wird. Wir stellen uns dazu folgende Situation vor: Aus der Fachliteratur ist bekannt, dass das mittlere Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenden Schwangerschaft 3.500 Gramm beträgt. Ein Mediziner hat die Vermutung, dass Babys, deren Mütter während der Schwangerschaft einem bestimmten Risiko ausgesetzt waren, im Durchschnitt weniger wiegen. Er beschließt, das Geburtsgewicht von 20 solcher Risiko-Babys in seiner Klinik zu messen und den daraus resultierenden Mittelwert mit 3.500 Gramm zu vergleichen. Generell sind nun zwei Möglichkeiten bezüglich der (unbekannten) Ausgangssituation denkbar:
190
Kapitel 10 · Das Prinzip eines statistischen Tests
ŷ Es besteht kein Unterschied zwischen dem mittleren Geburtsgewicht der Risiko-Babys und dem aus der Literatur bekannten Wert von 3.500 Gramm. In diesem Fall würde man bei den 20 Babys ein Durchschnittsgewicht von 3.500 Gramm erwarten. Freilich wird man niemals einen Mittelwert von exakt 3.500 Gramm erhalten. Kleinere Abweichungen muss man tolerieren. ŷ Es besteht ein Unterschied. Dann wiegen die Kinder durchschnittlich weniger (oder auch mehr) als 3.500 Gramm, wobei der Unterschied nicht nur zufällig bedingt ist.
10
Diese beiden Aussagen sind komplementär: Sie ergänzen sich und schließen sich gegenseitig aus. Genau eine davon muss also richtig sein. Eine Entscheidung aufgrund des Testergebnisses fällt mitunter schwer. Wenn der Arzt ein mittleres Geburtsgewicht von 3.480 Gramm ermittelt, wird er kaum schlussfolgern, dass sich das Risiko negativ auf das Geburtsgewicht der Kinder auswirkt. Wenn er dagegen einen Mittelwert von weniger als 3.000 Gramm erhält, wird er seine Vermutung bestätigt finden. Wo aber ist die Grenze? Welche Abweichungen vom Sollwert 3.500 Gramm sind als zufällig bedingt einzustufen – und ab welchem Punkt muss man davon ausgehen, dass die Abweichung nicht allein durch den Zufall erklärt werden kann? Ein statistischer Test hilft in solchen Situationen weiter. Er funktioniert nach folgendem Prinzip: Man stellt zwei komplementäre Hypothesen auf (siehe oben), wählt einen für die Fragestellung passenden Test und berechnet dann aus den Daten einer (oder mehrerer) Stichprobe(n) nach einem bestimmten mathematischen Algorithmus eine so genannte Testgröße (oder Prüfgröße). Diese Größe erlaubt es, eine objektive und nachvollziehbare Entscheidung zugunsten von einer der beiden Hypothesen zu treffen. 10.1.2 Das Formulieren der Hypothesen Es ist wichtig, die beiden Hypothesen vor der Durchführung des Tests inhaltlich so präzise wie möglich zu formulieren. Erst dadurch wird die konkrete Fragestellung klar definiert. Diejenige Hypothese, die eine innovative Aussage beinhaltet und Althergebrachtes in Frage stellt, bezeichnet man als Alternativhypothese. In unserem Beispiel lautet sie: „Das mittlere Geburtsgewicht der 20 Risiko-Babys unterscheidet sich von 3.500 Gramm“. Die dazu konkurrierende Aussage nennt man Nullhypothese: „Es gibt keinen Unterschied“.
191
10
10.1 Die Durchführung eines Tests
Die inhaltlichen Aussagen werden nun in statistische Hypothesen übersetzt. In unserem Beispiel lauten sie: H0 :
µ = 3.500
H1 :
µ ≠ 3.500
Dabei symbolisiert der Buchstabe Nj den Erwartungswert, der durch den Mittelwert der 20 Risiko-Babys geschätzt wird. Die Nullhypothese H 0 beinhaltet ein Gleichheitszeichen; sie ist also eindeutig formuliert. Die Alternativhypothese, die üblicherweise mit H1 (oder mit H A ) bezeichnet wird, ist dagegen sehr allgemein gehalten: Sie vereinigt in sich alle Hypothesen mit Ausnahme der Nullhypothese. Diese Art von Hypothesen, bei denen nichts über die Richtung eines Unterschieds ausgesagt wird, nennt man zweiseitig (oder ungerichtet). Wenn aufgrund inhaltlicher Überlegungen oder Erfahrungen bereits Kenntnisse über die Richtung eines möglichen Unterschiedes vorliegen, ist es eventuell sinnvoll, einseitige (oder gerichtete) Hypothesen zu formulieren. Wenn der Arzt berechtigten Grund zur Annahme hat, dass die Babys auf keinen Fall mehr, sondern weniger wiegen als 3.500 Gramm, und dies statistisch absichern möchte, wird er folgende Hypothesen aufstellen: H0 :
µ = 3.500
H1 :
µ < 3.500
Eine Testentscheidung lässt nur diese beiden Alternativen zu. Die Möglichkeit µ > 3.500 wird bei dieser Fragestellung gar nicht in Betracht gezogen. ! Oft wird die Nullhypothese bei einseitiger Fragestellung komplementär z
zur Alternativhypothese formuliert (also in unserem Beispiel: µ ≥ 3.500 ). Welche Formulierung das inhaltliche Problem besser beschreibt, bleibt dem Anwender überlassen. Für die Durchführung des Tests ist dies irrelevant: Die Berechnung der Prüfgröße und die Testentscheidung basieren in jedem Fall auf einer eindeutig formulierten Nullhypothese.
Ob eine Fragestellung ein- oder zweiseitig formuliert wird, hat der Versuchsleiter vor der Durchführung des Tests festzulegen. Diese Entscheidung ist aufgrund von spezifisch-fachlichen Überlegungen zu treffen. Sie ist u. a. abhängig von den Konsequenzen einer Fehl› nächster Abschnitt). Falls der Versuchsleiter nicht entscheidung (z sicher ist, ob die Voraussetzungen für eine einseitige Fragestellung vorliegen, ist es zweckmäßig, die zweiseitige zu wählen.
192
Kapitel 10 · Das Prinzip eines statistischen Tests
10.1.3 Fehlerarten Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den Stichprobenwerten ermittelt. Es ist nicht ausgeschlossen, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt. Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise für die Alternativhypothese entscheidet, liegt ein α-Fehler (oder Fehler 1. Art) vor. Auch dann, wenn sich die Risiko-Babys bezüglich ihres Geburtsgewichts von den anderen nicht unterscheiden würden (wenn also die Nullhypothese zuträfe), könnten allein aufgrund des Zufalls nur leichtgewichtige Babys in die Stichprobe gelangen, deren durchschnittliches Gewicht weit unter 3.500 Gramm läge. Der Arzt würde dann annehmen, dass diese Kinder weniger wiegen und sich irrtümlicherweise für die Alternativhypothese entscheiden. Damit würde er einen α-Fehler begehen (freilich ohne dies zunächst zu merken). Ein α-Fehler ist nicht generell vermeidbar – aber er ist kontrollierbar. Dieser Fehler kann nämlich nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig formuliert. Deshalb ist es möglich, die Wahrscheinlichkeitsverteilung der Prüfgröße explizit anzugeben. Es ist bekannt, dass unter H 0 die Zufallsvariable
T=
10
X − µ0 S/ n
› Abschnitt 8.5.1). Nach dieser Vorschrift berechnet t-verteilt ist (z man aus den Daten der Stichprobe die Prüfgröße t: t=
x − µ0
(10.1)
s/ n
Diese Prüfgröße kann Werte zwischen −∞ und +∞ annehmen. Unter der Nullhypothese betragen die entsprechenden Wahrscheinlichkeiten (mit α = 5% ): Bereich der Prüfgröße t
Entscheidung Wahrscheinlichfür keit α / 2 = 2,5% H1
t < tn −1;α / 2 < 0
kritischer Bereich
tn −1;α / 2 ≤ t ≤ tn −1;1− α / 2
Annahmebereich
H0
1 − α = 95%
t > tn −1;1− α / 2 > 0
kritischer Bereich
H1
α / 2 = 2,5%
10
193 10.1 Die Durchführung eines Tests
Im kritischen Bereich hat die Prüfgröße einen Betrag t > tn −1;1− α / 2 (wegen der Symmetrie der t-Verteilung ist t n −1;α / 2 = −t n −1;1−α / 2 ). Deshalb ist für diesen Test folgende Entscheidungsregel relevant:
ŷ Falls t ≤ t n −1;1−α / 2 , behält man die Nullhypothese bei; ŷ falls t > t n −1;1−α / 2 , nimmt man die Alternativhypothese an. Die Werte ± tn −1;1−α / 2 trennen den Annahme- vom kritischen Bereich › Abbildung und werden deshalb als kritische Werte bezeichnet (z 10.1). Bei einseitiger Fragestellung H1 :
µ > µ0
wird die Nullhypothese abgelehnt, falls t > t n −1;α . Wenn man dagegen die Alternativhypothese formuliert als H1 :
µ < µ0 ,
muss die Prüfgröße t negativ und kleiner als t n −1;α = −t n −1;1−α sein, damit die Alternativhypothese angenommen werden kann. Der Ablehnungsbereich mit der Fläche α ist bei einseitigen Fragestellungen nur auf einer Seite der Dichtefunktion der t-Verteilung. Die kritischen Werte sind also abhängig von der Anzahl der Freiheitsgrade f = n − 1 , der Irrtumswahrscheinlichkeit α und davon, ob man ein- oder zweiseitig testet.
Abb. 10.1 Annahme- und Ablehungsbereich beim t-Test (zweiseitige Fragestellung)
1- α Annahmebereich
α/2
-tn –1;1– α/2
α/2
tn –1;1– α/2
194
10
Kapitel 10 · Das Prinzip eines statistischen Tests
Diese Vorgehensweise gewährleistet, dass – falls die Nullhypothese richtig ist – mit einer Wahrscheinlichkeit von mindestens 95% eine richtige Entscheidung getroffen wird. Das Risiko einer Fehlentscheidung (also der α-Fehler) beträgt demnach maximal 5%. Theoretisch kann der Anwender eines statistischen Tests die maximale Größe des α-Fehlers nach Belieben festlegen. Um jedoch eine Vergleichbarkeit statistisch abgesicherter Entscheidungen zu ermöglichen, hat sich in den Biowissenschaften ein Schwellenwert von 5 % eingebürgert. Diesen Wert bezeichnet man als das α-Niveau oder Signifikanzniveau. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0,1% , hin und wieder auch α = 10% . Die maximale Größe des α-Fehlers sollte vor der Durchführung des Tests festgelegt werden. Daraus ergeben sich dann der Annahmebereich für die Nullhypothese sowie der kritische Bereich (oder Ablehnungsbereich für die Nullhypothese). Wenn die Prüfgröße in den Annahmebereich fällt, entscheidet man sich für die Nullhypothese, ansonsten für die Alternativhypothese. Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist und man fälschlicherweise die Nullhypothese beibehält. In diesem Fall begeht man einen β-Fehler oder Fehler 2. Art. Dieser lässt sich im Gegensatz zum α-Fehler kaum abschätzen, da die Alternativhypothese nicht explizit vorgegeben ist. Generell gilt: Je mehr sich der unbekannte Erwartungswert Nj und der Sollwert µ 0 unterscheiden, desto eher lässt sich die Alternativhypothese absichern und desto kleiner ist der β-Fehler. Man kann den β-Fehler durch die Wahl des α-Fehlers beeinflussen. Je größer der Wert für α angenommen wird, umso größer ist der kritische Bereich und umso kleiner ist β. Ein kleiner α-Fehler bedeutet also einerseits, dass man seltener eine richtige Nullhypothese ablehnt. Andererseits geht man ein höheres Risiko ein, die Nullhypothese auch dann beizubehalten, wenn in Wirklichkeit die Alternativhypothese richtig ist. 10.1.4 Der Stichprobenumfang Dem Stichprobenumfang ist besondere Beachtung beizumessen, da er das Testergebnis massiv beeinflusst. Je kleiner der Stichprobenumfang ist, desto eher wird die Nullhypothese beibehalten. Andererseits gibt ein extrem großer Stichprobenumfang der Nullhypothese keine Chance. Daraus folgt: Jede Alternativhypothese (die auch nur minimal von der Nullhypothese abweicht) lässt sich statistisch absichern, wenn nur der Stichprobenumfang hinreichend groß ist.
195
10
10.2 Testentscheidung und Konsequenzen
Demnach könnte man meinen, dass die Testentscheidung bedeutungslos ist. Sie ist es jedoch nicht, wenn der Anwender (der ja in der Regel die Alternativhypothese annehmen möchte) vorab darüber nachdenkt, wie groß der Unterschied zwischen Null- und Alternativhypothese sein sollte, damit ihm eine praktische Bedeutung zukommt, und aufgrund dieser Überlegungen den Stichprobenumfang bestimmt. Damit kann man verhindern, dass ein Test nur aufgrund eines hohen Stichprobenumfangs kleinste Unterschiede erkennt, die in Wirklichkeit belanglos sind. Eine Besonderheit stellen sequenzielle Testverfahren dar, bei denen der Stichprobenumfang nicht vor dem Testen als fixe Größe festgelegt, sondern als eine Zufallsvariable aufgefasst wird. Der zu prüfende Parameter wird nicht nur unter der Nullhypothese, sondern auch unter der Alternativhypothese fixiert (dazu muss der Anwender wissen, welche Differenz zwischen Null- und Alternativhypothese klinisch bedeutsam ist). Außerdem werden sowohl Į als auch β vorab bestimmt. Man führt den Test zunächst mit einem minimalen Stichprobenumfang durch, erhöht diesen um 1 und wiederholt diese Prozedur so lange, bis eine Testentscheidung möglich ist. Dieses Verfahren gewährleistet, dass der Stichprobenumfang optimal ist (nicht zu hoch und nicht zu niedrig). Allerdings sind sequenzielle Verfahren in der Praxis nicht immer geeignet. Näheres dazu findet man in [5]. Merke Der optimale Stichprobenumfang hängt von mehreren Parametern ab: 1. vom Į-Fehler (üblich ist Į = 0,05), 2. vom β-Fehler (üblich ist β = 0,20), 3. von der Art der Daten und deren Skalenniveau, 4. von der Streuung der Daten, 5. vom speziellen Test und 6. von der Größe des nachzuweisenden Effekts.
10.2
Testentscheidung und Konsequenzen
10.2.1 Die Basis der Testentscheidung Ein statistischer Test endet mit einer Entscheidung, die aufgrund des Testergebnisses getroffen wird. Generell gibt es zwei Möglichkeiten:
196
Kapitel 10 · Das Prinzip eines statistischen Tests
ŷ Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet man sich für die Alternativhypothese. Ein solches Ergebnis heißt in Abhängigkeit von α schwach-signifikant ( α = 10% ), signifikant ( α = 5% ), hoch-signifikant ( α = 1% ) oder höchst-signifikant ( α = 0,1% ). Theoretisch kann diese Entscheidung zwar falsch sein – nämlich dann, wenn in Wirklichkeit die Nullhypothese richtig ist und man dennoch eine Prüfgröße im kritischen Bereich erhält. Dieses Risiko wird jedoch durch den Wert von α kontrolliert. Man formuliert die Entscheidung als: „Die Nullhypothese wird verworfen“ oder „Die Alternativhypothese wird angenommen“. ŷ Wenn die Prüfgröße im Annahmebereich liegt, entscheidet man sich für die Nullhypothese. Diese Entscheidung ist richtig, wenn die Aussage der Nullhypothese in Wirklichkeit zutrifft. Ansonsten ist man einem β-Fehler erlegen. Dieser Fehler ist im Gegensatz zum α-Fehler nicht abschätzbar; er kann – insbesondere bei kleinem Stichprobenumfang – sehr groß sein. Eine Prüfgröße im Annahmebereich ist deshalb kein Beleg für die Richtigkeit der Nullhypothese, sondern lediglich ein Hinweis darauf, dass man anhand des vorhandenen Datenmaterials die Nullhypothese nicht ablehnen kann. Man formuliert deshalb sehr vorsichtig: „Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“ oder „Es ergibt sich kein Widerspruch zur Nullhypothese“.
10
Die Wahrscheinlichkeit eines Tests, eine richtige Alternativhypothese als solche zu erkennen, ist 1 − β . Sie quantifiziert die so genannte Güte, Teststärke, Trennschärfe oder Macht. Auch der englische Ausdruck Power wird häufig verwendet. ! Der Versuchsleiter weiß bei Annahme der Alternativhypothese nie ganz z
genau, ob er eine richtige Entscheidung getroffen hat, oder ob er einem α-Fehler erlegen ist. Deshalb klingen Sätze „Mit 95%-iger Sicherheit trifft die Alternativhypothese zu“ oder „Mit einer Wahrscheinlichkeit von weniger als 5% ist die Alternativhypothese falsch“ plausibel. Diese Formulierungen sind zwar weit verbreitet, aber nicht korrekt. Sie würden ja implizieren, dass die vorab konkret formulierte Alternativhypothese meistens richtig, aber zufällig auch einmal falsch sein kann. Einer Hypothese haftet jedoch nichts Zufälliges an – sie ist entweder richtig oder falsch. Zufällig sind die Daten, die in die Stichprobe gelangen, damit auch die Testgröße und die davon abhängige Entscheidung.
10
197 10.2 Testentscheidung und Konsequenzen
Tabelle 10.1 Entscheidungen bei einem statistischen Test
Wirklichkeit Testentscheidung für H 0 für H1 Summe
H 0 gilt
H1 gilt
richtige Entscheidung
Fehler 2. Art
1− α
ß
Fehler 1. Art
richtige Entscheidung
α
1− ß
1
1
Aus diesen Ausführungen geht hervor: Die Nullhypothese ist in der Testtheorie die Basis, von der entschieden wird. Es ist wichtig, dafür zu sorgen, dass sie nicht leichtfertig oder grundlos abgelehnt wird. Man ist deshalb vorsichtig und akzeptiert die Alternativhypothese nur dann, wenn die Testgröße in den kritischen Bereich fällt – mit anderen Worten: wenn der Wert der Testgröße mit der Nullhypothese nur schwer zu vereinbaren ist. 10.2.2 p-Wert und Konfidenzintervall Vor noch nicht allzu langer Zeit war es üblich, eine Prüfgröße per Hand oder mit einem Taschenrechner zu berechnen. Um zu beurteilen, ob das Ergebnis signifikant war, hatte man den berechneten Wert mit einem kritischen Wert zu vergleichen. In fast jedem Statistiklehrbuch findet man Tabellen, in denen kritische Werte aufge› Anhang, Tabellen A – F). Wenn beispielsweise die listet sind (z Prüfgröße, die aus einem t-Test für eine Stichprobe resultiert, betragsmäßig größer ist als das Quantil tn −1;0,975 , kann man davon ausgehen, dass das Testergebnis signifikant ist auf dem Niveau α = 0,05 . Wenn die Prüfgröße sogar größer ist als tn −1;0,995 , ist der Unterschied auf dem 1%-Niveau abgesichert (jeweils beim zweiseitigen Testen). Heutzutage ist es üblich, einen statistischen Test mit Hilfe einer geeigneten Software durchzuführen. Diese berechnet in der Regel außer der Prüfgröße den so genannten p-Wert. Dieser Wert quantifiziert die Wahrscheinlichkeit, dass das gefundene Testergebnis (oder ein noch extremeres Ergebnis) zustande kommt, wenn in Wirklichkeit die Nullhypothese richtig ist. Wenn p kleiner ist als das zuvor festgelegte Signifikanzniveau Į, wird die Alternativhypothese angenommen. Etwas salopp ausgedrückt ist der p-Wert die Wahrscheinlichkeit dafür, dass das Testergebnis ein reiner Zufallsbefund ist. Grundsätzlich ist Folgendes zu beachten:
198
Kapitel 10 · Das Prinzip eines statistischen Tests
• Der p-Wert besagt lediglich, ob ein statistisch signifikanter Unterschied existiert. Er enthält jedoch keine Informationen über die Größe dieses Unterschieds. Deshalb ist es sinnvoll, zusätzlich zum p-Wert ein Konfidenzintervall zu berechnen. • Grundsätzlich sind alle Werte im Konfidenzintervall für die Größe des Unterschieds in Betracht zu ziehen. Je schmaler dieses Intervall ist, desto präziser ist die Schätzung und desto einfacher ist die Interpretation des Testergebnisses. Problematisch ist es, wenn ein kleiner Stichprobenumfang zu einem nicht-signifikanten Ergebnis und einem breiten Konfidenzintervall führt. In diesem Fall kann keine Aussage darüber getroffen werden, ob es keinen praktisch relevanten Unterschied gibt oder ob dieser nur nicht nachgewiesen werden kann. Beispiel 10.1 Ein Arzt erhält bei einer Beobachtungsstudie mit 20 Babys von Risiko-Patientinnen für das Geburtsgewicht: x ± s = (3280 ± 490) Gramm. Diese Werte sind zu vergleichen mit dem aus der Literatur bekannten Durchschnittswert von 3500 Gramm. Aus den Daten resultiert nach (10.1): t =
x − µ0 3280 − 3500 == = −2,0079 und s/ n 490 / 20
p = 0, 0509 . Der kritische Wert ist t19;0,975 = 2, 093 (zweiseitiger Test, Tabelle
10
B). Auf dem α = 5% -Niveau müsste man also die Nullhypothese beibehalten. Für das einseitige Testen beträgt der kritische Punkt jedoch t19;0,95 = 1, 729 ; der p-Wert halbiert sich auf 0,0255. Dieses Ergebnis ist signifikant. Das einseitige Konfidenzintervall für den Mittelwert ist nach Formel (9.10): (-; 3469). Dies zeigt zwar, dass die 20 Babys durchschnittlich weniger wiegen als 3500 Gramm, dass aber der Unterschied möglicherweise nicht sehr gravierend ist. Bei diesem einseitigen Intervall ist nur die obere Grenze interessant. i Beim einseitigen t-Test entspricht der p-Wert dem Integral (also der Fläz che) zwischen der nach (10.1) berechneten Prüfgröße und dem Ende der Dichtefunktion; beim zweiseitigen t-Test verteilt sich diese Fläche gleichmäßig auf beide Enden der Dichtefunktion. Falls das Ergebnis signifikant › Abbilist mit p < α , ist diese Fläche ein Teil des kritischen Bereiches (z dung 10.1). Es ist in der Regel nicht möglich, die p-Werte eines statistischen Tests manuell zu bestimmen. In den Beispielen der Kapitel 10 bis 12 wurden diese mit Hilfe der Statistiksoftware SAS ermittelt.
199
10
10.2 Testentscheidung und Konsequenzen
10.2.3 Die Interpretation eines signifikanten Ergebnisses Das Ziel eines statistischen Tests besteht meistens darin, die Alternativhypothese abzusichern. Ob das gelingt, hängt vom p-Wert ab. Ein p-Wert unter 0,05 ist häufig Anlass zu großer Freude! Viele Anwender unterliegen aber allzu menschlichen Schwächen und „über“interpretieren ein Testergebnis subjektiv nach ihren eigenen Vorstellungen. Dies möge an den Beispielen dieses Kapitels verdeutlicht werden. Das Ergebnis von Beispiel 10.1 erhärtet die These, dass das Geburtsgewicht der Risiko-Babys geringer ist als der allgemeine Durchschnitt. Das Ergebnis allein ist aber kein hieb- und stichfester Beweis (sondern lediglich ein Hinweis) für einen kausalen Zusammenhang. Um diese These zu erhärten, sind weitere Überlegungen fachlicher Art notwendig. In Beispiel 11.1 wird die Wirkung einer Diät an 10 Probanden getestet; der Unterschied bezüglich des durchschnittlichen Körpergewichts vor und nach der Diät ist statistisch signifikant. Dies heißt jedoch keineswegs, dass sich das Körpergewicht allein wegen der Diät verringert hat. Auch andere Ursachen sind in Betracht zu ziehen (möglicherweise haben die Probanden generell ihren Lebensstil oder ihre Einstellung zu ihrer Gesundheit verändert). In Beispiel 11.5 erhält man mit denselben Daten und einem anderen Testverfahren ein nicht-signifikantes Ergebnis. Hier wäre es allzu leichtfertig, das Ergebnis dahingehend zu interpretieren, als habe die Diät keinen Einfluss auf das Gewicht. Das Ergebnis ist auch bedingt durch die geringe Power des Tests und den kleinen Stichprobenumfang. Generell gilt: Der p-Wert besagt nichts über die Ursachen eines Unterschiedes oder über die Konsequenzen, die sich daraus ergeben. Diese Fragen müssen mit medizinischem Sachverstand geklärt werden; die Statistik hilft dabei nicht weiter. Der Anwender eines statistischen Tests sollte sich von einem kleinen p-Wert nicht blenden lassen. „Statistische Signifikanz“ ist nicht gleichbedeutend mit „praktischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“. 10.2.4 Die Interpretation eines nicht-signifikanten Ergebnisses Ein nicht-signifikantes Testergebnis kann zweierlei bedeuten. 1: Es gibt keinen relevanten Unterschied, oder 2: Es gibt einen bedeutsamen Unterschied, der sich aber wegen eines zu geringen Stichprobenumfangs nicht nachweisen lässt. Ein Konfidenzintervall ist hilf-
200
10
Kapitel 10 · Das Prinzip eines statistischen Tests
reich, um zu beurteilen, welche dieser beiden Alternativen eher zutrifft. Der Test in Beispiel 12.2 wurde durchgeführt, um herauszufinden, ob ein Zusammenhang zwischen Rauchen und Geschlecht besteht. Das Ergebnis „nicht signifikant“ ist mit Vorsicht zu interpretieren. Abgesehen vom nicht allzu großen Stichprobenumfang ist zu bedenken, dass die Beobachtungseinheiten Medizinstudenten sind. Auf andere Populationen ist das Ergebnis nicht ohne weiteres übertragbar. Wenn man keinen Unterschied erwartet hat, ist ein nichtsignifikantes Testergebnis nicht Aufsehen erregend. Ansonsten sollte man überlegen, ob ein inhaltlicher Fehler vorliegt oder ob die statistische Analyse nicht optimal verlaufen ist. Nun gibt es auch Fragestellungen, bei denen die Beibehaltung der Nullhypothese erwünscht ist. Dazu zählen Anpassungstest und Äquivalenztests. Mit einem Anpassungstest soll nachgewiesen werden, dass eine empirische Verteilung mit einer theoretischen Ver› Abschnitt 12.2.6). In diesen Fällen wird die teilung vereinbar ist (z Nullhypothese meist erst für p ≥ 0,10 angenommen. Äquivalenztests werden u. a. bei Bioverfügbarkeitsstudien angewandt, um die therapeutische Gleichwertigkeit zweier Behandlungen zu prüfen. Für den Nachweis, dass zwei Verfahren übereinstimmend dieselben Ergebnisse liefern (abgesehen von zufällig bedingten Abweichungen, die für die Praxis unerheblich sind), stehen spezielle Methoden zur Verfügung. Für quantitative Messwerte eignet sich die › Abschnitt 5.2.5). Bei qualitativen MerkBland-Altman-Analyse (z malen wird üblicherweise ein Kappa-Index berechnet, um den Grad › Abschnitt 15.1.4). Weitere der Übereinstimung abzuschätzen (z Informationen zu Äquivalenztests findet man in [11]. 10.2.5 Die Manipulation des Testergebnisses Ein signifikantes Ergebnis lässt sich leichter publizieren als ein nicht-signifikantes. Um dies zu erreichen, ist einigen Leuten jedes Mittel recht. Einige dieser „Tricks“ werden hier aufgezählt (wobei ausdrücklich betont wird, dass sie nicht zur Nachahmung empfohlen werden).
• Auswahl des Tests. Bei vielen Fragestellungen kommen theore tisch mehrere Testmethoden mit unterschiedlichen Voraussetzungen in Frage. Die oben behandelte Frage, ob das mittlere Geburtsgewicht der 20 Babys mit dem Sollwert von 3.500 Gramm zu vereinbaren ist,
201
10
10.2 Testentscheidung und Konsequenzen
kann auch mit dem Wilcoxon-Test oder dem Vorzeichentest über› Abschnitte 11.2.1 und 11.3.1). Man könnte nun alle prüft werden (z in Frage kommenden Tests durchprobieren und sich dann denjenigen auswählen, dessen p-Wert am besten gefällt (irgendeine Begründung bezüglich der Voraussetzungen lässt sich sicherlich finden). Grundsätzlich sollte man sich jedoch von vornherein aufgrund der Datenlage für ein bestimmtes Testverfahren entscheiden und dessen Ergebnis dann akzeptieren.
• Ein- oder zweiseitiges Testen. Es mag verlockend sein, einseitig zu testen, nachdem man mit dem zweiseitigen Testen einen p-Wert zwischen 0,05 und 0,10 erhalten hat. Dann halbiert sich der p-Wert, und aus einem nicht-signifikanten Ergebnis wird ein signifikantes. Gegen eine einseitige Fragestellung ist nichts einzuwenden, falls sie sachlich begründet ist und falls die Richtung eines möglichen Unterschiedes vor der Datenerhebung festgelegt wird. Es ist aber unehrlich, einseitig zu testen und die Richtung des Unterschieds erst festzulegen, nachdem die Daten vorliegen. Man testet einseitig, wenn man die Richtung eines eventuell vorhandenen Unterschiedes vorab kennt, oder wenn sich Konsequenzen nur bei einer bestimmten Abweichungsrichtung ergeben. Der Anwender sollte sich allerdings fragen, ob wirklich nur eine einzige Abweichungsrichtung interessant ist, oder ob er sich einen Unterschied in einer bestimmten Richtung erhofft und deshalb einseitig testet. Außerdem ist zu berücksichtigen, dass einseitige Tests empfindlicher auf eine Verletzung ihrer Voraussetzungen reagieren als zweiseitige. Weitere Kniffe, mit denen sich Daten „frisieren“ lassen und so zu sinnlosen oder irreführenden Ergebnissen führen, liest man auf unterhaltsame Weise in [3]. Man kann zwar mit derlei Tricks gewaltsam ein signifikantes Ergebnis herbeiführen und dieses mit etwas Glück sogar veröffentlichen. Die wissenschaftliche Arbeit ist damit aber wertlos. Fälschungen könnten bei späteren Verifikationen auffallen und sehr unangenehme Folgen für alle Beteiligten haben. Die beste Methode, zu einem signifikanten Testergebnis zu kommen und einen α-Fehler zu vermeiden, besteht immer noch darin, vor der Datenerhebung die Fragestellung theoretisch zu überdenken und inhaltlich abzusichern. 10.2.6 Multiples Testen Im klinischen Alltag wird häufig eine große Anzahl von Daten erhoben. Mit einer passenden Software und etwas EDV-Know-How
202
10
Kapitel 10 · Das Prinzip eines statistischen Tests
stellen deren Analyse kein nennenswertes Problem dar. So ist man oft geneigt, einen Test nach dem anderen durchzuführen, in der Hoffnung, wenigstens ein einziges signifikantes Ergebnis zu erhalten. Aber: Bei mehrmaligem Testen steigt der α-Fehler enorm an. Bei einem einzelnen Test beträgt die Wahrscheinlichkeit, unter der Nullhypothese richtig zu entscheiden, 1 − α ; bei 10 unabhängig durchgeführten Tests liegt diese Wahrscheinlichkeit nur noch bei (1 − α)10 . Bei α = 5% sind dies etwa 60% – das heißt, der gesamte Fehler 1. Art liegt bei 40 %! Es lässt sich mathematisch nachweisen, dass bei k Tests der α -Fehler insgesamt etwa kα beträgt. Beim multiplen Testen wird daher häufig eine Korrektur benutzt. Nach der Bonferroni-Korrektur ist beispielsweise ein einzelnes Testergebnis erst dann signifikant, wenn der p-Wert kleiner als α / k ist. Der Nachteil dieses Verfahrens liegt allerdings darin, dass sich dadurch der β-Fehler enorm erhöht. Das Problem des multiplen Testens kann dadurch entschärft werden, dass man nicht wahllos jeden Test durchführt, der theoretisch denkbar ist, sondern dass man vorab die konkrete Fragestellung präzise formuliert und dann überlegt, welche Tests dem inhaltlichen Problem angemessen sind. Häufig ist es sinnvoll, anstatt mehrerer einfacher Tests ein komplexeres Verfahren zu verwenden (so z. B. eine Varianzanalyse statt mehrerer t-Tests), da dies eine effizientere Datenanalyse ermöglicht. Zum Schluss sei betont: Es ist selbstverständlich legitim, ein signifikantes Ergebnis anzustreben und dieses auch zu veröffentlichen. Dies sollte aber nicht durch Manipulation der Daten oder unsachgemäßer Handhabung der Verfahren geschehen, sondern aufgrund einer ordentlichen Versuchsplanung. Die statistische Analyse ist dann nur noch das „Tüpfelchen auf dem i“.
10.3
Klassifikation der Testmethoden
Es gibt diverse Testverfahren für die unterschiedlichsten Fragestellungen. Diese lassen sich nach mehreren Aspekten einteilen:
• Anzahl der Stichproben. Es gibt 1-Stichprobentests, 2-Stichpro ben- und Mehrstichprobentests. Bei den 1-Stichprobentests wird eine empirische Kenngröße (z. B. ein Mittelwert) mit einem vorgegebenen Sollwert verglichen. Mehrere Stichproben werden bezüglich eines bestimmten Parameters (z. B. dem Mittelwert) miteinander verglichen.
203
10
10.3 Klassifikation der Testmethoden
• Art der Stichproben. Zwei oder mehrere Stichproben können verbunden oder unverbunden sein. Verbundene (oder abhängige) Stichproben haben immer denselben Umfang; zwei verbundene Stichproben werden auch paarig genannt. Jeder Wert der einen Stichprobe bildet mit einem Wert der anderen Stichprobe inhaltlich ein Paar. Verbundene Stichproben werden untersucht, wenn ein bestimmtes Merkmal im Laufe einer Therapie an Patienten zu mehreren Zeitpunkten erfasst wird. Unverbundene (oder unabhängige) Stichproben sind bezüglich ihrer Beobachtungseinheiten unabhängig voneinander; ihre Umfänge können unterschiedlich sein. Solche Stichproben treten bei klinischen Studien auf, in denen zwei oder mehr Therapien an unterschiedlichen Patientengruppen angewandt und verglichen werden. • Funktion des Tests. Diesbezüglich lassen sich Tests einteilen in:
ŷ Lagetests zum Vergleich von Lagemaßen; ŷ Wahrscheinlichkeitstests zum Vergleich ŷ ŷ ŷ ŷ ŷ
einer relativen Häufigkeit mit einer vorgegebenen Wahrscheinlichkeit; Homogenitätstests zum Vergleich mehrerer Stichproben bezüglich einer Häufigkeitsverteilung; Dispersionstests zur Prüfung von Streuungsmaßen; Unabhängigkeitstests, um die Unabhängigkeit zweier Merkmale zu überprüfen; Anpassungstests, bei denen eine empirische Verteilung mit einer theoretischen (z. B. Normalverteilung oder Poissonverteilung) verglichen wird; Tests zum Vergleich von Überlebenszeitkurven.
• Prüfgrößen. Danach unterscheidet man u. a. t-Tests, Rang summentests, Vorzeichentests, Chi2-Tests und Binomialtests. In den beiden nächsten Kapiteln werden Tests behandelt, die sich zum Nachweis einfacher Zusammenhänge eignen. Diese Tests beinhalten das Basiswissen, das erforderlich ist, um komplexere Verfahren anwenden zu können. Dazu zählen Mehrstichprobentests und multiple Methoden, die den Zusammenhang zwischen einer Zielgröße und mehreren Einflussgrößen untersuchen. Es würde den Rahmen dieses Buches sprengen, derlei Verfahren ausführlich zu behandeln. Interessierten Lesern seien die Werke [1,], [2], [4] und [10] empfohlen.
204
Kapitel 10 · Das Prinzip eines statistischen Tests
Übersicht 8: Statistische Tests Funktion des Tests
Bezeichnung
Lagetest für eine Stichprobe
t-Test Wilcoxon-Test Vorzeichentest
Lagetest für zwei verbundene Stichproben
Lagetest für zwei unverbundene Stichproben
10
Testgegenstand
X normalverteilt X symmetrisch verteilt Variable X Differenz X − Y t-Test normalverteilt Differenz X − Y Wilcoxon-Test symmetrisch verteilt Vorzeichentest Differenz X − Y X und Y normalverteilt mit t-Test gleicher Varianz Welch-Test X und Y normalverteilt X und Y gleiche U-Test Verteilungsform Median-Test X und Y ordinal skaliert
Abschn.
11.1.1 11.2.1 11.3.1 11.1.2 11.2.2 11.3.2 11.1.3 11.1.4 11.2.3 12.2.2
Dispersionstest
F-Test
2 Varianzen
11.1.5
Unabhängigkeitstest
t-Test
Korrelationskoeffizient
11.1.6
Wahrscheinlichkeitstest
Binomialtest
Alternativmerkmal
12.1
Homogenitätstest für zwei unverbundene Stichproben, Unabhängigkeitstest Homogenitätstest für zwei verbundene Stichproben
Vierfeldertest Chi2-Test Fisher’s exakter Test
2 Alternativmerkmale 2 qualitative Merkmale
12.2.1 12.2.3
2 qualitative Merkmale
12.3
McNemar-Test
Alternativmerkmal
12.2.5
Anpassungstest
Chi2Anpassungstest
empirische Verteilung
12.2.6
Vergleich von Überlebenszeiten
Logrank-Test
Überlebenszeitkurven
12.2.7
11
Lagetests 11.1
t-Tests 207
11.1.1 Der t-Test für eine Stichprobe 207 11.1.2 Der t-Test für zwei verbundene Stichproben 207 11.1.3 Der t-Test für zwei unverbundene Stichproben 209 11.1.4 Der Welch-Test 210 11.1.5 Die Voraussetzungen der t-Lagetests 212 11.1.6 Andere Anwendungen des t-Tests 214
11.2
Rangsummentests 215
11.2.1 Der Wilcoxon-Test für eine Stichprobe 215 11.2.2 Der Wilcoxon-Test für zwei verbundene Stichproben 216 11.2.3 Der U-Test von Mann und Whiney 218 11.2.4 Vergleich zwischen Rangsummentests und t-Tests 219
11.3
Vorzeichentests 222
11.3.1 Der Vorzeichentest für eine Stichprobe 222 11.3.2 Der Vorzeichentest für zwei verbundene Stichproben 223 11.3.3 Vergleich mit anderen Lagetests 223
11.4
Ausblick auf komplexere Methoden 224
11.4.1 Mehrstichprobentests 224 11.4.2 Multiple Methoden 225
207
11
11.1 t-Tests
11.1
t-Tests
Diese Tests setzen theoretisch normalverteilte Grundgesamtheiten voraus. Man bezeichnet sie als parametrische Tests, da bei bekannter Verteilung der Zufallsvariablen nur noch bestimmte Parameter (z. B. Erwartungswerte) überprüft werden. 11.1.1 Der t-Test für eine Stichprobe Dieser Test vergleicht den Mittelwert x einer Stichprobe mit einem vorgegeben Sollwert µ 0 . Er setzt voraus, dass
ŷ die Stichprobenwerte xi Realisationen einer normalverteilten Zufallsvariablen X ~ N (µ, σ 2 ) sind.
Dieser Test wurde ausführlich in Abschnitt 10.1 behandelt. Die Prüfgröße, nach der entschieden wird, berechnet sich nach (10.1) aufgrund des Mittelwerts und der Standardabweichung der Stichprobe als: t=
x − µ0 s/ n
11.1.2 Der t-Test für zwei verbundene Stichproben Dies ist ein Lagetest, der herangezogen wird, um die Gleichheit von zwei Erwartungswerten zu überprüfen. Er setzt formell voraus:
ŷ zwei verbundene Stichproben des Umfangs n mit Wertepaaren ŷ
( xi , yi ) , die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ 2 stammen; Differenzen d i = xi − yi , die Realisationen einer normalverteilten Zufallsvariablen D mit dem Erwartungswert į (Delta) sind.
Die Hypothesen lauten bei zweiseitiger Fragestellung: H0 :
δ=0
H1 :
δ≠0
bzw. bei einseitiger Fragestellung: H1 :
δ>0
(oder δ < 0 )
208
Kapitel 11 · Lagetests
Unter der Nullhypothese erwartet man für die Differenzen d i den Mittelwert d = 0 . Die Prüfgröße berechnet sich analog zu (10.1) als t=
d sd / n
(11.1)
Dabei bezeichnet s d die empirische Standardabweichung der Differenzen d i . Die Nullhypothese wird abgelehnt, falls t > t n −1;1− α / 2 (bei zweiseitiger Fragestellung). Bei einseitiger Fragestellung wird die Nullhypothese abgelehnt, falls t > tn −1;1−α (für H1 : δ > 0 ) bzw. falls t < −tn −1;1−α (für H1 : δ < 0 ). Auch bei diesem Test ist es sinnvoll, ein Konfidenzintervall zu bestimmen, um die Größe des „wahren“ › Formel 9.9): Unterschieds abzuschätzen (z t n −1;1−α / 2 ⋅ s d t n −1;1−α / 2 ⋅ s d º ª ;d + » «d − n n ¼ ¬
Falls einseitig getestet wird, benutzt man die Formeln nach (9.10), um ein halboffenes Intervall zu konstruieren.
11
Beispiel 11.1 In Beispiel 11.3 sind die Körpergewichte von 10 Personen aufgelistet, die vor und nach einer Diät gemessen wurden. Die Mittelwerte sind 93,9 kg (vorher) und 91,2 kg (nachher). Die mittlere Differenz ist (2,68 ± 3,32) kg. Dies ergibt nach (11.1) die Prüfgröße t = 2,55 . Aus Tabelle B entnimmt man t9;0,975 = 2,262 als kritischen Punkt (der p-Wert beträgt 0,0312). Der Unterschied ist also signifikant auf dem Niveau α = 0,05 . Das Konfidenzintervall für die Differenz ist: [0,302 ; 5,059]. Eventuell ist der durchschnittliche Unterschied mit 300 Gramm minimal; er könnte jedoch auch mehrere kg betragen. Das Testergebnis ist zwar signifikant – ein höherer Stichprobenumfang würde aber zu einem kleineren Konfidenzintervall und zu einer genaueren Schätzung führen. i Bei praktischen Anwendungen ist es nicht notwendig, die Prüfgröße, den z kritischen Punkt oder das Konfidenzintervall manuell zu berechnen. Um zu beurteilen, ob ein Ergebnis signifikant ist, lässt man den p-Wert und das Konfidenzintervall von einer Statistiksoftware ermitteln (die Prüfgröße ist bei Publikationen von untergeordneter Bedeutung). Dennoch wird in den Beispielen der Kapitel 11 und 12 die Berechnung der jeweiligen Prüfgröße aus didaktischen Gründen durchgeführt.
209
11
11.1 t-Tests
11.1.3 Der t-Test für zwei unverbundene Stichproben Die Prämissen dieses Tests sind folgende:
ŷ Es liegen zwei unverbundene Stichproben der Umfänge n1 und n2 vor;
ŷ die Daten beider Stichproben entstammen normalverteilten Grundgesamtheiten mit derselben Varianz, also X ~ N (µ1, σ 2 ) und Y ~ N (µ 2 , σ 2 ) .
Beide Verteilungen sollten demnach dieselbe Form haben und sich höchstens bezüglich ihrer Erwartungswerte unterscheiden. Die Nullhypothese lautet: H 0 : µ1 = µ 2 . Die Prüfgröße ist: x−y
t= s⋅
(11.2)
1 1 + n1 n2
Da in diese Berechnung zwei unabhängige Mittelwerte einfließen, beträgt die Anzahl der Freiheitsgrade f = n1 + n2 − 2 . Die Nullhypothese wird abgelehnt, falls t > t f ;1−α / 2 (bei zweiseitiger Fragestellung). Bei einseitiger Fragestellung ist +t f ;1−α bzw. t f ;α = −t f ;1−α der kritische Wert. Dabei ist s 2 die „mittlere“ Varianz, die sich aufgrund der Annahme gleicher Varianzen der Grundgesamtheiten durch eine gewichtete Mittelung aus den beiden empirischen Varianzen s12 und s 22 berechnen lässt: s2 =
( n1 − 1) s12 + ( n2 − 1) s22 n1 + n2 − 2
(11.3)
Die Grenzen des zweiseitigen Konfidenzintervalls sind: x − y ± tn1 + n2 − 2;1−α / 2 ⋅ s ⋅
1 1 + n1 n2
Bei gleichen Stichprobenumfängen n = n1 = n2 vereinfachen sich die obigen Formeln zu: t=
x−y s⋅ 2/n
(11.4)
210
Kapitel 11 · Lagetests
s2 =
s12 + s22 2
(11.5)
Mathematische Herleitung der Prüfgröße beim t-Test für zwei unverbundene Stichproben Die Prüfgröße beschreibt die Verteilung der Differenz X − Y , die aus den Mittelwerten der beiden Stichproben berechnet wird. Unter der Nullhypothese sind die Differenzen normalverteilt mit dem Erwartungswert 0. Für deren Varianz gilt: Var ( X − Y ) = Var X + Var Y =
σ2 σ2 + . n1 n2
Die unbekannte Varianz σ 2 wird geschätzt durch das gewichtete Mittel der beiden Stichproben-Varianzen nach Formel (11.3). Wenn man diese Terme in (8.43) einsetzt, erhält man eine Prüfgröße nach (11.2).
11
Beispiel 11.2 Für die Körpergrößen männlicher und weiblicher Studenten ergeben sich Mittelwerte von xm = 181,22 cm bzw. xw = 169,06 cm . Ist dieser Unterschied nur zufällig bedingt oder kann man ihn als signifikant werten? Mit den Standardabweichungen sm = 7,12 cm bzw. sw = 6,60 cm und den Stichprobenumfängen n1 = 23 und n2 = 48 berechnet man nach (11.3): 22 ⋅ 7,12 2 + 47 ⋅ 6,60 2 s2 = cm 2 = 45,835 cm 2 69 Daraus ergibt sich für die Prüfgröße nach (11.2): 181,22 − 169,06 12,16 = = 7,083 t= 45,835 45,835 1,717 + 23 48 Die Anzahl der Freiheitsgrade beträgt f = 23 + 48 − 2 = 69 . Der kritische Wert t69;0,975 = 1,995 ist wesentlich kleiner als die Prüfgröße. Für den p-Wert gilt: p < 0,0001 ; das Ergebnis ist also hoch signifikant. Für die mittlere Differenz ergibt sich folgendes Konfidenzintervall: [8,73 cm ; 15,58 cm].
11.1.4 Der Welch-Test Der Welch-Test ist eine Alternative zum t-Test für zwei unverbundene Stichproben. Die Voraussetzungen sind dahingehend abgeschwächt, dass die Gleichheit der Varianzen (die so genannte Homoskedazität) der beiden Grundgesamtheiten nicht vorausgesetzt wird.
211
11
11.1 t-Tests i Die Problematik, Mittelwerte zu vergleichen, ohne dass gleiche Varianz zen der Grundgesamtheiten vorausgesetzt werden, wurde von B. L. Welch im Jahre 1937 beschrieben. Dieser Test ist auch unter dem Namen „t-Test nach Satterthwaite“ bekannt.
Die empirischen Stichprobenvarianzen s12 und s 22 sind Schätzwerte für die Varianzen der Grundgesamtheiten. Die Prüfgröße berechnet sich analog zu Formel (11.2) als: t=
x−y s12 s22 + n1 n2
(11.6)
Die Anzahl der Freiheitsgrade ermittelt man nach: f =
( s12 / n1 + s22 / n2 ) 2 ( s12 / n1 ) 2 ( s22 / n2 ) 2 + n1 − 1 n2 − 1
(11.7)
Meist wird sich mit dieser Formel keine ganze Zahl ergeben; in diesem Fall rundet man auf die nächst kleinere, ganze Zahl ab. In vielen Situationen stellt sich die Frage, ob der t-Test oder der Welch-Test geeigneter ist. Da beim Welch-Test weniger Voraussetzungen zu berücksichtigen sind, könnte man geneigt sein, diesen zu bevorzugen (wenn etwa die Varianzen der Grundgesamtheit unbekannt sind oder die Gleichheit aus anderen Gründen nicht angenommen werden kann). Doch Vorsicht: Wenn die Bedingungen des t-Tests erfüllt sind, hat der Welch-Test eine geringere Power. Dann kann es passieren, dass der klassische t-Test ein Ergebnis zur Annahme der Alternativhypothese liefert, während der Welch-Test mit denselben Daten zur Beibehaltung der Nullhypothese führt. Außerdem sollte man sich Gedanken bezüglich der Interpretation des Testergebnisses machen. Beim Welch-Test werden ungleiche Varianzen und damit verschiedene Verteilungsformen angenommen. Ein Vergleich der dazugehörenden Erwartungswerte erinnert an den berühmten Vergleich zwischen Birnen und Äpfeln. Eine sinnvollere Strategie besteht in der Regel darin, Fragestellungen zu behandeln, bei denen man annähernd gleichförmige Verteilungen (mit gleichen Varianzen) voraussetzen darf und den Welch-Test nur in begründeten Ausnahmefällen zu verwenden.
212
Kapitel 11 · Lagetests
11.1.5 Die Voraussetzungen der t-Lagetests
t-Lagetests sind im Allgemeinen recht beliebt. Deren Grundvoraussetzung – nämlich die Normalverteilung der Zufallsvariablen – wird dabei oft ignoriert. Leider sind jedoch viele Merkmale in der Medizin nicht normalverteilt; hin und wieder hat man es mit Merkmalen zu tun, deren Verteilung unbekannt ist. Wie lässt sich nun die Normalverteilung überprüfen? Streng genommen gar nicht – denn die Forderung nach Normalverteilung bezieht sich auf die Grundgesamtheit, und diese ist in der Regel nicht konkret vorgegeben. Man kann lediglich anhand der Stichprobe überprüfen, ob gewisse Argumente für oder gegen die Normalverteilung sprechen. • Histogramm. Dieses informiert auf einen Blick, ob die Daten der Stichprobe symmetrisch oder eher schief verteilt sind. • Mittelwert und Median. Falls diese beiden Parameter stark voneinander abweichen, spricht dies für eine schiefe Verteilung. • Schiefe und Kurtosis. Beide Parameter müssten – falls die Daten normalverteilt sind – Werte um 0 annehmen. • Anpassungstest. Hin und wieder wird empfohlen, „zur Sicher heit“ die Normalverteilung mit einem Anpassungstest zu überprüfen. Der Nutzen dieses Vorgehens ist jedoch zweifelhaft. Wenn die mit einem Anpassungstest ermittelte Prüfgröße in den Annahmebereich fällt, ist damit die Normalverteilung keineswegs abgesichert, sondern lediglich nicht ausgeschlossen. Insbesondere bei kleinen Stichproben kann der β-Fehler so groß sein, dass ein solches Ergebnis als Bestätigung für die Normalverteilung höchst unzuverlässig ist.
11
Glücklicherweise ist der t-Test jedoch robust (also unempfindlich) gegenüber Abweichungen von der Normalverteilung. Dies bedeutet: Trotz geringfügiger Verletzungen seiner Voraussetzungen bleiben die Wahrscheinlichkeiten für Fehlentscheidungen (also der α-Fehler und der β-Fehler) nahezu konstant. Folgendes ist zu beachten: • t-Test für eine Stichprobe. Bei Stichproben des Umfangs n ≥ 10 genügt es, wenn die Daten annähernd symmetrisch verteilt sind. Für n ≥ 25 kann man davon ausgehen, dass die Stichprobenmittelwerte nach dem zentralen Grenzwertsatz normalverteilt sind (auch wenn die Messwerte anders verteilt sind). Bei kleineren Stichproben sollte man allerdings, wenn keine Normalverteilung vorliegt, auf einen anderen Lagetest ausweichen – etwa auf den Wilcoxon-Test für eine › Abschnitt 11.2.1) oder den Vorzeichentest (z › AbStichprobe (z schnitt 11.3.1).
213
11
11.1 t-Tests
• t-Test für zwei verbundene Stichproben. Für n ≥ 10 ist es ausrei chend, wenn die Differenzen d i annähernd symmetrisch verteilt sind. Diese Voraussetzung ist bereits erfüllt, wenn die Variablen X und Y ungefähr die gleiche Verteilungsform haben. Asymmetrien werden durch die Bildung der Differenzen ausgeglichen. • t-Test für zwei unverbundene Stichproben. Dieser Test zum Ver gleich zweier Erwartungswerte ist außerordentlich beliebt, obwohl seine Voraussetzungen formal sehr streng sind. Manche Anwender umgehen dieses Problem, indem sie die einschränkenden Prämissen schlicht missachten. Andere treffen umfangreiche Vorarbeiten, ehe sie den t-Test durchführen, indem sie mit zwei „Vortests“ die Voraussetzungen (Gleichheit der Varianzen und Normalverteilung) überprüfen. Dass mit einem Anpassungstest die Normalverteilung nicht nachzuweisen ist, wurde bereits oben erwähnt. Ähnlich verhält es sich mit dem F-Test, der üblicherweise zur Prüfung der Gleichheit zweier Varianzen herangezogen wird (dieser Test ist benannt nach Sir Ronald Fisher und basiert auf der in Abschnitt 8.5.3 genannten F-Verteilung). Bei einem kleinen Stichprobenumfang bedeutet die Beibehaltung der Nullhypothese mitnichten, dass die Varianzen übereinstimmen. Andererseits wird ein hoher Stichprobenumfang fast immer zur Ablehnung der Nullhypothese führen, da sich damit auch geringe Abweichungen der beiden Varianzen nachweisen lassen. Man sollte bei diesem t-Test darauf achten, dass
ŷ beide Stichprobenumfänge mindestens 10 (bei nicht symmetrischen Verteilungen 20) betragen und ähnlich groß sind, und
ŷ die Zufallsvariablen X und Y ungefähr denselben Verteilungstyp haben. Dies lässt sich über die empirischen Kenngrößen oder eine graphische Darstellung überprüfen. Bei ungeplanten, wahllos durchgeführten Datensammlungen mag dies schwierig sein – ein sorgfältiges Studiendesign kann jedoch Einiges dazu beitragen, dass diese Voraussetzungen erfüllt sind. Merke Um einen Unterschied mit einem t-Test abzusichern, sind günstig: ŷ Ein hoher Stichprobenumfang, ŷ ein großer Unterschied zwischen den Mittelwerten, ŷ eine geringe Streuung der Daten. Dies geht aus den Berechnungen der Prüfgrößen hervor (Formeln 10.1, 11.1, 11.2 und 11.6). Je größer der Betrag von t, umso eher wird die Alternativhypothese angenommen.
214
Kapitel 11 · Lagetests
Was sollte man tun, wenn die Voraussetzungen nicht erfüllt sind? Hier bieten sich zwei Möglichkeiten an:
ŷ Man kann versuchen, nicht normalverteilte Daten in geeigneter
› Abschnitt 8.2.4). Wenn man rechtsWeise zu transformieren (z schiefe Daten logarithmiert, ist dies oft doppelt hilfreich: Die logarithmierten Daten sind eher normalverteilt und die Varianzen eher annähernd gleich. ŷ Man kann auf einen Test mit schwächeren Voraussetzungen aus› Abschnitt 11.2.3). weichen (z. B. einen Rangsummentest, z 11.1.6 Andere Anwendungen des t-Tests Der t-Test ist keineswegs nur als Lagetest einsetzbar. Um zu testen, ob sich ein empirischer Korrelationskoeffizient nach Pearson signifikant von 0 unterscheidet, berechnet man folgende Prüfgröße: t=
11
r 1− r2 n−2
(11.8)
Dieses t hat n − 2 Freiheitsgrade. Falls t > tn −2;1−α (bzw. t < −tn − 2;1−α ), entscheidet man sich für die Alternativhypothese. In diesen Fällen wird man in der Regel einseitig testen, da die Richtung eines Zusammenhangs (gleich- oder gegensinnig) vorab bekannt sein dürfte. Darüber hinaus ist es sinnvoll, ein Konfidenzintervall für ein empi› Abschnitt 9.3.4). risch ermitteltes r anzugeben (z Aus Gleichung (11.8) geht hervor: Je größer der Betrag des empirischen Korrelationskoeffizienten r und je größer der Stichprobenumfang n, desto größer ist der Betrag der Prüfgröße t und desto eher wird die Alternativhypothese angenommen. Das nach (11.8) berechnete t dient übrigens gleichzeitig zur Überprüfung des Steigungskoeffizienten der Regressionsgeraden. Sowohl für r als auch für die Parameter der Regressionsgeraden lassen sich Konfidenzintervalle berechnen. Die Voraussetzungen › Abschnitt 9.3.4). dafür sind formal recht streng (z Der t-Test hat also mehrere Anwendungsmöglichkeiten und dabei einschränkende Voraussetzungen. Glücklicherweise sind t-Tests robust: Mit Monte-Carlo-Studien wurde nachgewiesen, dass geringfügige Verletzungen der Prämissen (insbesondere der Normalverteilung) tolerierbar sind.
215
11
11.2 Rangsummentests
11.2
Rangsummentests
Diese Tests werden alternativ zu den t-Lagetests verwendet. Sie haben weniger strenge Voraussetzungen: Es handelt sich um verteilungsfreie (oder nicht-parametrische) Tests, die keine bestimmte Verteilungsform voraussetzen. Die Prüfgrößen werden nicht aus den Original-Messwerten, sondern aus deren Rangzahlen berechnet. Daher lassen sich diese Tests unter Umständen auch für ordinal-skalierte Merkmale verwenden. Sie basieren auf einer Methode des Mathematikers Frank Wilcoxon (1892-1965). 11.2.1 Der Wilcoxon-Test für eine Stichprobe Dieser Test überprüft, ob und in welchem Maß die Werte einer ~ abweichen. Die Stichprobe von einem vorgegebenen Sollwert µ 0 Nullhypothese lautet: H0 :
~=µ ~ µ 0
~ der Median der Grundgesamtheit, zu der die Stichprobe Dabei ist µ gehört. Die Testdurchführung lässt sich wie folgt beschreiben:
ŷ Zunächst wird für jeden Stichprobenwert die Differenz zum Sollwert berechnet.
ŷ Stichprobenwerte, die mit dem Sollwert übereinstimmen, werŷ ŷ ŷ ŷ ŷ
den eliminiert. Dadurch verringert sich eventuell der Stichprobenumfang. Die Differenzen werden nun nach der Größe ihres Betrags in aufsteigender Reihenfolge sortiert und mit Rangzahlen versehen. Die betragsmäßig kleinste Differenz erhält die Rangzahl 1, die größte die Rangzahl n. Wenn zwei oder mehr identische Differenzbeträge auftreten, › Beiordnet man jeder Differenz eine mittlere Rangzahl zu (z spiel 11.3). Man spricht dabei von verbundenen Rängen. Dann werden die Rangzahlen der negativen Differenzen und die Rangzahlen der positiven Differenzen aufaddiert. Diese beiden Rangsummen bezeichnet man mit R − bzw. R + . Die Prüfgröße R ist die kleinere der beiden Rangsummen. › Anhang) findet man kritische Werte in AbhänIn Tabelle C (z gigkeit vom Stichprobenumfang n und der Irrtumswahrscheinlichkeit α. Die Nullhypothese wird abgelehnt, falls die Prüfgröße gleich oder kleiner ist als der kritische Wert.
216
Kapitel 11 · Lagetests
Für Stichprobenumfänge mit n > 25 ist die Prüfgröße approximativ normalverteilt mit dem Erwartungswert n(n + 1) / 4 und der Varianz n(n + 1)(2n + 1) / 24 . Durch Transformation der Prüfgröße in den Wert der Standardnormalverteilung lässt sich abschätzen, ob das Ergebnis signifikant ist. Bei der zweiseitigen Fragestellung beträgt der › Anhang, Tabelle A). kritische Wert 1,96 (für α = 0,05 , z Der Wertebereich der Prüfgröße R erstreckt sich zwischen 0 und n(n + 1) / 4 . Der Extremfall 0 besagt, dass sich die beiden Rangsummen maximal unterscheiden. Alle Stichprobenwerte sind dann kleiner (oder alle größer) als der Sollwert. Unter der Nullhypothese erwartet man dagegen gleiche Rangsummen der Größe n(n + 1) / 4 . Bei diesem Test weisen also (anders als beim t-Test) kleine Prüfgrößen auf große Unterschiede hin. • Zu den Voraussetzungen. Dieser Test setzt zwar keine Normal verteilung voraus, wohl aber eine symmetrische Verteilung. Falls diese Voraussetzung grob verletzt ist, stellt der Vorzeichentest für › Abschnitt 11.3.1). eine Stichprobe eine Alternative dar (z 11.2.2 Der Wilcoxon-Test für zwei verbundene Stichproben Dieser Test ist das Pendant zum t-Test für zwei verbundene Stichproben mit jeweils dem Umfang n. Es werden die beiden Mediane verglichen; die Nullhypothese lautet: ~ =µ ~ H0 : µ 1 2
11
Das Testverfahren funktioniert ähnlich wie beim 1-Stichprobentest:
ŷ Für jedes Merkmalspaar werden aus den beiden Stichprobenwerŷ ŷ ŷ ŷ
ten die Differenzen d i = x i − y i gebildet. Der Test verlangt, dass diese Differenzen symmetrisch verteilt sind. Differenzen, die gleich 0 sind, werden eliminiert. Die Werte d i werden nach der Größe ihres Betrags in aufsteigender Reihenfolge sortiert und mit Rangnummern versehen. Dann addiert man separat die Rangzahlen der positiven und die Rangzahlen der negativen Differenzen. Die kleinere Summe ist die Prüfgröße. Die kritischen Werte fin› Anhang); für n > 25 ist die Prüfgröße det man in Tabelle C (z normalverteilt mit dem Erwartungswert n(n + 1) / 4 und der Varianz n(n + 1)(2n + 1) / 24 .
11
217 11.2 Rangsummentests
Wie beim Wilcoxon-Test für eine Stichprobe, schwankt auch dieses R zwischen 0 und n( n + 1) / 4 . R = n(n + 1) / 4 entsteht, wenn sich die Ränge vollkommen gleichmäßig zwischen den beiden Stichproben aufteilen. R = 0 bedeutet, dass jeder Wert der einen Stichprobe kleiner ist als jeder beliebige Wert der anderen Stichprobe. Beispiel 11.3 Zehn Personen nehmen sechs Monate lang eine Diät zu sich. Die Werte bezüglich des Körpergewichts vor und nach der Diät sind in der folgenden Tabelle wiedergegeben. Mit dem Wilcoxon-Test für zwei verbundene Stichproben soll überprüft werden, ob sich das durchschnittliche Gewicht geändert hat. Die Gewichte vor und nach der Diät der i-ten Beobachtungseinheit seien xi bzw. yi (in kg). Rangzahlen Rangzahlen xi yi d i = xi − y i i für d i > 0 für d i < 0 1 2 3 4 5 6 7 8 9 10
92,7 86,2 102,1 85,9 96,3 90,2 87,5 98,0 89,9 110,2
85,8 83,4 98,3 83,6 91,1 92,7 88,6 98,7 87,1 102,9
6,9 2,8 3,8 2,3 5,2 -2,5 -1,1 -0,7 2,8 7,3
9 5,5 7 3 8 4 2 1 5,5 10
R + = 48 R− = 7 + − Zur Rechenkontrolle bildet man die Summe aus R und R ; sie ergibt 55. Dies stimmt überein mit der Summe der Zahlen 1 bis 10 (die sich allgemein als n(n + 1) / 2 berechnet). Weil die Differenzbeträge der Beobachtungseinheiten 2 und 9 übereinstimmen, werden verbundene Ränge zugewiesen. Die Prüfgröße ist R = 7 . Für α = 5% und n = 10 ermittelt man als kritischen Punkt › Tabelle C). Da R kleiner ist als (bei zweiseitiger Fragestellung) den Wert 8 (z 8, wird die Alternativhypothese angenommen.
• Zu den Voraussetzungen. Diese sind bei vielen praktischen An wendungen annähernd erfüllt. Bei zwei verbundenen Stichproben kann man nämlich oft davon ausgehen, dass die Zufallsvariablen X und Y annähernd die gleiche Verteilungsform aufweisen. Dann sind auch die Differenzen d i symmetrisch verteilt. Falls mehrere Differenzen in ihrem Betrag übereinstimmen, bildet man (wie oben beschrieben) verbundene Ränge.
218
Kapitel 11 · Lagetests
11.2.3 Der U-Test von Mann und Whitney Dieser Test stellt eine Alternative zum t-Test für zwei unverbundene Stichproben dar. Dabei werden zwei Mediane miteinander vergli~ =µ ~ . Die Stichprobenumchen; die Nullhypothese lautet: H 0 : µ 1 2 fänge seien n1 und n2 ; diese müssen nicht identisch sein. Der U-Test verlangt Zufallsvariable X und Y, die etwa die gleiche Verteilungsform haben. Symmetrie oder gar Normalverteilung werden nicht vorausgesetzt. Insofern basiert dieser Test auf wesentlich schwächeren Voraussetzungen als der t-Test. Er wird folgendermaßen durchgeführt:
ŷ Alle Werte aus beiden Stichproben werden in aufsteigender Reihenfolge sortiert und mit Rangzahlen versehen.
ŷ Danach addiert man für jede der beiden Stichproben die entsprechenden Rangzahlen und bezeichnet die Summen als R1 bzw. R2 . Daraus berechnet man: n1 (n1 + 1) − R1 2 n (n + 1) U 2 = n1 ⋅ n2 + 2 2 − R2 2
U 1 = n1 ⋅ n2 +
(11.9)
ŷ Es lässt sich nachweisen, dass gilt: U1 + U 2 = n1 ⋅ n2 . ŷ Die Testgröße wird berechnet als U = min(U1 ,U 2 ) . ŷ Wenn U kleiner ist als der kritische Wert oder gleich diesem (z› Tabelle D, Anhang), wird die Nullhypothese abgelehnt.
11
Für größere Stichproben (mindestens 10 pro Gruppe) ist die Prüfgröße normalverteilt mit dem Erwartungswert n1 ( n1 + n2 + 1) / 2 und der Varianz n1 n2 / 6 (wobei n1 den kleineren Umfang bezeichnet). Die Prüfgröße U erstreckt sich zwischen 0 und n1 ⋅ n2 / 2 . Je näher U bei 0 liegt, umso mehr unterscheiden sich die beiden Stichproben und umso eher wird die Alternativhypothese angenommen. Verbundene Ränge sind unproblematisch, wenn sie innerhalb einer Stichprobe auftreten. Die Anzahl der verbundenen Ränge, die beide Stichproben betreffen, sollte ein gewisses Maß (höchstens 20 %) nicht überschreiten. Sie lassen sich bei einer hohen Messgenauigkeit vermeiden. i In manchen Publikationen wird dieser Test „Wilcoxon-test for 2 samples“ z genannt. Wilcoxon und die Statistiker Mann und Whitney haben ihre Tests nahezu zeitgleich veröffentlicht. Formal handelt es sich um dasselbe Verfahren.
11
219 11.2 Rangsummentests
Beispiel 11.4 Es soll nachgewiesen werden, dass männliche Studenten im Durchschnitt ein höheres Körpergewicht haben als weibliche. Dazu werden 10 Studenten und 12 Studentinnen aus dem in Tabelle 2.1 auflisteten Personenkreis zufällig ausgewählt. Da man beim Merkmal „Körpergewicht“ nicht unbedingt von einer Normalverteilung ausgehen kann, benutzt man den U-Test. Die Werte und Ränge der Daten sind in der folgenden Tabelle aufgelistet: Stichprobe 1 (Männer, n1 = 10 ) Stichprobe 2 (Frauen, n2 = 12 ) Gewicht xi
Rang
Gewicht y j
61 69 70 72 75 79 82 84 85 90
8 11 12,5 14 16 18 19 20 21 22
48 52 55 57 58 60 60 63 65 70 74 77
R1 = 161,5
Rang 1 2 3 4 5 6,5 6,5 9 10 12,5 15 17 R2 = 91,5
Mit (11.9) ergibt sich: U1 = 13,5 und U 2 = 106,5 . Also ist U = 13,5 . Aus Tabelle D entnimmt man für den kritischen Wert 29 (zweiseitiger Test, α = 5% ). Da die Prüfgröße wesentlich kleiner ist, ist der Unterschied abgesichert. Der p-Wert beträgt 0,0024. Wenn man mit denselben Daten einen t-Test durchführt, ergibt sich ein kleineres p von 0,0007.
11.2.4 Vergleich zwischen Rangsummentests und t-Tests Die Rangsummentests haben schwächere Voraussetzungen als die tTests und damit ein breiteres Anwendungsspektrum. Die Ränge haben nämlich die günstige Eigenschaft, dass sie von Datenmanipulationen unberührt bleiben, solange dabei die Reihenfolge der Daten nicht verändert wird. Deshalb eignen sich auch Daten, die nur als Prozentangaben vorliegen, für Rangsummentests. Unter Umständen können derlei Tests auch für metrisch-diskrete und für ordinal-skalierte Merkmale verwendet werden.
220
Kapitel 11 · Lagetests
Mathematische Herleitung der Prüfgröße U Zunächst berechnen wir die Summe der Prüfgrößen. Aus (11.9) folgt: n (n + 1) + n2 (n2 + 1) U1 + U 2 = 2n1n2 + 1 1 − ( R1 + R2 ) 2 Da die Summe der Rangzahlen R1 und R2 der Summe aller Zahlen von 1 bis (n1 + n2 )(n1 + n2 + 1) . Wenn man diesen 2 Ausdruck in die obige Formel einsetzt, erhält man U1 + U 2 = n1 ⋅ n2 .
n1 + n2 entspricht, gilt: R1 + R2 =
Welche Werte können U 1 und U 2 annehmen? Wir gehen zunächst von folgendem Extremfall aus: Jedes Element xi der 1. Stichprobe ist kleiner als jedes beliebige Element y j der 2. Stichprobe. In diesem Fall unterscheiden sich die beiden Stichproben maximal. Dann haben die xi die Ränge 1 bis n1 und die y j die Ränge n1 + 1 bis n1 + n2 . Es gilt also: R1 = n1 ⋅ (n1 + 1) / 2 und damit nach (11.9): U1 = n1 ⋅ n2 , U 2 = 0 und U = min(U1 ,U 2 ) = 0 . Wenn die Ränge in den beiden Stichproben gleich verteilt sind, verhalten sich die Rangsummen wie die Stichprobenumfänge, also n1 / n2 = R1 / R2 . In diesem Fall ist U = U1 = U 2 = n1 ⋅ n2 / 2 .
Allerdings sollte man nicht vollkommen bedenkenlos einen Rangsummentest gegenüber einem t-Test bevorzugen. t-Tests sind außerordentlich beliebt, und zwar aus mehreren Gründen:
ŷ Ein Rangsummentest wertet nur die Reihenfolge der Daten aus. Dies ist nicht für alle Fragestellungen sinnvoll.
ŷ Der t-Test nutzt dagegen die in den Daten enthaltenen Informationen vollständig aus.
11
ŷ Mittels der t-Verteilung lassen sich nicht nur p-Werte ermitteln, sondern auch Konfidenzintervalle berechnen. Diese sind sehr hilfreich, um die Größe eines Unterschiedes zu beurteilen. Bei den Rangsummentests ist die Berechnung dieser Konfidenzintervalle nicht möglich. Grundsätzlich gilt: Wenn Scores mit äquidistanten Werten 0, 1, 2 etc. zu analysieren sind, eignet sich ein Rangsummentest besser als ein t-Test. Wenn dagegen bei Messwerten berechtigter Grund zur Annahme besteht, dass die Daten einer Normalverteilung entstammen, sollte man den t-Test bevorzugen. Zwar sind auch Rangsummentests bei normalverteilten Daten durchaus legitim. Das Problem ist folgendes: Wenn man einen Rangsummentest verwendet (obwohl die Voraussetzungen des tTests erfüllt sind), bedeutet dies eine Verminderung der Power 1 − β . So kann es vorkommen, dass man mit dem t-Test ein statis-
221
11
11.2 Rangsummentests
tisch signifikantes Ergebnis erhält, während der entsprechende Rangsummentest mit denselben Daten zur Beibehaltung der Nullhypothese führt. Dies ist höchst ärgerlich für einen Forscher, der ja in der Regel etwas Neues etablieren und deshalb die Alternativhypothese absichern will. Einen Test, der zur Beibehaltung der Nullhypothese tendiert, nennt man konservativ. Wenn man dagegen einen Test anwendet, obwohl seine Voraussetzungen nicht erfüllt sind, nimmt man eventuell eine Erhöhung des α-Fehlers in Kauf. Das bedeutet: Der Test lässt mehr Ergebnisse signifikant werden als dem festgelegten α-Niveau entspricht. Ein solches Testverhalten heißt progressiv. Ein signifikantes Ergebnis ist zwar meist erwünscht – es könnte aber peinlich werden, wenn sich herausstellt, dass der vermeintliche Unterschied mit einer wissenschaftlich unsauberen Methode gewaltsam herbeigeführt wurde. Die Auswahl eines geeigneten Tests muss also sehr differenziert erfolgen. Hierzu einige Anmerkungen: • 1-Stichproben-Tests. Sie sind generell mit Vorsicht zu handha ben. Perfekt symmetrische Verteilungen (oder gar Normalverteilungen) gibt es in der Natur eigentlich nicht. Bei einem Stichprobenumfang von weniger als 10 sollte man – wenn man sich der Normalverteilung nicht sicher ist – den Wilcoxon-Test bevorzugen. Für nicht symmetrische Verteilungen bietet sich der Vorzeichentest an › Abschnitt 11.3.1). (z • Tests für zwei verbundene Stichproben. Beim Wilcoxon-Test müssen nur die Differenzen symmetrisch verteilt sind. Diese Einschränkung ist nicht allzu stark. Bei sorgfältig geplanten Studien kann man zugrunde legen, dass die beiden Verteilungen bezüglich ihrer Form ähnlich sind. Dann sind auch die Differenzen symmetrisch. Falls der Stichprobenumfang 10 übersteigt, kann man den tTest benutzen – er ist dann robust gegenüber Verletzungen seiner Voraussetzungen. Für nicht symmetrische Verteilungen empfiehlt › Abschnitt 11.3.2). sich auch hier der Vorzeichentest (z • Tests für zwei unverbundene Stichproben. Die Bedingungen des U-Tests sind im Vergleich zu denen des t-Tests schwach. Über den speziellen Verteilungstyp werden beim U-Test keine Angaben gemacht, während der t-Test Normalverteilung voraussetzt. Deshalb bietet der U-Test eine sinnvolle Alternative, wenn die Prämissen des t-Tests nicht erfüllt sind. Ein weiterer Test für zwei unverbundene › Abschnitt 12.2.2). Stichproben ist der Median-Test (z
222
Kapitel 11 · Lagetests
11.3
Vorzeichentests
11.3.1 Der Vorzeichentest für eine Stichprobe Die Nullhypothese ist dieselbe wie beim Wilcoxon-Test: Es wird untersucht, ob der Median einer Stichprobe mit einem vorgegebenen Sollwert vereinbar ist. Das Testverfahren ist einfach:
ŷ Man beurteilt jeden Stichprobenwert danach, ob er größer oder kleiner als der Sollwert ist und ordnet ihm dementsprechend ein positives oder ein negatives Vorzeichen zu. ŷ Werte, die mit dem Sollwert identisch sind, werden eliminiert. ŷ Man zählt die Anzahl der positiven und der negativen Vorzeichen; die kleinere Zahl ist die Prüfgröße k. Falls die Nullhypothese zutrifft, erwartet man, dass die Anzahl der positiven und die der negativen Vorzeichen übereinstimmen. ŷ Die Testentscheidung trifft man nach einem Vergleich mit dem kritischen Wert in Tabelle F im Anhang.
11
Die Bezeichnung Vorzeichentest ist darauf zurückzuführen, dass in die Berechnung der Prüfgröße nur die Vorzeichen der Differenzen einfließen. Es wird also nur die Richtung der Abweichungen vom Sollwert (nicht deren Betrag oder Rang wie beim t- bzw. WilcoxonTest) berücksichtigt. Daher ist dieser Test auch bei ordinal skalierten Merkmalen anwendbar. Die Prüfgröße ist unter der Nullhypothese binomialverteilt mit dem Erwartungswert n ⋅ 0,5 . Schranken für den Annahmebereich findet man in Tabelle F. Notfalls kann man mit einem Taschenrechner bei einem kleinen Stichprobenumfang den Annahmebereich ermitteln, indem man nach (7.20) die einzelnen Wahrscheinlichkeiten
§n· P( X = k ) = ¨¨ ¸¸ ⋅ 0,5 n ©k ¹ berechnet und damit einen Annahmebereich für die Prüfgröße k (also die Anzahl der positiven oder negativen Vorzeichen) konstruiert. Bei größeren Stichprobenumfängen ( n ≥ 36 ) lässt sich die Binomialverteilung durch eine Normalverteilung mit dem Erwartungswert n ⋅ 0,5 und der Varianz n ⋅ 0, 25 approximieren. Die Schranken für den Annahmebereich sind dann: 0,5 ⋅ n ± (1,96 ⋅ 0,25 ⋅ n + 0,5)
223
11
11.3 Vorzeichentests
11.3.2 Der Vorzeichentest für zwei verbundene Stichproben Mit diesem Test werden Vergleiche einfachster Art durchgeführt. Es wird lediglich vorausgesetzt, dass die Zufallsvariablen der beiden Stichproben in irgendeiner Weise vergleichbar sind (etwa: Der Zustand nach der Therapie ist besser als vor der Therapie) – ohne dass die Differenz exakt quantifiziert werden müsste. Jedem Beobachtungspaar kann dann ein positives oder ein negatives Vorzeichen zugeordnet werden. Die Nullhypothese lautet: P( X < Y ) = P( X > Y ) = 0,5
Unter der Nullhypothese müssten etwa gleich viele Beobachtungspaare ein negatives bzw. ein positives Vorzeichen erhalten. Das Testverfahren ist ähnlich wie beim Vorzeichentest für eine Stichprobe:
ŷ Man ordnet jedem Beobachtungspaar das passende Vorzeichen zu. Paare, deren Stichprobenwerte sich nicht unterscheiden, werden nicht berücksichtigt. ŷ Man zählt die Anzahl der positiven und der negativen Vorzeichen. Die kleinere Zahl ist die Prüfgröße. ŷ Die Testentscheidung trifft man nach einem Vergleich mit den kritischen Werten in Tabelle F. Beispiel 11.5 In den Beispielen 11.1 und 11.3 wurde das Körpergewicht von n = 10 Personen vor und nach einer Diät miteinander verglichen. Mit dem t-Test und dem Wilcoxon-Test für zwei verbundene Stichproben ergaben sich signifikante Testergebnisse. Wenn wir den Vorzeichentest anwenden, findet man mit Hilfe der Tabelle F als Annahmebereich das Intervall zwischen den Zahlen 2 und 8. Die Prüfgröße k = 3 (es gibt 3 negative und 7 positive Vorzeichen bei den Differenzen) liegt also innerhalb des Annahmebereichs; demnach muss die Nullhypothese beibehalten werden.
11.3.3 Vergleich mit anderen Lagetests Ein Vorzeichentest beinhaltet quasi keine Voraussetzungen. Allerdings nutzt er bei weitem nicht alle Informationen der Stichprobendaten aus. Aus diesem Grund hat der Vorzeichentest eine wesentlich geringere Power als der entsprechende t-Test oder Rangsummentest. Wegen seiner Rechenökonomie findet er häufig als „Schnelltest“ Verwendung. Ein Wissenschaftler, dem es ja meist darum geht, die Alternativhypothese abzusichern, sollte den Vorzeichentest meiden
224
Kapitel 11 · Lagetests
und statt dessen – sofern die Voraussetzungen erfüllt sind – den passenden t-Test oder Wilcoxon-Test anwenden. i Ein Vorzeichentest basiert auf der Analyse von Häufigkeiten. Formal z handelt es sich dabei um einen Binomialtest, mit dem getestet wird, ob eine relative Häufigkeit mit der Wahrscheinlichkeit p = 0,5 vereinbar ist › Abschnitt 12.1). (z ! Als Lagetest für zwei unverbundene Stichproben eignet sich auch der auf z › Abschnitt 12.2.2). der Chi2-Verteilung basierende Median-Test (z
11.4
Ausblick auf komplexere Methoden
11.4.1 Mehrstichprobentests Die t-Lagetests und die Rangsummentests sind auf eine oder zwei Stichproben beschränkt. In der medizinischen Forschung stellt sich hin und wieder das Problem, dass mehr als zwei Stichproben zu vergleichen sind (etwa wenn bei einer Therapiestudie zwei unterschiedliche Dosen eines Medikaments mit einem Placebo verglichen werden). Um mehr als zwei unverbundene Stichproben bezüglich einer quantitativen Zielgröße zu vergleichen, bieten sich an:
11
• 1-faktorielle Varianzanalyse. Dies ist eine Erweiterung des t-Tests für mehr als zwei unverbundene Stichproben. Die Varianzanalyse setzt – ebenso wie der klassische t-Test – normalverteilte Grundgesamtheiten mit gleichen Varianzen voraus. Die Methode beruht auf dem Vergleich der Varianz der k Mittelwerte x i ( i = 1,..., k ) mit der Varianz der Abstände ( xij − xi ) (wobei k ≥ 2 die Anzahl der Stichproben bezeichnet). Der Quotient dieser Varianzen folgt einer F› Abschnitt 8.5.3). Er nimmt den Wert 1 an, falls alle Verteilung (z Stichproben aus derselben Grundgesamtheit stammen. Je mehr die Mittelwerte streuen, desto größer wird F und desto eher wird die Alternativhypothese angenommen. • Kruskal-Wallis-Test. Dieser Rangsummentest ist eine Erweite rung des U-Tests für mehr als zwei Stichproben. Diese Verfahren können nur globale Unterschiede nachweisen. Ein signifikantes Ergebnis zeigt lediglich an, dass nicht alle Erwartungswerte identisch sind. Aus dem p-Wert geht jedoch nicht hervor, wo die Unterschiede liegen. Freilich könnte man mit t-Tests (nach einer Varianzanalyse) oder U-Tests (nach einem Kruskal-Wallis-Test) beliebig viele 2-Stichproben-Vergleiche durchführen. Diese Vergleiche
225
11
11.4 Ausblick auf komplexere Methoden
sind jedoch nicht ganz unproblematisch, weil es sich dabei um mul› Abschnitt 10.2.6). Dennoch ist der Anwentiples Testen handelt (z der daran interessant, diese Unterschiede herauszufinden und nachzuweisen. Dazu bieten sich folgende Möglichkeiten an:
ŷ Man überlegt sich vor der Testdurchführung, welche paarweisen Stichprobenvergleiche interessant sind und beschränkt die Anzahl dieser Vergleiche auf ein Mindestmaß. ŷ Man verwendet die Bonferroni-Korrektur (z› Abschnitt 10.2.6). Der Nachteil dieser Methode liegt darin, dass – insbesondere dann, wenn zahlreiche Tests durchgeführt werden – die Power gering wird und sich Unterschiede kaum mehr nachweisen lassen. ŷ Für die Varianzanalyse wurden mehrere Verfahren für paarweise Mittelwert-Vergleiche entwickelt. Eine bekannte Methode ist der Scheffé-Test: Er vergleicht alle Stichproben paarweise miteinander und gewährleistet dabei dennoch, dass bei jedem Vergleich das Į-Signifikanzniveau eingehalten wird. Allerdings ist dieses Verfahren eher konservativ. Für den Vergleich von mehr als zwei verbundenen Stichproben bezüglich eines quantitativen Merkmals eignen sich:
• Varianzanalyse mit Messwiederholungen. Während der t-Test für zwei verbundene Stichproben geeignet ist für einen einfachen Vorher-Nachher-Vergleich, können mit einer Varianzanalyse mehr als zwei Zeitpunkte verglichen werden. • Friedman-Test. Dieser Test basiert auf der Analyse von Rangsum men. Er ist eine Verallgemeinerung des Wilcoxon-Tests für mehr als zwei verbundene Stichproben. 11.4.2 Multiple Methoden Bei multiplen Methoden wird der Einfluss mehrerer Einflussgrößen auf eine Zielgröße simultan untersucht. Diese Verfahren ermöglichen eine wesentlich effizientere Analyse als einfache Methoden, bei denen nur eine Einflussgröße berücksichtigt wird.
• Zwei- oder mehrfaktorielle Varianzanalyse. Möglicherweise hängt die Zielgröße nicht nur von einer Gruppierungsvariablen (z. B. der Therapieform), sondern darüber hinaus von weiteren qualitativen Faktoren (Geschlecht, Diagnose, Schweregrad der Krankheit
226
Kapitel 11 · Lagetests
etc.) ab. Für derlei Fragestellungen eignen sich mehrfaktorielle Varianzanalysen.
• Varianzanalyse mit Messwiederholungen. Auch bei diesem Verfahren können mehrere Gruppierungs- und Messwiederholungsfaktoren involviert werden. • Multiple Regressionsanalyse. Diese Methode wird verwendet, wenn die quantitative Zielgröße von mehreren quantitativen Einflussgrößen bestimmt wird. • Allgemeines lineares Modell. Damit ist es möglich, den Einfluss mehrerer Faktoren, die sowohl quantitativ als auch qualitativ sein können, zu untersuchen. Am Ende wird eine lineare Gleichung erstellt, mit der ein Wert für die Zielgröße in Abhängigkeit der signifikanten Einflussfaktoren geschätzt werden kann. Diese Gleichung hat die Form: y = a0 + a1 x1 + a 2 x2 + ... + ak xk
(11.10)
Bei diesem Ansatz werden qualitative Merkmale durch so genannte › Beispiel 2.5); Alternativmerkmale lassen Dummy-Variable ersetzt (z sich einfach durch die Ziffern 0 und 1 codieren. Eine leistungsfähige Software unterstützt den Anwender bei der Wahl der Variablen, die in das Modell aufgenommen werden, und bei der Bestimmung der Regressionskoeffizienten. i Bei allen Varianz- und Regressionsanalysen ist das bereits erwähnte z
11
› Abschnitt 5.3.3) geeignet, um die Güte des Modells Bestimmtheitsmaß r 2 (z zu quantifizieren. Dieses Maß ist der prozentuale Anteil der durch das Modell erklärten Varianz bezogen auf die Gesamtvarianz der y-Werte. Je größer da Bestimmtheitsmaß, desto besser ist das Modell.
Es sei hinzugefügt, dass die technische Anwendung dieser Verfahren mit einer geeigneten Software (z. B. mit SAS) kein nennenswertes Problem darstellt. Dennoch sollte der Anwender dieser Methoden über den mathematischen Hintergrund und auch über deren Grenzen zumindest in Grundzügen Bescheid wissen, um sie sinnvoll anzuwenden und die Ergebnisse interpretieren zu können. Wer sich dafür interessiert, möge auf geeignete Literatur zurückgreifen ([2], [4] oder [10]).
12
Tests zum Vergleich von Häufigkeiten 12.1
Der Binomialtest für eine Stichprobe 229
12.2
Chi2-Tests 231
12.2.1 Der Chi2-Vierfelder-Test 231 12.2.2 Der Median-Test 235 12.2.3 Der Chi2-Test für k ⋅ A Felder 236 12.2.4 Assoziationsmaße für qualitative Merkmale 237 12.2.5 Der McNemar-Test 238 12.2.6 Der Chi2-Anpassungstest 240 12.2.7 Der Logranktest 242
12.3
Der exakte Test nach Fisher 243
12.4
Ausblick auf die logistische Regression 245
229
12
12.1 Der Binomialtest für eine Stichprobe
12.1
Der Binomialtest für eine Stichprobe
Die Geschichte dieses Tests begann in den Jahren 1710-1712, als der englische Wissenschaftler John Arbuthnot beim Studium von Kirchenbüchern feststellte, dass bei 82 Jahrgängen Knabengeburten häufiger eingetragen waren als Mädchengeburten. Aufgrund des hohen Stichprobenumfangs kam er zu dem Schluss: Das kann kein Zufall sein! Der Binomialtest ist die geeignete Methode, um eine solche Vermutung objektiv zu überprüfen. Arbuthnot hätte dazu folgende Hypothesen aufstellen müssen: H0 : H1 :
Die Wahrscheinlichkeit p für eine Knabengeburt ist gleich der Wahrscheinlichkeit für eine Mädchengeburt, oder formal: p = 1 / 2 Die Wahrscheinlichkeiten sind unterschiedlich. Es gilt also: p ≠ 1/ 2 .
Ein Binomialtest basiert auf sehr einfachen Annahmen:
ŷ Es liegt eine Stichprobe mit n Beobachtungseinheiten vor; ŷ die Stichprobenwerte sind Ausprägungen eines Alternativmerkmals. Der Test überprüft, ob die relative Häufigkeit der Ausprägung A mit einer vorgegebenen Wahrscheinlichkeit p0 vereinbar ist. Die Hypothesen lauten also: H0 : H1 :
p = p0 p ≠ p0
(bei zweiseitiger Fragestellung)
Zur Testentscheidung gelangt man folgendermaßen:
ŷ Zunächst werden in der Stichprobe die Beobachtungseinheiten mit der Ausprägung A gezählt; deren Anzahl sei X. Die relative Häufigkeit pˆ = X / n ist ein Schätzwert für die Wahrscheinlichkeit p der Grundgesamtheit. ŷ Unter der Nullhypothese ist diese Anzahl X binomialverteilt mit dem Erwartungswert np0 . Mit der Formel (7.16) lassen sich nun die Wahrscheinlichkeiten P ( X = k ) berechnen. Damit lässt sich dann ein Bereich konstruieren, in den X bei Gültigkeit der Nullhypothese mit einer Wahrscheinlichkeit von 1 − α = 95% fallen würde. Bei einem nicht allzu hohen Stichprobenumfang genügt dazu ein Taschenrechner.
230
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
Falls n hinreichend groß ist mit np0 (1 − p0 ) ≥ 9 , lässt sich die Binomialverteilung von X durch eine Normalverteilung mit dem Erwartungswert np0 und der Varianz np0 (1 − p0 ) approximieren. Dann ist auch pˆ = X / n normalverteilt mit dem Erwartungswert p0 und der Varianz p0 (1 − p0 ) / n . Daraus folgt, dass die Prüfgröße Z=
pˆ − p0 p0 (1 − p0 ) n
(12.1)
einer Standardnormalverteilung folgt. Der kritische Punkt ist 1,96 (für α = 5% , zweiseitige Fragestellung). Bei einer anderen Irrtumswahrscheinlichkeit Į ist dieser Wert durch z1−α / 2 entsprechend anzupassen; bei einseitiger Fragestellung ist er durch ± z1−α zu erset› Tabelle A, Anhang). zen (z Beispiel 12.1 Von n = 71 Studenten sind k = 48 weiblichen Geschlechts. Ist diese Häufigkeit vereinbar mit der Hypothese, dass gleich viele Männer und Frauen Medizin studieren? Die Nullhypothese lautet: p = 0,5 . Der Schätzwert ist pˆ = 48 / 71 = 0,68 . Da np0 (1 − p0 ) = 71 ⋅ 0,5 ⋅ 0,5 = 17,75 ≥ 9 , kann man die Binomialverteilung von X durch eine Normalverteilung mit dem Erwartungswert µ = 71 ⋅ 0,5 = 35,5 und der Varianz 17,75 approximieren. Für die Prüfgröße nach (12.1) berechnet man mit p0 = 0,5 : 48 / 71 − 0, 5 z= = 2, 9670 0, 25 / 71
12
Dieser Wert ist größer als 1,96 – also wird die Alternativhypothese angenommen. Der p-Wert ist 0,0030. Während dieser p-Wert besagt, dass das Ergebnis › Beispiel 9.2) darsignifikant ist, informiert das Konfidenzintervall für pˆ (z über, in welcher Größenordnung der Anteil weiblicher Studenten angenommen werden kann.
Der Binomialtest ist vielseitig anwendbar: Durch Reduktion des Skalenniveaus lässt sich nämlich jedes Merkmal als ein Alternativmerkmal auffassen.
231
12
12.2 Chi2-Tests
12.2
Chi2-Tests
Chi2-Tests dienen zur Analyse von Häufigkeitsunterschieden. Da sich Häufigkeiten bei jeder Merkmalsart und jedem Skalenniveau ermitteln lassen, sind diese Tests sehr vielseitig anwendbar. 12.2.1 Der Chi2-Vierfelder-Test Im einfachsten Fall untersucht der Chi2-Test die Unabhängigkeit zweier Alternativmerkmale. Er wird deshalb auch als Chi2-Unabhängigkeitstest bezeichnet. Diesem Test liegt zugrunde
ŷ eine Stichprobe des Umfangs n und den Häufigkeiten, die sich aus der Betrachtung zweier Alternativmerkmale ergeben. Die Ausprägungen der beiden Merkmale seien A und A bzw. B und B . Insgesamt gibt es dann vier Kombinationsmöglichkeiten mit den Häufigkeiten a , b , c und d , die sich anschaulich in einer › Tabelle 12.1). Vierfeldertafel darstellen lassen (z Tabelle 12.1 Vierfeldertafel beim Chi2-Vierfelder-Test
B B Randsummen
A a
A b
Randsummen n1 = a + b
c
d
n2 = c + d
a+c
b+d
n = a+b+c+d
Unter der Nullhypothese sind die relevanten Ereignisse unabhängig voneinander; deshalb gilt nach dem Multiplikationssatz: H0 :
P ( A | B ) = P ( A)
Unter der Nullhypothese müsste also annähernd gelten:
a a+c = a+b n
(12.2)
Dagegen besagt die Alternativhypothese H1 , dass eine Abhängigkeit besteht. Die wesentliche Idee eines Chi2-Tests ist folgende: Die beobachteten Häufigkeiten a , b , c und d werden verglichen mit den Häufigkeiten, die unter der Nullhypothese zu erwarten sind. Dazu berechnet man für jede Häufigkeit den Quotienten
232
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
( beobachtete Häufigkeit - erwartete Häufigkeit) 2 ( B − E ) 2 = E erwartete Häufigkeit
Die Summe dieser vier Quotienten bildet die Prüfgröße. Die unter H0 zu erwartende Häufigkeit für a ergibt sich aus Formel (12.2) aus den Randsummen (a + b) , (a + c) und n; die anderen Erwartungshäufigkeiten leitet man analog her und erhält die Häufigkeiten in Tabelle 12.2. Tabelle 12.2 Beobachtete und erwartete Häufigkeiten beim Vierfelder-Test beobachtete Häufigkeit B
unter H0 erwartete Häufigkeit E
( B − E )2 / E
a
(a + b)(a + c) / n
( ad − bc ) 2 n ⋅ ( a + b)( a + c)
b
(a + b)(b + d ) / n
(ad − bc ) 2 n ⋅ ( a + b)(b + d )
c
(c + d )(a + c) / n
(ad − bc) 2 n ⋅ (c + d )(a + c)
d
(c + d )(b + d ) / n
(ad − bc ) 2 n ⋅ ( c + d )(b + d )
n
n
χ2
Summe
Die Prüfgröße ist annähernd χ 2 -verteilt mit einem Freiheitsgrad. Sie berechnet sich beim Vierfelder-Test als:
12
χ2 =
n ⋅ ( ad − bc ) 2 ( a + b)( a + c )( c + d )(b + d )
(12.3)
Unter der Nullhypothese erwartet man, dass alle beobachteten Häufigkeiten mit den erwarteten übereinstimmen; in diesem Extremfall wäre χ2 = 0. In der Praxis ist natürlich immer damit zu rechnen, dass χ2 > 0. Kleinere Abweichungen von 0 sind mit der Nullhypothese durchaus noch vereinbar; hohe Werte der Prüfgröße sprechen gegen die Nullhypothese. Die Prüfgröße ist umso größer, je mehr die beobachteten von den erwarteten Häufigkeiten abweichen. Das Testverfahren wird wie folgt durchgeführt:
ŷ Aus den absoluten Häufigkeiten wird nach (12.3) die Prüfgröße χ2 berechnet.
233
12
12.2 Chi2-Tests
ŷ Falls der Wert der Prüfgröße innerhalb des Intervalls [0, χ12;1−α ] liegt, wird die Nullhypothese auf dem α -Niveau beibehalten. › Tabelle E, Anhang). Für α = 5% ist χ12;0,95 = 3,841 (z
Beispiel 12.2 Bei der Stichprobe unserer n = 71 Studenten betrachten wir die Alternativmerkmale Rauchen und Geschlecht. Es ergeben sich folgende Werte: beobachtete Häufigkeiten erwartete Häufigkeiten Raucher Nichtraucher Raucher Nichtraucher a=4 b = 19 Männer 23 4,2 18,8 23 c=9 d = 39 Frauen 48 8,8 39,2 48 13 58 71 13 58 71 Es ist nicht erstaunlich, dass die erwarteten Häufigkeiten keine ganzen Zahlen sind. Es handelt sich um theoretische Häufigkeiten, die aus den Randsummen berechnet werden (Tabelle 12.2) und zum Vergleich mit den beobachteten Häufigkeiten dienen. Von den Männern rauchen 17%, von den Frauen 19%. Ist der Unterschied nun so gravierend, dass man die Nullhypothese („Es besteht kein Zusammenhang zwischen Rauchen und Geschlecht“) verwerfen kann? Die Prüfgröße ist nach (12.3): 71 ⋅ (4 ⋅ 39 − 19 ⋅ 9) 2 χ2 = = 0,0192 23 ⋅13 ⋅ 48 ⋅ 58 Dieser Wert ist kleiner als der kritische Wert 3,841 – d. h. anhand der Stichprobe ist kein Zusammenhang zwischen den beiden Merkmalen nachzuweisen. Der p-Wert beträgt 0,8898; das Konfidenzintervall für die Differenz (Anteil Frauen - Anteil Männer) ist [-0,18 ; 0,20]. Der Raucheranteil der Frauen könnte also um 20 % über dem der Männer liegen; er könnte ebenso gut 18 % geringer sein.
Man kann den Vierfelder-Test auch dahingehend interpretieren, dass er bei zwei unabhängigen Stichproben relative Häufigkeiten vergleicht (er überprüft, ob ein bestimmtes Merkmal in den beiden Stichproben gleich verteilt ist). So lässt sich etwa die Situation in Beispiel 12.2 auch so beschreiben: Es werden zwei unverbundene Stichproben (bestehend aus männlichen bzw. weiblichen Studenten) hinsichtlich des Merkmals „Rauchgewohnheiten“ verglichen. Dies ist ein anderer Ansatz, der jedoch formal mit demselben Testverfahren untersucht wird. Man spricht in diesem Fall vom Chi2-Homogenitätstest. • Einseitiges Testen. Bisher wurde stillschweigend vorausgesetzt, dass beim Vierfelder-Test zweiseitig geprüft wird. Nun sind auch einseitige Fragestellungen denkbar wie etwa: „Rauchen mehr Frauen als Männer (oder umgekehrt)?“. Einseitige Testverfahren sind bei
234
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
Chi2-Tests allerdings problematisch, weil die Richtung eines Unterschieds durch das Quadrieren der Abstände (B–E) eliminiert wird. Dennoch ist beim Vierfelder-Test eine einseitige Prüfung möglich, indem man als kritischen Wert χ12;1−2α zugrunde legt. Man geht bei diesem Ansatz davon aus, dass – grob formuliert – bei die Hälfte der Werte, die die Prüfgröße unter der Nullhypothese annehmen kann, die beobachtete Häufigkeit a kleiner ist als die dazugehörende Erwartungshäufigkeit (und bei der anderen Hälfte größer). Bei den Werten, die größer sind als χ12;1−2α , entspricht die Hälfte dem Wert α. Ein einseitiger Test ist allerdings nur dann statthaft, wenn man aufgrund von Vorkenntnissen die Richtung eines möglichen Unterschiedes genau kennt – ansonsten hat man eine Irrtumswahrscheinlichkeit von 2α. Theoretisch ist der einseitige Vierfelder-Test interessant; praktisch sollte man ihn meiden. • Zu den Voraussetzungen. Beim Vierfelder-Test sollte jede der er warteten Häufigkeit mindestens 5 betragen; keine der beobachteten Häufigkeiten darf 0 sein. Falls diese Anforderungen nicht erfüllt › sind, kann man als Alternative Fisher’s exakten Test verwenden (z Abschnitt 12.3). Mathematische Betrachtung der Chi2-Prüfgröße beim Vierfelder-Test Die Berechnung der Prüfgröße aus der Summe aller ( B − E ) 2 / E erscheint plausibel. Je mehr eine beobachtete Häufigkeit B von der erwarteten Häufigkeit E abweicht, umso größer wird dieser Quotient und damit auch die Prüfgröße. Die Division durch E erfolgt, um der Tatsache Rechnung zu tragen, dass dieselbe Abweichung ( B − E ) umso schwerer wiegt, je kleiner die Erwartungshäufigkeit E ist. Mit elementaren Rechenregeln lassen sich dann die Häufigkeiten und deren Summe in Tabelle 12.2 herleiten. Wieso ist unter der
12
Nullhypothese die Summe der ( B − E ) 2 / E χ 2 -verteilt? Dazu betrachten wir die Häufigkeiten a und c . a ist unter H 0 binomialverteilt mit dem Erwartungswert n1 p und der Varianz n1 p(1 − p) . Auch c ist binomialverteilt mit dem Erwartungswert n2 p und der Varianz n2 p(1 − p) . Unter H 0 hat die Differenz D = a / n1 − c / n2 den Erwartungswert 0 und s D2 = p(1 − p)(1 / n1 + 1 / n2 ) als Varianz. Folglich ist D / sD standardnormalverteilt. Demnach folgt ( D / sD ) 2
› Abschnitt 8.5.2). Wenn man einer χ 2 -Verteilung mit einem Freiheitsgrad (z in ( D / sD ) 2 einsetzt: p = (a + c) / n , n1 = a + b und n2 = c + d , erhält man nach einigen Umrechnungen die Prüfgröße nach (12.3).
12
235 12.2 Chi2-Tests
12.2.2 Der Median-Test Die Anwendung des Vierfelder-Tests ist nicht beschränkt auf Alternativmerkmale. Mit diesem Test lassen sich auch zwei unabhängige Stichproben bezüglich eines ordinal skalierten oder eines quantitativen Merkmals vergleichen. Die Nullhypothese lautet in diesem Fall: H0 :
~ =µ ~ µ 1 2
Das Testverfahren lässt sich wie folgt beschreiben:
ŷ Man bildet aus den Daten beider Stichproben den gemeinsamen
empirischen Median ~ x. ŷ Dann ermittelt man die Häufigkeiten entsprechend der folgenden Vierfeldertafel (Tabelle 12.3). ŷ Die Prüfgröße berechnet man nach (12.3). ŷ Falls der Wert der Prüfgröße innerhalb [0, χ12;1−α ] liegt, wird die Nullhypothese beibehalten. Tabelle 12.3 Vierfeldertafel beim Median-Test
Stichprobe 1 Stichprobe 2
≤~ x
>~ x
a
b
n1 = a + b
c
d
n2 = c + d
a+c
b+d
n = a+b+c+d
Beispiel 12.3 Es soll getestet werden, ob sich die Klausurergebnisse von n1 = 23 männlichen und n2 = 48 weiblichen Studenten unterscheiden (Daten in Tabelle 2.1). Von › Abbildung 3.2). Unter allen n = 71 Werten ergibt sich der Median ~ x = 8 (z Berücksichtigung des Geschlechts erhält man folgende Vierfeldertafel: ƶ ≤~ x >~ x 11 23 Männer 12 24 48 Frauen 24 35 71 ƶ 36 Aus diesen Häufigkeiten ergibt sich eine Prüfgröße von 71 ⋅ (12 ⋅ 24 − 11 ⋅ 24) 2 = 0,029 23 ⋅ 48 ⋅ 36 ⋅ 35 Dieser Wert ist wesentlich kleiner als χ12;0,95 = 3,841 – ein Unterschied ist nicht nachzuweisen. Wer hätte etwas Anderes erwartet? Der p-Wert ist 0,8639. Übrigens: Man könnte diese Fragestellung auch mit dem U-Test von Mann und Whitney überprüfen; damit ergibt sich p = 0,8770.
χ2 =
236
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
Der Median-Test hat gegenüber dem t-Test und dem U-Test den Vorteil, dass er gleiche Verteilungsformen der Zufallsvariablen nicht voraussetzt. Der Median-Test kann auch dann benutzt werden, wenn die Verteilungen der Stichproben ungleich oder unbekannt sind. Wenn jedoch die Voraussetzungen des t-Tests oder des U-Tests erfüllt sind, sollte man diese wegen der höheren Power bevorzugen. 12.2.3 Der Chi2-Test für k ⋅ A Felder Dies ist eine Verallgemeinerung des Vierfelder-Unabhängigkeitstests dahingehend, dass die beiden betrachteten Merkmale nicht nur jeweils zwei, sondern k Ausprägungen A1 ,..., Ak bzw. A Ausprägungen B1 ,..., BA aufweisen. Dann erhält man bei der Darstellung der Häufigkeiten eine Kontingenztafel mit k ⋅ A Feldern im Innern. Die Nullhypothese besagt, dass kein Zusammenhang zwischen den beiden Merkmalen besteht. Dieser Test funktioniert nach dem bereits beschriebenen Prinzip: Es werden die beobachteten mit den erwarteten Häufigkeiten verglichen. Seien nij die Anzahl der Stichprobenelemente mit der Ausprägungskombination Ai und B j und eij die unter H0 erwarteten Häufigkeiten. Dann berechnet sich die Prüfgröße als k
χ2 =
A
¦¦ i =1 j =1
12
( nij − eij ) 2 eij
(12.4)
Sie hat (k − 1) ⋅ (A − 1) Freiheitsgrade (dies bedeutet, dass man im Innern der Kontingenztafel (k − 1) ⋅ (A − 1) Häufigkeiten unter Beibehaltung der Randsummen ändern kann). Die erwarteten Häufigkeiten eij berechnet man aus den Randsummen. Kritische Werte in Abhängigkeit der Anzahl der Freiheitsgrade findet man in Tabelle E › Anhang). (z Dieser Test lässt sich auch auffassen als ein Homogenitätstest: Er überprüft, ob ein Merkmal mit A Ausprägungen in k Stichproben homogen verteilt ist. In jedem Fall wird vorausgesetzt, dass die erwarteten Häufigkeiten mindestens 5 betragen (oder dass zumindest der Anteil der erwarteten Häufigkeiten, die kleiner als 5 sind, 20 % nicht überschreitet). Wenn diese Bedingung nicht erfüllt ist, kann man versuchen, dies durch Zusammenlegen von mehreren Ausprägungen oder Klassen zu erreichen. Ersatzweise kann man den exak› Abschnitt 12.3). ten Test nach Fisher anwenden (z
12
237 12.2 Chi2-Tests
i Es gibt eine Variante dieses Tests (Mantel-Haenszel-Test), die sich eignet, z › [10]). wenn eines der beiden Merkmale ordinal skaliert ist (z
12.2.4 Assoziationsmaße für qualitative Merkmale Mit dem Chi2-Unabhängigkeitstest lässt sich die Existenz einer Assoziation zwischen zwei nominal skalierten Merkmalen nachweisen. Über dessen Stärke macht das Testergebnis jedoch keine Angaben. Es wurden mehrere Assoziationskoeffizienten entwickelt, um die Stärke eines solchen Zusammenhangs zu quantifizieren. • Phi-Koeffizient. Er eignet sich, um den Zusammenhang zwischen zwei Alternativmerkmalen zu beschreiben und ist definiert als: φ=
χ2 n
(12.5)
Dieser Koeffizient ist 0 bei vollkommener Unabhängigkeit der Merkmale. Falls b = c = 0 , nimmt φ den Wert 1 an (wie sich leicht anhand der Formel (12.3) nachvollziehen lässt). In diesem Fall kann man nämlich aufgrund eines Merkmals das andere präzise vorhersagen. Ansonsten ist φ kleiner als 1. Der Phi-Koeffizient ist signifikant größer als 0, falls das Ergebnis des Vierfeldertests signifikant ist. Beispiel 12.4 In einer klinisch-kontrollierten Studie werden jeweils 50 Patienten mit einem neuen Medikament bzw. mit dem herkömmlichen Standardmedikament behandelt. Die Therapien sind in a = 35 (neu) bzw. c = 25 (Standard) Fällen erfolgreich und demnach in b = 15 bzw. d = 25 Fällen nicht erfolgreich. Mit einem Chi2-Test erhält man: χ 2 = 4,1667 und p = 0, 0412 . Die Stärke des Zusammenhangs wird quantifiziert durch φ = 4,1667 /100 = 0,204 . Der › Yule’sche Assoziationskoeffizient beträgt Q = 0,40 ; die Odds Ratio ist 2,33 (z Abschnitt 3.4.2). Der Zusammenhang ist zwar signifikant, aber eher schwach. Die Differenz der Erfolgsraten beträgt 20 %; das 95%-Konfidenzintervall liegt zwischen 1,2 % und 38,8 %.
• Cramérs Index. Dieses Maß (vorgestellt im Jahre 1946) ist eine Verallgemeinerung von φ für k ⋅ A -Kontingenztafeln: CI =
χ2 n ⋅ ( R − 1)
(12.6)
238
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
wobei R = min(k , A) . Es ist leicht nachvollziehbar, dass dieser Index für R = 2 mit φ identisch ist. • Kontingenzkoeffizient von Pearson. Dieser im Jahre 1904 vorge stellte Koeffizient ist das älteste und bekannteste Assoziationsmaß: CC =
χ2
(12.7)
n + χ2
Es lässt sich nachweisen, dass der Maximalwert von CC gleich Cmax = ( R − 1) / R ist. Ein Nachteil dieses Koeffizienten ist, dass er 1 nie erreichen kann und deshalb schwer zu interpretieren ist. 12.2.5 Der McNemar-Test Dies ist ein Häufigkeitstest für zwei verbundene Stichproben, die hinsichtlich eines Alternativmerkmals zu vergleichen sind. Diese treten beispielsweise dann auf, wenn Patienten mit zwei verschiedenen Therapien nacheinander behandelt werden und das Merkmal „Therapieerfolg“ mit den Ausprägungen „ja“ und „nein“ untersucht wird. Der Stichprobenumfang n lässt sich folgendermaßen aufteilen: Tabelle 12.4 Vierfeldertafel beim McNemar-Test
Stichprobe 2
12
A
Stichprobe 1 A A a b
A
c
d
Die Nullhypothese besagt: Die Stichproben stimmen bezüglich der Häufigkeitsverteilung überein. Das bedeutet, dass a + b = a + c oder einfacher: b = c . Die Häufigkeiten, die für die Gleichheit der Stichproben sprechen, sind a und d. Die Häufigkeiten b und c repräsentieren Unterschiede. Je mehr diese vom Durchschnittswert (b + c) / 2 abweichen, desto mehr spricht für die Alternativhypothese. Der Test wird nach folgendem Prinzip durchgeführt:
ŷ Zunächst werden die Häufigkeiten der Vierfeldertafel ermittelt. ŷ Danach berechnet man die Prüfgröße nach: χ2 =
(b − c ) 2 b+c
(12.8a)
12
239 12.2 Chi2-Tests
ŷ Falls der Wert der Prüfgröße mehr als χ12;1−α beträgt, wird die Alternativhypothese angenommen.
Die Prüfgröße nach (12.8a) wird für b + c ≤ 30 Stetigkeitskorrektur etwas verkleinert: χ2 =
durch eine
( b − c − 1) 2
(12.8b)
b+c
Im Übrigen setzt auch dieser Test voraus, dass die erwartete Häufigkeit (b + c ) / 2 mindestens 5 beträgt. i Die Stetigkeitskorrektur ist erforderlich, weil die Häufigkeiten b und c z diskrete Werte darstellen, während χ2 eine stetige Variable ist. In der Literatur werden unterschiedliche Stetigkeitskorrekturen vorgeschlagen. In jedem Fall wird dadurch die Prüfgröße etwas verkleinert, um zu verhindern, dass man allzu leichtfertig die Nullhypothese ablehnt.
Beispiel 12.5 Bei 20 Patienten wird ein schmerzstillendes Präparat (Verum) mit einem Placebo verglichen. Jeder Patient wird mit beiden Therapien behandelt, wobei zwischen den Behandlungsphasen eine längere, therapiefreie Phase liegt. Die Patienten wissen nicht, wann sie mit dem Placebo bzw. dem Verum behandelt werden. Sie beurteilen die Wirkung folgendermaßen: Wirkung des Placebos schwach stark a=3 b=2 Wirkung schwach c = 11 d =4 des Verums stark Als Prüfgröße berechnet man: χ 2 =
( 2 − 11 − 1) 2
= 4,923 > 3,841 . 2 + 11 Der p-Wert ist 0,0265. Deshalb wird die Alternativhypothese angenommen. Das Verum zeigt in 15 von 20 Fällen eine starke Wirkung, das Placebo nur 6 Mal. Das Konfidenzintervall für diese Wirkungsdifferenz ist [0,17 ; 0,73].
Mathematische Herleitung der Chi2-Prüfgröße beim McNemar-Test Unter der Nullhypothese wird für jede der beiden Häufigkeiten b und c der Wert (b + c ) / 2 erwartet. Dann berechnet man die Prüfgröße nach (12.3) als: 2
2
b+c· § b+c· § ¸ ¸ + ¨c − ¨b − 2 ¹ © 2 ¹ 2 © χ = b+c 2 Nach Ausmultiplizieren und Addieren erhält man die Formel (12.8a).
240
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
Abschließend noch einige Hinweise zum McNemar-Test:
• Nullhypothese: Es wird nicht behauptet, dass es überhaupt keine Unterschiede zwischen den Stichproben gibt (in diesem Fall wäre zu erwarten, dass die Häufigkeiten b und c gleich 0 sind). Die Nullhypothese besagt lediglich, dass unterschiedliche Beurteilungen in beiden Richtungen (Verum besser bzw. Placebo besser) gleich häufig sind, sodass man unter der Nullhypothese b = c erwarten würde. • Stichprobenumfang: In die Berechnung der Prüfgröße fließt nicht der volle Stichprobenumfang ein, sondern lediglich die Häufigkeiten b und c. Allerdings kommt im Konfidenzintervall für die › Beispiel 12.5) der gesamte Umfang n zur Geltung. Differenz (z • Verallgemeinerung auf qualitative Merkmale: Der McNemar Test setzt ein Alternativmerkmal voraus. Bei einem Merkmal mit mehr als zwei Ausprägungen entsteht anstelle der Vierfeldertafel eine Matrix. Der Symmetrietest von Bowker [5] überprüft, ob diese Matrix symmetrisch ist. • Verallgemeinerung auf mehrere verbundene Stichproben: Wenn Patienten mehrfach nacheinander auf ein Alternativmerkmal hin untersucht werden, bietet sich der Q-Test von Cochran an [5]. 12.2.6 Der Chi2-Anpassungstest
12
Mit einem Anpassungstest wird überprüft, ob die empirische Verteilung einer Stichprobe vereinbar ist mit einer vermuteten, theoretischen Verteilung. Dabei kann jede Verteilung, die dem inhaltlichen Problem angemessen ist, vorgegeben werden. Wie bei allen Chi2-Tests werden auch bei einem Anpassungstest die beobachteten mit den erwarteten Häufigkeiten verglichen. Die erwarteten Häufigkeiten werden berechnet, indem man – unter Annahme einer theoretischen Verteilung – für jede Ausprägung (Klasse oder Gruppe) die entsprechende Wahrscheinlichkeit bestimmt und diesen Wert mit dem Stichprobenumfang multipliziert. Die Anzahl der Freiheitsgrade beträgt f = k − 1 − r . Dabei ist k die Anzahl der gegebenen Klassen. Diese Anzahl wird um 1 reduziert, weil generell eine Restriktion durch den Stichprobenumfang gegeben ist. Außerdem wird die Anzahl der Freiheitsgrade eingeschränkt durch die Anzahl r der Parameter, die zur Berechnung der erwarteten Häufigkeiten erforderlich sind. Die Anzahl der Freiheitsgrade ist also auch abhängig von der Verteilung, die man unter der Nullhypothese zugrunde legt:
241
12
12.2 Chi2-Tests
ŷ Gleichverteilung: ŷ Poissonverteilung: ŷ
f = k −1 f = k −2 Hier wird ein Parameter – nämlich der Erwartungswert λ – über den Mittelwert der Stichprobe geschätzt; daher ist r = 1 . Normalverteilung: f = k −3 Diese Verteilung ist durch r = 2 Parameter – nämlich den Erwartungswert und die Varianz – charakterisiert.
Beispiel 12.6 Wir greifen zurück auf das Beispiel 7.6, in dem Erythrozyten unter dem Mikroskop gezählt werden. Bei 80 Versuchen werden zwischen 0 und 12 Erythrozyten pro Zählkammer gefunden. In der folgenden Tabelle sind für jede Anzahl k mit 0 ≤ k ≤ 12 die beobachteten Häufigkeiten angegeben. Es soll geprüft werden, ob diese Werte mit der Annahme einer Poissonverteilung vereinbar sind. Zunächst wird aus den gegebenen Häufigkeiten ein Mittelwert berechnet, der als Schätzer für den Erwartungswert λ = 5,9125 dient. Mit der Formel (7.21) lassen sich für alle k die theoretischen Wahrscheinlichkeiten berechnen. Daraus ergeben sich (indem man sie mit 80 multipliziert) die erwarteten Häufigkeiten. Da diese mindestens 5 betragen müssen, werden die drei ersten und die drei letzten Klassen zusammengefasst, so dass insgesamt 9 Klassen resultieren. Die Nullhypothese lautet: Die Anzahl der Erythrozyten in einer Zählkammer folgt einer Poisson-Verteilung.
k 0–2 3 4 5 6 7 8 9 10 – 11 Summe
beobachtete Häufigkeit B 5 7 11 12 16 10 7 5 7 80
erwartete Häufigkeit E 5,28 7,46 11,02 13,03 12,84 10,85 8,02 5,27 5,61 79,37
( B − E )2 / E
0,01475 0,02785 0,00004 0,08167 0,77682 0,06607 0,12884 0,01346 0,34337 χ 2 = 1,45287
Die Anzahl der Freiheitsgrade ist 9 − 2 = 7 . Es gilt χ72;0,90 = 12,017 (Tab. E, Anhang). Da die berechnete Prüfgröße kleiner ist, wird die Nullhypothese beibehalten. Der p-Wert beträgt 0,99318.
Ein Anpassungstest wird in der Regel verwendet, um zu überprüfen, ob man eine bestimmte Verteilung annehmen darf. Häufig wird ein solcher Test vor der Anwendung des t-Tests eingesetzt, um empirische Daten dahingehend zu überprüfen, ob sie aus einer normalverteilten Grundgesamtheit entstammen. In diesen besonderen Fällen ist man daran interessiert, die Nullhypothese beizubehalten. Also ist man bemüht, den β-Fehler möglichst klein zu halten. Dieser ist je-
242
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
doch im Gegensatz zum α-Fehler schwer abschätzbar. Eine Möglichkeit, indirekt Einfluss auf den β-Fehler zu nehmen, besteht darin, den α-Fehler zu vergrößern. Deshalb ist es üblich, bei einem Anpassungstest α = 0,10 festzulegen und die Alternativhypothese erst für p > 0,10 anzunehmen. Man muss sich immer wieder klar machen, dass das Testergebnis eines Anpassungstests auf Normalverteilung, das zur Beibehaltung der Nullhypothese führt, keinesfalls als Beweis zu werten ist, dass die Grundgesamtheit tatsächlich normalverteilt ist. Man sollte hier nur vorsichtige Formulierungen verwenden wie etwa: „Nichts spricht gegen die Normalverteilung der Grundgesamtheit“. i Bei stetigen Verteilungen bietet sich als Alternative zum Chi2-Anpasz sungstest der Kolmogoroff-Smirnov-Test an. Er beruht auf dem Vergleich einer empirischen Verteilungsfunktion mit der Verteilungsfunktion einer theoretischen Verteilung (z. B. der Normalverteilung). Für kleine Stichproben ist der Kolmogoroff-Smirnov-Test besser geeignet als der Chi2› [10]). Anpassungstest (z
12.2.7 Der Logranktest
12
Schließlich sei noch der ebenfalls auf der Chi2-Verteilung basierende Logrank-Test erwähnt, der zum Vergleich von Überlebenszeiten angewandt wird. Dabei werden die Überlebensfunktionen S1 (t ) und S2 (t ) zweier (oder mehrerer) unverbundener Stichproben verglichen. Das Besondere an diesem Test ist, dass auch zensierte Daten › Abschnitt 2.4) an(die häufig bei Überlebenszeitstudien auftreten; z gemessen berücksichtigt werden. Mit dem Logranktest wird beispielsweise überprüft, ob sich eine Therapie oder ein prognostischer Faktor auf die Überlebenszeit oder allgemein auf die Zeit bis zum Eintreten eines bestimmten Endereignisses auswirkt. Ein Beispiel für die Darstellung einer Überlebens› Abbildung 16.1). Um zeitkurve findet man in Abschnitt 16.2.3 (z zwei Kurven zu vergleichen, ermittelt man zunächst die Anzahl der aufgetretenen Endereignisse b1 und b2 in den Stichproben; außerdem berechnet man die Anzahl der Endereignisse e1 und e2 , die man erwarten würde, wenn die beiden Kurven identisch wären. Die Teststatistik für den Logranktest ist:
χ2 =
(b1 − e1 ) 2 (b2 − e2 ) 2 + e1 e2
(12.9)
243
12
12.3 Der exakte Test nach Fisher
Die Häufigkeiten b1 und b2 werden durch einfaches Zählen ermittelt. Die Berechnung der Erwartungshäufigkeiten ist komplizierter. Dazu betrachtet man beide Stichproben gemeinsam und notiert die Zeitpunkte ti ( i = 1,..., k ), zu denen in einer der beiden Stichproben ein Endereignis stattfindet und die Anzahl der dazugehörenden Ereignisse d i . Dann ist k
e1 = ¦ d i ⋅ i =1
n1i n1i + n2i
k
e2 = ¦ d i ⋅ i =1
n 2i n1i + n2i
(12.10)
n1i und n2i sind die Beobachtungseinheiten der 1. bzw. der 2. Stichprobe, die zum Zeitpunkt ti noch leben. Die Quotienten n1i /( n1i + n2i ) und n2i /( n1i + n2i ) entsprechen den Anteilen in der jeweiligen Stichprobe. Der Logranktest ist auch anwendbar auf mehr als zwei Überlebenskurven. Detaillierte Erläuterungen dazu findet man in [11].
12.3
Der exakte Test nach Fisher
Wenn die Voraussetzungen des Vierfelder-Tests oder auch des Chi2Tests für k ⋅ A Felder nicht erfüllt sind (wenn die erwarteten Häufigkeiten zu klein sind), kann man alternativ Fisher’s exakten Test verwenden. Dieser Test heißt „exakt“, weil der p-Wert als Prüfgröße direkt berechnet wird. Er funktioniert im Vierfelderfall nach folgendem Prinzip:
ŷ Man ordnet die Vierfeldertafel so an, dass die kleinste Häufigkeit oben links steht (sie entspricht dann der Häufigkeit a). Die Wahrscheinlichkeit für diese Situation berechnet sich nach: P=
( a + b)!( c + d )!( a + c )!(b + d )! n !⋅ a !⋅ b !⋅ c !⋅ d !
(12.11)
ŷ Falls diese Wahrscheinlichkeit größer ist als α, ist der Test beendet – die Nullhypothese wird beibehalten.
ŷ Ansonsten bildet man für noch extremere Situationen weitere Vierfeldertafeln, indem man unter Beibehaltung der Randsummen die Häufigkeit a schrittweise jeweils um 1 reduziert, bis man a = 0 erhält. Für jede dieser Situationen berechnet sich die Einzelwahrscheinlichkeit nach (12.11).
244
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
ŷ Die so berechneten Einzelwahrscheinlichkeiten werden aufaddiert. Deren Summe gibt an, wie groß die Wahrscheinlichkeit ist, die Ausgangssituation oder eine noch extremere Situation zu erhalten. Bei der einseitigen Fragestellung entspricht dies dem pWert. ŷ Bei einer zweiseitigen Fragestellung wird der p-Wert der einseitigen Fragestellung verdoppelt. Ein anderer Ansatz besteht darin, die Einzelwahrscheinlichkeiten für jede Tabelle, die theoretisch unter Beibehaltung der Randhäufigkeiten möglich ist, zu berechnen und dann alle Einzelwahrscheinlichkeiten, die maximal so groß sind wie die Wahrscheinlichkeit der gegebenen Tabelle, aufzuaddieren. ŷ Falls der berechnete p-Wert kleiner ist als α, wird die Nullhypothese zugunsten der Alternativhypothese abgelehnt. Beispiel 12.7 Zwei Gruppen von Patienten werden bezüglich einer neuen Therapie verglichen. Es soll getestet werden, ob sich die Misserfolgsquoten der beiden Therapien unterscheiden (zweiseitige Fragestellung). Es ergeben sich folgende Häufigkeiten: Misserfolg Erfolg a=0 b=8 Therapie 1 8 8!⋅ 8!⋅ 5!⋅ 11! c=5 d =3 P( a = 0) = = 0,0128 Therapie 2 8 16!⋅ 0!⋅ 8!⋅ 5!⋅ 3! 16 5 11 Eine ebenso extreme Situation wäre gegeben, wenn a = 5 und c = 0 ; auch in diesem Fall wäre P( a = 5) = 0,0128 . Die Summe dieser beiden Wahrscheinlichkeiten ergibt 0,0256 < 0,05 . Also wird die Nullhypothese für α = 5% abgelehnt.
12
i Bei der zweiseitigen Fragestellung kann man den p-Wert nach zwei z Ansätzen ermitteln (siehe oben); diese Werte werden sich in aller Regel nur marginal unterscheiden.
Fisher’s exakter Test kann nicht nur für Vierfeldertafeln, sondern theoretisch für beliebig große k ⋅ A -Kontingenztafeln angewandt werden. Allerdings ist er dann rechnerisch sehr aufwendig, sodass selbst ein leistungsstarkes Statistikprogramm mitunter lange Zeit benötigt, um den p-Wert zu ermitteln.
245
12
12.4 Ausblick auf die logistische Regression
Mathematische Herleitung der Wahrscheinlichkeiten bei Fisher’s exaktem Test Es sind n Beobachtungseinheiten (z. B. Patienten) gegeben; davon haben a + c eine bestimmte Eigenschaft (z. B. Therapie nicht erfolgreich). Von n Patienten werden zufällig a + b (z. B. für Therapie 1) ausgewählt; davon haben a Patienten einen Misserfolg. Unter der Nullhypothese folgt a einer hypergeometrischen Verteilung HG ( a + b; n, a + c) . Mit (7.27) berechnet man: § a + c· § n − a − c · § a + c· §b + d · ¸ ¸⋅¨ ¸ ¨ ¸⋅¨ ¨¨ a ¸¹ ¨© a + b − a ¸¹ ¨© a ¸¹ ¨© b ¸¹ = P( X = a) = © § n · § n · ¨¨ ¸¸ ¨¨ ¸¸ + a b © a + b¹ © ¹ Nach Einsetzen der Binomialkoeffizienten ergibt sich (12.11).
12.4
Ausblick auf die logistische Regression
In Abschnitt 11.4.2 wurde das Allgemeine Lineare Modell vorgestellt, mit dem der Einfluss mehrerer qualitativer und quantitativer Merkmale auf eine quantitative Zielgröße untersucht werden kann. Bei derlei Zielgrößen handelt es sich meist um Messwerte aus dem klinischen Alltag, aus dem Labor oder um Zeitmessungen. In der medizinischen Forschung hat man es häufig jedoch auch mit qualitativen, oft auch mit einfachen Alternativmerkmalen als Zielgrößen zu tun. Dies betrifft Fragestellungen, die sich mit „ja“ oder „nein“ beantworten lassen, wie zum Beispiel „Therapie erfolgreich“, „Krankheit bricht aus“ oder „Patient überlebt“. Am Ende liegen zwei Gruppen vor, die zu vergleichen sind. Um diese Gruppen bezüglich eines qualitativen Merkmals zu testen, verwendet man in der Regel den in diesem Kapitel vorgestellten Chi2-Test oder Fisher’s exakten Test; bei einem quantitativen Merkmal bietet sich der t-Test › Kapitel 11). oder der U-Test an (z Mit diesen Tests lassen sich Unterschiede zwischen den Gruppen absichern; allerdings können damit keine Wahrscheinlichkeiten für ein bestimmtes Endereignis berechnet werden. Außerdem handelt es sich um einfache Tests, die nur den Einfluss eines einzigen Merkmals berücksichtigen. Die logistische Regression ist ein multiples Verfahren, mit dem es möglich ist, die Wahrscheinlichkeit für das Auftreten eines bestimmten Endereignisses basierend auf mehreren Einflussgrößen zu modellieren. Diese Einflussgrößen können sowohl qualitativ als auch
246
Kapitel 12 · Tests zum Vergleich von Häufigkeiten
quantitativ sein. Im einfachsten Fall ist die Zielgröße binär; es ist jedoch auch möglich, ordinal oder nominal skalierte Zielgrößen mit mehreren Ausprägungen zu untersuchen. Bei diesem Verfahren wird eine mathematische Gleichung aufgestellt, mit der die Wahrscheinlichkeit für das Auftreten eines Ereignisses A (z. B. „Die Therapie ist erfolgreich“) in Abhängigkeit von mehreren signifikanten Einflussgrößen für jeden Einzelfall geschätzt werden kann: P ( A) =
exp(a0 + a1 x1 + ... + a k xk ) 1 + exp(a0 + a1 x1 + ... + ak xk )
(12.12)
Diese auf den ersten Blick seltsam scheinende Formel gewährleistet, dass in jedem Fall eine Wahrscheinlichkeit ermittelt wird, die zwischen 0 und 1 liegt. Nominal skalierte Merkmale lassen sich durch › Beispiel 2.5). Die Güte des Modells Dummy-Variablen darstellen (z wird wesentlich bestimmt durch die in das Modell aufgenommen Variablen. Diese Wahl muss sowohl unter statistischen als auch unter medizinisch-fachlichen Aspekten erfolgen. Die Berechnung der Regressionskoeffizienten ai ist ohne eine leistungsstarke Statistiksoftware kaum durchführbar. Die logistische Regression ist in der medizinischen Forschung sehr vielseitig verwendbar. Ausführliche Informationen und weitere Hinweise zur Analyse von kategorialen Daten findet man in [1] und [2].
12
13
Epidemiologische Studien 13.1
Aufgaben und Ziele der Epidemiologie 249
13.2
Der Inhalt epidemiologischer Studien 250
13.3
Klassifikation nach formalen Aspekten 251
13.3.1 Deskriptiv versus analytisch 251 13.3.2 Transversal versus longitudinal 252 13.3.3 Retrospektiv versus prospektiv 252 13.3.4 Beobachtend versus experimentell 254 13.3.5 Monozentrisch versus multizentrisch 255
13.4
Fehlerquellen 255
13.4.1 Zufällige Fehler 255 13.4.2 Systematische Fehler 256
13.5
Die Studienplanung 258
13.5.1 Die Bedeutung der Planung 258 13.5.2 Komponenten der Planung 259
249
13
13.1 Aufgaben und Ziele der Epidemiologie
13.1
Aufgaben und Ziele der Epidemiologie
Die Epidemiologie ist die Lehre von der Entstehung und der › Abschnitt Verbreitung von Krankheiten und deren Bekämpfung (z 6.3). Dieser Begriff bezog sich ursprünglich nur auf Infektionserkrankungen. Mittlerweile befasst sich die Epidemiologie generell mit allen Erkrankungen, die von allgemeinem Interesse sind (beispielsweise mit Diabetes mellitus oder Krebserkrankungen). Die Aufgaben und Ziele der Epidemiologie sind vielfältig. Sie umfassen:
ŷ das Untersuchen der Verbreitung von Krankheiten in einer Population;
ŷ das Erkennen der Ursachen und Risikofaktoren einer Krankheit; ŷ das Untersuchen des natürlichen Verlaufs einer Krankheit und die Bestimmung relevanter prognostischer Faktoren;
ŷ die Evaluation präventiver, diagnostischer und therapeutischer Maßnahmen. Aufgrund der Erkenntnisse, die aus epidemiologischen Studien resultieren, werden Grundlagen für gesundheitspolitische Entscheidungen geschaffen. Im Gegensatz zu anderen medizinischen Disziplinen ist in der Epidemiologie nicht eine einzelne Person Gegenstand des Interesses, sondern eine größere Population. Dennoch profitieren sowohl die Ärzte als auch die Patienten von den Ergebnissen epidemiologischer Studien. Es gehört nämlich zum Berufsbild jedes praktisch tätigen Arztes, Risiken zu erkennen und die Patienten entsprechend zu beraten, Diagnosen zu stellen, geeignete Therapien anzuordnen, Präventionsmaßnahmen durchzuführen und den Verlauf einer Krankheit zu prognostizieren. Um die Aussagen epidemiologischer Studien umsetzen zu können, ist es wichtig, dass jeder Mediziner deren Struktur, Stärken und Einschränkungen versteht. Nur so kann er sinnvolle und nachvollziehbare Entscheidungen treffen. ! Der Inhalt der Kapitel 13 bis 16 bezieht sich nicht nur auf groß angelegte z
epidemiologische und klinische Studien, sondern ist für kleinere Forschungsvorhaben (etwa Doktorarbeiten) ebenso relevant.
250
Kapitel 13 · Epidemiologische Studien
Übersicht 9: Studientypen Studientypus Risikostudie
Diagnosestudie Präventionsstudie Therapiestudie
Prognosestudie
13.2
Einflussgrößen Risikofaktoren (z. B. Umweltfaktoren, genetische oder verhaltensbedingte Faktoren) Krankheitsstatus präventive Maßnahme (Impfen oder Screening) Therapieform (Arznei, chirurg. Eingriff, Diät)
Krankheit oder andere prognostische Faktoren
Zielgrößen
Abschnitt
Krankheit, Tod
Kap. 14
Ergebnis eines diagnostischen Tests
15.1
Krankheit
15.2
Wirkung einer Therapie Endzustand (Heilung, Remission, Progression, Tod); Zeit bis zum Eintreten eines Ereignisses
16.1
16.2
Der Inhalt epidemiologischer Studien
Epidemiologische Studien werden in der Regel als beobachtende › Abschnitt 13.3.4) an einer größeren Population durchgeStudien (z führt. Sie lassen sich nach inhaltlichen Aspekten in folgende Gruppen einteilen:
13
• Risikostudien. Diese Studien haben zum Ziel zu klären, ob ein ätiologischer Faktor das Auftreten einer Krankheit beeinflusst. Sie können retrospektiv als Fall-Kontroll-Studie oder prospektiv als Kohortenstudie durchgeführt werden. Risikostudien können aber auch als Querschnittstudie oder als Populationsstudie angelegt sein. In jedem Fall handelt es sich um Beobachtungsstudien. In Kapitel 14 wird ausführlich auf die verschiedenen Designs eingegangen. • Diagnosestudien. Der Gegenstand dieser Studien sind diagnosti sche Tests, die dazu dienen, erkrankte Personen von nicht erkrankten zu trennen. Ziel dieser Studien ist das Ermitteln der Sensitivität und Spezifität eines diagnostischen Verfahrens. In Abschnitt 15.1 wird dieser Studientypus vorgestellt.
251
13
13.3 Klassifikation nach formalen Aspekten
• Präventionsstudien. Sie haben zum Ziel, den Nutzen einer präventiven Maßnahme (z. B. einer Impfung oder eines Früherkennungsprogramms) zu evaluieren. In Abschnitt 15.2 wird dieses Thema erörtert. • Therapiestudien. Im weiteren Sinne zählen zu epidemiologischen Studien auch Therapiestudien, die allerdings meist nicht als beobachtende, sondern als randomisierte klinische Studien durchgeführt werden. Dabei werden zwei oder mehr Patientengruppen, die unterschiedlich therapiert werden, miteinander verglichen. Diese Studien haben im Gegensatz zu den oben genannten Studientypen experimentellen Charakter. Detaillierte Erläuterungen findet man in Abschnitt 16.1. • Prognosestudien. Auch diese Studien werden – ebenso wie Thera piestudien – an erkrankten Patienten durchgeführt. Sie sind in der Regel als Beobachtungsstudien angelegt. Häufig wird dabei der zeitliche Verlauf einer Krankheit bis zu einem bestimmten Endereignis (z. B. Tod oder Heilung eines Patienten) untersucht. Dieses Thema ist Gegenstand des Abschnitts 16.2.
13.3
Klassifikation nach formalen Aspekten
Epidemiologische Studien lassen sich formal nach folgenden Aspekten klassifizieren: 13.3.1 Deskriptiv versus analytisch • Deskriptive Studien. Diese Studien sind rein beschreibend. Die zugrunde liegenden Daten werden ausgewertet, ohne dass ein zeitlicher oder kausaler Zusammenhang zwischen mehreren Merkmalen hergeleitet werden kann. Beispiele hierfür sind Register (etwa Krebsregister, Geburten- oder Sterberegister). Außerdem zählen zu diesem Studientypus Fallberichte, Fallserien und Querschnittstudien › Abschnitt 14.2). (z Deskriptive Studien können nur Hinweise auf Auffälligkeiten und mögliche Zusammenhänge geben. Diese sollten dann im Rahmen einer analytischen Studie überprüft werden. • Analytische Studien. Wichtige Erkenntnisse der epidemiologi schen Forschung basieren auf analytischen Studien (z. B. Fall-Kon› Abschnitte 14.3 und 14.4). In troll-Studien oder Kohortenstudien, z
252
Kapitel 13 · Epidemiologische Studien
derlei Studien geht es darum, einen Zusammenhang zwischen einer Zielgröße und einer (oder mehreren) Einflussgrößen inhaltlich herzuleiten und statistisch abzusichern. Die Übergänge zwischen deskriptiven und analytischen Studien sind fließend. Wenn verschiedene Register miteinander verknüpft wer› Abschnitt 14.2.4), kann die den (so genannte ökologische Studien, z deskriptive Studie in eine analytische übergehen. Häufig bilden die Erkenntnisse aus einer einfachen, deskriptiven Studie die Basis für eine nachfolgende, analytische Studie. 13.3.2 Transversal versus longitudinal • Transversale Studien. Eine transversale Studie (oder Querschnitt studie) ist eine Momentaufnahme einer Population, bei der eine oder mehrere Eigenschaften der Studienteilnehmer erfasst werden. Ein› Abschnitt 14.2.2). fachste Transversalstudien sind etwa Fallserien (z Ein anderes Beispiel für diese Studienform ist eine Prävalenzstu› Abschnitt 14.2.3), bei der die Prävalenz einer Krankheit zu die (z einem bestimmten Zeitpunkt festgestellt wird. Möglicherweise werden dabei noch weitere Merkmale erfasst (z. B. ob die Studienteilnehmer einem besonderen Risikofaktor ausgesetzt sind). Man kann dann zwar versuchen, einen statistischen Zusammenhang zwischen Krankheit und Risikofaktor herzuleiten; kausale oder zeitliche Zusammenhänge können jedoch nicht nachgewiesen werden. Transversale Studien eignen sich für Zustandsbeschreibungen, jedoch nicht, um zeitliche Abläufe zu untersuchen. Sie sind überwiegend deskriptiv.
13
• Longitudinale Studien. Diese Studien (auch Längsschnittstudien genannt) haben zum Ziel, einen zeitlichen Verlauf zu beschreiben oder einen zeitlichen Zusammenhang herzuleiten. Sie sind insofern analytisch. Dazu zählen Fall-Kontroll-Studien, Kohortenstudien und › Abschnitte 14.3, 14.4 und 16.1). klinisch kontrollierte Studien (z Longitudinale Studien lassen sich außerdem danach unterscheiden, ob sie retrospektiv oder prospektiv ausgerichtet sind. 13.3.3 Retrospektiv versus prospektiv • Retrospektive Studien. Retrospektiv heißt „zurückblickend“. Man ermittelt bei einer retrospektiven Studie zunächst die Ausprägungen einer bestimmten Zielgröße und versucht dann, die Ausprägungen
253
13
13.3 Klassifikation nach formalen Aspekten
einer oder mehrerer Einflussgrößen zu erfassen. Das Paradebeispiel sind Fall-Kontroll-Studien, bei denen eine Gruppe erkrankter Personen (Fälle) mit einer Gruppe nicht erkrankter (Kontrollen) dahingehend verglichen wird, ob und welchen Risikofaktoren die Teilneh› Abschnitt 14.3). mer in der Vergangenheit ausgesetzt waren (z Bei retrospektiven Studien sind die relevanten Ereignisse zu einem Zeitpunkt geschehen, als die konkrete Fragestellung der Studie noch gar nicht vorlag. Die Daten sind entweder dokumentiert (etwa in Krankenakten) oder müssen durch Befragungen (Interviews, Fragebogen) erhoben werden. Der Vorteil dieser Studienart liegt auf der Hand: Man braucht nicht auf das Eintreten der interessierenden Endereignisse zu warten, und kann deshalb relativ schnell Ergebnisse erhalten. Dem stehen jedoch mitunter gravierende Nachteile gegenüber, die in erster Linie die Datenqualität betreffen. Es besteht im Nachhinein keine Möglichkeit, auf die Auswahl der Beobachtungseinheiten und der zu erfassenden Merkmale sowie auf die Mess- und Dokumentationstechniken Einfluss zu nehmen. Unvollständige oder falsche Angaben in Krankenblättern (z. B. Arzneimittelanamnese, klinische Befunde) lassen sich in der Regel nicht ergänzen oder korrigieren (oft bleiben sie gänzlich unbemerkt). Wenn man Personen nach zurückliegenden Ereignissen befragt, ist man auf deren Erinnerungsvermögen angewiesen und kann keinesfalls sicher sein, korrekte und vollständige Informationen zu erhalten. Retrospektive Studien (insbesondere Fall-Kontroll-Studien) können wertvolle Hinweise auf mögliche Zusammenhänge liefern. Gegebenenfalls sind sie der Anlass zu einer nachfolgenden prospektiven Studie. Sie lassen sich – sofern man sich auf vollständig und richtig erfasste Daten stützen kann – auch bei der Qualitätskontrolle einsetzen (z. B. um den Erfolg einer therapeutischen Maßnahme oder die Häufigkeiten von Komplikationen zu ermitteln). • Prospektive Studien. Prospektiv bedeutet „vorausschauend“. Bei diesen Studien ermittelt man zunächst die Einflussgrößen und wartet ab, bis das interessierende Endereignis eintritt. Die Untersuchungsrichtung ist somit logischer als bei retrospektiven Studien. Prospektive Studien sind üblicherweise so angelegt, dass sich die Daten überwiegend nach Studienbeginn ergeben. Der Versuchsleiter hat dabei Kontrollmöglichkeiten bezüglich der Stichprobe, der zu erfassenden Merkmale, der Messmethoden und der Dokumentation. Dem Vorteil der hohen Datenqualität steht als Nachteil ein erhöhter Zeitbedarf gegenüber.
254
Kapitel 13 · Epidemiologische Studien
Kohortenstudien sind die bekanntesten prospektiven Studien. Risikound Prognosestudien werden häufig als Kohortenstudien durchge› Abschnitte 14.4 und 16.2). Auch Experimente und randoführt (z › Abschnitt 16.1) sind promisierte Studien (z. B. Therapiestudien, z spektiv angelegt. ! Die Begriffe „prospektiv“ und „retrospektiv“ werden vielfach auch dazu z
verwendet, die Art der Datenerhebung zu beschreiben. Eine prospektive Studie bezeichnet dabei ein Design, bei dem die Daten erst nach Studienbeginn erhoben werden, während bei einer retrospektiven Studie die Daten zu Studienbeginn bereits erfasst worden sind. Diese unterschiedlichen Bedeutungen sind manchmal etwas verwirrend – etwa bei der Be› Abschnitt 14.4.5). Deren zeichnung „retrospektive Kohortenstudie“ (z Untersuchungsrichtung ist prospektiv (da von den Einflussgrößen auf die Zielgröße geschlossen wird), die Art der Datenerhebung ist jedoch retrospektiv.
13.3.4 Beobachtend versus experimentell • Beobachtende Studie. Der Versuchsleiter nimmt in Bezug auf die interessierenden Eigenschaften der Untersuchungseinheiten eine passive Rolle ein – er beobachtet, dokumentiert und wertet die Daten aus. Er greift aber nicht aktiv in das Geschehen ein, und er versucht nicht, die Studienteilnehmer zu beeinflussen. Beobachtende Studien können sehr einfach und rein deskriptiv konzipiert sein (z. B. als Fallserie). Sie können jedoch auch als Longitudinalstudie angelegt sein und – wenn mehrere Merkmale erfasst und analysiert werden – wertvolle Hinweise auf mögliche Zusammenhänge geben und damit analytischen Charakter annehmen (z. B. Fall-KontrollStudie oder Kohortenstudie). Studien zu Risiken, Diagnose und › Prognose sind in aller Regel als beobachtende Studien angelegt (z Kapitel 14, Abschnitte 15.1 und 16.2).
13
• Experimentelle Studie. Bei einem Experiment (oder einer Interventionsstudie) gibt der Versuchsleiter die Ausprägungen der Einflussgrößen zumindest teilweise vor. Im Mittelpunkt steht dabei meist eine nicht-menschliche Population (z. B. Tiere oder Zellkulturen). Experimentelle Studien sind in jedem Fall analytisch und prospektiv. Der Versuchsleiter hat optimale Einflussmöglichkeiten auf die Stichproben, die Datenerhebung und -auswertung. Experimente in der Humanmedizin sind ethisch nicht unproblematisch und werden deshalb selten durchgeführt. Eine Ausnahme stellen randomisierte klinische Studien dar, bei denen die Art der › Abschnitt 16.1). Therapie vom Versuchsleiter vorgegeben wird (z
255
13
13.4 Fehlerquellen
13.3.5 Monozentrisch versus multizentrisch • Monozentrische Studie. Bei monozentrischen Studien werden die Patienten oder Probanden aus einer einzigen Institution (z. B. einer Klinik) rekrutiert. • Multizentrische Studie. Bei seltenen Krankheiten mag es schwie rig sein, in einer einzigen Klinik eine ausreichende Zahl von Teilnehmern zu gewinnen. In diesen Fällen bieten sich multizentrische Studien an, bei denen Patienten aus mehreren Einrichtungen zusammengefasst und gemeinsam analysiert werden.
13.4
Fehlerquellen
Sowohl zufällige als auch systematische Fehler können ein Ergebnis beeinflussen. Systematische Fehler werden auch Bias genannt. 13.4.1 Zufällige Fehler Zufällige Fehler sind durch die Variabilität der Studienteilnehmer bedingt:
ŷ Interindividuelle Variabilität. Bei mehreren Beobachtungseinheiten erhält man beim Messen eines bestimmten Parameters (z. B. des Blutdrucks) bekanntlich unterschiedliche Ergebnisse – auch dann, wenn die zu untersuchende Stichprobe eine weitgehend homogene Population darstellt. ŷ Intraindividuelle Variabilität. Selbst bei einer einzigen Beobachtungseinheit ergeben sich beim Messen einer Größe unter ähnlichen Bedingungen (etwa zu verschiedenen Zeitpunkten) unterschiedliche Werte. Da sich diese Variabilitäten nicht eliminieren lassen, sind zufällige Fehler generell nicht vermeidbar. Sie lassen sich aber bei einer sorgfältigen Versuchsplanung kontrollieren und reduzieren. Bei der Behandlung der Schätzmethoden in Kapitel 9 wurde darauf hingewiesen, dass ein hoher Stichprobenumfang und eine geringe Streuung der Daten dazu beitragen, den zufälligen Fehler klein zu halten. Man sollte deshalb darauf achten, dass die Stichproben bezüglich wichtiger Einflussgrößen homogen sind. Dies lässt sich erreichen durch:
256
Kapitel 13 · Epidemiologische Studien
• Selektion. Man wählt die Stichprobe nur aus einem bestimmten Teil der Grundgesamtheit aus. Die Ergebnisse sind dann allerdings nur eingeschränkt auf diese spezielle Population übertragbar. • Stratifizierung (Schichten oder Blockbildung). Man fasst mehrere Beobachtungseinheiten, die sich bezüglich eines oder mehrerer Merkmale ähneln, in einer Schicht zusammen (etwa nach Geschlecht oder Alter). Innerhalb einer solchen homogenen Schicht ist der zufällige Fehler reduziert; Unterschiede in der Zielgröße sind dann klarer erkennbar. Der zufällige Fehler lässt sich anhand eines Konfidenzintervalls kontrollieren. Während der p-Wert die Irrtumswahrscheinlichkeit quantifiziert (also die Wahrscheinlichkeit dafür, dass ein nachgewiesener Effekt nur zufällig zustande gekommen ist), informiert das Konfidenzintervall über die Größe dieses Effekts. Je heterogener die Stichprobe ist, desto ungenauer ist die Schätzung und desto breiter › Abschnitt 9.4.1). Es ist günstig, wenn ist das Konfidenzintervall (z die Zielgröße exakt messbar ist und eine geringe Streuung aufweist. 13.4.2 Systematische Fehler Während zufällige Fehler das Ergebnis einer Studie unsicher machen, verfälschen systematische Fehler (Bias) ein Versuchsergebnis in eine bestimmte Richtung und verleiten zu fehlerhaften Schlüssen. Es gibt eine Vielzahl von Bias-Quellen. Die meisten davon lassen sich jedoch einer der folgenden Kategorien zuordnen: • Systematische Erfassungsfehler. Es versteht sich von selbst, dass die Messgeräte einwandfrei funktionieren müssen, die Messverfahren valide und die messende Person in der Lage sein sollte, mit dem Gerät umzugehen.
13
• Selektionsbias. Dieser Bias tritt auf, wenn sich mehrere zu vergleichende Gruppen in wesentlichen Charakteristika unterscheiden, die relevant für das Studienergebnis sind. Dieser Fall liegt beispielsweise dann vor, wenn zwei Therapiegruppen verglichen werden, wobei die Patienten der einen Gruppe nur leicht erkrankt sind (z. B. ambulante Patienten), während die Patienten der anderen Gruppe schwer erkrankt sind (z. B. stationäre Patienten). Da der Schweregrad der Krankheit eine wichtige Determinante für die Wirkung einer Therapie ist, könnte ein Vergleich der beiden Gruppen zu falschen Schlussfolgerungen verleiten.
257
13
13.4 Fehlerquellen
Ein Vergleich ist nur dann sinnvoll, wenn die Gruppen zu Beginn der Studie strukturgleich sind. Bei Fall-Kontroll-Studien ist die paarweise Zuordnung (Matchen), bei klinisch kontrollierten Studien › die Randomisation geeignet, strukturgleiche Gruppen zu erhalten (z Abschnitte 14.3.3 und 16.1.3). • Informationsbias. Dieser Bias liegt vor, wenn die Methoden zur Informationsgewinnung uneinheitlich sind. Er kann kontrolliert werden, indem auf Beobachtungsgleichheit geachtet wird: Alle Untersuchungseinheiten müssen von denselben Personen, im selben Zeitraum und mit denselben Methoden beobachtet werden. Bei klinischen Studien ist die Blindung das Mittel der Wahl. Optimal ist eine doppelblinde Studie, bei der weder der untersuchende Arzt noch die Patienten über die Therapie im Einzelfall in› Abschnitt 16.1.4). Dadurch sollen autosuggestive formiert sind (z Einflüsse auf beiden Seiten ausgeschaltet werden. Es ist ein Manko multizentrischer Studien, dass die Beobachtungsgleichheit nur eingeschränkt gewährleistet werden kann. • Bias durch Confounder. Confounder sind verzerrende Störgrößen, die den Zusammenhang zwischen der Einflussgröße und der Zielgröße verfälschen und somit adäquate Maßnahmen verhindern oder fehlleiten können. Verzerrende Störgrößen stehen in Zusammenhang mit der Einflussgröße und wirken sich damit indirekt auch auf die Zielgröße aus. Ein einfaches Beispiel mag dies verdeutlichen: Innerhalb einer Patientenkohorte mit einer hohen Letalität sollen Faktoren evaluiert werden, die das Risiko zu sterben (Zielgröße) beeinflussen. Ziel der Studie ist es, Präventionsmaßnahmen zu formulieren. Das Risiko zu sterben ist bekanntlich auch vom Alter abhängig. Innerhalb einer Kohorte sterben jedoch auch mehr nicht-verheiratete Patienten als verheiratete. Da der Partnerstatus sowohl mit der Zielgröße „Tod“ als auch mit der Einflussgröße „Alter“ assoziiert ist (Patienten im höheren Alter sind eher verwitwet und sterben früher), handelt es sich um eine verzerrende Störgröße. Würde der Partnerstatus als eine kausale Einflussgröße falsch gedeutet werden, könnte eine fehlgeleitete Präventionsmaßnahme sein, bei Diagnose der Erkrankung zu heiraten bzw. sich wieder zu verheiraten. Systematische Fehler sind bei einer guten Versuchsplanung weitgehend vermeidbar. Insbesondere muss – wenn mehrere Gruppen zu vergleichen sind – unbedingt auf Struktur- und Beobachtungsgleichheit geachtet werden.
258
13.5
Kapitel 13 · Epidemiologische Studien
Die Studienplanung
13.5.1 Die Bedeutung der Planung Studien in der epidemiologischen und klinischen Forschung sind in der Regel mit einem hohen organisatorischen, zeitlichen und finanziellen Aufwand verbunden. Dies trifft auch – wenngleich in geringerem Maße – für Doktorarbeiten zu. Die Ergebnisse dieser Studien werden in der Regel publiziert und dienen anschließend zahlreichen Ärzten als Entscheidungshilfen bei der Behandlung ihrer Patienten. Es ist daher essenziell wichtig, dass die Ergebnisse valide sind. Die Güte und praktische Relevanz einer Studie lassen sich anhand von zwei Kriterien beurteilen: • Interne Validität. Eine Studie ist intern valide, wenn deren Ergebnisse und die daraus gezogenen Schlussfolgerungen für die Patienten, die an der Studie partizipierten, korrekt sind. Die interne Validität ist unbedingt notwendig, aber nicht hinreichend dafür, dass die Studie sinnvoll ist.
13
• Externe Validität. Darunter versteht man die Generalisierbarkeit oder die Verallgemeinerbarkeit der Studienergebnisse. Ein Arzt, der die Ergebnisse einer Studie zur Kenntnis nimmt, möchte natürlich wissen, ob und inwieweit diese auf seine Patienten übertragbar sind. Eine Studie mit hoher interner Validität kann völlig in die Irre führen, wenn deren Ergebnisse auf die falschen Patienten übertragen werden. Daher stellt sich die Frage: Für welches Patientenkollektiv sind die Ergebnisse gültig? Kann man von der untersuchten Stichprobe (z. B. Patienten mit Psoriasis in einer bestimmten Klinik) auf die interessierende Grundgesamtheit schließen, und wie ist diese beschaffen (etwa Psoriasis-Patienten in ganz Deutschland, Europa oder gar weltweit)? Bei solchen Schlussfolgerungen muss man sehr vorsichtig sein. Die interne und die externe Validität und damit die Anwendbarkeit einer Studie werden in hohem Maße von einer sorgfältigen und detaillierten Planung bestimmt. ! Der Imperativ einer guten Planung wird gerne vergessen, wenn es darum z
geht, schnell Ergebnisse für eine Dissertation oder eine attraktive wissenschaftliche Tagung zu bekommen. Es ist sicherlich einfach, eine bekannte Labormethode mechanisch an einer kleinen Stichprobe einzusetzen oder für eine so genannte „klinische Doktorarbeit“ ohne wesentliche Vorbereitungen staubige Krankenakten zu ziehen. Bei derlei Vorgehen kom-
259
13
13.5 Die Studienplanung
men jedoch zumeist nur schlechte Studien heraus. Auch spektakuläre Ergebnisse einer neuen Labormethode können nur kurz über ein mangelhaftes Studiendesign hinwegtäuschen. Was nutzt es beispielsweise, Zytokinpolymorphismen zu untersuchen, wenn keine Klarheit über die Repräsentativität der gewählten Stichprobe besteht? Was nutzen Unmengen von aus Patientenakten entnommenen Daten, wenn keine Fragestellung vorgegeben ist oder sich die vorgegebene Fragestellung damit nicht beantworten lässt?
13.5.2 Komponenten der Planung Das Ziel einer Studie besteht im Allgemeinen darin, auswertbare Daten zu gewinnen, die dazu dienen, eine vorgegebene Fragestellung zu beantworten. Zu Beginn stehen folgende Überlegungen: • Ziel der Studie. Zunächst ist zu klären: Wie lautet die Hauptfragestellung? Keine Studie sollte begonnen werden, wenn die exakte Fragestellung nicht bekannt ist. Aufbauend auf eigenen oder fremden Vorstudien muss dann die Fragestellung als Hypothese formuliert werden und theoretisch abgesichert werden. • Ziel- und Einflussgrößen. Die Ziel- und Einflussgrößen ergeben sich inhaltlich aus der Fragestellung. Da die Einflussgrößen in funktionalem Zusammenhang zur Zielgröße stehen, resultieren Erkenntnisse bezüglich der Zielgröße(n) aus den Einflussgrößen. Wenn beispielsweise im Rahmen einer Kohortenstudie das Auftreten einer bestimmten Erkrankung als Zielgröße untersucht wird, ist es sinnvoll, relevante Risikofaktoren wie z. B. das Alter bei Eintritt in die Kohorte oder die Familienanamnese mit zu berücksichtigen. Natürlich ist es unmöglich, alle denkbaren Einflussgrößen zu erfassen. Bei deren Auswahl muss man abwägen zwischen dem, was wünschenswert ist und dem, was praktisch realisierbar erscheint. Je mehr Merkmale berücksichtigt werden, desto aufwendiger wird die Studie, desto komplexer sind die Analysemethoden und desto schwieriger gestaltet sich die Interpretation der Ergebnisse. Es ist deshalb sinnvoll, sich zunächst auf wenige Faktoren zu konzentrieren. Außerdem ist es wichtig, alle Ziel- und Einflussgrößen und deren Eigenschaften (u. a. die Skalenniveaus) genau anzugeben. Antworten auf all diese Fragen sind nicht zuletzt abhängig davon, ob die Daten bereits vorliegen (wie bei retrospektiven Studien) oder erst nach Studienbeginn erhoben werden (wie bei den meisten prospektiven Studien).
260
Kapitel 13 · Epidemiologische Studien
• Wahl eines statistischen Modells. Jede Analysemethode ist nur unter einschränkenden Voraussetzungen anwendbar; es werden also bestimmte Eigenschaften der zu untersuchenden Merkmale angenommen. Ein statistisches Modell kann die Wirklichkeit zwar niemals vollständig widerspiegeln; es sollte sie aber unter bestmöglicher Ausnutzung aller zur Verfügung stehenden Informationen optimal beschreiben. Der Anwender eines statistischen Verfahrens muss sich im Vorfeld überlegen, ob dessen Voraussetzungen erfüllt sind und ob die Hypothesen der inhaltlichen Fragestellung angemessen sind. Ein multiples Modell, bei dem mehrere Einflussgrößen simultan ausgewertet werden, ermöglicht eine effizientere Datenanalyse und liefert weit mehr Erkenntnisse als zahlreiche einfache Tests, die lediglich den Zusammenhang zwischen zwei Merkmalen überprüfen. Bei der technischen Umsetzung einer komplexen Methode ist ein leistungsstarkes Statistikprogramm notwendig und sinnvoll. Es empfiehlt sich, frühzeitig den Rat eines Biomathematikers einzuholen. Bei der Datenanalyse und der Interpretation der Ergebnisse sind sowohl medizinische als auch biomathematische Fachkenntnisse gefragt. • Ethik. Nicht alles, was unter statistischen Gesichtspunkten sinn voll und machbar ist, ist auch ethisch vertretbar. Deshalb müssen Studien, bei denen Patienten oder gesunde Probanden involviert sind (insbesondere randomisierte Therapiestudien), von einer Ethikkommission begutachtet werden.
13
• Logistische Überlegungen. Ist die Studie unter den vorgegebenen Bedingungen durchführbar? Stehen genügend Ressourcen an Zeit, Geld, Personal etc. zur Verfügung? Kann die Anzahl der benötigten Patienten in absehbarer Zeit rekrutiert werden? Sind die notwendigen Messgeräte vorhanden und funktionieren sie einwandfrei? Planungsfehler können zu einem späteren Zeitpunkt kaum noch korrigiert werden. Deshalb ist es extrem wichtig, die oben angesprochenen Fragen im Vorfeld zu beantworten. ! Diese Tipps mögen sich bitte auch Doktoranden zu Herzen nehmen. Es z
kommt leider immer wieder vor, dass Studenten mit großem Eifer eine Dissertation beginnen und dann nach etlichen Monaten oder sogar Jahren feststellen, dass die Arbeit so wie vorgesehen nicht durchzuführen ist. Nur mit einer guten Versuchsplanung (und einem kompetenten Betreuer) lässt sich ein solches Desaster vermeiden. Detaillierte und nützliche Informationen zu diesem Thema findet man in [12].
14
Risikostudien 14.1
Einleitung 263
14.1.1 Die Bedeutung von Risikostudien 263 14.1.2 Wichtige Begriffe 264
14.2
Deskriptive Studien 264
14.2.1 Fallberichte 264 14.2.2 Fallserien 265 14.2.3 Prävalenzstudien 266 14.2.4 Populationsstudien 266
14.3
Fall-Kontroll-Studien 267
14.3.1 Grundlagen 267 14.3.2 Auswahl der Fälle und der Kontrollen 267 14.3.3 Matchen 268 14.3.4 Biasquellen 269 14.3.5 Die Odds Ratio 271 14.3.6 Anwendungen und Grenzen 272
14.4
Kohortenstudien 272
14.4.1 Grundlagen 272 14.4.2 Effektmaße 273 14.4.3 Inzidenzmaße 275 14.4.4 Biasquellen 276 14.4.5 Spezielle Kohortenstudien 276
14.5
Der Nachweis einer Kausalität 277
263
14
14.1 Einleitung
14.1
Einleitung
14.1.1 Die Bedeutung von Risikostudien Viele Menschen haben ein großes Interesse daran zu erfahren, welchen potentiellen Risikofaktoren sie ausgesetzt sind und wie hoch gegebenenfalls ihr persönliches Risiko ist, eine bestimmte Krankheit zu entwickeln. Für den Arzt kann die Kenntnis möglicher Risikofaktoren eines Patienten in mehrfacher Weise von Nutzen sein:
ŷ Vorhersage. Falls ein gesicherter Zusammenhang zwischen einer Krankheit und einem ätiologischen Faktor besteht, lässt sich im Einzelfall die Wahrscheinlichkeit für das Eintreten einer Krankheit abschätzen. ŷ Prävention. Sollte es sich um ein vermeidbares Risiko handeln (z. B. Rauchen), kann der Arzt dem Patienten raten, seine Lebensweise zu ändern. Andernfalls (z. B. bei einem genetisch bedingten Faktor) kann er Vorsorgemaßnahmen treffen, um dessen Auswirkungen zu kontrollieren oder abzuschwächen. ŷ Diagnose. Die Kenntnis, welcher Risikogruppe ein Patient ange› hört, kann in einem diagnostischen Prozess sehr wichtig sein (z Beispiel 6.16). Das Wissen um Faktoren, die mit einer Krankheit assoziiert sind, ist nicht zuletzt von gesundheitspolitischem Interesse. Falls eine größere Population einem Risikofaktor ausgesetzt ist, kann dessen Beseitigung maßgeblich dazu beitragen, das Auftreten neuer Krankheitsfälle zu verhindern. Ignaz Philipp Semmelweis gelang es beispielsweise um die Mitte des 19. Jahrhunderts, durch hygienische Maßnahmen (das Personal musste sich mit Chlorkalk die Hände desinfizieren) die durch Kindbettfieber verursachte Mortalität drastisch zu senken. John Snow sorgte um das Jahr 1850 durch die Schließung eines Brunnens dafür, dass die Bewohner eines Londoner Bezirks nicht mehr an Cholera erkrankten. Der Zusammenhang zwischen einer Erkrankung und einem Risikofaktor ist jedoch meist nicht so klar und eindeutig. Viele Krankheiten haben multiple Ursachen, und ein einzelner Faktor (z. B. Rauchen) begünstigt nicht nur das Auftreten einer, sondern diverser Krankheiten. Andere Gründe liegen in der langen Latenzzeit vieler Krankheiten (z. B. Krebs) oder deren geringer Inzidenz. Ein praktisch tätiger Arzt ist daher auf Studien angewiesen, in denen der Einfluss eines Risikofaktors untersucht und beschrieben wird.
264
Kapitel 14 · Risikostudien
14.1.2 Wichtige Begriffe Zunächst soll die Bedeutung einiger häufig verwendeter Begriffe dargelegt werden. • Risiko. Darunter versteht man die Wahrscheinlichkeit eines unerwünschten Ereignisses. Häufig benutzte Risiken in der Medizin › Abschnitt 6.3). sind die Inzidenz und die Mortalität (z • Risikofaktoren oder ätiologische Faktoren. Dies sind Merkmale, die mit einem erhöhten Erkrankungsrisiko assoziiert sind. Risikofaktoren können erblich sein oder aus dem Umfeld stammen (etwa Erreger von Infektionskrankheiten oder Umweltgifte). Andere sind sozial geprägt (z. B. psychische Belastungen) oder verhaltensbedingt (z. B. Rauchen, Alkoholkonsum). • Exposition. Eine Person gilt als exponiert, wenn sie mit einem Risikofaktor in Kontakt gekommen ist oder mit ihm behaftet ist. Die Exposition kann zu einem einzelnen Zeitpunkt stattfinden (z. B. Kontakt mit einem Infektionserreger); sie kann sich aber auch über einen längeren Zeitraum oder die gesamte Lebenszeit eines Menschen erstrecken. Beispiele hierfür sind Jahre langer Zigarettenkonsum oder die Expression eines Gens, die das Auftreten einer bestimmten Krankheit begünstigt. Im Folgenden werden diverse Studientypen vorgestellt, mit denen sich Zusammenhänge zwischen Risikofaktoren und Krankheitsbildern nachweisen lassen – angefangen bei Fallberichten einfachster Art bis hin zu groß angelegten, aufwendigen Kohortenstudien.
14.2
Deskriptive Studien
14.2.1 Fallberichte
14
Ein Fallbericht ist eine ausführliche Beschreibung eines interessanten Einzelfalls oder einiger weniger Fälle. Er eignet sich:
ŷ um Krankheitsbilder, die erstmals beobachtet werden, einer akademischen Öffentlichkeit vorzustellen,
ŷ um einen Hinweis auf einen möglichen Risikofaktor der beschriebenen Erkrankung zu geben,
ŷ um ungewöhnliche oder typische Manifestationen einer Krankheit zu beschreiben.
265
14
14.2 Deskriptive Studien
Fallberichte beinhalten bedingt durch die niedrige Patientenanzahl keine statistische Analyse. Dem Leser eines solchen Berichts fällt es mitunter schwer zu beurteilen, ob hier eine relevante Neuentdeckung (etwa ein bislang unbekannter Zusammenhang zwischen einem ätiologischen Faktor und einer Krankheit) oder nur ein zufälliges Zusammentreffen mehrerer seltener Ereignisse beschrieben wird. Diverse Krankheitsbilder wurden aufgrund eines Fallberichts bekannt. So gab es in den 1980er Jahren aufgrund eines Berichtes über das Auftreten von Kaposisarkomen bei jungen männlichen Homosexuellen in New York erste Hinweise auf eine neue Infektion. Demnach können Fallberichte Anhaltspunkte auf mögliche Zusammenhänge zwischen einem Krankheitsbild und einem potentiellen Risikofaktor liefern – insbesondere dann, wenn aufgrund eines solchen Berichts weitere, ähnlich gelagerte Fälle bekannt werden. Der vermutete Zusammenhang muss dann im Rahmen einer größeren, nachfolgenden Studie überprüft werden. 14.2.2 Fallserien Eine Fallserie unterscheidet sich von einem Fallbericht durch die Anzahl der involvierten Patienten. Es handelt sich um eine einfache deskriptive Studie an einer größeren Gruppe von Personen, die an einer bestimmten Krankheit leiden und darüber hinaus einige Besonderheiten aufweisen. So hat beispielsweise im Jahre 1941 ein Chirurg aus New Orleans namens Alton Ochsner (1896-1981) eine Fallserie veröffentlicht, in der er nachwies, dass fast alle in den USA an Lungenkrebs operierten Patienten Raucher waren. Er stellte daraufhin die Hypothese auf, dass Rauchen mit Lungenkrebs assoziiert sei. Dies war damals eine umstrittene Hypothese, die mittlerweile aufgrund weiterer Studien eindrucksvoll bestätigt wurde. Das Beispiel zeigt, dass Fallserien durchaus in der Lage sind, Hypothesen zu generieren. Es ist auch möglich, einfache statistische Maßzahlen zu ermitteln. Das große Manko von Fallserien ist das Fehlen einer Vergleichsgruppe. Ochsner konnte nur aufgrund der ihm bekannten Tatsache, dass andere Leute weit weniger rauchen als die von ihm beschriebenen Patienten, seine Hypothese aufstellen. Allerdings reichen zu deren Bestätigung Fallserien nicht aus.
266
Kapitel 14 · Risikostudien
14.2.3 Prävalenzstudien Eine Prävalenzstudie ist eine Querschnittstudie, in der bei jedem Teilnehmer erfasst wird, ob er an einer bestimmten Erkrankung leidet und ob er exponiert ist. Ein Beispiel bestünde darin, die Mitglieder einer Population danach zu untersuchen, ob sie eine koronare Herzkrankheit haben und ob gleichzeitig ihr Blutdruck erhöht ist. Der Anteil der Erkrankten entspricht der Prävalenz. Man kann mit einer geeigneten Analysemethode (z. B. einem Chi2-Test) untersuchen, ob ein statistischer Zusammenhang zwischen der Exposition und der Krankheit besteht und diesen mittels eines Assoziations› Abschnitt 3.4.2). Wenn maßes wie der Odds Ratio quantifizieren (z eine Assoziation nachgewiesen wird, sollte dieses Ergebnis jedoch vorsichtig interpretiert werden:
ŷ Die Prävalenz ist kein Maß für das Risiko, die Krankheit zu entwickeln.
ŷ Es werden nur Personen erfasst, die die Krankheit überlebt haben. Todesfälle bleiben unberücksichtigt. Fälle, bei denen ein schneller Heilerfolg eintritt, sind meist unterrepräsentiert. ŷ Mit dieser Studienform lässt sich nicht direkt nachweisen, dass die Exposition der Krankheit vorausging. Prävalenzstudien sind überwiegend deskriptiv. Sie sind keineswegs ausreichend, zeitliche oder kausale Zusammenhänge abzusichern; sie können allenfalls Hinweise liefern. In erster Linie eignen sie sich zur Erfassung von chronischen Krankheiten. 14.2.4 Populationsstudien
14
Populationsstudien unterscheiden sich von anderen Risikostudien dadurch, dass nicht Individuen untersucht, sondern Gruppen oder Länder zugrunde gelegt werden. Andere Bezeichnungen sind aggregative, ökologische oder Korrelationsstudien. Ein Beispiel stellt eine Studie dar, in der nachgewiesen wurde, dass eine gegensinnige Korrelation zwischen dem Weinkonsum eines Landes und der kardialen Mortalität besteht. In Italien und in Frankreich, wo traditionsgemäß viel Wein getrunken wird, ist diese Mortalität wesentlich niedriger als etwa in Australien und den USA, wo der Weinkonsum deutlich geringer ist. Populationsstudien können Hinweise auf mögliche Zusammenhänge geben. Es ist jedoch problematisch, dass ein Bias durch Confounding nicht ausgeschlossen werden kann.
267
14
14.3 Fall-Kontroll-Studien
14.3
Fall-Kontroll-Studien
14.3.1 Grundlagen Bei diesem Studientypus werden Fälle (Patienten, die an einer bestimmten Krankheit leiden) und Kontrollen (Personen, die von dieser Krankheit nicht betroffen sind) bezüglich eines oder mehrerer ätiologischer Faktoren miteinander verglichen. Fall-Kontroll-Studien sind retrospektiv und analytisch. Die Untersucher eruieren durch Befragungen, anhand von Patientenakten oder dokumentierten Laborbefunden für jeden Fall und für jede Kontrolle, ob die betreffende Person in der Vergangenheit exponiert war. Es bietet sich an, nicht nur einen, sondern mehrere potentielle Risikofaktoren zu untersuchen. 14.3.2 Auswahl der Fälle und der Kontrollen Die Fälle werden meist aus Kliniken oder aus Arztpraxen rekrutiert. Es ist sinnvoll, neu diagnostizierte Fälle in die Studie aufzunehmen (Inzidenzfälle). Wenn die Patienten bereits seit längerer Zeit erkrankt sind (Prävalenzfälle), besteht die Gefahr, dass überwiegend Langzeitüberlebende berücksichtigt werden. Es ist ferner wichtig, darüber nachzudenken, für welche Population die Fallgruppe repräsentativ ist. Die Auswahl der Kontrollen ist weitaus schwieriger. Einerseits sollten die Kontrollen den Fällen ähneln, damit Vergleiche zwischen den Gruppen sinnvoll erscheinen. Andererseits sollte die Kontrollgruppe repräsentativ für alle nicht erkrankten Personen der Population sein, um Rückschlüsse zu ermöglichen. Selbstverständlich darf unter den Kontrollen niemand an der zu untersuchenden Krankheit leiden. Es wurden mehrere Strategien entwickelt, um Kontrollen zu rekrutieren:
ŷ Populationsbasierter Ansatz. Die Kontrollen wählt man aus der Allgemeinbevölkerung. Im Idealfall geschieht dies in Form einer Zufallsstichprobe, etwa anhand zufällig ausgewählter Telefonnummern. Problematisch ist jedoch, dass diese Personen im Allgemeinen wenig Interesse an der Studie haben und daher häufig nicht kooperativ sind. Ferner ist zu bedenken, dass diese Kontrollen zwar repräsentativ für die Allgemeinbevölkerung sein mögen, dass sie aber nicht ohne weiteres mit den Fällen vergleichbar sind.
268
Kapitel 14 · Risikostudien
ŷ Krankenhausbasierter Ansatz. Diese Form bietet sich an, wenn es sich bei den Fällen um Patienten eines Krankenhauses handelt. Die Kontrollen werden in der Regel nicht zufällig aus den Krankenhaus-Patienten ausgewählt. Man versucht vielmehr › Abschnitt 14.3.3) zu erreichen, dass sich die durch Matchen (z Gruppen der Fälle und der Kontrollen bezüglich wichtiger Einflussfaktoren ähneln. Bei diesem Ansatz ist darauf zu achten, dass die Diagnose der Kontrollen mit dem zu untersuchenden Risikofaktor nicht assoziiert sein sollte. Wenn etwa ein Zusammenhang zwischen einer Krebsart und Rauchen nachgewiesen werden soll und als Kontrollgruppe Patienten mit koronarer Herzkrankheit gewählt würden, könnten sich unter den Kontrollen (ebenso wie unter den Fällen) überdurchschnittlich viele Raucher befinden. Es wäre dann schwierig, den interessierenden Zusammenhang abzusichern. Allerdings stellt sich beim Krankenhaus-basierten Ansatz das Problem, dass die Kontrollen nicht unbedingt repräsentativ für die Allgemeinbevölkerung sind. Eine weitere Schwierigkeit entsteht mitunter dadurch, dass nicht alle Krankenhausärzte motiviert sind, ihre Patienten als Kontrollen zur Verfügung zu stellen und die Kontrollen selbst ebenfalls nicht immer großes Interesse an der Studie haben. ŷ Kontrollen aus dem Umfeld der Fälle. Manchmal ist es sinnvoll, zu jedem Fall den Partner, ein Geschwister oder einen Freund als Kontrollperson heranzuziehen. Es ist anzunehmen, dass diese Kontrollen in vielen Eigenschaften mit dem passenden Fall › paarweises Matching, Abschnitt 14.3.3). übereinstimmen (z ŷ Mehrere Kontrollgruppen. Eine andere Strategie besteht darin, mehrere Kontrollgruppen unterschiedlicher Herkunft zu wählen und diese Kontrollen miteinander zu vergleichen. Systematische Fehler aufgrund der Auswahl der Kontrollen sind dann eher erkennbar. Diese Vorgehensweise ist freilich entsprechend aufwendig. 14.3.3 Matchen
14
Eine potentielle Schwierigkeit bei Fall-Kontroll-Studien ist gegeben, wenn sich die beiden Gruppen – Fälle und Kontrollen – außer bezüglich der zu untersuchenden Risikofaktoren in anderen wichtigen Eigenschaften unterscheiden. Wenn beispielsweise die Fälle im Durchschnitt wesentlich älter sind als die Kontrollen und außerdem mehr Fälle einer Exposition ausgesetzt waren, lässt sich nicht zweifelsfrei erkennen, ob die Krankheit durch die Exposition oder durch
269
14
14.3 Fall-Kontroll-Studien
das höhere Alter verursacht wurde. Dieses Problem kann dadurch gelöst werden, dass nach wichtigen Kriterien (z. B. dem Alter) gematcht wird. Man unterscheidet: • Paarweises (individuelles) Matching. Dabei wird für jeden Einzelfall eine passende Kontrolle gesucht, die mit dem Fall in einigen relevanten Merkmalen übereinstimmt. Auf diese Weise erhält man strukturgleiche Gruppen bezüglich der gematchten Merkmale. Diese Methode wird üblicherweise angewandt, wenn die Kontrollen aus Krankenhauspatienten ausgewählt werden. Häufig erfolgt die paarweise Zuordnung nach Geschlecht und Alter. Wenn Geschwister als Kontrollen herangezogen werden, wird automatisch nach genetischen Faktoren gematcht. Bei Partnern als Kontrollen wird nach sozio-ökonomischen Status gematcht. • Gruppen-Matching. Bei diesem Ansatz wird die Kontrollgruppe so zusammengestellt, dass die Häufigkeitsverteilungen eines bestimmten Merkmals bei den Fällen und den Kontrollen annähernd identisch sind. Wenn beispielsweise die Gruppe der Fälle aus 70 % Männern besteht, versucht man, eine Kontrollgruppe zu rekrutieren, bei denen der Anteil der Männer ebenso hoch ist. Die Faktoren, nach denen sinnvollerweise gematcht wird, sind abhängig von der Fragestellung. Folgendes ist zu beachten:
ŷ Praktische Probleme entstehen, wenn nach zu vielen Faktoren gematcht werden soll. Es ist dann schwierig oder gar vollkommen unmöglich, passende Kontrollen zu rekrutieren. ŷ Konzeptionelle Probleme ergeben sich dadurch, dass ein Merkmal, nach dem gematcht wurde, nicht mehr als potentieller Risikofaktor evaluiert werden kann. Wenn beispielsweise in der Fall- und der Kontrollgruppe die Altersverteilung identisch ist, kann nicht mehr überprüft werden, ob das Alter in Zusammenhang mit der Krankheit steht. Deshalb sollte nur nach bereits bekannten Risikofaktoren gematcht werden. 14.3.4 Biasquellen Fall-Kontroll-Studien sind anfällig für diverse systematische Fehler:
ŷ Selektionsbias. Dieser Fehler tritt auf, wenn sich die Fall- und die Kontrollgruppe in wesentlichen Eigenschaften (außer der zu untersuchenden Krankheit) unterscheiden. Dies könnte das Endresultat der Studie entscheidend beeinflussen. Matching ist
270
Kapitel 14 · Risikostudien
eine Methode, diesem Bias zu begegnen. Falls dies nicht möglich ist, sollte man versuchen, diesen Bias durch eine geschickte statistische Analyse (z. B. eine logistische Regression) aufzudecken. ŷ Informations-Bias 1. Eine Fall-Kontroll-Studie birgt in sich die Gefahr eines Recall-Bias, eine besondere Form des Informationsbias. Fälle, die von der Krankheit unmittelbar betroffen sind, können sich an zurückliegende Ereignisse oft besser erinnern als Kontrollen. Eine Mutter, die ein krankes Kind zur Welt gebracht › Beispiel 14.2), wird sich an außergewöhnliche Ereignisse hat (z zu Beginn ihrer Schwangerschaft wesentlich besser entsinnen als eine Mutter mit einem gesunden Baby, die derlei Vorkommnisse möglicherweise längst vergessen hat. Dies könnte zu einer Überschätzung eines Risikofaktors führen und zu falschen Schlussfolgerungen verleiten. ŷ Informations-Bias 2. Eine andere Art von Informationsbias liegt vor, wenn Partner oder Freunde als Kontrollen fungieren oder anstelle der Fälle (z. B. nach deren Tod) befragt werden. Sie tendieren häufig dazu, negative Eigenschaften „ihres Falles“ zu verschweigen oder zu verharmlosen. Auch betroffene Fälle geben nicht immer uneingeschränkt die Wahrheit preis – etwa wenn ihnen Fragen gestellt werden, die sie als peinlich empfinden. ŷ Bias durch Confounder. Diese Gefahr ist bei Fall-Kontroll-Studien besonders groß. Wenn ein statistischer Zusammenhang zwischen einer Krankheit und einem ätiologischen Faktor nachgewiesen wird, folgt daraus nicht notwendigerweise, dass dieser Zusammenhang kausal ist. Es könnte sich auch um einen Confounder handeln. Ein solcher Einflussfaktor wird auch als Risikoindikator bezeichnet. Er weist auf ein erhöhtes Risiko hin, ist aber selbst nicht für das Entstehen einer Krankheit verantwortlich.
14
Beispiel 14.1 Alkohol ist als Risikofaktor für das Auftreten einer Psoriasis (Schuppenflechte) identifiziert. Ein mit dem Alkoholkonsum assoziierter Faktor ist der Nikotinkonsum. Wenn in einer Fall-Kontroll-Studie nachgewiesen wird, dass Nikotinkonsum in Zusammenhang mit Psoriasis steht, mag es nahe liegend erscheinen, diese Assoziation als kausal anzusehen. In Wirklichkeit ist das Rauchen jedoch ein Confounder oder Risikoindikator. Präventionsmaßnahmen, die auf eine Verringerung des Nikotinkonsums ausgelegt wären, würden nicht zu einer Reduktion der Neuerkrankungen an Psoriasis führen.
271
14
14.3 Fall-Kontroll-Studien
14.3.5 Die Odds Ratio • Statistische Analyse. Im einfachsten Fall untersucht man den Zu › Beispiel 14.2). sammenhang zwischen zwei Alternativmerkmalen (z Geeignete Methoden, um einen solchen Zusammenhang abzusi› Abchern, sind der Chi2-Vierfeldertest oder Fisher’s exakter Test (z schnitte 12.2.1 und 12.3). Bei Fall-Kontroll-Studien ist es üblich, zusätzlich die Odds Ratio als Annäherung für das relative Risiko angegeben. Diese Maßzahl berechnet sich basierend auf den Häufig› Abschnitt 3.4.2): keiten der Vierfeldertafel als (z OR =
ad bc
Die Odds Ratio ist 1, falls kein Zusammenhang zwischen der Erkrankung und der Exposition besteht. Sie ist größer als 1, wenn mehr Fälle als Kontrollen exponiert sind. Um beurteilen zu können, ob der Zusammenhang signifikant ist, sollte zusätzlich ein Konfidenzintervall angeben werden. Beispiel 14.2 Wir betrachten eine (hypothetische) Studie, in der 50 Frauen, die ein missgebildetes Baby zur Welt gebracht hatten (Fälle), befragt wurden, ob sie zu Beginn ihrer Schwangerschaft ein bestimmtes Medikament eingenommen hatten. Ihnen wurden 50 Frauen gegenübergestellt, die ein gesundes Baby geboren hatten (Kontrollen) und ebenfalls befragt. Es ergab sich folgendes Bild: Daraus berechnet man: OR = 9,333 . Medikament Fälle Kontrollen Dies impliziert, dass Frauen, die dem genommen Risikofaktor ausgesetzt waren, ein ja a = 35 b = 10 9,3-fach erhöhtes Risiko hatten. nein c = 15 d = 40 Das Konfidenzintervall erstreckt sich zwischen 3,72 und 23,42. Mit dem Chi2Vierfeldertest erhält man p < 0,0001 . Damit ist der Zusammenhang zumindest statistisch abgesichert. i Die Odds Ratio quantifiziert das Verhältnis zwischen zwei Odds. Der z englische Begriff „Odds“ hat die Bedeutung von Gewinnchancen bei Wetteinsätzen. Die „Chance“ der Fallgruppe, einem Risiko ausgesetzt gewesen zu sein, ist a / c ; bei den Kontrollen ist diese „Chance“ b / d . Der Quotient dieser beiden Odds ist die Odds Ratio.
Bei paarweisem Matchen verwendet man anstelle des Vierfeldertests › Abschnitt 12.2.5). Die Odds Ratio wird in den McNemar-Test (z diesem Fall als der Quotient b / c bestimmt (wobei b die Anzahl der Paare, bei denen der Fall exponiert und die Kontrolle nicht expo-
272
Kapitel 14 · Risikostudien
niert ist und c die Anzahl der Paare, bei denen es umgekehrt ist). Wenn mehr als ein potentieller Risikofaktor zu analysieren ist, bietet sich die Logistische Regression an. Diese multiple Methode ist insbesondere bei Fall-Kontroll-Studien sehr mächtig:
ŷ Mehrere Einflussgrößen (qualitative und auch quantitative wie etwa das Alter) können simultan analysiert werden;
ŷ die Wirkung einer Einflussgröße lässt sich adjustieren (so können mögliche Confounder erkannt werden);
ŷ für jede Einflussgröße lässt sich die dazugehörende Odds Ratio mit Konfidenzintervall berechnen. 14.3.6 Anwendungen und Grenzen Fall-Kontroll-Studien sind unverzichtbar für die Erforschung von Risikofaktoren. Ein immenser Vorteil liegt darin, dass man nicht Jahre oder Jahrzehnte lang warten muss, bis man genügend „Fälle“ rekrutiert hat, sondern auf bereits erkrankte Personen zurückgreifen kann. Ergebnisse liegen deshalb relativ schnell vor. Dies ist besonders wichtig bei Krankheiten mit langer Latenzzeit oder geringer Inzidenz. Die Nachteile liegen wie bei allen retrospektiven Studien in der eventuell mangelhaften Datenqualität. Außerdem sind FallKontroll-Studien sehr anfällig für Bias verschiedener Art. Einschränkend ist hinzuzufügen, dass absolute Risiken (etwa Inzidenzen) für Exponierte oder Nicht-Exponierte nicht ermittelt werden können; lediglich das Odds Ratio kann bestimmt werden. Dieses Maß ist eine Annäherung für das relative Risiko – allerdings nur dann, wenn die Inzidenz der Erkrankung gering ist (maximal 1 %). Diese Bedingung ist glücklicherweise bei vielen Krankheiten, die mit Fall-Kontroll-Studien untersucht werden, erfüllt.
14.4
14
Kohortenstudien
14.4.1 Grundlagen Eine Kohortenstudie ist eine prospektive, longitudinale Studie (auch Follow-Up-Studie genannt), bei der große Gruppe (Kohorte) von Personen, die in unterschiedlicher Weise exponiert und nicht erkrankt sind, eine Zeit lang beobachtet werden.
273
14
14.4 Kohortenstudien
Beispiel 14.3 Ein bekanntes Beispiel ist die so genannte Framingham-Studie bezüglich kardiovaskulärer Krankheiten. Sie wurde im Jahr 1948 in der Stadt Framingham (USA) begonnen und umfasste etwa 5.100 Einwohner, die zu Beginn der Studie zwischen 30 und 60 Jahre alt waren und keine kardiovaskulären Krankheiten hatten. Die Studie dauerte mehr als 30 Jahre; die Studienteilnehmer wurden regelmäßig alle zwei Jahre bis zum Auftreten einer kardiovaskulären Erkrankung, Tod des Teilnehmers bzw. Studienende untersucht. Dabei wurden mehrere potentielle Einflussfaktoren studiert: Rauchen, Adipositas, Bluthochdruck, erhöhte Cholesterinwerte, Alter u. a. Es wurde nachgewiesen, dass das Risiko, eine koronare Herzkrankheit zu entwickeln, mit zunehmendem Alter, erhöhtem Blutdruck, erhöhtem Cholesterinspiegel, Zigaretten- und Alkoholabusus sowie Übergewicht assoziiert ist.
• Vorteile. Anhand des Beispiels 14.3 werden die Vorteile einer Ko hortenstudie unmittelbar deutlich: ŷ Man kann die Inzidenzen für exponierte und nicht-exponierte Personen direkt ermitteln und vergleichen. Deshalb werden diese Studien auch als Inzidenzstudien bezeichnet. ŷ Die Studie folgt derselben Logik wie die klinische Fragestellung: Man geht von den Einflussgrößen aus, wartet ab und analysiert schließlich, bei welchen Personen und zu welchem Zeitpunkt die Krankheit eintritt. ŷ Die Studienteilnehmer werden kontinuierlich beobachtet. Die Gefahr eines Recall-Bias aufgrund mangelnden Erinnerungsvermögens der Teilnehmer (wie bei Fall-Kontroll-Studien) besteht daher nicht. • Nachteile. Im Vergleich zu Fall-Kontroll-Studien gibt es auch deutliche Nachteile: ŷ Es dauert unter Umständen sehr lange, bis hinreichend viele Krankheitsfälle eingetreten sind. Dies gilt insbesondere bei Krankheiten mit langer Latenzzeit. ŷ Die Studie erfordert – speziell bei Krankheiten mit geringer Inzidenz – extrem viele Teilnehmer. ŷ Sie kann daher sehr aufwendig und teuer sein, da oft Tausende von Personen etliche Jahre lang in regelmäßigen Abständen untersucht werden müssen. 14.4.2 Effektmaße Um zu eruieren, ob ein bestimmter Faktor tatsächlich mit einem erhöhten Erkrankungsrisiko assoziiert ist, erscheint es sinnvoll, die
274
Kapitel 14 · Risikostudien
Gruppen der Exponierten und der Nicht-Exponierten miteinander zu vergleichen. Das Erkrankungsrisiko bei Vorliegen eines Faktors R entspricht der Wahrscheinlichkeit P( K | R ) . P( K | R ) ist also die Wahrscheinlichkeit, dass bei Nicht-Vorhandensein des Faktors R die Krankheit entsteht. Es lassen sich folgende Effektmaße berechnen:
ŷ Absolute Risikoreduktion (zuschreibbares oder attributables Risiko). Dies ist die Differenz
ARR = P( K | R) − P( K | R )
(14.1)
Die ARR gibt an, in welchem Maß die Erkrankungswahrscheinlichkeit durch den Risikofaktor erhöht wird.
ŷ Number Needed to Treat (NNT). Diese Anzahl wird sehr einfach berechnet nach: NNT = 1 / ARR
(14.2)
Die NNT wurde ursprünglich für Therapiestudien entwickelt, um darzustellen, wie viele Personen durchschnittlich behandelt werden müssen, damit eine von der Behandlung profitiert. Bei Risikostudien quantifiziert die NNT die Anzahl der Personen, die vom Risikofaktor befreit werden müssen, damit eine profitiert.
ŷ Relatives Risiko. Darunter versteht man den Quotienten RR =
P( K | R) P( K | R )
(14.3)
Wenn es sich bei R tatsächlich um einen Risikofaktor handelt, ist das relative Risiko größer als 1. Um dies beurteilen zu können, ist die Angabe eines Konfidenzintervalls sinnvoll.
ŷ Relative Risikoreduktion. Dieses Maß ist definiert als:
14
RRR =
P( K | R) − P( K | R ) P( K | R)
(14.4)
! Bei der Interpretation eines relativen Risikos ist zu beachten, dass durch z
die Quotientenbildung die absoluten Risiken nicht mehr erkennbar sind. Die relativen Risiken in Beispiel 14.4 sind sehr hoch. Sie verschweigen jedoch, dass das Risiko an Lungenkrebs zu erkranken generell gering ist (auch für Raucher).
275
14
14.4 Kohortenstudien
Beispiel 14.4 In der Kohortenstudie von Doll und Hill (Doll, R.; Hill, A.B.: Mortality in relation to smoking: ten years’ observations of British doctors. Brit. Med. J. 1964; 1: 1399 – 1410) wurde bei 40.000 britischen Ärzten die Auswirkung des Faktors „Rauchen“ auf die Mortalitätsrate bei Lungenkrebs untersucht. Seien R das Ereignis, dass eine Person mindestens 25 Zigaretten pro Tag raucht und T das Ereignis, innerhalb eines Jahres an Lungenkrebs zu sterben. Die Autoren ermittelten P(T | R) = 2,27 ‰ für Raucher und P(T | R ) = 0,07 ‰, für Nichtraucher. Demnach beträgt das zuschreibbare Risiko ARR = 2,2 ‰. Die Mortalität setzt sich zusammen aus dem Anteil 2,20‰, der dem Rauchen zuzurechnen ist, und dem kleineren Anteil 0,07‰, der auf andere Ursachen zurückzuführen ist. Daraus ergibt sich: NNT = 1 / 0,0022 ≈ 455 . Wenn 455 starke Raucher das Rauchen aufgeben würden, würde durchschnittlich einer pro Jahr weniger an Lungenkrebs sterben. Das relative Risiko berechnet sich nach (14.3) als 32. Also ist für einen Raucher das Risiko, innerhalb eines Jahres an Lungenkrebs zu sterben, etwa 32mal so groß wie für einen Nichtraucher. Die relative Risikoreduktion nach (14.4) beträgt 97%. Das Risiko, an Lungenkrebs zu sterben, kann demnach um 97 % gesenkt werden, falls das Rauchen aufgeben wird. Oder anders formuliert: Wenn ein Mensch an Lungenkrebs stirbt, dann ist dies zu 97 % auf das Rauchen zurückzuführen.
Die Wahrscheinlichkeit des Auftretens einer Krankheit kann durch die Logistische Regression ermittelt werden. Dieses multiple Verfahren ermöglicht es, mehrere Faktoren zu berücksichtigen und deren komplexe Wechselwirkungen zu untersuchen. Anhand der Merkmale, die einen statistisch signifikanten Einfluss auf die Zielgröße haben, lässt sich dann im Einzelfall die Wahrscheinlichkeit berechnen, dass die Krankheit eintritt. 14.4.3 Inzidenzmaße Die im vorigen Abschnitt erwähnte Wahrscheinlichkeit P( K | R) wird als „kumulative Inzidenz“ bezeichnet (weil sich die neuen Fälle über die Zeit kumulieren). Deren Bestimmung erfordert eine gewisse Stabilität der beobachteten Population. Normalerweise ist jedoch davon auszugehen, dass die Population dynamischen Prozessen unterliegt. Nicht jedes Individuum kann über denselben Zeitraum beobachtet werden. Außerdem muss quasi bei jeder prospektiven Studie einkalkuliert werden, dass einige Teilnehmer vorzeitig ausscheiden (so genannte Studienabbrecher oder Drop Outs). Dann mag die Inzidenzdichte eine Alternative darstellen: Der Zähler dieses Maßes enthält die Anzahl aller während der Beobachtungszeit neu aufgetretenen Krankheitsfälle. Den Nenner bildet die
276
Kapitel 14 · Risikostudien
so genannte Personenzeit – das ist die Summe der Beobachtungszeiten aller Individuen. Jedes Individuum wird so lange beobachtet, bis das interessierende Endereignis (Krankheit oder Tod) festgestellt wird. Falls dieses Ereignis nicht eintritt, endet die Beobachtungszeit am Ende der Studie bzw. zu dem Zeitpunkt, an dem die betreffende Person vorzeitig ausscheidet. Die Inzidenzdichte ist – im Gegensatz zur kumulativen Inzidenz – keine Wahrscheinlichkeit. Sie gibt an, wie viele Neuerkrankungen in einer bestimmten Zeiteinheit eintreten und ist insofern vergleichbar mit einer Erkrankungs-Geschwindigkeit oder mit der Hazard› Abschnitt 8.4.1). Dabei spielt die Zeit eine besondere Rolle. Rate (z Für derlei Fragestellungen stehen spezielle Auswertemechanismen › Abschnitt 16.2.3). zur Verfügung (z 14.4.4 Biasquellen
14
Studienabbrecher (Drop Outs) können zu einem Selektionsbias führen, wenn die Gründe des Ausscheidens mit der Zielgröße in Zusammenhang stehen. Ferner kann es passieren, dass Teilnehmer ihre Gewohnheiten im Laufe der Zeit ändern (wenn etwa aus einem ehemals starken Raucher ein Nichtraucher wird). Dies sollte bei der Auswertung unbedingt berücksichtigt werden. Eine besondere Art von Informationsbias tritt auf, wenn Studienteilnehmer, die stark exponiert sind, häufiger oder gründlicher untersucht werden als andere Personen, bei denen das Eintreten einer Krankheit weniger erwartet wird. Dies kann zu verzerrten Ergebnissen führen. Probleme können auch dadurch entstehen, dass sich die Diagnosetechniken im Laufe der Zeit ändern oder dass die ursprüngliche Fragestellung an Relevanz verliert. Ein letzter Hinweis: Nicht jede Kohortenstudie muss Jahrzehnte dauern, ehe Ergebnisse vorliegen. Wenn die Zeitspanne zwischen Exposition und dem Auftreten einer Erkrankung kurz ist (z. B. Erkrankung eines Neugeborenen infolge einer mütterlichen Infektion während der Schwangerschaft), kann die Studie nach wenigen Monaten beendet sein. Dennoch bleibt festzuhalten, dass der zeitliche Aufwand wesentlich höher ist als bei einer Fall-Kontroll-Studie. 14.4.5 Spezielle Kohortenstudien Die Population, die bei Kohortenstudien untersucht wird, wird meist in der Gegenwart zusammengestellt und dann über einen längeren Zeitraum beobachtet („begleitende Kohortenstudie“). Auf die damit
277
14
14.5 Der Nachweis einer Kausalität
verbundenen Problematiken (die insbesondere bei Krankheiten mit langer Latenzzeit und geringer Inzidenz auftreten) wurde bereits hingewiesen. Bei Studien, die auf eine sehr lange Zeit geplant sind, weiß der Versuchsleiter häufig nicht, ob er das Ende der Studie überhaupt erleben wird. Es ist aber auch denkbar, Kohortenstudien „mit Verspätung“ durchzuführen: Man startet in der Vergangenheit und greift zur Erfassung der Exposition und der Zielgröße auf bereits dokumentierte Daten zurück. Diese wertet man dann prospektiv aus (die Art der Datenerfassung ist jedoch retrospektiv). Dieses Design nennt man historische Kohortenstudie. Andere Bezeichnungen sind retrospektive oder konkurrierende Kohortenstudie oder Kohortenstudie mit zurückverlegtem Ausgangspunkt. Dieser Studientyp wird gerne in der Arbeitsmedizin verwendet (wenn z. B. Bergwerksarbeiter und Büroangestellte auf das Vorhandensein einer Silikoselunge untersucht werden). Der Vorteil besteht darin, dass die Zeit zwischen der Exposition und dem Auftreten der Krankheit nicht abgewartet werden muss. Andererseits ist auf die Qualität der Daten nicht immer Verlass. Eine weitere Besonderheit stellen die so genannten eingebetteten (nested) Fall-Kontroll-Studien dar. Ein solche Studie beginnt wie eine Kohortenstudie in der Gegenwart. Zu Beginn werden von allen Studienteilnehmern Daten erhoben, Blut- oder Urinproben entnommen und in geeigneter Weise aufbewahrt. Wenn nach einiger Zeit genügend Krankheitsfälle aufgetreten sind, werden diese zu einer „Fallgruppe“ zusammengefasst; aus den nicht erkrankten Teilnehmern wird eine überschaubare Kontrollgruppe gebildet. Erst wenn diese beiden Gruppen definiert sind, werden deren Daten und Laborproben analysiert. Dieses Studiendesign ist wesentlich weniger aufwendig als eine begleitende Kohortenstudie, bei der alle Teilnehmer untersucht werden. Außerdem ist die Datenqualität besser als bei Fall-Kontroll-Studien, da die Daten erhoben und die Proben entnommen werden, ehe die Krankheit eingetreten ist.
14.5
Der Nachweis einer Kausalität
Eine kausale Beziehung zwischen einem Risikofaktor und einer Krankheit kann am ehesten durch ein Experiment nachgewiesen werden, bei dem die Hälfte der Teilnehmer nach Randomisation einem Risiko ausgesetzt wird und die andere Hälfte nicht. Aus ethischen Gründen ist dies jedoch nicht vertretbar. Laborexperimente
278
Kapitel 14 · Risikostudien
(z. B. mit Ratten) können hier, obwohl sie in einem anderen biologischen System arbeiten, Hinweise zur Kausalität geben. Ansonsten ist man auf Beobachtungsstudien angewiesen. Den höchsten Level nach den Richtlinien der Evidenzbasierten Medizin haben dabei Kohortenstudien. Diese sind – wenn sie sorgfältig geplant und durchgeführt werden – am wenigsten anfällig für systematische Fehler (Bias) und lassen am ehesten Schlussfolgerungen bezüglich Kausalitäten zu. Das bedeutet jedoch nicht, dass die anderen Studienformen überflüssig oder generell minderwertig wären. Kohortenstudien sind in der Regel sehr aufwendig. Sie werden deshalb erst dann durchgeführt, wenn – etwa aufgrund von Fall-Kontroll-Studien – gesicherte Hinweise auf eine Assoziation zwischen einer Krankheit und einer Exposition vorliegen. Im Jahre 1939 brachte der bereits erwähnte Alton Ochsner eine Lawine ins Rollen, als er einen Fallbericht veröffentlichte, in dem er einen Zusammenhang zwischen Lungenkrebs und Rauchen vermutete und zwei Jahre später eine Fallserie zum selben Thema publizierte. Dies war der Anlass für Doll und Hill, eine Fall-Kontroll-Studie durchzuführen (1952 publiziert). Diese wiederum war die Basis für eine extrem aufwendige Kohorten› Beispiel 14.4, erstmals 1964 publiziert). studie (z Man kann zwar mit Beobachtungsstudien nicht zweifelsfrei eine Kausalität nachweisen. Es gibt jedoch Argumente, die für einen kausalen Zusammenhang sprechen und Richtlinien, an denen man sich orientieren kann:
ŷ Die Exposition muss der Krankheit zeitlich vorausgehen. ŷ Je stärker ein statistischer Zusammenhang ist, desto mehr spricht für eine kausale Beziehung.
ŷ Eine Dosis-Wirkungs-Beziehung ist ebenfalls ein Hinweis auf eine Kausalität.
ŷ Die Ergebnisse der Studie müssen wiederholbar sein (auch in anderen Populationen).
14
ŷ Der Zusammenhang muss biologisch plausibel sein. ŷ Das Risiko einer Erkrankung sinkt, wenn die Exposition entfällt. Bei einfachen deskriptiven Studien mag die Überprüfung dieser Richtlinien schwierig sein. Bei Fall-Kontroll- und insbesondere bei Kohortenstudien sind sie jedoch sehr nützlich bei der Beurteilung, ob ein Faktor kausal für eine Krankheit verantwortlich ist oder ob es sich allem Anschein nach um einen Confounder handelt. i Ausführliche Informationen zu Risikostudien findet man in [6]. z
15
Studien zu Diagnostik und Prävention 15.1
Diagnosestudien 281
15.1.1 Einleitende Bemerkungen
281
15.1.2 Die Validität eines diagnostischen Tests 281 15.1.3 Die ROC-Analyse 282 15.1.4 Reproduzierbarkeit 285 15.1.5 Die Anwendung eines diagnostischen Tests in der Praxis 287
15.2
Präventionsstudien 288
15.2.1 Formen der Prävention 288 15.2.2 Evaluation des Nutzens 289 15.2.3 Biasquellen 291
281
15
15.1 Diagnosestudien
15.1
Diagnosestudien
15.1.1 Einleitende Bemerkungen Die Diagnosestellung gehört zu den wichtigsten Aufgaben eines Arztes. Dazu bedient er sich außer seiner Fachkenntnisse und seiner persönlichen Erfahrung eines oder mehrerer diagnostischer Testverfahren. Dies kann ein technisch aufwendiger Labortest sein; es kann sich jedoch auch um eine klinische Untersuchung, ein bildgebendes Verfahren, um Informationen aus der Anamnese oder aus einem Gespräch mit dem Patienten handeln. Diagnosestudien sind für die epidemiologische Forschung und die medizinische Praxis sehr wichtig. Letzten Endes basieren die Ergebnisse fast aller Studien auf diagnostischen Verfahren, da diese ja die Voraussetzung für das Erkennen einer Krankheit sind. Zu den Gütekriterien eines diagnostischen Verfahrens zählen die Validität und die Reliabilität. Die Validität ist die Fähigkeit, zwi› Abschnitt schen Kranken und Gesunden zu unterscheiden (z 15.1.2). Die Reliabilität ist ein Maß für die Reproduzierbarkeit der › Abschnitt 15.1.4). Testergebnisse unter ähnlichen Bedingungen (z 15.1.2 Die Validität eines diagnostischen Tests Die Validität eines diagnostischen Tests wird durch die Sensitivität › Abschnitt 6.5.1). Es ist das Ziel einer und die Spezifität bestimmt (z Diagnosestudie, diese Komponenten zu quantifizieren. In der Regel ist ein aufwendiges, teures oder kompliziertes Verfahren (z. B. eine Biopsie) notwendig, um Gewissheit bezüglich des Krankheitsstatus einer Person zu erhalten. Ein solches Verfahren nennt man Goldstandard. Im medizinischen Alltag ist man öfter bemüht, Ersatzverfahren zu benutzen – wohl wissend, dass diese weniger genau, dafür aber einfacher in der Anwendung und mitunter weniger riskant sind als der Goldsstandard. Bei einer Diagnosestudie ist ein Goldstandard notwendig, um den wahren Krankheitsstatus der Testpersonen feststellen zu können. Um die Sensitivität und die Spezifität zu ermitteln, müssen hinreichend viele kranke und nicht-erkrankte Personen durch den zu evaluierenden Test diagnostiziert werden. Der Arzt, der die Befunde interpretiert, sollte verblindet sein. Das heißt: Er darf den wahren Krankheitsstatus und andere klinische Informationen der Testteilnehmer nicht kennen. Nur dann ist gewährleistet, dass die
282
Kapitel 15 · Studien zu Diagnostik und Prävention
Befunde unvoreingenommen und objektiv beurteilt werden. Beide Kenngrößen – Sensitivität und Spezifität – sollten zusammen mit einem Konfidenzintervall angegeben werden, damit die Genauigkeit der Schätzungen beurteilt werden kann. Manchmal werden auch Likelihood-Quotienten benutzt, um die Güte eines diagnostischen Tests zu beschreiben. Der positive Likelihood-Quotient ist die Wahrscheinlichkeit, dass eine kranke Person einen positiven Befund erhält, dividiert durch die Wahrscheinlichkeit, dass sich dieser Befund bei einer gesunden Person ergibt: LH + =
P(T+ K ) P(T+ K )
=
Sensitivität 1 − Spezifität
(15.1)
Analog ist der negative Likelihood-Quotient definiert als: LH − =
P(T− K ) P(T− K )
=
1 − Sensitivität Spezifität
(15.2)
Wenn ein Likelihood-Quotient einen Wert nahe bei 1 annimmt, ist der Test unbrauchbar. Je größer der positive Likelihood-Quotient und je kleiner der negative, desto leistungsfähiger ist der Test. Bei einem Likelihood-Quotienten sind die Sensitivität und die Spezifität in einer Kenngröße zusammengefasst. Daher eignen sich diese Quotienten, um die Güte mehrerer Tests miteinander zu vergleichen. 15.1.3 Die ROC-Analyse
15
Die meisten Testergebnisse beruhen auf physikalischen Messungen im Labor. Bei solchen Größen handelt es sich in der Regel um stetige Merkmale – und nicht, wie bisher angenommen wurde, um Alternativmerkmale mit den Ausprägungen „positiv“ und „negativ“. Um eine binäre Testentscheidung zu ermöglichen, wird eine Trenngröße τ (griechischer Buchstabe tau) festlegt – das ist ein Schwellenwert, der den pathologischen vom physiologischen Bereich trennt. Der Messwert einer Person, die sich dem Test unterzieht, wird mit diesem Schwellenwert verglichen. Ist er größer als τ, spricht man von einem positiven, ansonsten von einem negativen Befund. Der Wert von τ beeinflusst die Sensitivität, die Spezifität und damit auch die Vorhersagewerte.
283
15
15.1 Diagnosestudien
Jedem Schwellenwert sind eindeutige Werte für die Sensitivität und die Spezifität zugeordnet. Wenn man nun für jeden Schwellenwert den Anteil der falsch positiven (also die Differenz „1 – Spezifität“) gegen den Anteil der richtig positiven (also die Sensitivität) in ein Koordinatensystem einträgt und diese Punkte miteinander verbin› Abbildung 15.1). ROC ist die det, entsteht die ROC-Kurve (z Abkürzung für „Receiver Operating Characteristic“. Dieser Begriff stammt aus der Nachrichtentechnik und bedeutet Signalerkennung. Aus dem Beispiel 15.1 und der ROC-Kurve in Abbildung 15.1 geht hervor: Je höher die Sensitivität, desto geringer ist die Spezifität. Dies ist leicht nachvollziehbar. Bei einem geringen Schwellenwert erhalten zahlreiche Personen ein positives Testergebnis. Dadurch werden einerseits viele Kranke (richtig) positiv und andererseits zahlreiche Gesunde (falsch) positiv klassifiziert. Dies ist gleichbedeutend mit einer hohen Sensitivität und einer hohen Wahrscheinlichkeit für falsch positive Ergebnisse, was wiederum mit einer niedrigen Spezifität einhergeht. Ein hoher Schwellenwert ergibt dagegen für die meisten gesunden und für relativ viele kranke Personen einen negativen Befund (hohe Spezifität, hohe Wahrscheinlichkeit für falsch negative Ergebnisse und geringe Sensitivität). Schwellenwerte, die gut zwischen Kranken und Gesunden diskriminieren, findet man in der oberen linken Ecke der ROC-Kurve. Die Frage nach dem optimalen Schwellenwert lässt sich nicht allgemein beantworten. Er ist abhängig von den Konsequenzen, die sich aus falschen Testbefunden ergeben. Ein falsch negativer Befund kann fatale Folgen für den Patienten haben (dieser wähnt sich zunächst gesund und wird möglicherweise zu spät oder gar nicht therapiert). Falsch positive Befunde belasten zunächst die betreffenden Personen und führen zu nachfolgenden Behandlungen, die unnötig, teuer und mitunter gefährlich sind. Auf eine hohe Sensitivität legt man Wert, wenn ŷ es sich um eine Krankheit mit schweren (oder gar lebensbedrohlichen) Folgen für den Patienten handelt, ŷ eine Erfolg versprechende Therapie zur Verfügung steht, ŷ falsch positive Befunde mit vertretbarem Aufwand und ohne allzu große Belastungen für die betreffende Person geklärt werden können. Eine hohe Spezifität ist anzustreben, wenn
ŷ keine Therapie mit Aussicht auf Besserung bekannt ist, ŷ die Therapie zu unverhältnismäßig hohen finanziellen Belastungen für den Patienten oder das Gesundheitswesen führt,
284
Kapitel 15 · Studien zu Diagnostik und Prävention
ŷ die Therapie mit schweren Nebenwirkungen behaftet ist, ŷ die Nachfolgeuntersuchungen mit erheblichen Risiken oder psychischen Belastungen für den Patienten verbunden sind. Ein optimaler Schwellenwert beruht also nicht nur auf wahrscheinlichkeitstheoretischen, sondern auch auf medizinischen, ökonomischen und ethischen Überlegungen. Ein Arzt muss bei der Interpretation eines Testbefundes in jedem Fall berücksichtigen, dass dieses unter Umständen auch von einem mehr oder weniger willkürlich festgelegten Schwellenwert abhängt. Die Gesamtgenauigkeit eines Tests lässt sich durch die Fläche unter der ROC-Kurve (im englischen Sprachgebrauch als AUC = „area under the curve“ bezeichnet) quantifizieren. Nur bei einem Test, bei dem falsche Befunde ausgeschlossen sind, ist diese Fläche gleich 1. Eine Fläche der AUC von 0,5 besagt, dass der diagnostische Test nicht besser ist als zufällige Zuweisungen „krank“ oder „gesund“. In diesem Fall entspricht die ROC-Kurve der Diagonalen, die sich von der linken unteren bis zur rechten oberen Ecke erstreckt.
15
Beispiel 15.1 Ist der Kreatininkinase-Wert zur Diagnose eines akuten Myokardinfarkts geeignet? In einer Studie ergaben sich bei Infarkt-Patienten Werte zwischen 90 und 10280, während Patienten mit anderen Herzbeschwerden Werte zwischen 25 und 370 aufwiesen. Die Sensitivität und die Spezifität sind abhängig von unterschiedlichen Schwellenwerten: Sensitivität Spezifizität Summe τ in % in % Wenn man die 100 48 80 148 Sensitivität und 100 57 90 157 die Spezifität als 96 62 100 158 gleich wichtig er96 75 120 171 achtet, wäre 96 84 τ = 300 der opti150 180 93 91 200 184 male Schwellen93 94 250 187 wert. Die Fläche 93 97 unter der ROC300 190 85 98 320 183 Kurve (AUC) 70 99 350 169 beträgt 0,94 › Abb. 15.1). (z 63 100 380 163 55 100 400 155
285
15
15.1 Diagnosestudien
Abb. 15.1 ROC-Kurve für einen Test zur Diagnose eines Myokardinfarkts (Beispiel 15.1). Eingezeichnet sind (1–Spezifität) auf der x–Achse und die Sensitivität auf der y–Achse für unterschiedliche Schwellenwerte.
Merke Die ROC-Kurve kann genutzt werden,
ŷ ŷ
um einen optimalen Schwellenwert zu finden. Falls Sensitivität und Spezifität als gleich wichtig erachtet werden, ist dies der Schwellenwert, der am nächsten am Punkt (0|1) des Koordinatensystems liegt. um konkurrierende Tests miteinander zu vergleichen. Je größer die AUC, desto besser ist der Test.
15.1.4 Reproduzierbarkeit Ein weiterer Aspekt bei der Bewertung eines diagnostischen Tests betrifft die Reproduzierbarkeit (Reliabilität) – also die Frage: Inwieweit ist der Test zuverlässig und wiederholbar? Viele Testbefunde sind durch subjektive Einschätzungen des jeweiligen Untersuchers geprägt oder hängen von anderen Rahmenbedingungen ab. Beispiele hierfür stellen klinische Schweregradscores wie etwa der PASI (Psoriasis Area and Severity Index) dar. Es ist keineswegs selbstverständlich, dass wiederholte Beurteilungen desselben Zustands durch unterschiedliche Beobachter jeweils zum selben Ergebnis führen. Es ist auch nicht garantiert, dass derselbe Beobachter, der einen Patienten zu verschiedenen Zeitpunkten untersucht, jedes Mal denselben Befund erhält. Der κ-Koeffizient nach Cohen (lj: griechischer Buchstabe Kappa) findet Verwendung, um – wie in Beispiel 15.2 – den Grad der Übereinstimmung zwischen zwei verschiedenen Beobachtern (interindividuelle Variabilität) zu quantifizieren. Er kann auch verwendet werden, um den Grad der Übereinstimmung der Beurteilungen desselben Beobachters zu zwei verschiedenen Zeitpunkten (intraindividuelle Variabilität) zu messen. Er ist folgendermaßen definiert:
286
Kapitel 15 · Studien zu Diagnostik und Prävention
κ=
p o − pe 1 − pe
(15.3)
Dabei sind po und pe die Anteile der übereinstimmenden Urteile, die man beobachtet hat bzw. die man rein zufällig erwarten würde (o und e stehen für „observed“ bzw. „expected“). Dieser Koeffizient quantifiziert demnach den Anteil von Übereinstimmungen, der über das hinausgeht, was man unter dem Zufall erwarten würde. Wenn zwei Beobachter in allen Urteilen übereinstimmen, ist κ = 1 . Falls die Anzahl der Übereinstimmungen der Zufallserwartung entspricht, ist κ = 0 . Theoretisch kann κ auch negative Werte annehmen (dieser Fall ist aber praktisch bedeutungslos). κ > 0,60 zeigt eine gute, κ > 0,80 eine exzellente Übereinstimmung jenseits des Zufalls an. Beispiel 15.2 100 Röntgenbilder werden von zwei Radiologen unabhängig voneinander bewertet. Es ergeben sich folgende Beurteilungen (in Klammer die Häufigkeiten, die rein zufällig zu erwarten sind): Beobachter A erwartete Häufigkeiten Beobachter B normal pathologisch Σ 40 (30) 10 (20) 50 normal e11 = e21 = 50 ⋅ 60 / 100 = 30 e12 = e22 = 50 ⋅ 40 / 100 = 20 30 (20) 50 pathologisch 20 (30) 60 Σ Daraus ergibt sich:
40
100
po = (40 + 30) / 100 = 0,70 , pe = (30 + 20) / 100 = 0,50 . Die
Untersucher haben also in 70 % der Fälle übereinstimmend geurteilt; der Anteil der rein zufällig zu erwartenden Übereinstimmungen beträgt 50 %. 0,70 − 0,50 Daraus resultiert nach Formel (15.3) κ = = 0, 40 . Der Grad der 1 − 0,50 Übereinstimmung ist also recht schwach.
Es gibt außerdem einen erweiterten lj-Koeffizienten, der sich eignet, um mehr als zwei Beobachter zu vergleichen. Außerdem wurde ein gewichteter κ-Koeffizient entwickelt, mit dem Abweichungen je nach ihrem Schweregrad unterschiedlich gewichtet werden können.
15
i Diese Maßzahlen sind ausführlich in [5] beschrieben. Zur weiteren Lekz türe sei das Handbuch [6] empfohlen.
287
15
15.1 Diagnosestudien
15.1.5 Die Anwendung eines diagnostischen Tests in der Praxis Die Sensitivität und die Spezifität beschreiben die Güte eines diagnostischen Verfahrens aus der Sicht des Forschers, der den Test entwickelt. Mitunter erweist sich ein diagnostisches Verfahren in der Praxis als ungeeignet – trotz hoher Werte für Sensitivität und Spezifität. Dies kann vielfältige Gründe haben:
ŷ Interpretation des Testbefundes. Es ist bekannt, dass ein Testbefund nicht immer den korrekten Krankheitsstatus anzeigt. Die Vorhersagewerte informieren darüber, inwieweit man sich auf › Abschnitt 6.5.2). Wenn die Präeinen Befund verlassen kann (z valenz gering ist, kann der positive Vorhersagewert – trotz hoher Werte für Sensitivität und Spezifität – extrem gering sein › Beispiel 6.16). Ohne die Kenntnis, ob der Patient einer (z Risikogruppe angehört und wie hoch deren Prävalenz ist, ist ein Testbefund kaum zu interpretieren. ŷ Patientenspektrum. Die Sensitivität und die Spezifität sind unabhängig von der Prävalenz. Andererseits bleibt festzuhalten, dass die Beurteilung der Testbefunde teilweise subjektiven Einflüssen der behandelnden Ärzte unterliegt, und dass die Patienten, bei denen ein diagnostisches Verfahren in der Praxis eingesetzt wird, andere Charakteristika aufweisen als Personen, die an einer diagnostischen Studie teilnehmen. Dies gilt sowohl für die Patienten, die an der Krankheit leiden, als auch für nichterkrankte Personen. Davon werden wiederum die Sensitivität, die Spezifität und damit auch die Vorhersagewerte beeinflusst. ŷ Informationsbias. Wenn ein Arzt aufgrund einer klinischen Untersuchung den Eindruck gewinnt, dass der Patient erkrankt ist, wird er versuchen, diesen Eindruck anhand des Testbefundes zu bestätigen. Umgekehrt wird er, wenn er glaubt der Patient sei nicht erkrankt, den Testbefund eventuell weniger aufmerksam begutachten. Aus diesen Gründen sollten die Beurteiler bei einer › Abschnitt 15.1.2). diagnostischen Studie verblindet sein (z Diese Überlegungen zeigen, dass ein einzelnes Testergebnis normalerweise nicht ausreicht, um sich auf eine Diagnose festzulegen. Um den Diagnoseprozess effizienter zu gestalten, werden in der Praxis häufig mehrere Tests durchgeführt (multiples Testen). Dabei sind grundsätzlich zwei Vorgehensweisen denkbar:
288
Kapitel 15 · Studien zu Diagnostik und Prävention
• Parallele Tests. Im klinischen Bereich oder bei Notfallpatienten werden oft mehrere Tests gleichzeitig (genauer: innerhalb einer kurzen Zeitspanne) angewandt. Ein Patient gilt als testpositiv, wenn bereits ein einziger Test einen positiven Befund ergibt. Dies führt zu einer hohen Sensitivität. Die Wahrscheinlichkeit, eine Krankheit zu übersehen, ist bei diesem Prozedere gering. Allerdings ergeben sich dabei auch einige falsch positive Befunde. • Sequenzielle (oder serielle) Tests. Diese Strategie wird verwendet, wenn eine schnelle Diagnosestellung nicht erforderlich ist. Man beginnt mit einem einfachen, leicht anwendbaren Test. Nur wenn dessen Ergebnis positiv ist, führt man einen weiteren, aufwendigeren Test durch. Wenn das zweite Ergebnis negativ ist, gilt der Patient als testnegativ. Ansonsten wird eventuell ein zusätzlicher Test herangezogen. Dieses Prozedere ist zeitintensiver als das parallele Testen; andererseits beansprucht es weniger Laborkapazität. Es führt zu einer größeren Spezifität und zu einer geringeren Sensitivität. Schließlich sollte ein Arzt bei seiner Entscheidungsfindung sich nicht ausschließlich auf die Ergebnisse diagnostischer Tests verlassen, sondern auch seine individuelle Erfahrung, sein persönliches Urteilsvermögen sowie seine fachspezifischen Kenntnisse mit ein› Abschnitt 16.3). fließen lassen (z
15.2
Präventionsstudien
15.2.1 Formen der Prävention Im allgemeinen Sprachgebrauch versteht man unter Prävention eine Maßnahme, die einer unerwünschten Entwicklung zuvorkommen soll. In diesem Sinne ist nahezu jede Tätigkeit eines Arztes als Prävention aufzufassen. In einem engeren Sinne werden unter diesem Begriff ärztliche oder gesundheitspolitische Maßnahmen zusammengefasst, die der Verhütung oder Früherkennung von Krankheiten dienen. Man unterscheidet drei Ebenen der Prävention:
15
ŷ Primäre Prävention. Mit diesen Maßnahmen soll das Auftreten einer Krankheit durch das Ausschalten der Ursachen verhindert werden. Ein Arzt betreibt beispielsweise primäre Prävention, wenn er einen Patienten ermahnt, auf eine gesunde Lebensweise zu achten, oder wenn er jemanden gegen eine Krankheit impft. Ein Beispiel stellt die Impfung eines jungen Mädchens gegen
289
15
15.2 Präventionsstudien
HPV 16 oder 18 dar mit dem Ziel, das Auftreten von Gebärmutterhalskrebs zu verhindern. Auch kommunale Einrichtungen leisten primäre Prävention, etwa wenn sie für sauberes Trinkwasser oder hygienisch einwandfreie Lebensmittel sorgen. Aufklärungskampagnen, die Menschen zum verantwortungsbewussten Umgang mit Genussmitteln sensibilisieren sollen, fallen ebenfalls unter diese Kategorie. ŷ Sekundäre Prävention. Diese Form der Prävention hat zum Ziel, eine Entwicklungsstörung oder eine Krankheit im Frühstadium zu erkennen, sodass rechtzeitig interveniert werden kann, um die Progression oder den Tod zu verhindern. Dazu werden Screening-Untersuchungen durchgeführt, meist in Arztpraxen oder anderen medizinischen Institutionen. Anders als bei der primären Prävention wird jeder Teilnehmer gezielt auf das Vorhandensein einer Krankheit oder einer Störung untersucht. Beispiele sind Krebsfrüherkennungsuntersuchungen wie etwa die Mammographie oder der PAP-Abstrich, durch den Vorstufen des Gebärmutterhalskrebses erkannt werden sollen. Auch Früherkennungsuntersuchungen, die bei Kindern durchgeführt werden, sind eine Form der sekundären Prävention. ŷ Tertiäre Prävention. Dieser Begriff bezieht sich auf manifest gewordene Krankheiten. Er umfasst Maßnahmen, mit denen deren Folgeerscheinungen begrenzt werden sollen. Wichtig ist dies vor allem bei letalen Krankheiten wie Krebs oder AIDS. Der Tod kann durch diese Form der Prävention in aller Regel zwar nicht verhindert werden. Durch eine adäquate medizinische Betreuung können jedoch die Lebensqualität verbessert und eventuell der Todeszeitpunkt hinausgezögert werden. 15.2.2 Evaluation des Nutzens Im Allgemeinen wird die Notwendigkeit präventiver Maßnahmen kaum in Frage gestellt. Dies betrifft insbesondere die Formen der primären Prävention, die im Laufe der vergangenen Jahre und Jahrzehnte dazu geführt haben, dass viele Krankheiten nunmehr ausgerottet sind oder zumindest rückläufige Fallzahlen aufweisen. Ebenso wenig wird über tertiäre Prävention diskutiert. Niemand bestreitet, dass die bestmögliche Unterstützung manifest erkrankter Menschen ethisch geboten erscheint. Studien, die den Nutzen primärer oder tertiärer Präventionsmaßnahmen untersuchen sollen, erscheinen vor diesem Hintergrund nicht notwendig.
290
Kapitel 15 · Studien zu Diagnostik und Prävention
Auch bei sekundären Präventionsmaßnahmen, insbesondere bei Screening-Untersuchungen, wird weithin die Meinung vertreten, dass sie in keinem Fall schaden können. Die zugrunde liegende Idee ist einleuchtend: Krankheiten sollen bereits in der präklinischen Phase entdeckt werden, ehe der Patient die ersten klinischen Symptome bemerkt. Zu diesem Zeitpunkt kann durch eine therapeutische Intervention eventuell verhindert werden, dass die Krankheit sich weiter ausbreitet und in ein Stadium gelangt, in dem eine Heilung nicht mehr möglich ist. Dies klingt so überzeugend, dass eine genaue Überprüfung der Effizienz eines Screenings überflüssig erscheint. Andererseits haben Screening-Untersuchungen offensichtliche Nachteile: Man denke nur an falsch positive oder falsch negative › Abschnitt 6.5), an die mit Befunde und deren Konsequenzen (z manchen Untersuchungen verbundenen Risiken, Unannehmlichkeiten oder an die Kosten. Aus diesen Gründen erscheinen Studien, die durchgeführt werden, um die Validität und die Effizienz einer Screening-Maßnahme objektiv zu beurteilen, geboten.
15
Beispiel 15.3 Die Bedeutung der Maßzahlen in Abschnitt 14.4.2 in Zusammenhang mit Screening-Methoden sei an folgendem Beispiel verdeutlicht. Zugrunde liegen die Ergebnisse von 10 randomisierten Studien, die durchgeführt wurden, um zu ermitteln, ob die regelmäßige Teilnahme am Mammographie-Screening das Risiko verringert, an Brustkrebs zu sterben (Kerlikowske K: Efficacy of screening mammography among women aged 40 to 49 years and 50 to 59 years: Comparision of relative and absolute benefit, Journal of the National Cancer Institute Monographs, 22, 79-86, 1997). Insgesamt hatten 500.000 Frauen in Europa und Nord-Amerika teilgenommen. Das Risiko, innerhalb des Beobachtungszeitraums von 10 Jahren an Brustkrebs zu versterben, betrug 3,6 / 1000 (ohne Screening) bzw. 2,9 / 1000. Daraus ergibt sich: ARR = 0,0007 ; NNT = 1.429 ; RR = 1,24 und RRR = 0,19 . Welches Maß eignet sich zur Darstellung des Nutzens? Die ARR macht deutlich, dass das Risiko durch Screening nur minimal gesenkt werden kann. Noch prägnanter kommt dies in der NNT zum Ausdruck: Wenn sich 1.429 Frauen regelmäßig screenen lassen, wird durchschnittlich eine profitieren und vom Tod durch Brustkrebs bewahrt bleiben. Das RR zeigt, dass dieses Risiko für Frauen ohne Screening etwa 1,24 mal so hoch ist wie für Frauen in der Screening-Gruppe – allerdings kommt nicht zum Ausdruck, dass diese Risiken generell sehr gering sind. Gänzlich irreführend ist die RRR. Sie suggeriert, dass 19 % aller Frauen vom Screenen profitieren – in Wirklichkeit beziehen sich die 19 % nur auf die Frauen, die ohne Screening an Brustkrebs sterben.
291
15
15.2 Präventionsstudien
Die Validität eines Screenings wird durch die Sensitivität und die › Abschnitt 6.5.1). In der Praxis sind jedoch Spezifität beschrieben (z die Vorhersagewerte die Parameter des wesentlichen Interesses: Sie geben an, inwieweit man sich auf einen Testbefund verlassen kann. Dabei ist zu bedenken, dass die Prävalenz der untersuchten Population in der Regel sehr gering ist. Daher ist der positive Vorhersagewert sehr klein, was wiederum problematisch bei der Interpretation eines Befundes ist. Die Effizienz lässt sich beschreiben, indem man die Effektmaße aus Abschnitt 14.4.2 berechnet. An Beispiel 15.3 wird deutlich, dass der Nutzen oft kleiner ist als vielfach angenommen wird. Weitere Beispiele zu diesem Thema findet man in [7]. ! Die NNT (Number Needed to Treat) wird bei Screeningprogrammen auch z
als NNS (Number Needed to Screen) bezeichnet.
15.2.3 Biasquellen Bei Studien zu Präventionsmaßnahmen gibt es eine Reihe spezifischer, systematischer Fehler (Bias): • Freiwilligenbias. Dies ist eine besondere Form des Selektionsbias. Er kann auftreten, wenn ein Vergleich durchgeführt wird zwischen Personen, die sich freiwillig einer Impfung oder einer Früherkennungsmaßnahme unterziehen, und einer Gruppe von Personen, die dies nicht tun. Die Individuen der beiden Gruppen unterscheiden sich möglicherweise – sei es bezüglich ihres Lebensstils oder des familiären Risikos oder aus anderen Gründen. Verzerrte Ergebnisse wären dabei vorprogrammiert. Um diesen Bias zu vermeiden, sollte der Nutzen einer präventiven Maßnahme im Rahmen einer randomisierten Studie evaluiert wer› Abschnitt 16.1.3). Bei diesem Studiendesign entscheidet alden (z lein der Zufall, ob ein Teilnehmer an einem Früherkennungspro› Beispiel 15.3). Reine Beobachtungsgramm teilnimmt oder nicht (z studien könnten zu unzulässigen Schlussfolgerungen führen. • Lead Time Bias. Bei Patienten mit nicht heilbaren Tumoren, die sich einem Screening-Test unterziehen, werden die Tumore eher entdeckt als bei anderen Patienten. Die Diagnose wird also vorverlegt. Die Überlebenszeit hat sich aufgrund des Screenings nicht verlängert, wohl aber die Zeit zwischen Diagnose und Tod. Dies darf aber in keinem Fall als Verlängerung der Lebenszeit interpretiert
292
Kapitel 15 · Studien zu Diagnostik und Prävention
werden. In Wirklichkeit hat das Screening eher geschadet, da dadurch ein Teil unbeschwerter Lebenszeit verloren gegangen ist. • Length Time Bias. Durch Screening-Untersuchungen werden vor allem langsam wachsende, wenig aggressive Tumore mit langer präklinischer Phase und guten Chancen auf Heilung aufgespürt. Aggressive Tumore mit schlechter Prognose werden dagegen häufig von den Patienten selbst entdeckt. Dies könnte zu der falschen Schlussfolgerung verleiten, die höhere Erfolgsrate bei den langsam wachsenden Tumoren sei dem Screening zu verdanken. • Bias durch Überdiagnose. Dies ist eine extreme Form des Length Time Bias. Er entsteht dadurch, dass Erkrankungen bekannt werden, die ohne Screening niemals diagnostiziert worden wären. Dieser Fall kann eintreten, wenn Karzinome erkannt werden, die zu Lebzeiten des Patienten gar nicht symptomatisch werden würden (weil der Patient vorher an einer anderen Ursache stirbt) oder wenn Tumore erfasst werden, die sich ohne Screening zurückbilden würden. Zusammenfassend ist festzuhalten: Der Nutzen eines Screenings ist abhängig von der Prävalenz und der Art der Erkrankung sowie von den zur Verfügung stehenden gesundheitsökonomischen Ressourcen. Darüber hinaus spielen Kriterien wie Sicherheit, Kosten, einfache Anwendung und Akzeptanz eine wichtige Rolle. Leider ist die Durchführung von randomisierten Studien, die den Nutzen belegen könnten, aus verschiedenen Gründen problematisch: Diese Studien müssten sehr viele Teilnehmer umfassen und etliche Jahre dauern, um verlässliche Ergebnisse zu erhalten. Nicht jeder Proband wird gerne den Zufall entscheiden lassen, ob er regelmäßig gescreent werden soll oder nicht. Da die Nützlichkeit eines Screenings von den meisten potentiellen Teilnehmern kaum in Zweifel gezogen wird, mag es schwierig sein, sie von der Notwendigkeit solcher Studien zu überzeugen.
15
16
Studien zu Therapie und Prognose 16.1
Therapiestudien 295
16.1.1 Einleitende Bemerkungen 295 16.1.2 Die Phasen einer Arzneimittelstudie 296 16.1.3 Randomisation 296 16.1.4 Verblindung 298 16.1.5 Vergleichsgruppen 300 16.1.6 Das Studienprotokoll 300 16.1.7 Protokollverletzungen 301 16.1.8 Die statistische Analyse 303 16.1.9 Studien zur Nicht-Unterlegenheit 304 16.1.10 Alternative Designs 304
16.2
Prognosestudien 306
16.2.1 Einleitende Bemerkungen 306 16.2.2 Die Beschreibung einer Prognose 307 16.2.3 Die Kaplan-Meier-Methode 307 16.2.4 Die Evaluierung prognostischer Faktoren 309
16.3
Evidenzbasierte Medizin 310
16.3.1 Grundlagen 310 16.3.2 Evidenzbasierte Fallberichte 311 16.3.3 Die Cochrane Collaboration 313 16.3.4 Die Zukunft der evidenzbasierten Medizin 314
295
16
16.1 Therapiestudien
16.1
Therapiestudien
16.1.1 Einleitende Bemerkungen Wenn bei einem Patienten eine Krankheit diagnostiziert wird, stellt sich fast immer die Frage nach einer wirksamen und sicheren Therapie. Dies ist eine Maßnahme, die den Gesundheitszustand des Patienten verbessern soll: ein Medikament, ein chirurgischer Eingriff oder eine Diät. Bei der Verordnung einer Therapie stützt sich der Arzt zumeist auf die Ergebnisse von Studien, in denen deren Nutzen nachgewiesen wurde. Manche Therapien wurden entwickelt aufgrund von theoretischen Überlegungen zu den Krankheitsmechanismen, andere Therapien basieren auf zufälligen Beobachtungen oder langjährigen Erfahrungen eines Arztes. In jedem Fall müssen die Wirksamkeit und die Sicherheit einer formalen Prüfung unterzogen und mittels einer Therapiestudie untersucht werden. Wenn eine neue Therapie an Menschen getestet wird, kann dies mit Risiken verbunden sein – insbesondere dann, wenn nicht genügend Erfahrungen über Wirkung und Nebenwirkungen vorliegen. Andererseits ist es nicht weniger problematisch, unter dem Deckmantel der Ethik Patienten Arzneimittel zukommen zu lassen, deren Wirksamkeit und Sicherheit nicht vorher untersucht worden sind. Die Voraussetzungen zur Durchführung einer Therapiestudie sind daher sehr streng und in mehreren Gesetzesvorlagen verankert, u. a. im Arzneimittelgesetz (AMG). In die neusten Fassungen des AMG sind die Leitlinien zur Durchführung von Therapiestudien nach der „Good Clinical Practice“ (GCP) mit aufgenommen worden. Damit müssen diese international anerkannten Qualitätsanforderungen bei der Durchführung von Therapiestudien zur Anwendung kommen. In jedem Fall muss eine Therapiestudie (egal ob es sich um ein Arzneimittel oder ein Medizinprodukt handelt) vor Beginn von einer Ethikkommission begutachtet werden. Studien, die eine Zulassung eines Arzneimittels beinhalten, müssen zudem der zuständigen Landesbehörde (Regierungspräsidium) und dem Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) gemeldet werden. Das Wohl der Patienten und der Probanden hat dabei immer Priorität. Der verantwortliche Arzt oder Versuchsleiter ist verpflichtet, jeden Teilnehmer über das Ziel der Studie aufzuklären und vor Studienbeginn dessen Einverständnis einzuholen. Niemand darf gegen seinen Willen gezwungen werden, an einer solchen Studie
296
Kapitel 16 · Studien zu Therapie und Prognose
teilzunehmen. Jeder Patient hat auch das Recht, nach Studienbeginn ohne Angabe von Gründen sein Einverständnis zurückzuziehen. 16.1.2 Die Phasen einer Arzneimittelstudie Bei der Entwicklung eines Arzneimittels sind mehrere Phasen zu durchlaufen:
ŷ Präklinische Phase. Im Tierversuch werden Hinweise auf den ŷ ŷ ŷ ŷ
Wirkmechanismus ermittelt und Informationen bezüglich Akutund Langzeittoxikologie erhoben. Phase I. Gesunde Probanden werden mit dem neuen Arzneimittel behandelt, um Fragen zur Pharmakokinetik, zur Verträglichkeit, zur Wirkung und zu Nebenwirkungen zu klären. Phase II. Danach wird das Arzneimittel an einzelnen Patienten eingesetzt. Ziel dieser Phase ist es, Informationen zur Wirksamkeit (u. a. von verschiedenen Dosierungen) und Nebenwirkungen bei kranken Personen zu erhalten. Phase III. In dieser Phase wird eine größere Patientengruppe, die die neue Therapie erhält, mit einer Kontrollgruppe verglichen. Wenn alle Phasen I bis III erfolgreich abgeschlossen sind, kann die Zulassung des Arzneimittels beantragt werden. Phase IV. Sie beginnt mit der Zulassung und besteht, solange die Therapie auf dem Markt ist. Sie dient der Dokumentation seltener Nebenwirkungen und der Abgrenzung der Indikation. Es ist die Aufgabe der Pharmakoepidemiologie, diese Nebenwirkungen zu erfassen und zu analysieren.
Die Phasen I und II werden als prospektive Beobachtungsstudien durchgeführt. Auch die Erkenntnisse, die in Phase IV gewonnen werden, basieren auf Beobachtungen. Bei der Phase III handelt es sich dagegen um eine klinisch kontrollierte Studie mit experimentellem Design (auch Interventionsstudie genannt). 16.1.3 Randomisation
16
Klinisch kontrollierte Studien sind quasi auf Patientenpopulationen beruhende Experimente, deren Ziel darin besteht, die Wirksamkeit oder die Sicherheit einer neuen Therapie durch einen direkten Vergleich (z. B. mit der bisherigen Standardtherapie oder einem Placebo) nachzuweisen. Diese Studien sind analytisch, longitudinal und prospektiv. Die zu vergleichenden Gruppen werden nach einem Zufallsverfahren gebildet, sodass ausschließlich der Zufall (z. B. ein
297
16
16.1 Therapiestudien
Zufallszahlengenerator) in jedem Einzelfall entscheidet, welcher Behandlungsgruppe der Patient zugewiesen wird. Dieses Verfahren bezeichnet man als Randomisation. Damit soll erreicht werden, dass die Gruppen strukturgleich sind – und zwar nicht nur bezüglich bekannter, sondern auch bezüglich unbekannter Einflussfaktoren. Hierin liegt ein wesentlicher Unterschied zu einer Kohortenstudie, bei der die Zuordnung zu einer Gruppe von bestimmten Eigenschaften des individuellen Patienten abhängig ist (z. B. ob er Raucher oder Nichtraucher ist) und nicht von einem Zufallsverfahren bei Studienbeginn. Die Randomisation bietet den Vorteil, dass ein Selektionsbias vermieden wird. Dieser könnte leicht entstehen, wenn Patienten durch den behandelnden Arzt bewusst oder unbewusst – etwa aufgrund ihrer Prognose – einer bestimmten Therapiegruppe zugeordnet werden würden. Darüber hinaus gewährleistet die Randomisation eine hohe interne Validität: Bei strukturgleichen Gruppen zu Beginn der Studie ist klar, dass Unterschiede zwischen den Gruppen, die am Ende der Studie nachgewiesen werden, tatsächlich durch die Therapien bedingt sind. Folgendes ist zu jedoch bedenken:
ŷ Randomisation führt nicht automatisch zu gleich großen Gruppen. Dies kann insbesondere bei kleinen Studien problematisch werden. ŷ Es ist keineswegs garantiert, dass die zu vergleichenden Gruppen bezüglich aller Einflussfaktoren strukturgleich sind. Es gibt einige Sonderformen, um dem entgegenwirken: • Blockbildung. Dabei werden die Patienten in kleine Blöcke einer fixen Größe eingeteilt – und zwar so, dass innerhalb jedes Blocks gleich viele Patienten auf die einzelnen Therapiegruppen verteilt sind. Wenn etwa die beiden Therapien A und B zu vergleichen sind, kann man mit 6er-Blöcken arbeiten, in denen jeweils 3 Patienten einer der beiden Therapien zugeordnet werden. Jeder Block wird vorab zufällig ausgewählt (z. B. BAABBA). Durch die Blockbildung erreicht man, dass die beiden Therapiegruppen am Ende der Studie den gleichen Umfang haben. Außerdem werden Zwischenauswertungen erleichtert. • Stratifizierung. Bei der stratifizierten Randomisation werden die Patienten zunächst in homogene Schichten (oder Strata) eingeteilt. Eine Schicht besteht aus Patienten, die sich bezüglich wichtiger Einflussfaktoren gleichen oder zumindest ähneln. Bei klinischen Studien ist es oft angebracht, Schichten nach der speziellen Diag-
298
Kapitel 16 · Studien zu Therapie und Prognose
nose, dem Alter oder dem Geschlecht zu bilden. Dann wird innerhalb jeder Schicht blockweise randomisiert. Dadurch erreicht man, dass die Therapiegruppen weitgehend homogen sind bezüglich der Merkmale, nach denen stratifiziert wurde. Es ist sinnvoll, die Datenanalyse für jede Schicht getrennt durchzuführen und danach zu vergleichen. Dieses Verfahren wird häufig bei multizentrischen Studien angewandt, wobei die Strata mit den einzelnen Zentren identisch sind. • Minimisation. Diese Methode eignet sich eher für kleine Studien. Die Zuweisung erfolgt nur beim ersten Patienten rein zufallsbedingt. Jeder nachfolgende Patient wird dann so zugeordnet, dass die Gruppen bestmöglich hinsichtlich vorab festgelegter Merkmale ausbalanciert werden. Um dem Zufall weiterhin eine Chance zu geben, wird hin und wieder die gewichtete Randomisation verwendet: Dabei wird jeder Patient mit einer vorab festgelegten Wahrscheinlichkeit (die größer ist als 0,5) der Gruppe mit der größten Imbalance zugeordnet. Details zu diesem Design findet man in [11]. Randomisierte Studien sind für wissenschaftliche Fragestellungen sehr wichtig und beobachtenden Studien überlegen. Nur dieser Studientypus ist geeignet, um die Frage nach kausalen Zusammenhängen zuverlässig zu beantworten. Englische Bezeichnungen für diesen Studientypus sind „randomized clinical trial“ oder auch „randomized controlled trial“ mit der Abkürzung RCT. i Die erste randomisierte, doppelblinde Studie wurde 1948 in England z durchgeführt. Dabei wurden die beiden Therapien „Streptomycin“ und „Bettruhe“ zur Behandlung der Lungentuberkulose miteinander verglichen. Diese Studie ist eng mit dem Namen des englischen Epidemiologen Sir Austin Bradford Hill (1897-1991) verbunden. Hill hatte die Randomisation als Basiselement des Therapievergleichs als erster erkannt.
16.1.4 Verblindung
16
Ein Arzt, der eine bestimmte Therapie favorisiert, hat eine Erwartungshaltung und könnte deshalb – wenn auch unbewusst – die Zielgrößen manipulieren, wenn er die Therapieform im Einzelfall kennt. Ebenso ist ein Patient in seiner Wertung möglicherweise beeinflusst, wenn er weiß, wie er therapiert wird. Um derartige Fehlerquellen zu vermeiden, sollte – wann immer dies möglich ist – die Studie verblindet werden. Idealerweise kennen weder der Patient noch der behandelnde Arzt die Therapie, die im Einzelfall verwendet wird. Ein solches Design heißt doppelblind.
299
16
16.1 Therapiestudien
Diese Vorgehensweise gewährt eine objektive und unvoreingenommene Beurteilung einer Therapie und trägt damit zur Beobachtungsgleichheit bei. Dies bedeutet: Jeder Patient wird in gleicher Weise behandelt und beobachtet (abgesehen von den unterschiedlichen Therapieformen). Gelegentlich wird eine Studie sogar dreifachblind durchgeführt. Dann hat auch die mit der Datenanalyse befasste Person keine Kenntnis bzgl. der einzelnen Therapieformen. Leider sind manche Studien schwer oder gar nicht doppelblind durchführbar – z. B. wenn ein chirurgischer Eingriff mit einer konservativen Therapie verglichen wird. Studien, bei denen nur der Arzt (aber nicht der Patient) die Therapieform kennt, heißen einfachblind. Einfachblind kann auch bedeuten, dass der Patient (aber nicht der Arzt) über die Behandlungsform informiert ist. Dieser Fall mag eintreten, wenn verschiedene Diäten verglichen werden. Eine Studie, bei der sowohl der behandelnde Arzt als auch die Patienten wissen, welche Therapieform angewandt wird, heißt offen. Der Versuchsleiter sollte sich bemühen, eine Therapiestudie doppelblind zu planen, wann immer dies realisierbar erscheint – auch wenn eine blinde Studie organisatorisch wesentlich schwieriger durchzuführen ist als eine offene Studie. Die so genannte DoubleDummy-Technik ermöglicht ein doppelblindes Design auch dann, wenn zwei Medikamente in unterschiedlicher Applikation (z. B. oral und subkutan) gegeben werden: Dann wird in jeder Gruppe eines der beiden Medikamente als Placebo verabreicht. Bei einer doppelblinden Studie muss sichergestellt sein, dass sich der behandelnde Arzt im Notfall umgehend über die spezielle Therapie eines Patienten informieren kann. Dafür wird ein versiegelter Notfallumschlag mit dem Namen des Patienten und Informationen über dessen Therapie bereitgelegt. Einschränkend muss hinzugefügt werden, dass eine vollständige Verblindung bis zum Ende der Studie nicht immer realisierbar ist. Häufig treten im Laufe einer Studie Therapieeffekte oder Nebenwirkungen auf, die beim Arzt oder beim Patienten zu einem Verdacht führen können. Dennoch sollten eine Verblindung und eine objektive Auswertung der erhobenen Daten angestrebt werden. Notfalls sollte wenigstens ein verblindeter Beobachter eingeschaltet werden, um den Therapieerfolg am Ende der Studie zu beurteilen.
300
Kapitel 16 · Studien zu Therapie und Prognose
16.1.5 Vergleichsgruppen Wenn sich nach einer therapeutischen Maßnahme der Zustand eines Patienten verbessert hat, ist dies nicht unbedingt allein auf den Einfluss der Therapie zurückzuführen. Auch unspezifische Effekte könnten dafür maßgebend sein: etwa der natürliche Krankheitsverlauf oder der Hawthorne-Effekt, der dadurch entsteht, dass sich die Patienten besser fühlen, wenn ihnen Aufmerksamkeit geschenkt wird. Nicht zuletzt kann der Placebo-Effekt wesentlich zur Verbesserung des Befindens beitragen. Der Nutzen einer Therapie kann daher nur im direkten Vergleich ermessen werden. Die Qualität einer Studie wird nicht zuletzt durch die Vergleichsgruppe bestimmt. Theoretisch sind denkbar:
ŷ Standardtherapie. Falls eine Standardtherapie bereits etabliert ist, sind andere Vergleichsgruppen wissenschaftlich und ethisch nicht vertretbar. ŷ Placebo. Ein Placebo (Scheinmedikament, das sich im Aussehen, Geschmack und Geruch nicht von der wirksamen Substanz unterscheidet) als Vergleich sollte nur dann verwendet werden, wenn dies ethisch zu vertreten ist und keine Standardtherapie zur Verfügung steht. ŷ Historische Kontrolle. Auf eine historische Kontrolle (also eine Gruppe, die in der Vergangenheit behandelt wurde) greift man zurück, wenn keine Standardtherapie existiert und ein Placebovergleich ethisch nicht zu rechtfertigen ist. Diese Vorgehensweise ist angebracht bei Krankheiten, die ohne Behandlung unweigerlich zum Tod oder zu einer dramatischen Verschlechterung des Zustands der betroffenen Patienten führen würden. Historische Kontrollen sind jedoch problematisch, vor allem dann, wenn sich auch andere Faktoren im Laufe der Zeit ändern (z. B. durch verfeinerte Diagnostik oder verbesserte Begleittherapien). Beobachtungsgleichheit ist dann nicht mehr gegeben. Historische Kontrollen tendieren dazu, den Wirkungseffekt der neuen Therapie zu überschätzen. 16.1.6 Das Studienprotokoll
16
Wegen der hohen Qualitätsansprüche und der strengen Voraussetzungen sollte ein ausführliches Studienprotokoll mit folgendem Inhalt angefertigt werden:
301
16
16.1 Therapiestudien
ŷ Name und Ziel der Studie ŷ Studiendesign (z. B. Angaben zu Randomisation und Verblindung sowie beteiligte Kliniken oder Institutionen)
ŷ Zeitplan (Beginn, Rekrutierungs- und Untersuchungszeitraum sowie geplantes Ende der Studie)
ŷ Behandlung. Die zu evaluierende Therapie und die Vergleichsŷ ŷ ŷ
ŷ ŷ ŷ ŷ
behandlung müssen vollständig beschrieben werden. Dazu zählen auch die Dauer und Dosierung der Anwendungen. Einschlusskriterien. Sie legen fest, unter welchen Voraussetzungen Patienten in die Studie aufgenommen werden. Es ist ferner wichtig, deren Einverständnis zur Teilnahme zu dokumentieren. Ausschlusskriterien. Sie beziehen sich auf Patienten, die zwar alle Einschlusskriterien erfüllen, aber dennoch von der Studie ausgeschlossen werden müssen (etwa weil ein erhöhtes Risiko besteht oder eine weitere Krankheit vorliegt). Abbruchkriterien. Sie geben an, unter welchen Bedingungen einzelne Patienten von der laufenden Studie ausgeschlossen werden oder die Studie vorzeitig abgebrochen wird. Dieser Fall könnte eintreten, wenn unerwartete, gravierende Nebenwirkungen beobachtet werden. Angaben zur Biometrie. Diese beinhalten die primären und sekundären Zielgrößen, die zu überprüfende Hypothese, Angaben zu den Stichproben, die statistischen Analysemethoden sowie die benötigte Anzahl von Patienten oder Probanden. Mögliche Mängel der Studie. Falls nicht alle Qualitätskriterien optimal erfüllt sind (z. B. Doppelblindheit), muss dies dokumentiert und begründet werden. Besondere Angaben (etwa Kostenträger oder Auftraggeber) Angaben zur ethischen und rechtlichen Basis. Dazu zählen die Stellungnahme der Ethikkommission sowie die Beschreibung, in welcher Weise die Patienten oder Probanden über die Studie informiert wurden und welche Versicherungen abgeschlossen werden.
Die Festlegung der Ein- und Ausschlusskriterien soll die interindividuelle Variabilität der Patienten verringern. Anhand dieser Kriterien lässt sich beurteilen, auf welchen Personenkreis die Ergebnisse der › externe Validität, Abschnitt 13.5.1). Studie übertragbar sind (z 16.1.7 Protokollverletzungen Die Randomisation wird durchgeführt, um strukturgleiche Gruppen zu erhalten. Idealerweise bleiben die Patienten bis zum Studienende
302
Kapitel 16 · Studien zu Therapie und Prognose
in der ihnen anfangs zugewiesenen Gruppe, werden wie vorgesehen therapiert und stehen bis zur letzten Untersuchung zur Verfügung. Die Realität sieht jedoch häufig anders aus. Es ist keineswegs sichergestellt, dass die Studie mit den anfangs erstellten, strukturgleichen Gruppen protokollgemäß zu Ende geführt werden kann. So kann es passieren, dass Patienten vorzeitig ausscheiden (Drop Outs). Dies ist nicht allzu problematisch, wenn deren Anzahl gering ist und der Grund dafür in keinem Zusammenhang mit dem interessierenden Endereignis steht. Ein weit größeres Problem ergibt sich, wenn Patienten ausscheiden oder die Therapiegruppe wechseln aus Gründen, die mit der anfangs zugeteilten Therapie assoziiert sind: Wegen vermeintlicher Wirkungslosigkeit, unangenehmer Nebenwirkungen oder auf Anraten ihres Arztes. Es wurden mehrere Analysemethoden entwickelt, um diese Protokollverletzungen zu handhaben:
ŷ Intention to Treat (ITT). Bei diesem Verfahren werden alle Patienten in die Analyse einbezogen, und zwar in der Gruppe, zu der sie anfangs randomisiert worden sind. Dies setzt voraus, dass auch die Studienabbrecher wenigstens zur Enduntersuchung erscheinen. ŷ As Treated (AT). Dieser Ansatz wertet die Patienten danach aus, welche Therapie sie – eventuell nach einem Wechsel – zuletzt erhalten haben. Studienabbrecher werden dabei nicht berücksichtigt. ŷ Per Protocol (PP). Dieses Prinzip verlangt, dass alle nicht protokollgemäß behandelten Patienten (also Abbrecher und Wechsler) von der Analyse ausgeschlossen werden.
16
Der Vorteil der ITT-Analyse besteht darin, dass die Strukturgleichheit der Gruppen bis zum Ende der Studie gewahrt bleibt. Nachteilig ist jedoch, dass Unterschiede zwischen den Therapien verwässert werden. Allerdings ist zu bedenken, dass sich normalerweise nicht alle Patienten an die Therapieempfehlungen halten, wodurch die durchschnittliche Wirksamkeit abgeschwächt wird. Insofern beschreibt die ITT-Analyse einen Effekt, der in der Praxis zu erwarten ist (im Englischen wird dies „effectiveness of treatment“ genannt). Mit den AT- und PP-Analysen treten Unterschiede zwischen den Gruppen deutlicher in Erscheinung. Diese Strategien beschreiben eher die biologische Wirksamkeit (englisch: clinical efficacy). Allerdings ist bei diesen Ansätzen die durch die Randomisation erzielte Strukturgleichheit am Ende der Studie nicht mehr gegeben. Es kann daher keineswegs geschlussfolgert werden, dass ein nachgewiesener Unterschied allein durch die Therapie bedingt ist.
303
16
16.1 Therapiestudien
Man sollte versuchen, durch sorgfältige Studienplanung Protokollverletzungen weitestgehend zu vermeiden. Es ist darüber hinaus empfehlenswert, während der Studie einen intensiven Kontakt zu den Patienten zu pflegen, um eine gute Compliance (Art, wie die Patienten den ärztlichen Anweisungen folgen) zu erzielen. 16.1.8 Die statistische Analyse Die Voraussetzungen für die statistische Analyse sind optimal, wenn strukturgleiche Gruppen vorliegen, die sich lediglich bezüglich der Therapie unterscheiden. Geeignete Analysemethoden sind abhängig von der Zielgröße. Bei einer quantitativen Zielgröße eignet sich eventuell ein t-Test für zwei unverbundene Stichproben bzw. eine einfaktorielle Varianzanalyse, wenn mehr als zwei Therapiegruppen vorliegen. Bei einer binären Zielgröße bietet sich ein Chi2-Test an; außerdem können die in Abschnitt 14.4.2 vorgestellten Effektmaße (NNT u. a.) bestimmt werden. Um den Einfluss weiterer Merkmale zu untersuchen und eventuell vorhandene Unterschiede zwischen den Gruppen auszugleichen (die auch nach der Randomisation auftreten könnten), eignet sich ein multiples Verfahren an (Allgemeines lineares Modell oder logistische Regression). Wenn eine Zeitdauer als Zielgröße untersucht wird (z. B. die Zeit zwischen Beginn der Therapie und Heilung), eignen sich die Kaplan-Meier-Methode und der Logranktest. Damit lassen sich mehrere Gruppen (z. B. unterschiedliche Therapieformen) miteinander vergleichen. Als multiple Methode bietet sich das Cox-Regressions› Abschnitte 16.2.3 und 16.2.4). modell an (z Bei klinisch kontrollierten Studien werden häufig Surrogatmerk› Abschnitt 2.4) untermale anstelle von klinischen Endzuständen (z sucht, um Studien schneller abschließen und publizieren zu können. Surrogatmerkmale werden hin und wieder auch dann verwendet, wenn die Analyse der primären klinischen Zielgröße den Erwartungen nicht gerecht wird. Der kritische Leser einer Publikation sollte sich fragen, ob die Verwendung eines Surrogatmerkmals gerechtfertigt ist und ob die Schlussfolgerungen statthaft sind. ! Wenn bei einer neuen Therapie mit schweren Nebenwirkungen zu rechz
nen ist, kann – analog zur NNT – die so genannte NNH (Number Needed to Harm) berechnet werden. Sie gibt an, wie viele Patienten zu behandeln sind, damit durchschnittlich einer aufgrund der neuen Therapie Schaden erleidet. Die NNT sollte möglichst gering, die NNH dagegen hoch sein.
304
Kapitel 16 · Studien zu Therapie und Prognose
16.1.9 Studien zur Nicht-Unterlegenheit Beim Vergleich zweier Therapien geht es nicht immer darum, einen signifikanten Unterschied nachzuweisen. Wenn beispielsweise bekannt ist, dass eine neue Therapie weniger Nebenwirkungen hat, einfacher zu applizieren oder preiswerter ist als eine Vergleichstherapie, oder dass eine bessere Compliance zu erwarten ist, muss nicht zusätzlich gefordert werden, dass sie auch in ihrer Wirksamkeit überlegen ist. Bei derlei Fragestellungen würde der Nachweis genügen, dass die neue Therapie mindestens genauso wirksam ist wie die Standardtherapie. Ein signifikantes Testergebnis wird demnach nicht unbedingt angestrebt. Es ist andererseits nicht statthaft, ein nicht-signifikantes Testergebnis dahingehend zu interpretieren, dass die zu vergleichenden Therapien äquivalent seien. Der Nicht-UnterlegenheitsNachweis basiert auf der Konstruktion eines Konfidenzintervalls für › Abschnitt 10.2.2). die Wirkungsdifferenz der beiden Therapien (z Man muss sich vorab überlegen, ab welcher Größe ein Unterschied als klinisch bedeutsam angesehen wird. Ausführliche Hinweise findet man in [11]. 16.1.10 Alternative Designs Randomisierte klinische Studien sind sehr aufwendig und unterliegen strengen Vorschriften. Sie sind zwar wegen der Strukturgleichheit der Gruppen intern valide; wegen der strengen Ein- und Ausschlusskriterien mangelt es ihnen aber häufig an externer Validität – das heißt, es ist mitunter problematisch, die Ergebnisse auf andere Patientengruppen zu übertragen. Ferner ist zu bedenken, dass die Randomisation nicht immer praktisch umsetzbar ist. Manche Patienten verweigern sie, weil sie wünschen, dass ihr Arzt über die Therapie entscheidet. Bei Notfallpatienten ist eine Randomisation (verbunden mit der Aufklärung und der Einwilligung des Patienten) nicht möglich. Aus diesen Gründen ist es sinnvoll, Alternativen zu diskutieren.
16
• Studien ohne direkte Vergleichsgruppe. Das denkbar einfachste Design, um die Wirkung einer Therapie zu überprüfen, besteht darin, einen einfachen Vorher-Nachher-Vergleich durchzuführen. Vereinzelt wird in Fallberichten oder Fallserien über zumeist erfolgreiche therapeutische Interventionen berichtet. Allerdings ist die Aussagekraft solcher Studien gering: Wegen der fehlenden Vergleichsgruppe kann schwer beurteilt werden, worauf eine Verbesse-
305
16
16.1 Therapiestudien
rung des Zustands zurückzuführen ist. Ersatzweise kann man eine historische Kontrolle oder eine Vergleichsgruppe aus der Literatur heranziehen. Diese Designs sind jedoch wegen der mangelhaften Beobachtungsgleichheit problematisch und sollten nur in begründeten Ausnahmefällen verwendet werden (etwa wenn ein direkter Vergleich aus ethischen Gründen nicht akzeptabel ist). • Retrospektive Studien. Falls die Daten für zwei Therapiegruppen bereits vorliegen, ist auch ein Vergleich denkbar, der retrospektiv durchgeführt wird. Allerdings ist anhand der Dokumentationen in der Regel nicht erkennbar, welche Beweggründe in die Therapieentscheidung des behandelnden Arztes eingeflossen sind. Deshalb sind die Ergebnisse dieser Studien mit Vorsicht zu bewerten. • Kohortenstudien. Sie sind im Vergleich zu randomisierten, doppelblinden Studien organisatorisch einfacher in der Planung und Durchführung. Falls neben der Therapie weitere Faktoren evaluiert werden, lassen sich diese Studien auch auffassen als Prognosestudien, bei denen die Therapie als ein potentieller Einflussfaktor analysiert wird. Bei diesen Studien entscheidet meist der behandelnde Arzt über die Therapie im Einzelfall. Dieses Vorgehen birgt jedoch die Gefahr eines Selektionsbias in sich (etwa wenn die Therapie eines Patienten vom Schweregrad der Krankheit abhängt). Mit einem multiplen Test lassen sich Unterschiede zwischen den Vergleichsgruppen ausbalancieren (allerdings nur für bekannte Einflussfaktoren). • Cross-Over-Design. Bei diesem Design wird jeder Patient mit zwei unterschiedlichen Therapien behandelt. Die Therapien können gleichzeitig (Blockversuche; z. B. bei paarigen Organen) oder zeitlich versetzt durchgeführt werden. Jeder Patient stellt also seine eigene Kontrolle dar. Idealerweise sollte die Zuordnung der Therapien randomisiert erfolgen. Wenn die Therapien nacheinander verabreicht werden, ist auf eine therapiefreie Übergangsphase zu achten, um Überhangeffekte zu vermeiden. Dieses Studiendesign erfordert statistische Auswertemethoden für verbundene Stichproben. Zur Analyse eines quantitativen Merkmals bietet sich der t-Test oder der › Abschnitte 11.1.2 Wilcoxon-Test für verbundene Stichproben an (z und 11.2.2); bei einem Alternativmerkmal eignet sich der McNemar› Abschnitt 12.2.5). Test (z Bei einer Cross-Over-Studie werden weit weniger Patienten als bei einer zweiarmigen Studie benötigt. Dieses Design ist allerdings ungeeignet bei progredienten Erkrankungen und bei Krankheiten,
306
Kapitel 16 · Studien zu Therapie und Prognose
bei denen eine der beiden Therapien zur Heilung oder zur nachhaltigen Besserung des Gesamtzustands führt. Anwendungsmöglichkeiten sind gegeben bei chronischen Krankheiten wie z. B. rheumatischen Erkrankungen oder bei chronischen Hauterkrankungen wie etwa Neurodermitis, wo lediglich eine Milderung der Symptome zu erwarten ist.
16.2
Prognosestudien
16.2.1 Einleitende Bemerkungen
16
Viele akute Krankheiten haben, vor allem wenn sie gut therapierbar sind, einen zeitlich begrenzten Verlauf. Chronische Krankheiten können hingegen das Leben eines Patienten nachhaltig beeinflussen (insbesondere wenn sie mit einer hohen Mortalität oder einer starken Beeinträchtigung der Lebensqualität einhergehen). In diesen Fällen ist es für den Patienten wichtig, Informationen bezüglich seiner Prognose zu erhalten. Der Begriff klinischer Verlauf bezeichnet die Prognose, wenn eine adäquate Behandlung erfolgt. Dagegen versteht man unter dem natürlichen Verlauf die Prognose ohne medizinische Intervention. Prognosestudien werden in Angriff genommen, um einerseits eine Prognose über eine geeignete Maßzahl quantifizieren zu können und andererseits, um Prognosefaktoren zu finden, die den Verlauf einer Krankheit beeinflussen. Bei Kenntnis wichtiger Prognosefaktoren ist es eventuell möglich, Vorhersagen im Einzelfall zu treffen. Es ist üblich, derlei Studien als Kohortenstudien durchzuführen. Dabei wird eine Gruppe von Personen, die an einer bestimmten Krankheit leiden, prospektiv beobachtet, und zwar solange, bis ein definiertes Endereignis eintritt. Dies kann der Tod des Patienten sein; es kann sich jedoch auch um ein anderes, für den Patienten wichtiges Ereignis handeln. Bei Studien in der Onkologie wird beispielsweise häufig die Zeit bis zum Auftreten eines Rezidivs oder bis zum Eintreten einer Remission analysiert. Hin und wieder werden auch zusammengesetzte Endpunkte untersucht (z. B. Tod oder Auftreten eines Rezidivs). Der Startzeitpunkt, ab dem ein Patient beobachtet wird, muss ebenfalls klar definiert sein (etwa der Zeitpunkt der Diagnose oder des Behandlungsbeginns).
307
16
16.2 Prognosestudien
16.2.2 Die Beschreibung einer Prognose Häufig wird die Prognose mittels einer Rate ausgedrückt, wie etwa der 5-Jahres-Überlebensrate, der Letalität, der Mortalität, der Remissions- oder der Rezidivrate. Eine andere Form der Darstellung ist die mediane Überlebenszeit, die die Zeitspanne angibt, die die Hälfte der Kohorte überlebt. Sie hat den Vorteil, dass sie – im Gegensatz zur mittleren Überlebenszeit – bereits dann berechnet werden kann, nachdem die Hälfte der Studienteilnehmer verstorben ist. All diese Maßzahlen sind leicht einprägsam. Andererseits sind sie wenig informativ. So ist beispielsweise aus der 5-Jahres-Überlebensrate nicht ersichtlich, wie groß die Wahrscheinlichkeit ist, eine andere Zeitspanne zu überleben. Detaillierte Analysemethoden werden in den folgenden Abschnitten vorgestellt. 16.2.3 Die Kaplan-Meier-Methode Um das Überleben einer Kohorte für jeden Zeitpunkt bis zum Ende der Studie zu beschreiben, müsste man die Kohorte solange beobachten, bis der letzte Patient verstorben ist. Dies ist in den meisten Fällen aber nicht möglich, da man bei derlei Studien mit Studienabbrechern (Drop Outs) rechnen muss. Außerdem ist anzunehmen, dass zum Zeitpunkt der Datenanalyse nicht bei jedem Patienten das › zensierte Daten, Abschnitt 2.4). Es Endereignis eingetreten ist (z würde das Studienergebnis verzerren, wenn alle Patienten mit zensierten Zeiten bei der Analyse nicht berücksichtigt werden würden Zwei Biostatistiker – Edward M. Kaplan und Paul Meier – haben im Jahre 1958 die nach ihnen benannte Kaplan-Meier-Methode entwickelt, welche die Informationen aller Patienten (also auch die unvollständigen Angaben) so weit wie möglich berücksichtigt. Diese Methode wird häufig bei Überlebenszeitanalysen angewandt. Der Begriff „Überlebenszeitanalyse“ wird dabei ganz allgemein verwendet, um die Zeit zwischen einem definierten Anfangs- und einem bestimmten Endereignis zu untersuchen. Die Kaplan-Meier-Methode lässt sich wie folgt beschreiben:
ŷ Die Studie startet mit n Patienten. Diese Anzahl reduziert sich im Laufe der Zeit, da Patienten ausscheiden (weil das kritische Endereignis eintritt oder auch aus anderen Gründen). ŷ Die Zeiten, zu denen Endereignisse stattfinden, werden ermittelt und mit t1 < t 2 < ... < t k bezeichnet. Die Anzahl der Patienten, die zu diesen Zeitpunkten ausscheiden, sei d1 , d 2 etc.
308
Kapitel 16 · Studien zu Therapie und Prognose
ŷ Die Anzahl der Patienten, die unmittelbar vor einem Zeitpunkt ti noch in der Studie involviert sind, sei ni .
ŷ Die Überlebensfunktionen S (ti ) = P(t > ti ) werden für jeden Zeitpunkt ti ( i = 1,..., k ) geschätzt nach: n − di n − d n − d2 Sˆ (ti ) = 1 1 ⋅ 2 ⋅ ... ⋅ i n1 n2 ni
(16.1)
Wenn es keine zensierten Daten gibt, ist ni +1 = ni − d i . Dann lässt sich der Bruch in (16.1) kürzen und man erhält Sˆ (ti ) = ni +1 / n (mit n = n1 ). Dies ist also die Zahl derer, die den Zeitpunkt ti überlebt haben, im Verhältnis zu der Gesamtzahl der Patienten, die zu Beginn an der Studie teilnehmen. In dieser Form ist die Schätzung einfach und unmittelbar einleuchtend. Beispiel 16.1 Nach einer Organtransplantation wurden bei 10 Patienten die Überlebenszeiten in Tagen ermittelt. Nach 160 Tagen wurde die Studie beendet. Bei 7 Patienten konnte der Zeitpunkt des Endereignisses ermittelt werden (nach 20, 35, 62, 91, 91, 128 und 148 Tagen). Ein Patient brach nach 98 Tagen die Studie ab; zwei Patienten lebten am Ende der Studie noch. Mit diesen Angaben erhält man (unter Berücksichtigung des zensierten Wertes nach 98 Tagen) folgende Schätzwerte für S (ti ) :
16
Sˆ (ti )
Zeiten
ni
di
ni − d i
t1 = 20
10
1
9
9 / 10 = 0,9
t2 = 35
9
1
8
0,9 ⋅ 8 / 9 = 0,8
t3 = 62
8
1
7
0,8 ⋅ 7 / 8 = 0,7
t4 = 91
7
2
5
0,7 ⋅ 5 / 7 = 0,5
t5 = 128
4
1
3
0,5 ⋅ 3 / 4 = 0,375
t6 = 148
3
1
2
0,375 ⋅ 2 / 3 = 0,25
Wenn – wie in Beispiel 16.1 – bei einigen Patienten das Endereignis am Ende der Studie noch nicht eingetreten ist, kann die Überlebensfunktion nur bis zum Zeitpunkt der letzten zensierten Beobachtung geschätzt werden. Die graphische Darstellung der Wahrscheinlichkeiten S (ti ) in Abhängigkeit der Zeitpunkte ti ergibt die › Abbildung 16.1). Es leuchtet ein, dass die Überlebenskurve (z Schätzung nach Formel (16.1) mit wachsendem t schlechter wird, da zu jedem neuen Beobachtungszeitpunkt ti weniger Patienten zur Verfügung stehen.
16
309
Abb. 16.1 empirische Überlebenskurve (Beispiel 16.1). Zensierte Daten sind durch einen Punkt dargestellt.
Überlebenswahrscheinlichkeit
16.2 Prognosestudien
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
* ** 0
20
40 60 80 100 120 140 160 Überlebenszeit in Tagen
Mathematische Herleitung der Überlebenszeiten Unmittelbar vor dem Zeitpunkt t1 stehen n1 Beobachtungseinheiten zur Verfügung, zum Zeitpunkt t1 sterben d1 Patienten. Die Wahrscheinlichkeit, t1 zu überleben, wird geschätzt als: n −d Sˆ (t1 ) = 1 1 n1 Die Wahrscheinlichkeit, den Zeitpunkt t2 zu überleben, ist nach (6.9): S (t2 ) = P(t > t2 ) = P (t > t1 ) ⋅ P (t > t2 | t > t1 )
Der erste Faktor wird geschätzt über Sˆ (t1 ) (siehe oben); den zweiten schätzt n − d n − d2 man analog. So ergibt sich: Sˆ (t 2 ) = 1 1 ⋅ 2 . n1 n2
Durch sukzessives Wiederholen erhält man schließlich die Formel (16.1).
16.2.4 Die Evaluierung prognostischer Faktoren In den vorangegangenen Abschnitten wurde beschrieben, wie eine › einzelne Kohorte untersucht werden kann. Mit dem Logranktest (z Abschnitt 12.2.7) können zwei oder mehrere Gruppen, die sich bezüglich einer Einflussgröße (z. B. der Therapieform oder des Krankheitsstadiums) unterscheiden, verglichen werden. Dieser Test ist geeignet, um Unterschiede zwischen den Überlebenskurven zu erkennen. Ein signifikanter Unterschied weist darauf hin, dass die Gruppierungsvariable prognostisch relevant sein könnte. Im Jahre 1972 wurde von dem britischen Statistiker David Cox (geboren 1924) eine multiple Methode vorgestellt, die es ermöglicht, eine Kombination von prognostischen Faktoren ausfindig zu machen, die den Endzustand eines Patienten in optimaler Weise vorhersagt. Mit diesem Cox-Proportional-Hazards-Modell wird die in
310
Kapitel 16 · Studien zu Therapie und Prognose
Formel (8.29) definierte Hazard-Rate in Abhängigkeit von einer oder mehreren Einflussgrößen als Hazard-Funktion modelliert. Dies entspricht der momentanen Sterberate. Für zwei Patienten oder Populationen kann dann der Quotient der jeweiligen Hazard-Funktionen bestimmt werden. Diese so genannte Hazard-Ratio ist ein Maß für das relative Risiko. Die Hazard-Ratio kann für jeden Zeitpunkt berechnet werden und ermöglicht dadurch – im Gegensatz zu einfachen Maßzahlen wie der 5-Jahres-Überlebensrate – Prognosen für jeden einzelnen Zeitpunkt. Die Kaplan-Meier-Methode und das Cox-Regressionsmodell ermöglichen Überlebenszeitanalysen auch dann, wenn zensierte Daten vorliegen. Bei der Planung einer Überlebenszeitstudie ist generell zu beachten:
ŷ Anfang und Ende des Beobachtungszeitraums sollten möglichst exakt definiert sein.
ŷ Bei der Planung des Stichprobenumfangs muss einkalkuliert werden, dass einige Daten möglicherweise zensiert werden.
ŷ Die Beobachtungszeit sollte ausreichend lang bemessen sein, damit bei möglichst vielen Patienten das interessierende Endereignis eintritt. ŷ Wenn Patienten vorzeitig aus der Studie ausscheiden, sollten die Gründe dafür in keinem Zusammenhang mit der Prognose stehen. Ansonsten könnten die Drop Outs zu fehlerhaften Schlussfolgerungen führen. i Für weitere Informationen bezüglich der Analyse von Ereigniszeiten sei z auf [6] und [11] verwiesen.
16.3
Evidenzbasierte Medizin
16.3.1 Grundlagen
16
Warum gehört ein Abschnitt zu Evidenzbasierter Medizin (EBM) in ein Lehrbuch für Biomathematik und Epidemiologie? EBM ist mit den Methoden der Klinischen Epidemiologie und der Biomathematik eng verbunden. Ohne Kenntnisse dieser Methoden können wissenschaftliche Arbeiten nicht kritisch interpretiert werden – und diese Evaluierung stellt eine Grundlage der EBM dar. Evidenzbasierte Medizin (Evidence Based Medicine) ist eine Medizin, die sich nicht nur an Intuition, unsystematischen individuellen Erfahrungen eines Arztes (auch nicht eines Chefarztes) oder im
311
16
16.3 Evidenzbasierte Medizin
besten Fall an veralteten Lehrbüchern orientiert, sondern versucht, ärztliche Entscheidungen auf wissenschaftliche und objektive Belege (und so ist das englische Wort „evidence“ zu verstehen) zu gründen. Nach dem britischen Epidemiologen David Sackett (geboren 1934) ist EBM der gewissenhafte, ausdrückliche und vernünftige Gebrauch der gegenwärtig besten externen, wissenschaftlichen Evidenz in der medizinischen Versorgung individueller Patienten. Systematische Übersichtsarbeiten mit Metaanalysen und einzelne randomisierte, klinische Therapiestudien sind die Basis für eine solche Vorgehensweise, und es erscheint sinnvoll, dass ein Arzt bei der Patientenbehandlung sich an den Ergebnissen aller ihm zur Verfügung stehenden, relevanten Studien von guter Qualität orientiert. Dies hört sich selbstverständlich an, ist aber in der Realität nicht einfach umzusetzen. Die Ergebnisse aus der medizinischen Forschung und die daraus hervorgehenden Publikationen vermehren sich rasant. In der knapp bemessenen Lesezeit ist dies von einem einzelnen Arzt nicht mehr zu bewältigen. EBM bietet durch ein strukturiertes Vorgehen Hilfe bei der ärztlichen Entscheidungsfin› Abschnitt 16.3.3). Dabei muss der behandelnde Arzt nicht dung (z in jedem Einzelfall die Originalliteratur analysieren. Häufig kann er mittlerweile auf gute Sekundärliteratur zurückgreifen, in der Kollegen die gesamte, verfügbare Literatur zu einer bestimmten Fragestellung (z. B. „Wie behandle ich die Psoriasis am besten?“) nach den Gesichtspunkten der EBM gesichtet und analysiert haben. Darüber hinaus stellt die evidenzbasierte Bewertung medizinischer Literatur einen wichtigen Beitrag zur Qualitätsverbesserung und Qualitätssicherung in der Klinik und in der Gesundheitsversorgung dar. Aus diesen Gründen hat die EBM in den letzten Jahren an Bedeutung gewonnen und findet sowohl in der klinischen Praxis als auch im Bereich der Leitlinienentwicklung zunehmend Einzug. Leitlinien der höchsten Stufe (S3) setzen eine nach evidenzbasierten Gesichtspunkten durchgeführte Evaluation der Literatur voraus (http://www.awmf-online.de/). 16.3.2 Evidenzbasierte Fallberichte EBM fokusiert sich auf den individuellen Patienten, für den es gilt, die bestmögliche Diagnostik bzw. Therapie auszuwählen. Aufbauend auf dem Konzept von David Sackett erfolgt ein mehrstufiges Vorgehen. An erster Stelle steht die Formulierung einer klinischen Fragestellung. Die weiteren Schritte geben den weitgehend standardisierten Prozess der Entscheidungsfindung an. Diese basiert auf der kri-
312
Kapitel 16 · Studien zu Therapie und Prognose
tischen Bewertung der gefunden Literatur; dabei werden die Ressourcen der Cochrane Collaboration, jedoch auch anderer medizinischer Datenbanken genutzt. Am Schluss steht die Überprüfung der getroffenen Entscheidung. Dies soll an einem Beispiel verdeutlicht werden: Ein Patient, der unter verstärktem Schwitzen im Bereich der Achseln leidet (Hyperhidrose), stellt sich in der Praxis eines Dermatologen vor. Damit ergibt sich die Fragestellung: Wie kann dieser Patient am wirksamsten und nebenwirkungsärmsten behandelt werden? Ein Arzt, der diese Entscheidung nur auf seinen eigenen, individuellen Erfahrungen aufbaut, wird dem Patienten eine Therapie empfehlen, die er selbst schon mehrfach erfolgreich angewandt hat, ohne über Alternativen nachzudenken. Ein Arzt aus einer operativen Klinik wird dem Patienten eher eine operative Therapie (z. B. Schweißdrüsenexzision) empfehlen als ein Arzt, der in einer eher konservativ orientierten Klinik tätig ist. Ein Arzt, der hingegen versucht, eine evidenzbasierte Therapieentscheidung zu treffen, wird vor seiner Entscheidung auf eine systematische Übersichtsarbeit zur Behandlung des verstärkten Schwitzens zurückgreifen wollen. Falls eine solche Arbeit nicht existiert, muss Originalliteratur herangezogen werden. In erster Linie wird man sich dabei auf randomisierte klinische Studien stützen, die man z. B. der Cochrane- oder der Medline-Datenbank entnehmen kann. Tabelle 16.1 Struktur eines evidenzbasierten Fallberichtes
16
1.
Fragestellung
Wie behandle ich diesen Patienten am besten (Ziel der Aktion, sinnvolle Handlungsoption und Alternativen)?
2.
Suchstrategie (Literaturrecherche)
Welche Datenbanken durchsuche ich? Welche Suchbegriffe verwende ich? Wie kombiniere ich diese Suchbegriffe?
3.
Kritische Evaluierung der Wie gut sind diese Grundlagen gefundenen Arbeiten (interne Validität, klinische Relevanz?
4.
Therapieentscheidung
Basierend auf individueller Erfahrung des Arztes (interne Evidenz) und aktueller Literatur (externe Evidenz) in Anbetracht der Anwendung im konkreten Fall
5.
Begründung und Diskussion
War die Entscheidung richtig? Welche Konsequenzen ergeben sich daraus?
313
16
16.3 Evidenzbasierte Medizin
Die Therapieentscheidung bei einem individuellen Patienten wird sich auf die Ergebnisse dieser Literaturrecherche stützen, jedoch auch individuelle Faktoren in Betracht ziehen. Man wird etwa eine Therapie, die anfangs dreimal pro Woche in der Klinik durchgeführt werden muss (wie die Iontophoresebehandlung bei Hyperhidrose), keinem Patienten anbieten, der 100 km entfernt wohnt. Am Ende steht dann die Reflexion des behandelnden Arztes, ob er die Therapieentscheidung basierend auf EBM-Kriterien gefällt hat, oder ob er sich von anderen Faktoren hat beeinflussen lassen. 16.3.3 Die Cochrane Collaboration Die Cochrane Collaboration (CC, http://www.cochrane.de) hilft, dem Arzt die bestmögliche Evidenz für eine Therapieentscheidung zur Verfügung zu stellen. Die CC ist eine internationale Organisation, deren Ziel die Erstellung, Verbreitung und regelmäßige Aktualisierung systematischer Übersichtsarbeiten zu diagnostischen und therapeutischen Fragestellungen ist. Systematische Übersichtsarbeiten, die nach den Kriterien der CC erstellt werden, werden im Gegensatz zu den klassischen Übersichtsarbeiten, die u. a. durch individuelle Erfahrungen und Netzwerke geprägt sind, strukturiert erstellt. Ziel der Strukturierung durch Richtlinien und Kontrollinstanzen ist es, die Ergebnisse der Übersichtsarbeit so objektiv und so nachvollziehbar wie möglich zu gestalten. Sind genügend vergleichbare Arbeiten zu einer Fragestellung vorhanden, steht am Ende eine Metaanalyse. Dies ist eine besondere Form der statistischen Auswertung, die vergleichbare Arbeiten zusammenfasst. Die Anzahl der von der CC erstellten systematischen Übersichtsarbeiten wächst zunehmend. › Im Logo der CC ist eine Metaanalyse grafisch dargestellt (z Abbildung 16.2). Die kleine Raute im linken, unteren Teil des Kreises zeigt die gemeinsame Schätzung resultierend aus der Synthese aller vergleichbaren Studien zu einem bestimmten Thema, die in der Metaanalyse berücksichtigt werden. Die Arbeiten der Cochrane Collaboration bedeuten im Kontext der EBM einen wichtigen Beitrag, um fundierte, wissenschaftlich hochwertige Antworten zu Fragen aus der klinischen Praxis mit hoher Validität und minimaler Verzerrung (Bias) zu erhalten.
314
Kapitel 16 · Studien zu Therapie und Prognose
16.3.4 Die Zukunft der evidenzbasierten Medizin Evidenzbasierte Medizin wird in naher Zukunft nicht mehr wegzudenken sein. Sie wird gefördert durch das Bestreben nach Qualitätssicherung und die Notwendigkeit der Verwaltung eingeschränkter Ressourcen. Sie erfordert klinisch interessierte Mediziner, die sich nicht scheuen, kritische Fragen zu stellen und an alten und neuen Dogmen (z. B. „Schokolade verschlechtert eine Akne“ oder „Kartoffel-Reis-Diät hilft bei einer physikalischen Urtikaria“) zu rütteln und auch ihre Zeit opfern, um diese Fragen zu beantworten. Durch die Identifikation von Forschungsdefiziten werden neue Fragen auftauchen, die in sorgfältig geplanten, analytischen epidemiologischen Studien überprüft werden müssen. Die EBM soll den Arzt bei seinen Entscheidungen unterstützen. Nach Sackett ist sie zu verstehen als eine Kunst, bei der Behandlung eines individuellen Patienten die richtigen Fragen zu stellen und diese durch eine strukturierte Zusammenfassung der neuesten Erkenntnisse aus der medizinischen Forschung zu beantworten. Jedoch sollten immer bei der Umsetzung die eigene klinische Erfahrung des Arztes wie auch das Patientenverständnis mit berücksichtigt werden. Wenn z. B. der Arzt die Krankheit nicht richtig diagnostiziert, hilft die beste Literaturrecherche nicht weiter. Wenn der Arzt eine Therapieentscheidung fällt, die nicht zum Verständnis des Patienten von seiner Krankheit passt, wird diese Entscheidung vom Patienten nicht akzeptiert werden und wegen mangelnder Compliance nicht zum gewünschten Erfolg führen. Zusammenfassend lässt sich schlussfolgern, dass die ärztliche Entscheidungsfindung auf drei Säulen beruht:
ŷ Auf dem erworbenen Wissen und der klinischen Erfahrung des behandelnden Arztes (interne Evidenz);
ŷ auf den Bedürfnissen des Patienten; ŷ auf dem aktuellen Stand der Forschung (externe Evidenz). i Als Einführung in die Methoden der EBM sei [8] empfohlen. z
16
Abb. 16.2 Logo der Cochrane Collaboration
Anhang
Anhang Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung 317 Tabelle B: Quantile der t-Verteilung 318 Tabelle C: Kritische Werte für den Wilcoxon-Test 319 Tabelle D: Kritische Werte für den U-Test 320 Tabelle E: Quantile der Chi2-Verteilung 322 Tabelle F: Kritische Werte für den VorzeichenTest 323
Glossar Englisch - Deutsch 324 Abkürzungen – Abbreviations 327 Weiterführende Literatur 328
Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung
Anhang
317
Tabelle A: Dichte- und Verteilungsfunktion der Standardnormalverteilung z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,674 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5
Es gilt: Beispiel:
ϕ (z ) 0,399 0,397 0,391 0,381 0,368 0,352 0,333 0,318 0,312 0,290 0,266 0,242 0,218 0,194 0,171 0,150 0,129
Φ (z ) 0,50 0,540 0,579 0,618 0,655 0,691 0,726 0,75 0,758 0,788 0,816 0,841 0,864 0,885 0,903 0,919 0,933
z 1,6 1,645 1,7 1,8 1,9 1,96 2,0 2,1 2,2 2,3 2,4 2,5 2,58 2,7 2,8 2,9 3,0
ϕ (z ) 0,111 0,103 0,094 0,079 0,066 0,058 0,054 0,044 0,035 0,028 0,022 0,018 0,014 0,010 0,008 0,006 0,004
ϕ( z ) = ϕ(− z ) und Φ ( z ) = 1 − Φ (− z ) ϕ(1) = ϕ( −1) = 0,242 Φ (1,0) = 0,841 Φ (−1,0) = 1 − 0,841 = 0,159
Φ (z ) 0,945 0,95 0,955 0,964 0,971 0,975 0,977 0,982 0,986 0,989 0,992 0,994 0,995 0,9965 0,9974 0,9981 0,9987
318
Anhang · Tabelle B:
Quantile der t-Verteilung
Tabelle B: Quantile der t-Verteilung f 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
t f ;0,90
t f ;0,95
t f ;0,975
t f ;0,99
t f ;0,995
3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,299 1,296 1,294 1,292 1,291 1,290
6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,76l 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,676 1,671 1,667 1,664 1,662 1,660
12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,009 2,000 1,994 1,990 1,987 l,984
31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,403 2,390 2,381 2,374 2,368 2,364
63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,648 2,639 2,632 2,626
f = Anzahl der Freiheitsgrade
Tabelle C: Kritische Werte für den WilcoxonTest
319
Anhang
Tabelle C: Kritische Werte für den Wilcoxon-Test n 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 n
Irrtumswahrscheinlichkeit α bei 2-seitiger Fragestellung 0,10 0 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 67 75 83 91 100 110 119 130 140 151 0,05
0,05 − 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137 0,025
0,02 − − 0 1 3 5 7 9 12 15 19 23 27 32 37 43 49 55 62 69 76 84 92 101 110 120 0,01
0,01 − − − 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109 0,005
Irrtumswahrscheinlichkeit α bei 1-seitiger Fragestellung
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich dem kritischen Wert oder kleiner als dieser ist.
320
Anhang · Tabelle D:
Tabelle D: 1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
0 0
Kritische Werte für den U-Test
Kritische Werte für den U-Test (2-seitige Fragestellung, α = 0,05 ) 2
3
0 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7
0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13 14 14 15 15 16 16 17 17 18 18
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23 24 24 25 26 27 28 29 30 31 31
5
6
7
8
9
10
2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33 34 35 37 38 39 40 41 43 44 45
5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43 45 46 48 50 51 53 55 56 58 59
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74
13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65 67 69 72 74 77 79 81 84 86 89
17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76 78 81 84 87 89 92 95 98 101 103
23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87 90 93 96 99 103 106 109 112 115 119
Die Zahlen in der Vorspalte und der Kopfzeile bezeichnen die Umfänge der beiden Stichproben.
Anhang
321 Tabelle D: Kritische Werte für den U-Test
Tabelle D:
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Kritische Werte für den U-Test (2-seitige Fragestellung, α = 0,05 )
11
12
13
14
15
16
17
18
19
20
30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98 101 105 108 112 116 119 123 127 130 134
37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 133 137 141 145 149
45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120 125 129 133 138 142 147 151 156 160 165
55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131 136 141 146 151 156 161 165 170 175 180
64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143 148 153 159 164 169 174 180 185 190 196
75 81 86 92 98 103 109 115 120 126 132 137 143 149 154 160 166 171 177 183 188 194 200 206 211
87 93 99 105 111 117 123 129 135 141 147 154 160 166 172 178 184 190 196 202 209 215 221 227
99 106 112 119 125 132 138 145 151 158 164 171 177 184 190 197 203 210 216 223 230 236 243
113 119 126 133 140 147 154 161 168 175 182 189 196 203 210 217 224 231 238 245 252 258
127 134 141 149 156 163 171 178 186 193 200 208 215 222 230 237 245 252 259 267 274
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße gleich dem kritischen Wert oder kleiner als dieser ist.
322
Anhang · Tabelle E:
Quantile der Chi2-Verteilung
Tabelle E: Quantile der Chi2-Verteilung f
χ 2f ;0,90
χ 2f ;0,95
χ 2f ;0,975
χ 2f ;0,99
χ 2f ;0,995
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498
3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,759 67,505 79,082 90,531 101,879 113,145 124,342
5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,647 41,923 43,194 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561
6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 45,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807
7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,719 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 52,336 53,672 66,766 79,490 91,952 104,215 116,321 128,299 140,169
f = Anzahl der Freiheitsgrade
Anhang
323
Tabelle F: Kritische Werte für den VorzeichenTest
Tabelle F: Kritische Werte für den Vorzeichen-Test n
Irrtumswahrscheinlichkeit α bei 2-seitiger Fragestellung 0,05
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
n
1 1 1 2 2 2 3 3 3 4 4 5 5 5 6 6 6 7 7 8 8 8 9 9 10
5 6 7 7 8 9 9 10 11 11 12 12 13 14 14 15 16 16 17 17 18 19 19 20 20 0,025
0,02 0 1 1 1 1 2 2 2 3 3 3 4 4 5 5 5 6 6 6 7 7 8 8 8 9
0,01 6 6 7 8 9 9 10 11 11 12 13 13 14 14 15 16 16 17 18 18 19 19 20 21 21
0,01
0 0 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 7 7 7 8 8
6 7 7 8 9 10 10 11 12 12 13 14 14 15 16 16 17 18 18 19 19 20 21 21 22 0,005
Irrtumswahrscheinlichkeit α bei 1-seitiger Fragestellung
Die Nullhypothese wird abgelehnt, wenn die Prüfgröße außerhalb der angegebenen Schranken liegt.
324
Anhang · Glossar Englisch - Deutsch
Glossar Englisch - Deutsch 2 by 2 table 2-tailed (2-sided) hypothesis accuracy adjusted alternative hypothesis analysis of variance arbitrary attributable risk average bar chart bias bimodal biostatistics carry over effect case control study case report case report form case series censored data coefficient of determination coefficient of variation characteristic cohort study compliance composite endpoint conditional probability confidence interval confounder contingency table correlation coefficient cross over cross-over-design cumulative frequency curvilinear regression cutoff point / value degree of freedom density function dependent variable distribution drop out effectiveness (of treatment) (clinical) efficacy
Vierfeldertafel 2-seitige Fragestellung Genauigkeit, Richtigkeit adjustiert Alternativhypothese Varianzanalyse willkürlich zuschreibbares Risiko Durchschnitt Balken-, Stabdiagramm systematischer Fehler zweigipfelig Biostatistik nachhaltige Wirkung einer Therapie Fall-Kontroll-Studie Fallbericht Patientenerhebungsbogen Fallserien zensierte Daten Bestimmtheitsmaß Variationskoeffizient Merkmal Kohortenstudie Akzeptanz der Behandlung kombinierter Endpunkt bedingte Wahrscheinlichkeit Konfidenzintervall verzerrende Störgröße Kontingenztafel Korrelationskoeffizient Therapiewechsler Überkreuzungsstudie Summenhäufigkeit nichtlineare Regression Schwellenwert Freiheitsgrad Dichtefunktion abhängige Variable Verteilung Abbrecher, Ausfall Wirkung einer Behandlungsstrategie (biologische) Wirksamkeit
325 Glossar Englisch - Deutsch
eligible endpoint estimator event evidence evidence based case report experimental study false positive / negative follow up follow up study frequency Gaussian distribution general linear model goodness (of fit) Hazard rate incidence independent variable inferential statistics informed consent insignificant intercept interquartile range least-square-method level of significance life table life table analysis longitudinal study (individual) matching mean median follow up period mode mortality rate noising factor non-inferiority null hypothesis observation observational study odds ratio origin outcome outlier p-value pie chart population
die Einschlusskriterien erfüllend Zielgröße Schätzer Ereignis Nachweis, Beleg EBM-basierte Fallbericht Experiment falsch positiv / negativ Nachbeobachtungszeit Verlaufsuntersuchung Häufigkeit Normalverteilung allgemeines lineares Modell Güte (der Anpassung) Ausfallrate Inzidenz unabhängige Variable Inferenzstatistik Einverständniserklärung nicht signifikant Achsenabschnitt, Basiswert Interquartilsabstand Methode der kleinsten Quadrate Signifikanzniveau Sterbetafel Überlebenszeitanalyse longitudinale Studie (paarweise) Zuordnung Mittelwert, Erwartungswert mediane Nachuntersuchungszeit Modalwert, Modus Mortalität, Sterblichkeit(srate) unverzerrende Störgröße Nichtunterlegenheit Nullhypothese Beobachtung Beobachtungsstudie Chancenverhältnis Nullpunkt Zielgröße, Therapieergebnis Ausreißer p-Wert Kreisdiagramm Grundgesamtheit, Population
Anhang
326
Anhang · Glossar Englisch - Deutsch
power precision prediction predictive value prevalence probability random experiment random sample random variable randomisation randomized clinical trial randomized controlled trial range rank ratio recurrence rate reference interval regression line reliability research residual variance risk safety sample sample size sampling method scatter plot sensitivity significance level skewed distribution slope specificity stem-and-leaf-diagram standard deviation standard error of the mean statistical inference steering committee stratification student’s test study subject survey survival analysis survival probability
Trennschärfe, Teststärke Genauigkeit, Präzision Vorhersage Vorhersagewert Prävalenz Wahrscheinlichkeit Zufallsexperiment Zufallsstichprobe Zufallsvariable Randomisation, Zufallszuteilung randomisierte klinische Studie randomisierte kontrollierte Studie Spannweite rang, Rangzahl Verhältnis Rezidivrate Referenzbereich Regressionsgerade Zuverlässigkeit, Reproduzierbarkeit Forschung Restvarianz (nicht erklärte) Risiko, Risikofaktor Sicherheit Stichprobe Stichprobenumfang Stichprobenverfahren Punktwolke Sensitivität Signifikanzniveau schiefe Verteilung Steigung (einer Geraden) Spezifität Stamm-und-Blatt-Diagramm Standardabweichung Standardfehler des Mittelwerts statistische Schlussweise Studienbegleitkommission Stratifizierung t-Test Studie, Untersuchung Proband, Testperson, Objekt Erhebung Überlebenszeitanalyse Überlebenswahrscheinlichkeit
327
Anhang
Glossar Englisch - Deutsch
survival rate threshold ties transversal study treatment treatment lag trial true positive / negative type I / II error unbiased uncorrelated unimodal validity value variability variance vital statistics washout period withdrawal
Überlebensrate Schwellenwert verbundene Ränge Querschnittstudie Behandlung Wirkungsverzögerung Untersuchung, Studie richtig positiv / negativ Fehler 1. / 2. Art unverzerrt (frei von system. Fehler) unkorreliert, ohne Zusammenhang eingipfelig Richtigkeit, Validität Wert Variabilität Varianz Bevölkerungsstatistik therapiefreie Zwischenphase Studienabbruch, Abbrecher
Abkürzungen - Abbreviations ANOVA ANCOVA AT AUC CRF CI CV EBM ITT MANOVA NNH NNS NNT NS OR PP RCT SD SEM
analysis of variance analysis of covariance as treated Area Under the Curve case report form confidence interval coefficient of variation evidence based medicine intention to treat multivariate analysis of variance Number Needed to Harm Number Needed to Screen Number Needed to Treat not significant odds ratio per protocol randomized clinical (controlled) trial standard deviation standard error of the mean
328
Anhang · Weiterführende Literatur
Weiterführende Literatur 1. Andreß HJ, Hagenaars JA, Kühnel S: Analyse von Tabellen und kategorialen Daten. Springer-Verlag Berlin, Heidelberg, New York, 1997 2. Backhaus K, Erichson B, Plinke W, Weiber R: Multivariate Analysemethoden, 11. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2004 3. Beck-Bornholdt HP, Dubben HH: Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken. Rowohlt Taschenbuch Verlag, Reinbek bei Hamburg, 2006 4. Bortz J: Statistik für Sozialwissenschaftler, 6. Auflage. SpringerVerlag Berlin, Heidelberg, New York, 2004 5. Bortz J, Lienert GA: Kurzgefasste Statistik für die klinische Forschung, 2. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2003 6. Fletcher RH, Fletcher SW: Klinische Epidemiologie. Grundlagen und Anwendung. 2. Auflage, Verlag Hans Huber, Bern, Schweiz, 2002 7. Gigerenzer G: Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berliner Taschenbuch Verlag, 2004 8. Greenhalgh T: Einführung in die Evidence-Based Medicine. Kritische Beurteilung klinischer Studien als Basis einer rationalen Medizin. Verlag Hans Huber Bern, 2002 9. Hartung J, Elpelt B, Klösener KJ: Statistik. Lehr- und Handbuch der angewandten Statistik, 14. Auflage. Oldenbourg-Verlag München, Wien, 2005 10. Sachs L, Hedderich J: Angewandte Statistik, 12. Auflage. Springer-Verlag Berlin, Heidelberg, New York, 2006 11. Schumacher M, Schulgen G: Methodik klinischer Studien. Methodische Grundlagen der Planung, Durchführung und Auswertung. 2. Auflage, Springer-Verlag Heidelberg, 2006 12. Weiß C, Bauer AW: Promotion. Die medizinische Doktorarbeit von der Themensuche bis zur Dissertation, 3. Auflage. ThiemeVerlag Stuttgart, 2007
329
Index
Sach- und Personenregister
Sach- und Personenregister Į-Fehler 192, 195, 201 f a-posteriori-Wahrscheinlichkeit 110, 119 a-priori-Wahrscheinlichkeit 110, 119 Abbe, Ernst 169 Abbruchkriterien 301 Abstandsskala siehe Intervallskala Additionssatz 108-111 Allgemeines lineares Modell 226 Alternativhypothese 190 f, 196 Alternativmerkmale 23, 97, 231, 237 Annahmebereich 192-194 Anpassungstest 203, 212 f, 240 Apgar-Score 29 Äquivalenztest 200 Arbuthnot, John 5, 229 Area under the curve 284 arithmetisches Mittel 55 Arzneimittelgesetz 295 Arzneimittelstudie 296 As treated 302 Assoziation 49 f Assoziationskoeffizient nach Yule 52, 237 Assoziationsmaße 50, 98, 237 Ausfallrate 163 Ausprägungsliste 28, 103 Ausreißer 30, 43, 58 f, 67, 86 Ausschlusskriterien 301 Axiome von Kolmogoroff 107
ß-Fehler 194-195 Bacon, Francis 8 Balkendiagramm 41, 50 Bayes, Thomas 110 Bayes-Theorem 110 f Begleitmerkmal 22 Beobachtungseinheit 21 f Beobachtungsgleichheit 257, 299 f Beobachtungsstudie 254, 278, 296 Bernoulli, Jakob 129
Bernoulli-Experiment 129 f Bernoulli-Prozess 130 Bestimmtheitsmaß 92 f, 226 Bevölkerungsstatistik 5, 114 f Bias 256 f, 278 - Diagnosestudien 287 - Fall-Kontroll-Studien 269 f - Kohortenstudien 276 - Präventionsstudien 291 f Binomialkoeffizient 132 f Binomialtest 229 f Binomialverteilung 129-134, 160 f - negative 139 - symmetrische 134 Biomathematik 11 f Biometrie 11 f Biostatistik 11 Bland-Altman-Analyse 87, 200 Blockbildung 256, 297 Blockdiagramm 41 Blockversuche 305 Bonferroni-Korrektur 202, 225 Box-and-Whisker-Plot 74 f
Chadwick, Edwin 8 Chi2-Anpassungstest 240 Chi2-Homogenitätstest 233, 236 Chi2-Tests 231-243, 266 Chi2-Unabhängigkeitstest 231, 236 Chi2-Verteilung 168 f, 232 Chi2-Vierfeldertest 231-234, 271 Cochrane Collaboration 312-314 Compliance 303 f Computersimulation 105 Confounder 23, 257, 266, 270, 278 Cox, David 309 Cox-Regressionsmodell 303, 309 f Cramérs Index 237 Cross-Over-Design 305 Deduktive Methode 13 Demographie 5
330
Sach- und Personenregister
Determinationskoeffizient 93 Dezile 60 Dezilabstand 68 Diagnosestudie 250, 281-288 Diagnostische Tests 118-122, 281288 - parallele 288 - serielle 288 - sequenzielle 288 Diagramm 20, 46 Dichte(funktion) 145 - empirische 44 - Exponentialverteilung 164 - Normalverteilung 148 - Weibullverteilung 165 Dichtemittel siehe Modus Differenzmenge 105 Dispersionsmaße siehe
Streuungsmaße Dispersionstest 203 Dissertation 258, 260 Doktorarbeit 249 Dosiswirkungskurve 48 Double-Dummy-Technik 299 Drop Outs 275, 302, 307, 310 Dummy-Variable 29, 226, 246 Durchschnitt 55
Erwartungswert 127 f, 147, 175, 179 - Binomialverteilung 131 - Chi2-Verteilung 168 - Exponentialverteilung 164 f - hypergeometrische Verteilung 141 - Normalverteilung 148 - Poissonverteilung 136 - t-Verteilung 167 Ethikkommission 295, 301 Euler’sche Zahl 136 Evidenz 312, 314 Evidenzbasierte Medizin 278, 310314 evidenzbasierter Fallbericht 311 f Exhaustivität 175 Experiment 14, 254, 296 Exponentialverteilung 164 f Exposition 264, 266, 271, 276-278 Extrapolation 91 Exzess siehe Wölbung
F-Test 213 F-Verteilung 170, 213, 224 Faktor 22 - ätiologischer 250 - prognostischer siehe
Prognosefaktor Effektmaße 273 f Effizienz einer Schätzung 175 Einflussgröße 22, 257 Einschlusskriterien 301 Einzelfalldarstellung 15 Elementarereignis 103 Endlichkeitskorrektur 141, 181 Endpunkt 306 Epidemiologie 111-114, 249 f Ereignisraum 102 Ereignisse 103 - disjunkte 106-108 - komplementäre 106 f - sichere 103 - unabhängige 110 - unmögliche 103 Erfassungsfehler 256 erklärte Varianz 92 Erwartungstreue 174
Fall-Kontroll-Studie 250-254, 267273 - eingebettete 277 Fallbericht 251, 264 f, 304 Fälle 267 Fallserie 251, 265, 304 falsch negativer Befund 118, 283, 290 falsch positiver Befund 118, 283, 290 fehlende Daten 33 Fehlentscheidung 4 Fehler - 1. Art siehe α-Fehler - 2. Art siehe ß-Fehler - systematischer 256 f - zufälliger 255 f Fertilitätsziffer 114 Fisher, Ronald Aylmer 6, 9, 170, 174, 213
331
Index
Sach- und Personenregister
Fisher’s exakter Test 243 f, 271 Follow-Up-Studie 272 formale Korrelation 86 Formmaße 69-73 Fraktile 60 Freiheitsgrade - Chi2-Verteilung 236, 240 - t-Verteilung 167 f, 180, 209, 214 - Varianz 66 Freiwilligenbias 291 Friedmantest 225
Galen aus Pergamon 7 Galilei, Galileo 6 f Galton, Francis 88, 161 Gauß, Carl Friedrich 6, 148, 159 f Gauß’sche Glockenkurve 148 f Geburtenziffer siehe Fertilitätsziffer Gemeinsamkeitskorrelation 87 geometrisches Mittel 63, 154 Geschichte der med. Statistik 4-11 Gesetz der großen Zahlen 104, 130, 157 f Gleichverteilung, diskrete 141, 241 Goldstandard 281 Good clinical practice 295 Gosset, Sealy 6, 167, 180 graphische Darstellungen 40 f, 44 f, 50 f, 74 f Graunt, John 5 Grundgesamtheit 19 f, 76, 173 Gruppen-Matching 269 Güte - diagnostischer Test 118, 281-288 - Schätzung 174 f - statistisches Modell 93, 226, 246 - statistischer Test siehe Power
harmonisches Mittel 64 Häufigkeiten - absolute 39 f - kumulative 46 - relative 39 f - zweidimensionale 49 f Häufigkeitspolygon 44
Häufigkeitsverteilung 39, 45 f, 125 Hawthorne-Effekt 300 Hazard-Rate 163, 276, 310 Hazard-Ratio 310 Helmert, Friedrich Robert 169 Hill, Austin 275, 278, 298 Hippokrates von Kos 7 Histogramm 44, 56, 212 Homogenitätstest 203, 233, 236 Homoskedastizität 184, 210 Huygens, Christiaan 6, 127 Hypothese 13, 19, 190 f, 259 - einseitige 191, 201, 233 - zweiseitige 191, 201
Identifikation 32 Induktive Methode 14 Informationsbias 257, 270, 276, 287 Inhomogenitätskorrelation 86 Intention to treat 302 Interdezilbereich 68 Interquartilsbereich 68 Intervallschätzung 177-186 Intervallskala 24, 26, 73 Interventionsstudie 254, 296 Inzidenz 112, 264, 272 f - kumulative 275 Inzidenzdichte 275 Inzidenzfälle 267 Inzidenzstudie 273 Irrtumswahrscheinlichkeit 178, 184, 193 Jenner, Edward 8 Kaplan-Meier-Methode 303, 307 Kappa-Koeffizient 200, 285 f Karnofsky-Skala 30 Kenngrößen 20, 55
siehe Maßzahlen Klassenanzahl 42 f Klassenbildung 42 f Klassenbreite 43 Kontrolle, historische 300, 305 Kohortenstudie 250 f, 272-277, 305 f - begleitende 276 - historische 277
332
Sach- und Personenregister
Kolmogoroff, Andrej 107 Kolmogoroff-Smirnov-Test 242 Konfidenzintervall 177-184, 197 f, 208 f, 220, 256, 304 - Erwartungswert 179-181 - Korrelationskoeffizient 183 - Wahrscheinlichkeit 182 Konfidenzwahrscheinlichkeit 178 Konsistenz 174 Kontagionsindex 114 Kontingenz 49 Kontingenzkoeffizient 238 Kontingenztafel 49, 236, 244 Kontrollen 267 f Kontrollgruppe 267 f Korrelationsanalyse 80-88 Korrelationskoeffizient - nach Pearson 82, 84-88, 183, 214 - nach Spearman 94-97, 183 Kovarianz 82 f, 129 176 Krankenbestand siehe Prävalenz Kreisdiagramm 40 f kritischer Bereich 192-194 kritischer Wert 193 Kruskal-Wallis-Test 224 Kurtosis siehe Wölbung
Laborexperiment 277 Lagemaße 55-64, 69, 73 Lageparameter 127 f, 147 Lagetest 203, 207-226 Längsschnittstudie 252 Laplace, Pierre Simon de 6, 103, 150 Latenzzeit 272 f Lead Time Bias 291 Lebensdauer 162 Lebenserwartung 116 f Lebenszeitprävalenz 112 Length Time Bias 292 Letalität 113 Likelihood-Quotient 282 Linder, Arthur 11 Liste 32 Lognormalverteilung 153 f, 165 Logranktest 242, 303, 309 Louis, Pierre Charles Alexandre 9
Manifestationsindex 114 Mantel-Haenszel-Test 237 Martini, Paul 11 Maßzahlen - bivariate Datenbeschr. 82-98 - epidemiologische 112 f - univariate Datenbeschr. 55-73 Matchen 257, 268 f Maximum 63 McNemar-Test 238 f, 271, 305 Median 57 f, 127, 147, 175 Median-Test 235 f mediane Überlebenszeit 164 f Mehrstichprobentests 203, 224 f Mendel, Gregor Johann 10 Merkmale 21-29, 125 - abhängige 89 f - binäre 23 - dichotome 23 - diskrete 25, 39 f, 67, 219 - kategoriale 24 - qualitative 24 - quantitative 25, 56 f, 46, 74 - stetige 25, 42 f - unabhängige 89 Merkmalsausprägungen 22, 28 f Merkmalsträger 21 Messniveau 23 Metaanalyse 311, 313 Methode der kleinsten Quadrate 57, 90 metrische Skala 25 Minimisation 298 Minimum 63 Mittelwert 55 f, 157, 175 mittlere Abw. vom Median 68 modale Klasse 62 Modalwert siehe Modus Modus 62, 128, 147 Moivre, de Abraham 160 Momente 147 Monte-Carlo-Studie 186, 214 Morbidität 113 Mortalität 113, 264 Multinomialverteilung 138 multiple Methode 11, 203, 225 f, 245, 260, 303
333 Sach- und Personenregister
multiple Regressionsanalyse 91, 226 multiples Testen - diagnostisch 287 - statistisch 201 f Multiplikationssatz 110 f
Natalität 114 Naturwissenschaften 3, 7, 14 Neuerkrankungsrate siehe Inzidenz Nichtunterlegenheit 304 NNH 303 NNS 291 NNT 274, 291, 303 Nominalskala 23, 26, 73 Nonsenskorrelation 86 Normalverteilung 66, 70, 148-152, 161, 212, 230, 241 Normbereich siehe Referenzbereich Nullhypothese 190 f, 196 Number needed to harm siehe NNH Number needed to screen siehe NNS Number needed to treat siehe NNT
Prävalenzfälle 267 Prävalenzstudie 252, 266 Prävention 288 f Präventionsstudie 250 f, 288-292 Prognosefaktor 242, 306 Prognosestudie 250 f, 306-314 Protokollverletzung 301 f Prozentangaben 40 Prüfgröße 190 f, 203 Prüfverteilungen 161, 166-170 punktbiseriale Korrelation 97 Punktediagramm 42 Punktprävalenz 112 Punktschätzung 173-176 Punktwolke 80-82, 85 f
Q-Test von Cochran 240 Quantile 60, 127, 147 - der t-Verteilung 180, 197 Quartile 60 Quartilsabstand 68 Querschnittstudie 250-252, 266 Quetelet, Adolphe 161
Ochsner, Alton 265, 278 Odds ratio 51, 237, 271 f Ordinalskala 23, 26, 73
p-Wert 197-202, 208, 220, 256 paarweise Zuordnung siehe
Matchen Pascal, Blaise 6 Pearl-Index 115 Pearson, Karl 6, 89, 169 Per Protocol 302 Periodenprävalenz 112 Perzentile 60 Pharmakoepidemiologie 296 Phi-Koeffizient 237 Placebo 300 Poisson, Siméon Denis 136 Poissonverteilung 136 f, 161, 241 Polynomialverteilung 138 Populationsstudie 250, 266 Power 196, 211, 220 prädiktiver Wert siehe
Vorhersagewert Prävalenz 112, 119-122, 266, 291
Randomisation 257, 296-298, 304 Rangkorrelation 95 f Rangliste 58 Rangskala siehe Ordinalskala Rangsummentest 215-221 Ratioskala siehe Verhältnisskala Recall-Bias 270, 273 Rechteckdiagramm 41 Referenzbereich 151 Register 19, 251 f Regression - 1. Art 91 - 2. Art 91 - lineare 89 - logistische 245 f, 270, 272, 275 - nicht-lineare 94 Regressionsanalyse 88-94, 226 Regressionsgerade 81 f, 88-91 Regressionskoeffizient 89 Relevanz 199, 312 Reliabilität 285 f Reproduzierbarkeit 285 f Residualvarianz 92
Index
334
Sach- und Personenregister
Residuen 92, 183, Risiko 264 - relatives 271 f, 274 f - zuschreibbares 274 Risikofaktor 263 f, 268 f, 274, 277 Risikoindikator 270 Risikoreduktion 274 Risikostudie 250, 263-278 ROC-Analyse 282-285 ROC-Kurve 283-285
ı-Bereich 151 Sackett, David 311, 314 Satz von der totalen Wahrscheinlichkeit 108, 111 Säulendiagramm 41, 74 Schätzfunktion 174 Schätzwert 174 Scheffé-Test 225 Scheinkorrelation 86 Schichten 256, 297 f Schiefe 69 f, 147, 152, 155, 212 - Binomialverteilung 134 - Chi2-Verteilung 168 - Exponentialverteilung 165 - Normalverteilung 148 - Poissonverteilung 138 Schnittmenge 105 Schwellenwert 282 f Scores, klinische 24, 29 f Screening 289-292 Selektion 256 Selektionsbias 256, 269, 276, 291, 297 Selektionskorrelation 86 Semmelweis, Ignaz Philipp 9 f, 263 Sensitivität 118-122, 281-283 sequentielles Testverfahren 195 Signifikanzniveau 194 Skalenniveau 23 f, 195 Skalentransformation 25 f Snow, John 9, 263 Spannweite 67 Spearman, Charles 95 Spezifität 118-122, 281-284 Staatsbeschreibung 5 Stabdiagramm 41
Stamm- und Blatt-Diagramm 45 Standardabweichung 65, 128, 176, 184 - Normalverteilung 148 Standardfehler des Mittelwerts 158, 181 Standardnormalverteilung 149 f Standardtherapie 300 Statistik - bivariate 79-98, 176 - deskriptive 5, 12, 20 f, 103 - explorative 12 - induktive 6, 12, 21, 102, 173-246 - medizinische 11 - univariate 55-76 Statistisches Jahrbuch 5, 117 Sterberate 163, 166 Sterbetafel 115-117 Sterbeziffer 116 f Stetigkeitskorrektur 182, 239 Stichproben 19 f, 73 f, 202 - abhängige siehe verbundene - paarige siehe verbundene - repräsentative 19, 76, 173 - unabhängige siehe
unverbundene - unverbundene 203, 209, 218, 221 - verbundene 203, 207, 216, 221 Stichprobenumfang 22, 39, 42, 56, 76, 158, 174 f, 184, 194 f, 255 Stochastik 11 f Störgröße 22 - nicht-verzerrende 23 - verzerrende 23, 257 Strata 297 f Stratifizierung 256, 297 Streuungsmaße 64-69, 73 Streuungsparameter 128, 147 Strichliste 40 Strukturgleichheit 257, 269, 297 Student-Verteilung siehe t-
Verteilung Studie - analytische 251 - beobachtende siehe
Beobachtungsstudie - deskriptive 251, 264-266
335
Index
Sach- und Personenregister
- diagnostische siehe
Diagnosestudie - doppelblinde 257, 298 - dreifachblinde 299 - einfachblinde 299 - epidemiologische 249 f - experimentelle siehe Experiment - klinisch kontrollierte 252, 296 - longitudinale 252, 254 - monozentrische 255 - multizentrische 255, 257, 298 - offene 299 - ökologische 266 - prospektive 14, 253 f - randomisierte 254, 291 f, 311 - retrospektive 14, 252-254, 305 - transversale 252 Studienabbrecher siehe Drop Outs Studiendesign 301 Studienplanung 258-260 Studienprotokoll 300 f Summenhäufigkeiten 46 f Summenzeichen 39 Surrogatmerkmal 31, 303 Süßmilch, Johann Peter 5 Symmetrietest von Bowker 240
t-Test 207-214, 219 f - für eine Stichprobe 189-193, 207, 212, 221 - für 2 unverbundene Stichproben 209 f, 213, 221 - für 2 verbundene Stichproben 207, 213, 221, 305 - nach Welch 210 - zur Prüfung eines Korrelationskoeffizienten 214 t-Verteilung 167 f Tabelle 20, 32 Test - diagnostischer 118-122, 281-288 - konservativer 221 - parametrischer 207 - progressiver 221 - sequenzieller 195 - statistischer 189-204 - verteilungsfreier 215
Testentscheidung 195 f Testergebnis - nicht signifikantes 198-200 - signifikantes 196, 199 Testgröße siehe Prüfgröße Teststärke siehe Power Therapiestudie 250 f, 295-306 Totalerhebung 19 Transformationen 152, 161, 214 Trennschärfe siehe Power Tschebyscheff, Pafnutij 155 Tschebyscheff’sche Ungleichung 155 f
U-Test von Mann und Whitney 218, 221 Überlebensfunktion 162 f, 242, 308 Überlebensrate 307 Überlebenszeit 162, 164, 242, 307 Überlebenszeitanalyse 31, 307, 310 Übersichtsarbeit 313 Unabhängigkeitstest 203, 231, 236 f Untersuchungseinheit 21 Urliste 55
Validität - eines Screenings 291 - eines diagnostischen Tests 281 f - externe 258, 301, 304 - interne 258, 312 Variabilität - interindividuelle 255, 285, 301 - intraindividuelle 255, 285 Variable 21 Varianz 65, 128, 147,, 176 f - Binomialverteilung 131 - Chi2-Verteilung 168 - Exponentialverteilung 164 f - hypergeometrische Verteilung 141 - Normalverteilung 148 - Poissonverteilung 136 - t-Verteilung 168 Varianzanalyse 224 f Variation Ratio 68 Variationsbreite 67 Variationskoeffizient 66, 129
336
Sach- und Personenregister
- relativer 67 Venn, John 105 Venn-Diagramm 105 Verblindung 298 f verbundene Ränge 215, 217 f Vereinigungsmenge 105 Vergleichsgruppe 265, 300, 304 Verhältnisskala 24, 26, 73 Verteilung - diskrete 125-142 - eingipfelige 57, 62, 66, 71 - gedächtnislose 164 - geometrische 139 - hypergeometrische 140, 181 - linksschiefe 70, 147, 155 - mehrgipfelige 62 - rechtsschiefe 70, 147, 152 f, 214 - schiefe 56, 58, 70, 161 - symmetrische 56 f , 66, 70, 147 - U-förmige 62 - von Mittelwerten 158, 160 - von Überlebenszeiten 162-166 Verteilungsfunktion 126 f, 145 - diskrete Verteilung 126 f - empirische 46 f, 62 - Exponentialverteilung 164 - Normalverteilung 148 f - Standardnormalverteilung 150 - stetige Verteilung 145 f - Weibull-Verteilung 165 Vertrauensbereich siehe
Konfidenzintervall Vierfeldertafel 49, 231, 244 Vierfeldertest 231-234, 271 Visuelle Analogskala 30 Vollerhebung 19 Vorhersagewert 119-122, 282 - negativer 119 f - positiver 119 f, 287, 291 Vorzeichentest - für eine Stichprobe 221-223 - für 2 verbundene Stichproben 221, 223
Wahrscheinlichkeit 101-105, 126, 176, 182 - bedingte 109 f
- nach Kolmogoroff 107 - nach Laplace 103, 107 - objektive 101 - subjektive 101 Wahrscheinlichkeitsfunktion 126 Wahrscheinlichkeitsrechnung 6, 12, 101-111, 155-161 Wahrscheinlichkeitstest 203 Weber, Erna 11 Weibull, Waloddi 165 Weibull-Verteilung 165 f Welch-Test 210 Wilcoxon, Frank 215 Wilcoxon-Test - eine Stichprobe 215, 221 - 2 verbundene Stichproben 216 f, 221, 305 Wölbung 71, 147, 212 - Normalverteilung 148
Yule, George 52 z-Transformation 149 zensierte Daten 32, 59 f, 242, 307 f zentrale Momente 147 zentraler Grenzwertsatz 159-161 Zentralwert siehe Median Zielgröße 22, 256 f Zufall 3 f, 14, 101 Zufallsexperiment 102 Zufallsstichprobe 267 Zufallsvariable 21, 173 - diskrete 125 f - stetige 145 f Zufallszahlen 141 Zusammenhang - funktionaler 79 - gegensinniger 81, 83, 90, 95 - gleichsinniger 81, 83, 90, 95 - kausaler 87, 270, 277, 298 - linearer 81-85, 89 - monotoner 95 - nicht-linearer 94 - stochastischer 79