U. Genschel • C. Becker
Schließende Statistik Grundlegende Methoden
13
Ulrike Genschel Fachbereich Statistik Universität Dortmund Vogelpothsweg 87 44221 Dortmund e-mail:
[email protected] Claudia Becker Fakultät Wirtschaftswissenschaften Martin-Luther-Universität Halle-Wittenberg Große Steinstraße 73 06099 Halle e-mail:
[email protected] Bibliografische Information Der Deutschen Bibliothek Die Deutsche B bliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Mathematics Subject Classification (2000): 62-01
ISBN 3-540-21838-6 Springer Berlin Heidelberg New York
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de
© Springer-Verlag Berlin Heidelberg 2005 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Innentypografie: deblik, Berlin Einbandgestaltung: design & production, Heidelberg Datenerstellung durch den Autor unter Verwendung eines Springer LaTEX-Makropakets Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Gedruckt auf säurefreiem Papier 40/3142YL - 5 4 3 2 1 0
Vorwort
v
Vorwort EMILeA-stat (www.emilea.de) ist eine interaktive Lehr- und Lernumgebung der angewandten Statistik, deren Entwicklung vom Bundesministerium f¨ ur Bildung und Forschung im Rahmen des Projekts Neue Medien in der Bil” dung“ gef¨ ordert wurde. Unter Federf¨ uhrung von Prof. Dr. Ursula Gather entstanden im Zeitraum von Juni 2001 bis M¨ arz 2004 Inhalte zur Sch¨atzund Testtheorie (siehe auch http://emilea-stat.uni-oldenburg.de/), die die Grundlage f¨ ur dieses Buch sind. Schließende Statistik. Grundlegende Methoden gibt eine Einf¨ uhrung in die Verfahren der Sch¨ atz-und Testtheorie, die sich an Studierende verschiedenster Fachrichtungen wendet. Das Buch spricht zwei Gruppen von Personen an. F¨ ur Studierende, die im Rahmen des Grundstudiums etwa der Wirtschaftsoder Sozialwissenschaften, Medizin, Biologie oder Psychologie eine grundlegende Statistik-Vorlesung besuchen, sind insbesondere der erste Teil der Kapitel 3 und 4 sowie Kapitel 5 gedacht. In diesen Teilen des Buches werden grundlegende Konzepte der Sch¨ atz- und Testtheorie als zentrale Bereiche der schließenden Statistik erl¨ autert. Mit zahlreichen Beispielen wird die Anwendung der vermittelten Methoden illustriert. Mit dem zweiten Teil der Kapitel 3 und 4 wenden wir uns vor allem an Studierende der Fachrichtung Statistik bzw. Mathematik mit Nebenfach Statistik, sowie an Studierende anderer Fachrichtungen, die das Fach Statistik im Rahmen des Hauptstudiums vertiefen. In diesen Kapiteln werden die Grundlagen zur Sch¨ atz- und Testtheorie ausgebaut und vertieft. Das Buch kann sowohl begleitend zu Vorlesungen eingesetzt werden als auch als Nachschlagewerk dienen. F¨ ur das Verst¨andnis des Buches setzen wir gewisse Kenntnisse voraus. Auf Methoden und Begriffe der deskriptiven Statistik gehen wir nicht ein. Die f¨ ur das Verst¨ andnis des Buches ben¨otigten Voraussetzungen werden als komprimierter Abriss in Kapitel 2 dargestellt. Grundkenntisse der Wahrscheinlichkeitstheorie mit den Konzepten des Wahrscheinlichkeitsbegriffs, des Zufallsexperiments und der Wahrscheinlichkeit von Ereignissen setzen wir dabei voraus. Hierzu sei auch auf einschl¨ agige Lehrb¨ ucher verwiesen, beispielsweise Dehling, Haupt (2003) oder Mosler, Schmid (2004). Die Inhalte der weiteren Kapitel sind jedoch so gestaltet, dass sie auch mit einem subjektiven, nicht formalen Verst¨andnis von Wahrscheinlichkeiten zu erarbeiten sind. Unser Buch fokussiert auf Elemente der Sch¨ atz- und Testtheorie, deren Konzepte sehr ausf¨ uhrlich besprochen werden. Es geht hier prim¨ ar um die grundlegenden Methoden der schließenden Statistik, nicht um Stochastik. F¨ ur solche Konzepte verweisen wir auf andere Literatur sowie auf die Inhalte von
vi
Vorwort
EMILeA-stat. Auch haben wir uns entschlossen, auf die sonst u ¨blichen umfangreichen Verteilungs- und Quantiltabellen, die sich in der Regel in Lehrb¨ uchern zu diesem Thema finden, zu verzichten. Durch die heutzutage zum Standard gewordenen Angebote von statistischer Software und Tabellenkalkulationsprogrammen sind derartige Tabellen verzichtbar geworden. An das Projekt EMILeA-stat angegliedert ist als statistische Software das Programmpaket R, ein kostenloses Open Source Produkt (siehe http://www.Rproject.org). Wo die Berechnung von Quantilen etwa zur Durchf¨ uhrung eines statistischen Tests notwendig ist, zeigen wir beispielhaft, wie die entsprechenden Rechenvorschriften in R aussehen. Angelehnt an die in der internetbasierten Lehr- und Lernumgebung EMILeAstat zur besseren Orientierung gesetzten Links erscheinen auch in unseren Texten Verweise auf die Stellen, an denen Begriffe bereits einmal erkl¨art wurden. Diese Verweise 51 sind durch eine Schriftumstellung und das hier gezeigte Symbol dargestellt, wobei jedem Verweis die zugeh¨orige Seitenzahl nachgestellt ist. Wir verweisen auch auf die Inhalte von EMILeA-stat, wobei das Symbol e zur Anwendung kommt. Schließende Statistik. Grundlegende Methoden erscheint in der Reihe EMILeAstat: Medienreihe zur angewandten Statistik. Dieses Buch ist die Fortsetzung des Bandes Beschreibende Statistik. Grundlegende Methoden von M. Burkschat, E. Cramer und U. Kamps (Springer, 2003, ISBN 3-540-03239-8). Der Stil des Buches ist daher an den des Vorg¨ angerbandes angelehnt, um den f¨ ur die Leser vertrauten Stil beizubehalten. M¨ oglich wurde dies durch die Bereitstellung der Style-Files und die Unterst¨ utzung bei der notwendigen Farbadaption der Grafiken durch die Arbeitsgruppe in Oldenburg. Daf¨ ur unseren herzlichen Dank! Danken m¨ochten wir vor allem auch Herrn Udo Kamps und Frau Ursula Gather, die den Anstoß zu diesem Buch gaben, sowie Herrn Clemens Heine vom Springer-Verlag, der durch seine Unterst¨ utzung die Entstehung dieses Buches erm¨oglicht hat. Dieses Buch w¨are ohne die Unterst¨ utzung von Kolleginnen und Kollegen des Lehrstuhls Mathematische Statistik und Industrielle Anwendungen des Fachbereichs Statistik der Universit¨at Dortmund nicht m¨ oglich gewesen. Wir m¨ochten besonders Anita Busch, Thomas Fender, Roland Fried, Sonja Kuhnt, Vivian Lanius, Christoph Sch¨ urmann sowie Thorsten Ziebach danken f¨ ur ihre zahl- und hilfreichen Beitr¨ age, insbesondere bei der kreativen Entwicklung interessanter Beispiele, und f¨ ur ihre Korrekturvorschl¨ age zu den fr¨ uhen Versionen des Buches. F¨ ur die engagierte Unterst¨ utzung bei der Umsetzung unserer Ideen danken wir den studentischen Mitarbeitern des Lehrstuhls. Der
Vorwort
vii
Kampf mit unvertr¨ aglichen PostScript-Formaten konnte dank Uwe Ligges und Matthias Schneider gewonnen werden. F¨ ur das sorgf¨ altige Durchlesen des Manuskriptes und die damit verbundenen Anregungen und Korrekturen geht unser herzlicher Dank an Martina Erdbr¨ ugge, Dan Nordman und Sebastian Paris Scholz. Dortmund, Halle Juni 2004
Ulrike Genschel, Claudia Becker
Inhaltsverzeichnis
ix
Inhaltsverzeichnis 1
Einleitung
3
2
¨ Uberblick u ¨ber die ben¨ otigten Grundlagen
9
2.1
Grundgesamtheit und Stichprobe .............................
9
2.2
Zufallsvariable und Merkmal...................................
10
2.3
Verteilung und Empirische Verteilung........................
12
2.4
Dichte und H¨aufigkeitsverteilung .............................
14
2.5
Erwartungswert und Varianz ...................................
24
2.6
Abh¨angigkeit ......................................................
31
2.7
G¨angige Verteilungen und ihre Erwartungswerte und Varianzen .............................................................
37
3
Philosophie des Sch¨ atzens
51
3.1
51
3.2
Auf den Punkt gebracht“oder Grenzen setzen“ ......... ” ” Grundlagen zur Punktsch¨atzung ..............................
3.3
Beispiele ...........................................................
59
3.4
Was ist ein guter Punktsch¨atzer?.............................
61
Erwartungstreue und asymptotische Erwartungstreue
63
Der mittlere quadratische Fehler (MSE) ................
71
Effizienz .......................................................
76
Konsistenz ....................................................
86
Asymptotische Normalverteilung .........................
92
Weiterf¨ uhrende Konzepte: Suffizienz, Vollst¨andigkeit und Exponentialfamilien....................................
93
3.5
54
Wie kommt man zu einer Sch¨atzfunktion? ................. 106 Momentenmethode.......................................... 107 Maximum-Likelihood-Methode............................ 115 Methode der kleinsten Quadrate ......................... 134
x
Inhaltsverzeichnis
Weitere Sch¨atzverfahren ................................... 146 3.6
Intervallsch¨atzung................................................ 147 ¨ Ubersicht u ¨ber Konfidenzintervalle in verschiedenen Situationen ................................................... 151 Konfidenzintervalle bei Normalverteilung ............... 151 Konfidenzintervalle bei Binomialverteilung ............. 156 Approximative Konfidenzintervalle bei beliebiger Verteilung ......................................................... 159 Konfidenzintervalle im linearen Regressionsmodell .... 162
4
Philosophie des Testens
4.1 4.2
Unschuldig bis zum Beweis des Gegenteils“ ............... 171 ” Beispiele ........................................................... 173
4.3
Grundlagen des Testens ........................................ 174
171
Was ist ein guter Test?..................................... 193 G¨ ute............................................................ 193 Beste Tests ................................................... 198 4.4
Wie kommt man zu einem Test? ............................. 205 Zusammenhang zwischen Konfidenzintervall und Test 205 Likelihood-Quotienten-Test ................................ 210
5
Verschiedene Situationen – verschiedene Tests
217
5.1
Situationen ........................................................ 217
5.2
Parametrische Tests ............................................. 222 Der Gauß-Test ............................................... 222 Der t-Test..................................................... 236 Der F-Test .................................................... 260 Der exakte Binomialtest.................................... 278
Inhaltsverzeichnis
xi
Der approximative Binomialtest .......................... 285 Der χ2 -Anpassungstest..................................... 290 Der χ2 -Unabh¨angigkeitstest............................... 300 Tests im linearen Regressionsmodell ..................... 309 5.3
Nichtparametrische Tests....................................... 314 Der Vorzeichen-Test ........................................ 317 Der Wilcoxon-Rangsummen-Test ......................... 324 Der Kruskal-Wallis-Test .................................... 335
Literaturverzeichnis ........................................... 348
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Kapitel 1 Einleitung
1
1
1
Einleitung
3
1. Einleitung
3
1 Einleitung Die Analyse empirischer Daten ist f¨ ur die Gewinnung neuer Erkenntnisse in der Wissenschaft unerl¨ asslich. In wissenschaftlichen Versuchen und Studien werden Daten mit dem Ziel gesammelt, die darin enthaltene Information zu extrahieren. Unter Daten wird dabei eine Stichprobe aus n Beobachtungen verstanden, die f¨ ur eine gewisse Grundgesamtheit repr¨ asentativ ist. Basierend auf der Analyse und Interpretation ausreichenden Datenmaterials ist es somit m¨oglich, anhand einer Stichprobe auf die Grundgesamtheit zu schließen. Dieses Vorgehen wird als induktive Statistik bezeichnet. Im Gegensatz zur beschreibenden Statistik sind die auf diese Weise gewonnenen Erkenntnisse mit einer gewissen Unsicherheit behaftet, die aus der Verallgemeinerung der Information resultiert. Diese Unsicherheit l¨ asst sich mit Hilfe von Wahrscheinlichkeiten modellieren und wird auf diese Weise kontrollierbar. Induktive Methoden sind insbesondere erforderlich, wenn die Untersuchung aller in einer Grundgesamtheit enthaltenen Elemente bez¨ uglich eines oder mehrerer Merkmale nicht m¨oglich ist. Dies ist der Fall, wenn die Grundgesamtheit zu groß ist oder die Untersuchungseinheiten durch die Datenerhebung zerst¨ ort werden, wie die folgenden Beispiele illustrieren: In einem schwer zug¨anglichen Gebiet des Regenwaldes in Franz¨osischGuayana haben Forscher 1999 eine bislang unbekannte Art von Gottesanbeterinnen entdeckt. Die Forscher sind an ph¨ anotypischen Merkmalen wie K¨orperl¨ ange, Gewicht, Farbe sowie Geschlechterverteilung dieser Insekten interessiert. Eine Untersuchung aller lebenden Exemplare, eine Totalerhebung der Population, ist nicht realisierbar. In der Qualit¨ atskontrolle von industriell gefertigten Produkten kann die Qualit¨ at h¨ aufig nur u ¨berpr¨ uft werden, wenn dabei die Zerst¨orung des Produktes in Kauf genommen wird. Die Ermittlung der Waschkraft eines Waschmittels oder die Reißfestigkeit von Kletterseilen sind Beispiele daf¨ ur. Fernsehsender entscheiden u ¨ ber die Fortsetzung von Sendungen anhand von Einschaltquoten. Bringt eine Sendung nicht die gew¨ unschte Einschaltquote, so wird sie abgesetzt. Dazu werden die Quoten basierend auf einer repr¨ asentativen Gruppe von wenigen tausend Zuschauern bestimmt. Alle Zuschauer einzubeziehen, w¨ urde einen zu hohen Aufwand bedeuten. Aus diesen Beispielen wird ebenfalls ersichtlich, dass die interessierende Information von verschiedenem Typ sein kann. Man unterscheidet in der indukti-
4
1. Einleitung
ven Statistik zwischen Methoden des Sch¨ atzens und des Testens. W¨ ahrend die beim Sch¨atzen erhaltene Information in der Regel in numerischer Form vorliegt, zum Beispiel die erwartete Dauer in Stunden, bis ein Seil bei Belastung reißt, liegt beim Testen die Information immer in Form einer Entscheidung zwischen zwei sich widersprechenden Thesen oder Vermutungen vor. So erh¨ alt man beispielweise die Information, ob die Einschaltquote einer neuen Fernsehshow h¨ oher als 10% oder niedriger als 10% ist. Innerhalb des Sch¨ atzens wird zwischen Punktsch¨ atzung und Intervallsch¨ atzung unterschieden. W¨ ahrend bei der Punktsch¨ atzung immer ein einzelner Wert als Sch¨ atzung angegeben wird, liefert eine Intervallsch¨ atzung, wie aus der Bezeichnung schon hervor geht, ein ganzes Intervall von Werten. Das Intervall ist mit einer so genannten Vertrauenswahrscheinlichkeit verkn¨ upft, die angibt, mit welcher Wahrscheinlichkeit das Intervall die gesuchte Gr¨ oße u ¨berdeckt. Die Bezeichnung Konfidenzintervall leitet sich hieraus ab (Konfidenz=Vertrauen). Zur weiteren Veranschaulichung dieser Ideen dienen die folgenden Beispiele. Beispiel Klinischer Versuch Einen umfangreicheren Ausblick auf die M¨ oglichkeiten, die statistische Verfahren aus der Sch¨ atz- und Testtheorie bieten, gibt folgendes Beispiel:
In einem klinischen Versuch soll die Wirksamkeit eines Medikaments gegen eine Erkrankung erprobt werden. Dazu wird in einer Stichprobe von n Patienten bei jedem dieser Patienten festgestellt, ob er am Ende der Behandlung geheilt ist oder nicht. Das Ergebnis des Versuchs wird dargestellt durch die Angabe des Heilungserfolgs in der Form i-ter Patient geheilt ist 1 xi = falls f¨ ur i = 1, . . . , n. 0 i-ter Patient nicht geheilt ist Die wahre Heilungswahrscheinlichkeit bei Anwendung des Medikaments ist eine Zahl p ∈ [0; 1]. Sie bezieht sich auf die Menge aller an dieser Erkrankung leidenden Patienten (auch auf zuk¨ unftige), nicht nur auf die, die an der Studie teilnehmen. Aus den erhaltenen Beobachtungen der n Patienten kann diese Wahrscheinlichkeit gesch¨ atzt werden. Je besser eine solche Studie geplant und angelegt ist und je mehr Patienten teilnehmen, desto besser wird die Sch¨atzung der wahren Heilungswahrscheinlichkeit entsprechen. Bei dieser Problemstellung ist es sinnvoll anzunehmen, dass die Patienten mit Wahrscheinlichkeit p geheilt und mit Wahrscheinlichkeit 1 − p nicht geheilt werden. Diese Annahme l¨asst sich durch eine Bernoulliverteilung 38 beschreiben.
1. Einleitung
Der Parameter, der eine Bernoulliverteilung eindeutig beschreibt, ist die so genannte Erfolgswahrscheinlichkeit p ∈ [0; 1], die im Beispiel der Medikamentenstudie der Heilungswahrscheinlichkeit entspricht. In dieser Studie kann die Analyse von Daten unter den folgenden drei Aspekten erfolgen: 1. Basierend auf den Heilungsergebnissen der n Patienten in der Studie soll auf den wahren Parameter, die Heilungswahrscheinlichkeit in der Grundgesamtheit aller Erkrankten, geschlossen werden. Das heißt, es soll eine Sch¨atzung f¨ ur den Parameter p ∈ [0; 1] der Bernoulliverteilung angegeben werden. Dies wird als Punktsch¨ atzproblem bezeichnet. 2. Da man zur Sch¨ atzung von p nicht alle Erkrankten heran ziehen kann, ist die Angabe eines gesch¨atzten Werts f¨ ur p mit einer gewissen Unsicherheit verbunden. Zus¨ atzlich zum Punktsch¨atzer wird daher h¨ aufig ein Intervall angegeben, das diese Unsicherheit ber¨ ucksichtigt. Das Intervall wird so bestimmt, dass der wahre Wert (in diesem Fall die Heilungswahrscheinlichkeit) mit einer vorgegebenen Wahrscheinlichkeit (zum Beispiel 95% oder 99%) in diesem Intervall enthalten ist. Der untere Wert des Konfidenzintervalls wird mit pu , der obere mit po bezeichnet. Basierend auf den Beobachtungen an den Patienten sollen dann pu und po so bestimmt werden, dass das Intervall [pu ; po ] den wahren Wert von p mit der vorgegebenen Wahrscheinlichkeit u ¨berdeckt. Dabei ist pu < po . Ein solches Verfahren wird als Intervallsch¨ atzverfahren bezeichnet und das so erhaltene Intervall als Konfidenzintervall. 3. Ein a¨lteres Medikament gegen die gleiche Erkrankung hat eine Heilungswahrscheinlichkeit von 12 . Ist das neue Medikament besser? Das heißt, man m¨ ochte wissen, ob der Parameter p gr¨ oßer als 12 ist. Die Entscheidung ist wiederum auf Basis der beobachteten Daten f¨ ur die Patienten zu treffen. Dabei soll die getroffene Aussage, die mit einer Unsicherheit behaftet ist, h¨ ochstens mit einer festgelegten Wahrscheinlichkeit falsch sein. Dies stellt ein Testproblem dar.
5
6
1. Einleitung
Beispiel Kletterseile Eine Kletterseilfirma pr¨ uft, ob ihre Seile geeignet sind, St¨ urze von Kletterern auszuhalten. Dazu werden extreme St¨ urze mit Gewichten von 150 kg aus 30 m H¨ ohe nachgeahmt. Reißen Fasern des Seils, ist die Pr¨ ufung ¨ nicht bestanden. Ubersteht das Seil den Test ohne Risse, h¨ atten auch Kletterer einen Sturz u ¨berstanden. Das Ergebnis des Versuchs kann in der folgenden Form dargestellt werden i-tes Seil gerissen ist 1 xi = falls f¨ ur i = 1, . . . , n. 0 i-tes Seil nicht gerissen ist
Durch die Untersuchung einer Zufallsstichprobe von n Seilen aus der Produktion soll nun herausgefunden werden, wie groß die Wahrscheinlichkeit p ist, dass ein beliebiges Seil aus der gesamten produzierten Charge unter der Beanspruchung reißt. Ziel ist also wieder die Sch¨ atzung des Parameters p einer Bernoulliverteilung, und somit handelt es sich hierbei wieder um ein Punktsch¨ atzproblem. Es gibt viele Unsicherheitsquellen, die die G¨ ute der Sch¨ atzung eines Parameters beeinflussen. Zu den h¨ aufigsten z¨ahlen die Qualit¨ at der Stichprobe Ist der Stichprobenumfang ausreichend groß? Ist die Stichprobe repr¨ asentativ f¨ ur die zu untersuchende Grundgesamtheit? Im Beispiel der Kletterseilfirma: Ist die Stichprobe aus der Menge der Seile groß genug, um eine ¨ Aussage u ¨ber die Grundgesamtheit zu machen? Eine Uberpr¨ ufung von nur zwei Seilen auf deren Reißfestigkeit liefert sicherlich unzuverl¨ assige Aussagen. Qualit¨ at der Modellannahmen Sind die idealisierenden Annahmen gerechtfertigt, die f¨ ur das statistische Modell gemacht werden? K¨ onnen die Daten durch dieses Modell ad¨ aquat beschrieben werden? Ist es beispielsweise realistisch, dass jeder erkrankte Patient die gleiche Heilungschance bei Einnahme eines bestimmten Medikamentes besitzt? Wahrscheinlich sollte bei einer solchen Studie auch ein m¨ oglicher Einfluss von Alter oder Geschlecht ber¨ ucksichtigt werden. Ebenso sollte man sich fragen, ob die Annahme, dass alle Kletterseile mit derselben Wahrscheinlichkeit reißen, realistisch ist.
Kapitel 2 ¨ Uberblick u ¨ber die ben¨ otigten Grundlagen
2
2
2
¨ Uberblick u ¨ber die ben¨ otigten Grundlagen
9
2.1
Grundgesamtheit und Stichprobe .............................
9
2.2
Zufallsvariable und Merkmal...................................
10
2.3
Verteilung und Empirische Verteilung........................
12
2.4
Dichte und H¨aufigkeitsverteilung .............................
14
2.5
Erwartungswert und Varianz ...................................
24
2.6
Abh¨angigkeit ......................................................
31
2.7
G¨angige Verteilungen und ihre Erwartungswerte und Varianzen .............................................................
37
2.1
Grundgesamtheit und Stichprobe
9
¨ 2 Uberblick u ¨ber die ben¨ otigten Grundlagen 2.1 Grundgesamtheit und Stichprobe
2.1
Mit Methoden der induktiven Statistik sollen Aussagen u ¨ber Mengen von Personen oder Objekten getroffen werden. Wie bereits aus der deskriptiven Statistik bekannt, bezeichnet man solche Mengen oder Massen als Grundgesamtheiten (vergleiche auch Lehrb¨ ucher zur deskriptiven Statistik, etwa Burkschat et al. (2003), Mosler, Schmid (2003) oder in Teilen Fahrmeir et al. (2003)). Die Mehrzahl statistischer Analysen st¨ utzt sich bei ihren Aussagen jedoch nicht auf die komplette Grundgesamtheit, sondern w¨ ahlt nach geeigneten Methoden Teilmengen aus Grundgesamtheiten aus. Diese so genannten Stichproben werden dann analysiert, und auf Basis der aus ihnen erhaltenen Ergebnisse werden Schl¨ usse auf die Grundgesamtheit gezogen. Definition Grundgesamtheit
Eine Grundgesamtheit ist eine Menge von Personen oder Objekten, u ¨ber die im Rahmen einer statistischen Untersuchung eine Aussage getroffen werden soll. Dabei ist die zu untersuchende Menge nach r¨aumlichen, zeitlichen und sachlichen Kriterien genau einzugrenzen. Die Kriterien, nach denen eine Grundgesamtheit eingegrenzt wird, h¨angen vom Ziel der Untersuchung ab. Die Elemente einer Grundgesamtheit heißen auch Untersuchungseinheiten.
Beispiel Grundgesamtheit
Zur besseren Planung von Wohnhausabrissen und -neubauten soll f¨ ur die Bundesrepublik Deutschland eine nach Bundesl¨ andern gestaffelte regionale Wohnbedarfsprognose f¨ ur die n¨ achsten zehn Jahre erstellt werden. Es interessiert, wie viele Haushalte (man rechnet eine Wohnung pro Haushalt, gestaffelt nach Haushaltsgr¨ oßen) es in den einzelnen Bundesl¨andern im Zeitraum der n¨ achsten zehn Jahre geben wird. Die zu betrachtende Grundgesamtheit f¨ ur jedes einzelne Bundesland ist daher – abgegrenzt nach den oben genannten Kriterien – die Menge aller in den n¨ achsten zehn Jahren (zeitlich) in Haushalten zusammen lebender Personen (sachlich) in diesem Bundesland B (r¨ aumlich).
B
10
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Definition Stichprobe
Eine Teilmenge, die aus einer Grundgesamtheit zur statistischen Untersuchung einer interessierenden Fragestellung ausgew¨ahlt wird, heißt Stichprobe. Die Elemente einer Stichprobe werden auch Erhebungseinheiten genannt, die Stichprobe selbst die Erhebungsgesamtheit.
B
Beispiel Stichprobe
Im Beispiel 9 der Wohnbedarfsprognose ist die Grundgesamtheit eine sich in die Zukunft entwickelnde Masse. Als Stichprobe kann eine Auswahl der in einem Bundesland in Haushalten zusammen lebenden Personen an einem Stichtag der Gegenwart dienen. Anhand einer Befragung dieser Personen und zus¨atzlicher Information u ¨ber Zu- und Abwanderung sowie die Bev¨ olkerungsentwicklung der Vergangenheit k¨ onnen dann Aussagen u ¨ber die zu erwartende B Entwicklung getroffen werden. Im Rahmen diese Buches werden wir nicht darauf eingehen, wie man zu guten Stichproben kommt. Die Stichprobentheorie e ist Inhalt eigener Ver¨ offentlichungen (etwa Levy, Lemeshow (1999)). Gute Stichproben zeichnen sich dadurch aus, dass in ihnen die Grundgesamtheit bez¨ uglich des interessierenden Untersuchungsziels im Kleinen abgebildet wird. Diese Eigenschaft nennt man Repr¨ asentativit¨ at e einer Stichprobe. Wir gehen im Folgenden stets davon aus, dass die realisierten Stichproben f¨ ur die interessierenden Grundgesamtheiten repr¨ asentativ sind, so dass Schl¨ usse von der Stichprobe auf die Grundgesamtheit zul¨ assig sind.
2.2
2.2 Zufallsvariable und Merkmal Aus der deskriptiven Statistik ist bekannt, dass in einer statistischen Untersuchung in der Regel nicht die Untersuchungseinheiten selbst von Interesse sind, sondern sie auszeichnende Eigenschaften. Man spricht von der Erhebung so genannter Merkmale. Obwohl ein Merkmal bestimmte, in der Regel bekannte, Auspr¨ agungen annehmen kann, weiß man vor der konkreten Durchf¨ uhrung einer Untersuchung nicht, welche Werte die einzelnen Erhebungseinheiten aufweisen. Man kann sich die Erhebung eines Merkmals an den Objekten einer Stichprobe daher auch vorstellen als die Durchf¨ uhrung eines (Zufalls-)Experiments, dessen Ausgang vorab nicht bekannt ist. Die hier enthaltene Zufallskomponente hat dazu gef¨ uhrt, dass man statt von einem Merkmal auch von einer Zufallsvariable spricht.
2.2
Zufallsvariable und Merkmal
11
Definition Zufallsvariable
Betrachtet wird eine Grundgesamtheit Ω, bestehend aus Untersuchungseinheiten, an denen ein Merkmal X interessiert. Dieses Merkmal X kann aufgefasst werden als eine Zufallsvariable X : Ω → R, das heißt als eine Abbildung der Grundgesamtheit auf die reellen Zahlen. Jedem Ereignis ω ∈ Ω wird durch X genau eine Zahl zugeordnet. Der Wertebereich der Zufallsvariablen X (das heißt die Menge aller m¨oglichen Auspr¨ agungen e des Merkmals X ) sei mit X bezeichnet. Ist der Wertebereich X abz¨ahlbar, so heißt X eine diskrete Zufallsvariable, enth¨alt der Wertebereich X ein ganzes Intervall aus den reellen Zahlen, so heißt X eine stetige Zufallsvariable.
Die Zufallsvariable selbst ist also eine fest definierte Funktion und daher eigentlich nicht zuf¨allig. Dadurch, dass man bei einer statistischen Untersuchung aber vorher nicht weiß, mit welchen Elementen der Grundgesamtheit man es zu tun bekommt, sind die Werte, die X an einer Stichprobe annehmen wird, nicht vorher bekannt. Dies macht die Zuf¨ alligkeit hier aus. So wie der Begriff der Zufallsvariable definiert ist, sind zun¨ achst nur Merkmale X zugelassen, die reelle Zahlen als Auspr¨agungen liefern. Nat¨ urlich ist dies nicht immer unmittelbar gegeben, denn ein Merkmal, das beispielsweise nominal oder ordinal e skaliert ist, kann als Auspr¨ agungen auch verbale Begriffe annehmen (m¨ annlich, weiblich oder schlecht, mittel, gut). ugen, wendet man bei solchen Merkmalen Um der Definition 11 zu gen¨ einen Trick an: man transformiert die verbalen Auspr¨ agungen in Zahlen, das heißt man kodiert die Auspr¨ agungen in Zahlenwerte um. Am urspr¨ unglichen Skalenniveau e des Merkmals ¨andert sich dadurch aber nichts! Beispiel Zufallsvariable
B
In einer Untersuchung zu Fernsehgewohnheiten von Erstkl¨ asslern interessiert es, wie lange die Kinder t¨ aglich durchschnittlich fernsehen. Die betrachtete Grundgesamtheit ist die Menge aller in Deutschland lebenden Schulkinder in der ersten Klasse in einem ausgew¨ahlten Stichschuljahr. Das interessierende Merkmal X ist die durchschnittlich pro Tag vor dem Fernseher verbrachte Zeit. Die Zufallsvariable X ordnet jedem Erstkl¨ assler diese Zeit zu: X : Erstkl¨ assler ω → durchschnittliche t¨ agliche Fernsehzeit von ω. B
12
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Liegt eine Stichprobe aus der Grundgesamtheit vor, so ist es Aufgabe der deskriptiven Statistik, die H¨ aufigkeitsverteilung des interessierenden Merkmals zu beschreiben. Befasst man sich dagegen mit der H¨aufigkeitsverteilung des Merkmals in der Grundgesamtheit, so spricht man auch von der Verteilung oder Wahrscheinlichkeitsverteilung der Zufallsvariablen X.
2.3
2.3 Verteilung und Empirische Verteilung Zur Untersuchung, mit welchen Anteilen welche Auspr¨ agungen eines Merkmals in einer Stichprobe vorkommen, benutzt man in der deskriptiven Statistik die empirische Verteilungsfunktion e. Diese gibt zu jedem beliebigen Wert x an, wie hoch der Anteil der Erhebungseinheiten in der Stichprobe ist, deren Auspr¨ agungen h¨ ochstens einen Wert von x besitzen. Analog definiert man die Verteilungsfunktion einer Zufallsvariablen X. Sie gibt zu jedem beliebigen Wert x an, wie hoch der Anteil der Untersuchungseinheiten in der Grundgesamtheit ist, deren Auspr¨ agungen kleiner oder gleich x sind. Dabei setzt man die Anteile (relativen H¨ aufigkeiten e) in der Grundgesamtheit gleich mit Wahrscheinlichkeiten. Dahinter steht die Vorstellung, dass bei zuf¨ alliger Ziehung aus einer Grundgesamtheit mit N Elementen, in der k St¨ uck eine interessierende Eigenschaft besitzen, die Wahrscheinlichkeit, eine Untersuchungseinheit mit der interessierenden Eigenschaft zu erhalten, gerade Nk betr¨agt. Diese Umsetzung der relativen H¨aufigkeiten in Wahrscheinlichkeiten wird in der Wahrscheinlichkeitsrechnung e besprochen.
Definition Verteilungsfunktion
Gegeben sei eine Zufallsvariable X . Die Funktion FX , die die Wahrscheinlichkeit daf¨ ur beschreibt, dass X einen Wert annimmt, der kleiner oder gleich einer vorgegebenen Schranke x ist, heißt Verteilungsfunktion von X
FX (x) = P(X ≤ x), wobei FX (x) ∈ [0; 1], x ∈ R und limx→−∞ FX (x) = 0, limx→∞ FX (x) = 1.
Definition Parameter
Wird eine Verteilung eindeutig durch eine Kennzahl oder eine Gruppe (so genanntes Tupel) von Kennzahlen charakterisiert in dem Sinne, dass die gleiche Verteilung immer zu den gleichen Kennzahlen f¨ uhrt und dieselben Kennzahlen immer zu derselben Verteilung, so nennt man diese Kennzahlen Parameter der Verteilung. Zur
2.3
Verteilung und Empirische Verteilung
13
Verdeutlichung schreibt man f¨ ur eine solche Verteilung statt FX (x) h¨aufig auch X F (x; ϑ), wobei ϑ f¨ur den oder die Parameter steht.
Ein Verteilungsmodell, das auf einer solchen Parametrisierung beruht, nennt man auch parametrisches Modell. Andernfalls spricht man von einem nichtparametrischen Modell. Wir betrachten zun¨ achst parametrische Modelle. H¨aufig benutzt man die Verteilungsfunktion, um die so genannten Quantile anzugeben.
Definition Quantil
Gegeben sei eine Zufallsvariable X mit Verteilungsfunktion FX und eine Zahl p ∈ (0; 1). 1. F¨ ur eine diskrete Zufallsvariable X heißt eine Zahl x∗p (theoretisches) pQuantil, wenn gilt:
P(X < x∗p ) ≤ p und P(X > x∗p ) ≤ 1 − p. Falls x∗p aus dieser Beziehung nicht eindeutig bestimmbar ist, w¨ahlt man den kleinsten Wert, der diese Bedingung erf¨ ullt. 2. F¨ ur eine stetige Zufallsvariable X heißt eine Zahl x∗p (theoretisches) p-Quantil, wenn gilt:
FX (x∗p ) = p. Auch hier w¨ahlt man gegebenenfalls den kleinsten Wert x∗p , der dies erf¨ ullt. Analog zur Definition der Quantile e aus der deskriptiven Statistik spricht man auch hier f¨ ur p = 0, 5 vom Median und f¨ ur p = 0, 25 bzw. p = 0, 75 vom unteren bzw. oberen Quartil.
14
2.4
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
2.4 Dichte und H¨ aufigkeitsverteilung In engem Zusammenhang mit der Verteilungsfunktion steht die Dichtefunktion (kurz: Dichte), die das Pendant zur relativen H¨ aufigkeitsverteilung e darstellt. Wir unterscheiden bei der Definition der Dichte den Fall der diskreten und der stetigen Zufallsvariablen.
Definition Dichtefunktion
1. Es sei X eine diskrete Zufallsvariable mit endlichem oder abz¨ahlbar unendlichem Wertebereich X = {x1 , x2 , x3 , . . .}. Die diskrete Dichte von X ist die Funktion f X , so dass f¨ ur die Verteilungsfunktion FX von X gilt FX (x) = f X (xi ). xi ≤x
Dabei kann man die Funktionswerte der diskreten Dichte angeben als
f X (xi ) = P(X = xi ) f¨ur i = 1, 2, . . . . Es gilt f X (xi ) ≥ 0 f¨ ur alle i und xi f X (xi ) = 1. Daraus folgt sofort, dass f X (xi ) ≤ 1 ist f¨ur alle i. ur A ⊆ R, Zur Berechnung der Wahrscheinlichkeit f¨ ur ein Ereignis {X ∈ A} f¨ verwendet man P(X ∈ A) = f X (xi ) = P(X = xi ). xi ∈A
xi ∈A
2. Es sei X eine stetige Zufallsvariable mit Wertebereich X = R. Die stetige Dichte von X ist die Funktion f X , so dass f¨ ur die Verteilungsfunktion FX von X gilt x X F (x) = f X (t) dt. −∞
Dabei gilt f X (x) ≥ 0 f¨ ur alle x und dass immer f X (x) ≤ 1 sein muss.
∞ −∞
f X (x) dx = 1. Daraus folgt nicht,
Die Wahrscheinlichkeit eines Ereignisses {X ∈ A} mit A ⊆ R errechnet sich dann als P(X ∈ A) = f X (x) dx. A
2.4
B
Dichte und H¨ aufigkeitsverteilung
15
Beispiel Diskrete Dichte und Verteilungsfunktion
In manchen Fantasy-Spielen wird statt des u ¨blichen sechsseitigen W¨ urfels ein W¨ urfel mit zw¨ olf Seiten benutzt, der die Zahlen von 1 bis 12 als Ergebnis zeigen kann. Wirft man einen solchen W¨ urfel einmal, so kann man die gew¨ urfelte Augenzahl als Zufallsvariable X auffassen. Der Wertebereich von ur X ist dann X = {x1 , . . . , x12 } = {1, . . . , 12} und P(X = xi ) = 1/12 f¨ i = 1, . . . , 12. Dabei gehen wir von einem so genannten fairen W¨ urfel aus, der nicht zu Gunsten einer Zahl manipuliert wurde. Die diskrete Dichte von X ist damit gegeben als f X (xi ) =
1 12
i = 1, . . . , 12.
Weiterhin lassen sich die Werte der Verteilungsfunktion bestimmen als xi
1
2
3
4
5
6
7
8
9
10
11
12
f X (xi )
1 12
1 12
1 12
1 12
1 12
1 12
1 12
1 12
1 12
1 12
1 12
1 12
FX (xi )
1 12
2 12
3 12
4 12
5 12
6 12
7 12
8 12
9 12
10 12
11 12
12 12
Damit kann man zum Beispiel die Wahrscheinlichkeit bestimmen, bei einem Wurf eine Zahl gr¨ oßer als 1, aber kleiner oder gleich 3 zu werfen
= f X (2) + f X (3) =
1 2 1 + = 12 12 12
P(1 < X ≤ 3) = P(X ≤ 3) − P(X ≤ 1) = FX (3) − FX (1) =
1 2 3 − = . 12 12 12
P(1 < X ≤ 3) = P(X ∈ (1; 3]) =
xi ∈(1;3]
oder
B Beispiel Stetige Dichte und Verteilungsfunktion
Gegeben sei eine stetige Zufallsvariable mit folgender Dichtefunktion ⎧ f¨ ur 0, 5 ≤ x < 1 ⎨ 1 f X (x) = 0, 5 f¨ ur 0 ≤ x < 0, 5 oder 1 ≤ x ≤ 1, 5 ⎩ 0 sonst.
B
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
16
Wollen wir u ¨berpr¨ ufen, ob es sich bei f tats¨ achlich um eine ∞Dichtefunktion handelt, m¨ ussen wir dazu feststellen, ob f X (x) ≥ 0 und ob −∞ f X (x) dx = 1 gilt. Offensichtlich ist f X (x) ≥ 0, außerdem ∞ X
f (x) dx
=
−∞
1,5 0,5 1 1,5 X f (x) dx = 0, 5 dx + 1 dx + 0, 5 dx 0
=
0
0,5
1
0,5 1 1,5 0, 5 · x + 1 · x + 0, 5 · x 0
0,5
1
=
(0, 5 · 0, 5 − 0) + (1 · 1 − 1 · 0, 5) + (0, 5 · 1, 5 − 0, 5 · 1)
=
0, 25 + 0, 5 + 0, 25 = 1.
Damit handelt es sich um eine Dichtefunktion. Die Verteilungsfunktion FX l¨ asst sich damit herleiten als ⎧ ⎪ 0 f¨ ur x < 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ x ⎪ ⎪ ⎪ 0, 5 dt f¨ ur 0 ≤ x < 0, 5 ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ x ⎨ x 0,5 f X (t) dt = FX (x) = 0, 5 dt + 0,5 1 dt f¨ ur 0, 5 ≤ x < 1 0 ⎪ ⎪ ⎪ −∞ ⎪ ⎪ ⎪ 1 x 0,5 ⎪ ⎪ ⎪ 0, 5 dt + 1 dt + 0, 5 dt f¨ ur 1 ≤ x ≤ 1, 5 ⎪ 0 0,5 1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 f¨ ur x > 1, 5 ⎧ ⎪ 0 ⎪ ⎪ ⎪ ⎪ x ⎪ ⎪ ⎨2 = x − 14 ⎪ ⎪ ⎪ ⎪ 14 + x2 ⎪ ⎪ ⎪ ⎩1
f¨ ur x < 0 f¨ ur
0 ≤ x < 0, 5
f¨ ur
0, 5 ≤ x < 1
f¨ ur
1 ≤ x ≤ 1, 5
f¨ ur x > 1, 5.
Weiterhin ist zum Beispiel 0,8 P(0, 6 < X ≤ 0, 8) = f X (x) dx = 0,6
0,8
0,6
0,8 1 dx = 1 · x = 0, 8 − 0, 6 = 0, 2 0,6
2.4
Dichte und H¨ aufigkeitsverteilung
17
oder P(0, 6 < X ≤ 0, 8) = FX (0, 8) − FX (0, 6) = 0, 55 − 0, 35 = 0, 2.
f X (x) 6 P(0, 6 < X ≤ 0, 8) 1
0.5 0
0,5
1
1,5
x
Man beachte außerdem, dass aus der Verteilungsfunktion auf die Dichtefunktion r¨ uckgeschlossen werden kann. Dazu wird die Ableitung von FX (x) bestimmt ⎧ ⎪ f¨ ur x < 0 oder x > 1, 5 ⎪0 ∂FX (x) ⎨ = 0, 5 f¨ ur 0 < x < 0, 5 oder 1 < x < 1, 5 ⎪ ∂x ⎪ ⎩1 f¨ ur 0, 5 < x < 1. Die Ableitung existiert nicht an den Stellen x = 0; 0, 5; 1; 1, 5; an diesen Stellen unterscheiden sich die linksseitigen Ableitungen von den rechtsseitigen. Davon abgesehen, stimmen die Ableitung von FX und die Dichte f X u ¨berein. Es gilt also, von den genannten vier Ausnahmen abgesehen, dass ∂FX (x) = f X (x). ∂x B
18
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Rechenregeln f¨ ur Dichtefunktionen und Verteilungsfunktionen
1. Die Verteilungsfunktion ist das Gegenst¨ uck zur empirischen Verteilungsfunktion e. 2. F¨ ur eine diskrete Zufallsvariable sieht die Verteilungsfunktion wie eine Treppenfunktion aus mit Spr¨ ungen an den Stellen xi und Sprungh¨ ohen X f (xi ) = P(X = xi ). 3. F¨ ur eine diskrete Zufallsvariable X gilt P(a < X ≤ b) = P(X = xi ) a<xi ≤b
und P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a). 4. F¨ ur eine stetige Zufallsvariable X gilt: Der Wert der Verteilungsfunktion FX an einer Stelle x entspricht der Fl¨ ache unter der Kurve der stetigen Dichtefunktion X f bis zur Stelle x. P(X = x) = 0 f¨ ur x ∈ R fest. Das heißt, f¨ ur eine stetige Zufallsvariable ist die Wahrscheinlichkeit, einen bestimmten Wert anzunehmen, gleich Null. Weiter ist b P(a < X ≤ b) = und
f X (x) dx a
P(a < X < b) = P(a ≤ X < b) = P(a < X ≤ b) =
P(a ≤ X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a).
Die stetige Dichte f X l¨ asst sich als Ableitung der Verteilungsfunktion FX schreiben ∂FX (x) , ∂x vorausgesetzt, die Ableitung existiert f¨ ur fast alle x. Dabei ist es zul¨assig, dass die Ableitung f¨ ur eine endliche Menge einzelner Werte x nicht existiert (vergleiche Beispiel 15). f X (x) =
2.4
Dichte und H¨ aufigkeitsverteilung
19
Betrachtet man nicht nur ein Merkmal alleine, sondern interessiert sich daf¨ ur, wie sich zwei Merkmale gemeinsam verhalten, so geht man u ¨ber zur Betrachtung gemeinsamer Dichten und gemeinsamer Verteilungen. Definition Gemeinsame Dichte f¨ ur zwei Zufallsvariablen X und Y
1. F¨ ur zwei diskrete Zufallsvariablen X und Y mit Verteilungsfunktionen FX und FY schreibt man die gemeinsame Dichtefunktion als
f X;Y (xi ; yj ) = P(X = xi ; Y = yj ) i, j = 1, 2, . . . , wobei
f X;Y (xi ; yj ) ≥ 0 und
f X;Y (xi ; yj ) = 1 gilt.
(xi ;yj )
2. F¨ ur zwei stetige Zufallsvariablen X und Y schreibt man die gemeinsame Dichtefunktion als
f X;Y (x; y),
x ∈ R, y ∈ R,
wobei
∞ ∞ f
X;Y
(x; y) ≥ 0 und
f X;Y (x; y) dx dy = 1 gilt. −∞ −∞
Rechenregeln F¨ ur eine Teilmenge R ⊆ R2 der xy-Ebene l¨asst sich die Wahrscheinlichkeit f¨ ur {(X; Y ) ∈ R} wie folgt berechnen. 1. Falls X und Y diskrete Zufallsvariablen sind, ist f X;Y (xi ; yj ). P((X; Y ) ∈ R) = (xi ;yj )∈R
2. Falls X und Y stetige Zufallsvariablen sind, ist P((X; Y ) ∈ R) =
f X;Y (x; y) dx dy. R
Aus der gemeinsamen Dichte von zwei Merkmalen kann auf die beiden Dichten der einzelnen Merkmale r¨ uckgeschlossen werden. Besch¨aftigt man sich im
20
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Zusammenhang der gemeinsamen Betrachtung zweier Zufallsvariablen mit den Dichten der beiden einzelnen Variablen, so spricht man auch von den Randdichten.
Definition Randdichten
Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktion f X;Y . Die Randdichten von X und Y sind in der folgenden Weise definiert. Im diskreten Fall sind die Randdichten von X bzw. Y gegeben durch f X (xi ) = P(X = xi ) = f X;Y (xi ; yj ), i = 1, 2, . . . , yj
f Y (yj )
=
P(Y = yj ) =
f X;Y (xi ; yj ),
j = 1, 2, . . . .
xi
Es wird also u ¨ber diejenige Variable summiert, deren Randdichte nicht von Interesse ist, das heißt f¨ ur die Randdichte von X wird u ¨ber alle yj summiert und umgekehrt. Im stetigen Fall sind die Randdichten von X bzw. Y gegeben durch
∞ X
f (x) =
f X;Y (x; y) dy,
x ∈ R,
f X;Y (x; y) dx,
y ∈ R.
−∞
∞ Y
f (y) = −∞
F¨ ur stetige Zufallsvariablen muss zur Berechnung der jeweiligen Randdichte die entsprechende andere Variable herausintegriert werden.
B
Beispiel Gemeinsame Dichte und Randdichten im diskreten Fall
Seien X und Y diskrete Zufallsvariablen. Ihre gemeinsame Dichtefunktion sei gegeben als y
x
f X,Y (x, y) 1
0 0, 1
1 0, 2
2 0
4 0, 3
f X (x) 0, 6
2 f Y (y)
0, 1 0, 2
0, 1 0, 3
0, 2 0, 2
0 0, 3
0, 4 1, 0
2.4
Dichte und H¨ aufigkeitsverteilung
21
Aus der Tabelle werden die jeweiligen Randdichten von X und Y gut sichtbar. Gesucht sei die Wahrscheinlichkeit daf¨ ur, dass die Summe X + Y ≤ 2 ist f X;Y (xi ; yj ) P(X + Y ≤ 2) = (xi ;yj ),xi +yj ≤2
=
f X;Y (1; 0) + f X;Y (1; 1) + f X;Y (2; 0)
=
0, 1 + 0, 2 + 0, 1 = 0, 4.
Seien weiter die Randdichten von X an der Stelle x = 1 und von Y an der Stelle y = 2 zu bestimmen f X;Y (1; yj ) = f X;Y (1; 0) + f X;Y (1; 1) f X (1) = yj
+ f X;Y (1; 2) + f X;Y (1; 4) = 0, 6 f Y (2)
=
f X;Y (xi ; 2) = f X;Y (1; 2) + f X;Y (2; 2) = 0, 2.
xi
B Beispiel Gemeinsame Dichte und Randdichten im stetigen Fall
Seien X und Y stetige Zufallsvariablen. Ihre gemeinsame Dichtefunktion sei gegeben als f X;Y (x; y) = exp{−x} · exp{−y},
x > 0, y > 0.
Berechnen wir die Wahrscheinlichkeit, dass sich X auf dem Intervall (−∞; 1] realisiert und Y auf dem Intervall [1; ∞) ∞ 1 P(X ≤ 1; Y ≥ 1) =
f X;Y (x; y) dx dy 1 −∞
∞ = 1
∞ = 1
⎛ 1 ⎞ exp{−y} · ⎝ exp{−x} dx⎠ dy 0
1 exp{−y} · − exp{−x} dy
0
B
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
22
∞ =
(1 − exp{−1}) ·
∞ exp{−y} dy = − (1 − exp{−1}) · exp{−y} 1
1
=
(1 − exp{−1}) · exp{−1}.
Ebenso erhalten wir die Randdichte von X durch Herausintegrieren von y ∞ 0 f¨ ur x ≤ 0 f X (x) = f X;Y (x; y) dy = exp{−x} f¨ ur x > 0, −∞
da gilt ∞
∞ exp{−x} · exp{−y} dy = exp{−x}.
f X;Y (x; y) dy = −∞
0
Analog kann die Randdichte von Y hergeleitet werden ∞ 0 f¨ ur y ≤ 0 Y X;Y f (y) = f (x; y) dx = exp{−y} f¨ ur y > 0. −∞
B Ist schon bekannt, dass die Zufallsvariable Y einen bestimmten Wert angenommen hat, dann kann man sich daf¨ ur interessieren, wie die Wahrscheinlichkeitsverteilung von X unter dieser Bedingung aussieht.
Definition Bedingte Dichte
Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X;Y (x; y) und zugeh¨origen Randdichten f X (x) und f Y (y). Die bedingte Dichte von X f¨ ur gegebenes Y = y ist definiert als
f X|Y (x|y) =
f X;Y (x; y) f Y (y)
f¨ ur f Y (y) = 0.
F¨ ur f Y (y) = 0 ist f X|Y (x|y) nicht definiert. Umgekehrt ist die bedingte Dichte von Y gegeben X = x definiert als
f Y |X (y|x) =
f X;Y (x; y) f X (x)
f¨ ur f X (x) = 0.
2.4
Dichte und H¨ aufigkeitsverteilung
23
Die obige Definition kann sowohl f¨ ur diskrete als auch stetige Zufallsvariablen angewendet werden. Sind X und Y diskret, so entspricht die bedingte Dichte von X gegeben Y = y der Wahrscheinlichkeit, dass X den Wert x annimmt, wenn sich Y als y realisiert hat, also f X|Y (x|y) = P(X = x | Y = y). Beispiel Bedingte Dichte
B
Seien X und Y zwei stetige Zufallsvariablen mit gemeinsamer Dichtefunktion 2 f¨ ur x > 0, y > 0, x + y < 1 X;Y (x; y) = f 0 sonst. Zur Bestimmung der bedingten Dichte f Y |X (y|x) ben¨otigen wir zun¨ achst die Randdichte von X. Diese erh¨alt man durch Herausintegrieren der Variable Y aus der gemeinsamen Dichtefunktion von X und Y 1−x ∞ 2 dy = 2 · (1 − x) f¨ ur 0 < x < 1 0 f X (x) = f X;Y (x; y) dy = 0 sonst. −∞
F¨ ur gegebenes 0 < x < 1 berechnet sich die bedingte Dichte nun zu 2 1 f¨ ur y > 0, y < 1 − x f X;Y (x; y) Y |X 2·(1−x) = 1−x = (y|x) = f X f (x) 0 sonst. Interessant ist, dass f¨ ur festes x die bedingte Verteilung von Y eine RechteckB verteilung 42 auf dem Intervall (0; 1 − x) ist.
Definition Bedingte Verteilung
Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktion f X;Y (x; y) und zugeh¨ origen Randdichten f X (x) und f Y (y). Die bedingte Verteilung von X f¨ ur gegebenes Y = y ist, wenn X und Y diskret sind, definiert als FX|Y (x|y) = f X|Y (xi |y). xi ≤x
wenn X und Y stetig sind, definiert als
x F
X|Y
f X|Y (t|y) dt.
(x|y) = −∞
24
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Die in der deskriptiven Statistik benutzten Kenngr¨ oßen f¨ ur die H¨ aufigkeitsverteilungen von Merkmalen finden ihre Gegenst¨ ucke in den entsprechenden Gr¨ oßen f¨ ur Zufallsvariablen.
2.5
2.5 Erwartungswert und Varianz Zur zusammenfassenden Beschreibung von Datens¨ atzen werden in der deskriptiven Statistik unter Anderem Maße f¨ ur die Lage und die Streuung ¨ e von Daten berechnet. Ublich sind das arithmetische Mittel 46 e zur Charakterisierung der Lage und die empirische Varianz (Stichprobenvarianz) und Standardabweichung (Stichprobenstandardabweichung) at. Als Lage- und Streuungsmaße 46 e zur Charakterisierung der Variabilit¨ f¨ ur Wahrscheinlichkeitsverteilungen dienen die entsprechenden theoretischen Konstrukte Erwartungswert 24 und Varianz bzw. Standardabweichung 26.
Definition Erwartungswert
Betrachtet wird eine Zufallsvariable X mit Dichtefunktion f X . 1. Ist X diskrete Zufallsvariable, so ist der Erwartungswert E[X] von X das gewichtete Mittel E[X] = xi · f X (xi ) = x1 · f X (x1 ) + x2 · f X (x2 ) + . . . xi
2. Ist X stetige Zufallsvariable, so ist der Erwartungswert E[X] von X definiert als ∞ E[X] = x · f X (x) dx. −∞
B
Beispiel (Fortsetzung 15) Diskrete Dichte
F¨ ur die diskrete Zufallsvariable aus Beispiel 15 errechnet sich der Erwartungswert wie folgt E[X] =
12 i=1
xi · f X (xi ) =
78 1 · (1 + 2 + . . . + 12) = = 6, 5. 12 6 B
2.5
Erwartungswert und Varianz
25
Beispiel (Fortsetzung 15) Stetige Dichte
B
F¨ ur die stetige Zufallsvariable aus Beispiel 15 errechnet sich der Erwartungswert wie folgt ∞ E[X]
0,5 1 1,5 x · f (x) dx = x · 0, 5 dx + x · 1 dx + x · 0, 5 dx X
= −∞
0
0,5
=
0,5 1 1,5 x2 x2 x2 · 0, 5 + · 1 + · 0, 5 2 2 2 0 0,5 1
=
0, 0625 + 0, 375 + 0, 3125 = 0, 75.
1
B Eigenschaften und Rechenregeln zum Erwartungswert Der Erwartungswert existiert nicht immer. Es kann Dichten geben, so dass die Summe bzw. das Integral von x · f X (x) nicht endlich ist. In diesem Fall sagt man, dass E[X] nicht existiert. Der Erwartungswert ist das theoretische Gegenst¨ uck zum arithmetischen Mittel 46 e. Man kann E[X] interpretieren als den Schwerpunkt“ der Dichte, das heißt als die Stelle, an der ” man die Dichtefunktion unterst¨ utzen m¨ usste, um sie im Gleichgewicht zu halten. Ist die Dichtefunktion f X von X symmetrisch um eine Stelle a, das ur alle x, dann ist E[X] = a. heißt f X (a + x) = f X (a − x) f¨ Transformiert man die Zufallsvariable X linear, das heißt man betrachtet Y = a · X + b f¨ ur Konstanten a, b, so gilt E[Y ] = E[a · X + b] = a · E[X] + b. Dies ist die so genannte Linearit¨ at des Erwartungswerts.
26
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Transformiert man die Zufallsvariable X mit einer beliebigen Funktion g, das heißt man betrachtet Y = g(X), so gilt g(xi ) · f X (xi ), E[Y ] = E[g(X)] = xi
falls X eine diskrete Zufallsvariable, bzw. ∞ g(x) · f X (x) dx,
E[Y ] = E[g(X)] = −∞
falls X eine stetige Zufallsvariable ist.
Definition Varianz und Standardabweichung
Sei X eine Zufallsvariable mit Dichtefunktion f X , und der Erwartungswert E[X] existiere. Die Varianz von X ist definiert durch Var[X] = E (X − E[X])2 . Die Gr¨oße Std[X] = Var[X] heißt Standardabweichung von X . 1. Ist X diskret, so rechnet man
Var[X] =
(xi − E[X])2 · f X (xi ). xi
2. Ist X stetig, so rechnet man
∞ Var[X] = −∞
(x − E[X])2 · f X (x) dx.
2.5
Erwartungswert und Varianz
27
Eigenschaften und Rechenregeln zur Varianz Die Varianz ist das theoretische Gegenst¨ uck zur Stichprobenvarianz e. Die Varianz kann alternativ u ¨ber den Verschiebungssatz berechnet werden Var[X] = E[X 2 ] − (E[X])2 , 2 X wobei im diskreten Fall E[X 2 ] = xi xi · f (xi ), im stetigen Fall ∞ 2 2 X E[X ] = −∞ x · f (x) dx ist. Transformiert man die Zufallsvariable X linear, das heißt man betrachtet Y = a · X + b f¨ ur Konstanten a, b, so gilt Var[Y ] = Var[a · X + b] = a2 · Var[X] und f¨ ur die Standardabweichung Std[Y ] = |a| · Std[X].
Beispiel Varianz einer diskreten Zufallsvariable
Sei X eine diskrete Zufallsvariable mit Dichtefunktion p f¨ ur x = 2 X f (x) = 1−p f¨ ur p ∈ (0; 1). f¨ u r x ∈ {1; 3} 2 Zu berechnen sei die Varianz. Dazu berechnen wir zun¨achst den Erwartungswert von X xi · f X (xi ) = 1 · f X (1) + 2 · f X (2) + 3 · f X (3) E[X] = xi
=
1·
1−p 1−p +2·p+3· = 2. 2 2
Nun l¨ asst sich die Varianz wie folgt berechnen Var[X] = (xi − E[X])2 · f X (xi ) xi
= (1 − 2)2 · f X (1) + (2 − 2)2 · f X (2) + (3 − 2)2 · f X (3)
B
28
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
=
1−p 1−p + = 1 − p. 2 2
Die Berechnung der Varianz mit Hilfe des Verschiebungssatzes 27 f¨ uhrt zum gleichen Ergebnis: Dazu berechnen wir zun¨ achst E[X 2 ] E[X 2 ] = x2i · f X (xi ) = 12 · f X (1) + 22 · f X (2) + 32 · f X (3) = 5 − p. xi
Die Anwendung des Verschiebungssatzes ergibt dann Var[X] = E[X 2 ] − (E[X])2 = 5 − p − 4 = 1 − p. B F¨ ur zwei Merkmale X und Y gemeinsam k¨onnen ebenfalls Erwartungswerte bestimmt werden. Rechenregeln f¨ ur den Erwartungswert diskreter Zufallsvariablen Der Erwartungswert einer beliebigen Funktion g(X; Y ) ist definiert als E[g(X; Y )] = g(xi ; yj ) · f X;Y (xi ; yj ). (xi ;yj )
Insbesondere gilt, wenn g(x; y) = x · y xi · yj · f X;Y (xi ; yj ). E[X · Y ] = (xi ;yj )
Rechenregeln f¨ ur den Erwartungswert stetiger Zufallsvariablen F¨ ur eine beliebige Funktion g(X; Y ) von X und Y ist der Erwartungswert definiert als ∞ ∞ g(x; y) · f X;Y (x; y) dx dy.
E[g(X; Y )] = −∞ −∞
2.5
Erwartungswert und Varianz
29
Insbesondere gilt, wenn g(x; y) = x · y ∞ ∞ E(X · Y ) =
x · y · f X;Y (x; y) dx dy. −∞ −∞
Beispiel Erwartungswert von X · Y im diskreten Fall
B
Seien X und Y die diskreten Zufallsvariablen aus dem Beispiel 20. Der Erwartungswert von (X · Y ) berechnet sich zu xi · yj · f X;Y (xi ; yj ) E[X · Y ] = (xi ,yj )
=
(1 · 0) · f X;Y (1; 0) + (1 · 1) · f X;Y (1; 1) + · · · + (2 · 4) · f X;Y (2; 4) = 2, 4. B
Die Definition der bedingten Dichte 22 einer Zufallsvariablen X f¨ ur gegebenes Y = y f¨ uhrt zum Konzept der so genannten bedingten Erwartungswerte. So wie der einfache Erwartungswert auf Basis der Dichte einer einzelnen Zufallsvariable definiert wird, basiert die Definition des bedingten Erwartungswerts auf der bedingten Dichte.
Definition Bedingte Erwartungswerte
oriSeien X und Y Zufallsvariablen mit gemeinsamer Dichte f X;Y (x; y) und zugeh¨ X Y gen Randdichten f (x) und f (y). F¨ ur eine beliebige Funktion g ist der bedingte Erwartungswert von g(X; Y ) gegeben Y = y f¨ ur zwei diskrete Zufallsvariablen X und Y definiert als E[g(X; Y )|Y = y] = g(xi ; y) · f X|Y (xi |y), xi
30
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
f¨ ur zwei stetige Zufallsvariablen X und Y definiert als
∞ g(x; y) · f X|Y (x|y) dx.
E[g(X, Y )|Y = y] = −∞
Entsprechend sind die bedingten Erwartungswerte von Y gegeben X = x definiert u ¨ber die bedingte Dichte von Y gegeben X = x.
Zum Verst¨andnis der bedingten Erwartungswerte ist es hilfreich, nicht nur feste Realisationen y von Y als Bedingung anzunehmen, sondern die Bedingung selbst wieder als zuf¨allig aufzufassen. Damit betrachtet man den bedingten Erwartungswert E[g(X; Y )|Y ], als Funktion von Y , selbst wieder als Zufallsvariable. Eigenschaften bedingter Erwartungswerte F¨ ur die speziellen Funktionen g1 (x; y) = x und g2 (x; y) = y sind E[X|Y = y] und E[Y |X = x] die so genannten bedingten Erwartungswerte von X f¨ ur gegebenes Y = y bzw. von Y f¨ ur gegebenes X = x. Der bedingte Erwartungswert E[g(X; Y )|Y ] kann als Funktion in Abh¨ angigkeit von Y aufgefasst werden. Es l¨ asst sich zeigen, dass die Zufallsvariable E[X|Y ] den Erwartungswert E[X] besitzt, das heißt es gilt E[E[X|Y ]] = E[X]. Entsprechend gilt E[E[Y |X]] = E[Y ].
B
Beispiel (Fortsetzung 23) Bedingter Erwartungswert
Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X;Y (x; y) und bedingter Dichte aus Beispiel 23. Der bedingte Erwartungswert E[Y |X = x] f¨ ur festes X = x und 0 < x < 1 errechnet sich dann wie folgt ∞ E[Y |X = x] = −∞
y · f Y |X (y|x) dy
2.6
Abh¨ angigkeit
31 1−x
= 0
1−x y2 1−x y dy = . = 1−x 2 · (1 − x) 0 2
Fasst man nun den bedingten Erwartungswert E[Y |X] als Funktion von X auf, erh¨ alt man E[Y |X] = 1−X allige Gr¨ oße. B 2 , also wieder eine zuf¨
2.6
2.6 Abh¨ angigkeit Bei der gemeinsamen Betrachtung zweier Merkmale interessiert man sich h¨ aufig daf¨ ur, ob und gegebenenfalls wie stark die beiden Merkmale miteinander zusammenh¨ angen. Dazu berechnet man in der deskriptiven Statistik Zusammenhangsmaße e wie Kontingenz- und Korrelationskoeffizienten e. Als zugrunde liegende theoretische Konzepte betrachten wir die stochastische Unabh¨ angigkeit 31, die Kovarianz und die Korrelation 32. Gilt, dass f¨ ur festes y die bedingte Dichte von X der Randdichte von X entspricht, also f X|Y (x|y) = f X (x), so sind X und Y voneinander stochastisch unabh¨ angig. Das heißt, die Realisierung von Y hat keinen Einfluss auf die Realisierung von X. Dies ist a¨quivalent zur folgenden Definition der Unabh¨ angigkeit. Definition Unabh¨ angigkeit von Zufallsvariablen
Seien X und Y Zufallsvariablen mit gemeinsamer Dichtefunktionfunktion f X,Y (x, y) und zugeh¨origen Randdichten f X (x) und f Y (y). Dann sind X und Y (stochastisch) unabh¨ angig, wenn
f X;Y (x; y) = f X (x) · f Y (y) f¨ ur alle x und y aus den Wertebereichen von X und Y gilt. Man beachte, dass hier die beiden F¨alle diskreter und stetiger Zufallsvariablen abgedeckt sind.
Rechenregeln f¨ ur unabh¨ angige Zufallsvariablen Sind die Zufallsvariablen X und Y unabh¨ angig, dann gilt f¨ ur beliebige Funktionen g(X), h(Y ) E[g(X) · h(Y )] = E[g(X)] · E[h(Y )].
32
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Da die Funktionen g und h auch der Identit¨ at entsprechen k¨onnen, gilt insbesondere E[X · Y ] = E[X] · E[Y ], wenn X und Y unabh¨ angig sind.
Die bedingte Dichtefunktion von X f¨ ur gegebenes Y = y war definiert als f X|Y (x|y)
=
f X;Y (x; y) f Y (y)
f¨ ur f Y (y) = 0.
Mit der Unabh¨ angigkeit gilt dann f X|Y (x|y)
= =
f X;Y (x; y) f¨ ur f Y (y) = 0 f Y (y) f X (x) · f Y (y) = f X (x). f Y (y)
Daher sind die Formulierungen der Unabh¨ angigkeit u ¨ber die bedingten Dichten und u ¨ber die gemeinsame Dichte ¨aquivalent.
Definition Kovarianz und Korrelation
F¨ ur zwei Zufallsvariablen X und Y ist die Kovarianz zwischen X und Y definiert als
Cov[X, Y ] = E [(X − E[X]) · (Y − E[Y ])] . Der Korrelationskoeffizient (kurz: die Korrelation) zwischen X und Y ist gegeben als Cov[X, Y ] . Cor[X, Y ] = Var[X] · Var[Y ] Sind X und Y diskret, so l¨asst sich die Formel f¨ ur die Kovarianz darstellen durch Cov[X, Y ] = (xi − E[X]) · (yj − E[Y ]) · f X;Y (xi ; yj ). (xi ,yj )
F¨ ur zwei stetige Zufallsvariablen X , Y ergibt sich
∞ ∞ (x − E[X]) · (y − E[Y ]) · f X;Y (x; y) dx dy.
Cov[X, Y ] = −∞ −∞
2.6
Abh¨ angigkeit
33
Rechenregeln und Eigenschaften zu Kovarianz und Korrelation Die Korrelation ist das theoretische Gegenst¨ uck zum Korrelationskoeffizienten nach Bravais und Pearson e. Zur vereinfachten Berechnung der Kovarianz verwendet man den Verschiebungssatz f¨ ur die Kovarianz Cov[X, Y ] = E[X · Y ] − E[X] · E[Y ]. Transformiert man X und Y linear in a · X + b und c · Y + d f¨ ur konstante Werte a, b, c, d, so gilt Cov[a · X + b, c · Y + d] = a · c · Cov[X, Y ]. F¨ ur zwei Zufallsvariablen X und Y gilt außerdem Var[X + Y ] = Var[X] + Var[Y ] + 2 · Cov[X, Y ]. Wenn X und Y stochastisch unabh¨ angig sind, so gilt Cov[X, Y ] = 0. Dies ist leicht einzusehen, denn Cov[X, Y ]
=
E[X · Y ] − E[X] · E[Y ]
=
E[X] · E[Y ] − E[X] · E[Y ] = 0,
da E[X · Y ] = E[X] · E[Y ] aus der Unabh¨ angigkeit von X und Y gefolgert werden kann. Der Umkehrschluss ist nicht zul¨ assig. Das heißt, aus Cov[X, Y ] = 0 folgt im Allgemeinen nicht die Unabh¨ angigkeit der beiden Zufallsvariablen.
34
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Erg¨ anzungen
Betrachtet man nicht nur zwei, sondern eventuell auch mehr als zwei Zufallsvariablen X1 , . . . , Xn gemeinsam, so gelten außerdem noch die folgenden Rechenregeln. Rechenregeln f¨ ur mehr als zwei Zufallsvariablen X1 , . . . , Xn sind stochastisch unabh¨ angig, falls f X1 ;...;Xn (x1 ; . . . ; xn ) = f X1 (x1 ) · . . . · f Xn (xn ). Dabei bezeichnet f X1 ,...,Xn die gemeinsame Dichte von X1 , . . . , Xn und f Xi die Randdichte von Xi , i = 1, . . . , n. F¨ ur Konstanten a1 , . . . , an gilt n n E ai · Xi = ai · E[Xi ]. i=1
i=1
F¨ ur Konstanten a1 , . . . , an , b1 , . . . , bm gilt ⎤ ⎡ n m n m ai · Xi , bj · Yj ⎦ = ai · bj · Cov[Xi , Yj ]. Cov ⎣ i=1
j=1
i=1 j=1
Falls X1 , . . . , Xn stochastisch unabh¨ angig, gilt f¨ ur die Varianz n n = Var ai · Xi a2i · Var(Xi ). i=1
i=1
¨ Uber die Verteilungsfunktion 12 wird ein Merkmal charakterisiert. Zur statistischen Beschreibung einer Stichprobe verwendet man die folgende modellhafte Idee. Man geht davon aus, dass jeder beobachtete Wert des Merkmals in der Stichprobe (der Merkmalswert jeder Erhebungseinheit) eine Realisation eines Grundmerkmals X ist. Um die Werte f¨ ur die einzelnen Erhebungseinheiten voneinander zu unterscheiden, stellt man sich weiter vor, dass die i-te Untersuchungseinheit selbst das Merkmal Xi besitzt, das dieselben Charakteristika aufweist wie das Grundmerkmal X.
2.6
Abh¨ angigkeit
35
Definition Stichprobenvariablen
Ein interessierendes Merkmal lasse sich beschreiben durch eine Zufallsvariable X mit Verteilungsfunktion FX (x; ϑ). Eine Stichprobe x1 , . . . , xn l¨asst sich dann auffassen als eine Realisierung von Zufallsvariablen X1 , . . . , Xn , die stochastisch unabh¨angig sind und alle dieselbe Verteilung wie X besitzen. Die Zufallsvariablen X1 , . . . , Xn nennt man Stichprobenvariablen.
Durch die Modellvorstellung, dass die Stichprobenvariablen unabh¨ angig und identisch wie die Ausgangsvariable X verteilt sind, sichert man, dass die ur das interessierende Merkmal X in der realisierte Stichprobe x1 , . . . , xn f¨ Grundgesamtheit repr¨ asentativ ist. Rechenregeln f¨ ur Stichprobenvariablen Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie eine Zufallsvariable X mit Verteilungsfunktion FX (x) und Dichtefunktion f X (x). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist f
X1 ;...;Xn
(x1 ; . . . ; xn ) =
n
f X (xi ).
i=1
E[Xi ] = E[X], Var[Xi ] = Var[X], i = 1, . . . , n, wenn Erwartungswert und Varianz von X existieren. F¨ ur X =
1 n
·
n
E[X]
=
Var[X]
=
Xi ist n n 1 1 · E Xi = · E[Xi ] = E[X], n i=1 n i=1 n n 1 1 1 · Var Xi = 2 · Var[Xi ] = · Var[X]. n i=1 n i=1 n
i=1
Gr¨ oßen, die h¨ aufig im Zusammenhang mit Stichprobenvariablen betrachtet werden, sind die so genannten Ordnungsstatistiken. Ordnungsstatistiken sind relevant beispielsweise bei der Bestimmung der Verteilung des Minimums und des Maximums.
36
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Definition Ordnungsstatistiken
Betrachten wir ein mindestens ordinal skaliertes Merkmal, das durch eine Zufallsvariable X mit Verteilungsfunktion FX und zugeh¨ origer Dichtefunktion f X beschrieben wird. Die Stichprobenvariablen X1 , . . . , Xn seien unabh¨angig und identisch wie X verteilt, wobei x1 , . . . , xn eine realisierte Stichprobe vom Umfang n ist. Die Beobachtungen werden der Gr¨ oße nach geordnet, beginnend mit der kleinsten
x(1) ≤ x(2) ≤ x(3) ≤ . . . ≤ x(n) . Dann k¨ onnen x(1) , . . . , x(n) als Realisationen von X(1) , . . . , X(n) aufgefasst werden. Diese Zufallsvariablen X(1) , . . . , X(n) heißen Ordnungsstatistiken.
Regel Verteilung von Ordnungsstatistiken Sei X eine stetige Zufallsvariable mit Verteilungsfunktion FX . Seien weiangige und wie X verteilte Stichprobenvariablen ter X1 , . . . , Xn unabh¨ und X(1) , . . . , X(n) die entsprechenden Ordnungsstatistiken. Dann ist die Randverteilung der i-ten Ordnungsstatistik, i = 1, . . . , n, gegeben durch n n−j n X j · F (x) · 1 − FX (x) , x ∈ R. FX(i) (x) = j j=i
Setzen wir i = 1, so erhalten wir die Verteilung des Minimums, das der Ordnungsstatistik X(1) entspricht. Regel Verteilung des Minimums Die Verteilung des Minimums ist f¨ ur x ∈ R gegeben als n n−j n n X j · F (x) · 1 − FX (x) = 1 − 1 − FX (x) . FX(1) (x) = j j=1 Die Dichtefunktion des Minimums erhalten wir durch Ableiten der Verteilungsfunktion f X(1) (x) = n · (1 − FX (x))n−1 · f X (x),
x ∈ R.
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
37
Analog ergibt sich f¨ ur i = n die Verteilung des Maximums X(n) . Regel Verteilung des Maximums Die Verteilung des Maximums ist f¨ ur x ∈ R gegeben als n n−j X n n X j · F (x) · 1 − FX (x) = F (x) . FX(n) (x) = j j=n Die Dichtefunktion f X(n) (x) = n · (FX (x))n−1 · f X (x),
x ∈ R,
erh¨ alt man wieder durch Ableiten der Verteilungsfunktion.
2.7 G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen Einige Standardsituationen kommen bei statistischen Analysen immer wieder vor. Mit diesen Situationen verbunden sind Merkmale, die bestimmte Typen von Verteilungen besitzen. Im Folgenden stellen wir die g¨ angigsten dieser Verteilungen vor, jeweils zusammen mit Dichtefunktion, Erwartungswert und Varianz der entsprechend verteilten Zufallsvariablen, sowie einigen grundlegenden Eigenschaften. Die hier vorgestellten Verteilungen werden in den folgenden Kapiteln ben¨ otigt. Dar¨ uber hinaus gibt es viele weitere Verteilungen, die hier nicht besprochen werden, wie zum Beispiel die Negativ-Binomialverteilung, die Beta-Verteilung, die Cauchy-Vertei¨ lung, die logistische Verteilung und andere e. Ubersichten findet man beispielsweise in Evans et al. (2000). Diskrete Verteilungen
Eine faire M¨ unze mit den beiden Seiten Kopf und Zahl wird n-mal voneinander unabh¨ angig geworfen. Es wird jeweils notiert, welche Seite oben liegt. Das erhobene Merkmal X sei die Anzahl der W¨ urfe, in denen Kopf oben gelegen hat. Dann ist f¨ ur den einzelnen Wurf die Wahrscheinlichkeit, dass Kopf oben liegt, gleich 1/2 bei einer fairen M¨ unze. Jeder einzelne Wurf stellt ein so genanntes Bernoulli-Experiment dar.
2.7
38
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Definition Bernoulli-Experiment
Betrachtet wird ein einzelnes Zufallsexperiment mit den zwei m¨oglichen Ausg¨angen Erfolg und Misserfolg. Dabei tritt mit Wahrscheinlichkeit p ∈ [0; 1] ein Erfolg ein, p heißt dementsprechend Erfolgswahrscheinlichkeit. Ein solches Zufallsexperiment heißt Bernoulli-Experiment.
Definition Bernoulliverteilung
Eine Zufallsvariable X , die den Wert 1 annimmt, falls ein interessierendes Ereignis eintritt, und den Wert 0, falls es nicht eintritt, und die eine Dichtefunktion f X der Form
f X (x) = px · (1 − p)1−x
f¨ ur x = 0, 1
besitzt, heißt bernoulliverteilt mit Parameter p. Schreibweise: X ∼ Bin(1; p).
Eigenschaften Der Parameter p ist definiert auf dem Intervall [0; 1]. Erwartungswert und Varianz einer bernoulliverteilten Zufallsvariablen sind E[X] = p,
Var[X] = p · (1 − p).
Zur Darstellung der Binomialverteilung ben¨ otigen wir den Binomialkoeffizienten.
Definition Binomialkoeffizient
Der Binomialkoeffizient aus zwei nat¨ urlichen Zahlen m und k ist definiert als m! m = , falls m ≥ k. k k! · (m − k)! Falls m < k , wird festgelegt, dass m k = 0 gilt. urlichen Zahl k definiert als Dabei ist die Fakult¨ at k! einer nat¨
k! = 1 · 2 · . . . · (k − 1) · k,
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
39
wobei per Definition 1! = 1 und 0! = 1 gesetzt wird. at, m ¨ber k. Sprechweisen: k! = k Fakult¨ k = mu
Definition Binomialverteilung
Eine diskrete Zufallsvariable X , die die Werte 0, 1, . . . , n annehmen kann, mit Dichtefunktion n · px · (1 − p)n−x f¨ur x = 0, 1, . . . , n f X (x) = x heißt binomialverteilt mit Parametern n und p. Schreibweise: X ∼ Bin(n; p).
Die Binomialverteilung wird verwendet, wenn die Anzahl der Erfolge in n voneinander unabh¨ angigen Bernoulli-Versuchen von Interesse ist. Dabei wird angenommen, dass die Erfolgswahrscheinlichkeit p in jedem der n Versuche gleich ist. Ein Beispiel ist eine klinische Studie, in der bei 100 Patienten der Heilungserfolg durch die Behandlung mit einem Medikament beobachtet wird. Erfolg tritt dabei ein, wenn ein Patient geheilt wird. Die Zufallsvariable X beschreibt die Anzahl der geheilten Patienten. Eigenschaften Der Parameter p ist definiert auf dem Intervall [0; 1]. Nimmt der Parameter p die Werte Null oder Eins an, also die Grenzen seines Definitionsbereiches, so degeneriert die Binomialverteilung zu einer so genannten Einpunktverteilung e, die einen Spezialfall der Binomialverteilung darstellt. Die Bernoulliverteilung ist ein Spezialfall der Binomialverteilung mit n = 1. Sind X1 , . . . , Xn stochastisch unabh¨ angig und identisch bernoullivern teilt mit Parameter p, dann ist ihre Summe i=1 Xi binomialverteilt mit Parametern n und p. Ist X ∼ Bin(n; p), dann ist E[X] = n · p,
Var[X] = n · p · (1 − p).
40
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Definition Geometrische Verteilung
Eine diskrete Zufallsvariable X , die die Werte 1, 2, . . . annehmen kann, mit Dichtefunktion
f X (x) = p · (1 − p)x−1
f¨ ur x ∈ N = {1, 2, . . .}
heißt geometrisch verteilt mit Parameter p. Schreibweise: X ∼ Geo(p).
Die geometrische Verteilung wird benutzt, wenn die Anzahl der Versuche bis zum Eintreten des ersten Erfolgs in einem Bernoulli-Experiment von Interesse ist. Ein Beispiel ist die Anzahl der Freiw¨ urfe eines Spielers in einem Basketballspiel bis zum ersten Treffer. Wir nehmen dabei an, dass die W¨ urfe voneinander unabh¨ angig sind mit gleicher Trefferwahrscheinlichkeit p. Eigenschaften Der Parameter p ist definiert auf dem Intervall (0; 1). Ist X ∼ Geo(p), so gilt E[X] =
1 , p
Var[X] =
1−p . p2
Definition Hypergeometrische Verteilung
Eine diskrete Zufallsvariable X , die die Werte 0, 1, . . . , n annehmen kann, mit Dichtefunktion r s−r · X f (k) = k s n−k f¨ ur k ∈ {0, . . . , n} n
heißt hypergeometrisch verteilt mit Parametern s, r, n. Schreibweise: X ∼ Hyp(s, r, n).
Eigenschaften Die Parameter s, r, n sind definiert auf N, wobei r ≤ s, n ≤ s gelten muss. Die Werte der Dichtefunktion sind nur dann echt gr¨ oßer als Null, wenn k ∈ {max{0, n + r − s}, . . . , min{r, n}}.
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
41
Ist X ∼ Hyp(s, r, n), so gilt r E[X] = n · , s
Var[X] =
n · r · (s − r) · (s − n) . s2 · (s − 1)
Definition Poissonverteilung
Eine diskrete Zufallsvariable X , die Werte 0, 1, 2, . . . annehmen kann, mit Dichtefunktion λx · exp{−λ} f¨ur x ∈ N0 = {0, 1, 2, . . .} f X (x) = x! heißt poissonverteilt mit Parameter λ. Schreibweise: X ∼ Poi(λ).
Die Poissonverteilung ist bekannt als Verteilung der seltenen Ereignisse. Sie wird oft eingesetzt, wenn die Anzahl der innerhalb eines kleinen Zeitraums eintretenden Ereignisse gez¨ahlt wird. Dabei ist die Wahrscheinlichkeit, dass in einem kleinen Zeitraum ein solches Ereignis eintritt, typischerweise klein. Sei beispielsweise X die durchschnittliche Anzahl der Verkehrsunf¨ alle pro Stunde an einer bestimmten Kreuzung. Die Wahrscheinlichkeit, dass innerhalb einer Stunde dort ein Unfall passiert, ist relativ gering. Die Anzahl der Verkehrsunf¨ alle kann als poissonverteilt angenommen werden. Eigenschaften Der Parameter λ ist definiert auf dem Intervall (0; ∞). Ist X ∼ Poi(λ), so gilt E[X] = λ,
Var[X] = λ.
42
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Stetige Verteilungen
Definition Rechteckverteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion 1 f¨ ur a ≤ x ≤ b b−a f X (x) = 0 sonst heißt rechteckverteilt (gleichverteilt) auf dem Intervall [a; b]. Schreibweise: X ∼ R[a; b].
Eigenschaften F¨ ur die Parameter gilt a, b ∈ R mit a < b. Ist X ∼ R[a; b], dann gilt E[X] =
a+b , 2
Var[X] =
(b − a)2 . 12
Definition Normalverteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion (x − µ)2 1 X √ · exp − f (x) = f¨ ur x ∈ R 2 · σ2 2·π·σ heißt normalverteilt mit Parametern µ und σ 2 . Schreibweise: X ∼ N (µ, σ 2 ). Die spezielle Normalverteilung N (0, 1) mit Parametern µ = 0 und σ 2 = 1 heißt Standardnormalverteilung. Ihre Verteilungsfunktion wird mit Φ bezeichnet.
Die Normalverteilung ist eine der wichtigsten statistischen Verteilungen. Viele Verteilungen konvergieren in gewissem Sinn gegen die Normalverteilung, so dass bei großen Stichprobenumf¨angen h¨aufig die Analyse so betrieben werden kann, als ob die Beobachtungen Realisationen normalverteilter Stichprobenvariablen w¨ aren.
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
43
Eigenschaften F¨ ur die Parameter gelten folgende Definitionsbereiche: µ ∈ R und 2 σ ∈ R+ . Ist X ∼ N (µ, σ 2 ), dann gilt E[X] = µ,
Var[X] = σ 2 .
Eine normalverteilte Zufallsvariable X kann immer so standardisiert werden, dass ihre Transformation Z standardnormalverteilt (Z ∼ N (0, 1)) ist. Ist X ∼ N (µ, σ 2 ), dann gilt Z=
X −µ ∼ N (0, 1), σ
das heißt P(Z ≤ z) = Φ(z). Ist X ∼ N (µ, σ 2 ), dann ist eine lineare Transformation Y von X wieder normalverteilt, und es gilt Y = a · X + b ∼ N (a · µ + b, a2 · σ 2 ). Sind X1 , . . . , Xn stochastisch unabh¨ angig mit Xi ∼ N (µi , σi2 ), dann ist n n n Xi ∼ N µi , σi2 . i=1
i=1
i=1
Im Spezialfall Xi ∼ N (µ, σ 2 ) f¨ ur alle i ist dann n 1 σ2 . X= · Xi ∼ N µ, n i=1 n
44
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Zur Darstellung der so genannten χ2 -Verteilung wird die Gammafunktion ben¨ otigt.
Definition Gammafunktion
F¨ ur beliebige Werte α > 0 ist die Gammafunktion an der Stelle α definiert als
∞ xα−1 · exp{−x} dx.
Γ(α) = 0
Eigenschaften Γ(1) = 1. √ Γ 12 = π. Γ(α + 1) = α · Γ(α) f¨ ur α > 0. Γ(α + 1) = α! f¨ ur α ∈ N.
Definition χ2 -Verteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion
f X (x) =
1 · x(n/2)−1 · exp{−x/2} f¨ur x > 0 2n/2 · Γ n2
heißt χ2 -verteilt mit n Freiheitsgraden, sprich chiquadrat-verteilt. Schreibweise: X ∼ χ2n .
Eigenschaften Der Definitionsbereich von n ist die Menge der nat¨ urlichen Zahlen, also n ∈ N. F¨ ur x ≤ 0 gilt f X (x) = 0. Die χ2 -Verteilung ist nicht symmetrisch.
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
45
Ist X ∼ χ2n , so ist E[X] = n,
Var[X] = 2 · n.
Sind Z1 , . . . , Zn stochastisch unabh¨ angig mit Zi ∼ N (0, 1), dann ist n
Zi2 ∼ χ2n .
i=1
Definition t-Verteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion Γ n+1 X 2 f (x) = √ f¨ ur x ∈ R 2 (n+1)/2 n · π · Γ n2 · 1 + xn heißt t-verteilt mit n Freiheitsgraden. Schreibweise: X ∼ tn .
Eigenschaften Die t-Verteilung wird auch Student-t-Verteilung genannt. Der Definitionsbereich von n ist die Menge der nat¨ urlichen Zahlen, also n ∈ N. Die Verteilung ist symmetrisch um Null. F¨ ur ein beliebiges p-Quantil 13 von tn gilt aufgrund der Symmetrie tn;p = −tn;1−p . Ist X ∼ tn , dann gilt E[X] = 0 f¨ ur n > 1,
Var[X] =
n f¨ ur n > 2. n−2
F¨ ur große Werte von n n¨ ahert sich die tn -Verteilung der N (0, 1)Verteilung. Als Faustregel f¨ ur eine gute Approximation gilt n ≥ 30.
46
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Ist Z ∼ N (0, 1), V ∼ χ2n , und sind Z und V stochastisch unabh¨angig, dann ist Z ! ∼ tn . V n
Sind X1 , . . . , Xn unabh¨ angig und identisch N (µ, σ 2 )-verteilt, so ist √
n·
X −µ ∼ tn−1 , S
wobei X das arithmetische Mittel und S die Stichprobenstandardabweichung von X1 , . . . , Xn ist. Beide Gr¨oßen werden hier als Zufallsvariablen aufgefasst, definiert als " # n n # 1 1 $ · X= · Xi und S = (Xi − X)2 . n i=1 n − 1 i=1
Definition F -Verteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion n/2 Γ n+m · mm/2 · x(n/2)−1 X 2 n f (x) = f¨ ur x > 0 n m · (m + n · x)(n+m)/2 Γ 2 ·Γ 2 heißt F -verteilt mit n und m Freiheitsgraden. Schreibweise: X ∼ Fn,m .
Eigenschaften Der Definitionsbereich der Freiheitsgrade n und m ist die Menge der nat¨ urlichen Zahlen, n, m ∈ N mit m > 2. F¨ ur x ≤ 0 gilt f X (x) = 0. Die F -Verteilung ist nicht symmetrisch. Ist X ∼ Fn,m , so ist E[X] =
m , m−2
m > 2,
Var[X] =
2 · m2 · (n + m − 2) , n · (m − 2)2 · (m − 4)
m > 4.
2.7
G¨ angige Verteilungen und ihre Erwartungswerte und Varianzen
Ist X ∼ Fn,m , so ist
1 X
47
∼ Fm,n .
Ist V1 ∼ χ2n , V2 ∼ χ2m , und sind V1 und V2 stochastisch unabh¨angig, dann ist V1 /n ∼ Fn,m . V2 /m
Definition Exponentialverteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion
f X (x) = λ · exp{−λ · x} f¨ur x > 0 heißt exponentialverteilt mit Parameter λ. Schreibweise: X ∼ Exp(λ).
Eigenschaften F¨ ur den Parameter λ gilt λ > 0. F¨ ur x ≤ 0 gilt f X (x) = 0. Die Exponentialverteilung ist nicht symmetrisch. Ist X exponentialverteilt mit Parameter λ, so ist E[X] =
1 , λ
Var[X] =
1 . λ2
Definition Gammaverteilung
Eine stetige Zufallsvariable X mit Werten in R und Dichtefunktion
f X (x) =
λα · xα−1 · exp{−λ · x} f¨ur x > 0 Γ(α)
heißt gammaverteilt mit Parametern λ und α. Schreibweise: X ∼ Γ(λ, α).
48
¨ 2. Uberblick u ¨ber die ben¨ otigten Grundlagen
Eigenschaften F¨ ur die Parameter λ und α gilt λ, α > 0. F¨ ur x ≤ 0 gilt f X (x) = 0. Die Gammaverteilung ist nicht symmetrisch. Ist X gammaverteilt mit Parametern λ und α, so ist E[X] =
α , λ
Var[X] =
α . λ2
Sind X1 , . . . , Xn unabh¨ angig und identisch gammaverteilt mit Parametern λ und α, so ist die Summe der Xi , i = 1, . . . , n, ebenfalls gammaverteilt, und zwar mit Parametern λ und α · n n
Xi ∼ Γ(λ, α · n).
i=1
Die χ2 -Verteilung ist ein Spezialfall der Gammaverteilung. Ist X ∼ χ2n , so ist X zugleich gammaverteilt mit Parametern λ = 1/2 und α = n/2. Die Exponentialverteilung ist ebenfalls ein Spezialfall der Gammaverteilung. Ist X ∼ Exp(λ), so ist X zugleich gammaverteilt mit Parametern λ und α = 1. Sind X1 , . . . , Xn unabh¨ angig und identisch exponentialverteilt mit Parameter λ, so ist die Summe der Xi , i = 1, . . . , n, gammaverteilt mit Parametern λ und n n Xi ∼ Γ(λ, n). i=1
Kapitel 3 Philosophie des Sch¨ atzens
3
3
3
Philosophie des Sch¨ atzens
51
3.1
51
3.2
Auf den Punkt gebracht“oder Grenzen setzen“ ......... ” ” Grundlagen zur Punktsch¨atzung ..............................
3.3
Beispiele ...........................................................
59
3.4
Was ist ein guter Punktsch¨atzer?.............................
61
3.5
Wie kommt man zu einer Sch¨atzfunktion? ................. 106
3.6
Intervallsch¨atzung................................................ 147
54
3.1
Auf den Punkt gebracht“oder Grenzen setzen“ ” ”
51
3 Philosophie des Sch¨ atzens 3.1 Auf den Punkt gebracht“oder Grenzen setzen“: ” ” Punktsch¨ atzung contra Intervallsch¨ atzung
3.1
Bei statistischen Analysen geht man oft davon aus, dass man f¨ ur das interessierende Merkmal weiß, welcher Art von Wahrscheinlichkeitsverteilung es folgt. Was man aber in der Regel nicht kennt, ist die genaue Verteilung, das heißt, man kennt nicht die Parameterwerte oder zumindest nicht alle Parameterwerte. Beispiel Bekannter Verteilungstyp, unbekannte Parameterwerte
Zwei Freunde wollen sich entscheiden, ob sie am Abend ins Kino gehen oder ob sie lieber einen Kneipenbummel machen. Da sie sich nicht recht zu einer der beiden Alternativen entschließen k¨onnen, wollen sie per M¨ unzwurf entscheiden, was zu tun ist. Ohne weiter dar¨ uber nachzudenken, gehen sie davon aus, dass die M¨ unze fair ist, also bei einem Wurf mit Wahrscheinlichkeit 1/2 entweder Kopf oder Zahl oben liegt. W¨are der eine Freund dem anderen gegen¨ uber misstrauisch, so k¨ onnte er jedoch darauf bestehen, dass die Fairness der M¨ unze zun¨achst u ¨berpr¨ uft wird. Dann unterstellt er, dass P(Kopf) = p, wobei p nicht bekannt ist. Er wirft die in Frage stehende M¨ unze nun f¨ unfmal unabh¨ angig und notiert, wie oft insgesamt Kopf gefallen ist. Er weiß, dass die Zufallsvariable X, die dies z¨ahlt, binomialverteilt ist X ∼ Bin(5; p). In dieser Situation ist also der Verteilungstyp bekannt (Binomialverteilung), der Parameter n ist ebenfalls bekannt, hier n = 5, aber der Parameter p ist unbekannt. Um schließlich zu entscheiden, ob die M¨ unze fair ist, versucht der misstrauische Freund, anhand der erhobenen Daten auf p zu schließen. Man sagt, er B sch¨atzt“ p. ” Die im Beispiel beschriebene Situation kommt bei statistischen Analysen h¨ aufiger vor. Der Verteilungstyp (auch Verteilungsklasse genannt) ist bekannt, einer oder mehrere Parameter der Verteilung sind jedoch unbekannt.
B
52
3. Philosophie des Sch¨atzens
Das Ziel besteht dann darin, die Parameter aus einer Stichprobenerhebung des Merkmals zu sch¨atzen. Das heißt: auf Basis einer Stichprobe x1 , . . . , xn wird u ¨ber eine Funktion T (x1 , . . . , xn ) der Stichprobenwerte (eventuell auch u ¨ber mehrere solcher Funktionen) eine Aussage dar¨ uber getroffen, welche Werte die unbekannten Parameter vermutlich haben. Modellvorstellung beim Sch¨ atzen Modell Merkmal X = Zufallsvariable mit Verteilung FX
Stichprobe x1 , . . . , xn realisierte Werte, unabh¨ angig voneinander ermittelt
stellt man sich vor als Realisierungen von n unabh¨ angigen Stichprobenvariablen X1 , . . . , Xn mit Verteilung FX ↓ Anwendung von T auf X1 , . . . , Xn : Sch¨ atzer T (X1 , . . . , Xn ) (selbst Zufallsvariable) R Realisierung an der Stichprobe: Sch¨ atzung T (x1 , . . . , xn )
Es ergeben sich die folgenden Fragen: Welche Arten von Sch¨ atzern sind m¨ oglich? Muss man f¨ ur einen gesuchten Parameter einen Wert angeben, oder gibt man einen Bereich an, innerhalb dessen man den Parameter vermutet?
3.1
Auf den Punkt gebracht“oder Grenzen setzen“ ” ”
53
Welche Anspr¨ uche stellt man an einen Sch¨atzer? Was ist ein guter“ ” Sch¨ atzer? Wie kommt man zu einem Sch¨atzer T ? Nach welchen Prinzipien kann man Sch¨ atzer konstruieren? Mit der ersten Frage befassen wir uns im Folgenden, die anderen Fragen werden in den weiteren Abschnitten dieses Kapitels diskutiert. Beispiel (Fortsetzung 51) Bekannter Verteilungstyp, unbekannte Parame-
terwerte Angenommen, das Untersuchungsergebnis, das der misstrauische der beiden Freunde aus dem Beispiel 51 erh¨ alt, spricht daf¨ ur, dass die M¨ unze tats¨ achlich nicht fair ist, sondern mit einer Wahrscheinlichkeit von ungef¨ ahr p = 0, 3 Kopf zeigt. Dann k¨onnte man dieses Ergebnis auf zwei verschiedene Arten ausdr¨ ucken: die Wahrscheinlichkeit f¨ ur Kopf betr¨agt bei dieser M¨ unze vermutlich p = 0, 3 die Wahrscheinlichkeit p f¨ ur Kopf bei dieser M¨ unze liegt nahe bei 0, 3, B vermutlich zwischen 0, 2 und 0, 4. Im ersten Fall des Beispiels wird ein fester Wert zur Sch¨atzung von p angegeben, im zweiten Fall benennt man einen Bereich, innerhalb dessen der Wert von p vermutet wird. Das im ersten Fall angewendete Prinzip ist die so genannte Punktsch¨ atzung, das Prinzip hinter dem zweiten Fall nennt man Intervallsch¨ atzung. Mit Verfahren der Punktsch¨ atzung ist es m¨oglich, interessierende Parameter oder Kennzahlen von Verteilungen zu sch¨ atzen und damit von einer Teilerhebung auf die Grundgesamtheit zu schließen. Das Ergebnis einer Punktsch¨ atzung ist ein einzelner Zahlenwert, der unsere beste“ Sch¨atzung f¨ ur den un” bekannten Parameter ist. Gute Sch¨ atzungenr liegen nahe dem wahren, zu sch¨atzenden Wert, eine exakte Sch¨atzung ist allerdings praktisch unm¨ oglich. Die Unsicherheit, die der Sch¨ atzung innewohnt (beachte: verschiedene Stichproben werden in der Regel zu unterschiedlichen Sch¨ atzwerten f¨ ur die Parameter f¨ uhren), wird bei der Punktsch¨ atzung nicht ber¨ ucksichtigt. Alternativ erlauben Intervallsch¨ atzmethoden die Angabe eines ganzen Bereichs (Intervalls) m¨oglicher Parameterwerte. Die Intervallsch¨ atzung erm¨oglicht eine Aussage dar¨ uber, mit welcher Wahrscheinlichkeit das gesch¨atzte Intervall den wahren Wert u ¨berdeckt. Diese Wahrscheinlichkeit kann als Maß
B
54
3. Philosophie des Sch¨atzens
f¨ ur die Pr¨ azision der Sch¨ atzung verwendet werden. Je nachdem, mit welcher Sicherheit das Intervall den gesuchten Parameter enthalten soll, ist das Intervall n¨ amlich breiter oder schmaler. Die mit der Sch¨ atzung verbundene Unsicherheit wird also hier ber¨ ucksichtigt. Punktsch¨ atzung und Intervallsch¨ atzung Zur Sch¨ atzung von Kenngr¨ oßen einer Verteilung gibt es die zwei Prinzipien der Punktsch¨ atzung und der Intervallsch¨ atzung. Beide treffen anhand der in einer Stichprobe enthaltenen Information Aussagen dar¨ uber, welchen Wert die interessierende Gr¨ oße vermutlich hat. Bei der Punktsch¨atzung wird ein Wert als Sch¨atzung f¨ ur die interessierende Gr¨ oße angegeben. Vorteil: Eindeutiger Sch¨ atzwert. Nachteil: Ber¨ ucksichtigt nicht die Unsicherheit der Sch¨atzung. Bei der Intervallsch¨atzung wird ein ganzes Intervall m¨oglicher Werte als Sch¨atzung f¨ ur die interessierende Gr¨ oße angegeben. Vorteil: Ber¨ ucksichtigt die Unsicherheit der Sch¨atzung. Nachteil: Kein eindeutiger Sch¨ atzwert.
3.2
3.2 Grundlagen zur Punktsch¨ atzung Punktsch¨ atzverfahren haben zum Ziel, interessierende Kenngr¨oßen einer Verteilung durch Angabe eines Werts zu sch¨atzen. Mittels einer Teilerhebung der Grundgesamtheit in Form einer Zufallsstichprobe soll die u ¨ber die Kenngr¨ oßen gewonnene Information auf die Grundgesamtheit u ¨bertragen werden. Dabei werden zwei Arten von Kenngr¨ oßen unterschieden. Zum Einen k¨onnen dies die Parameter einer Verteilung sein, die diese eindeutig spezifizieren, wie beispielsweise p bei der Bernoulliverteilung. Zum Anderen kann es sich dabei um Charakteristika wie den Erwartungswert, die Varianz oder Quantile handeln. Nat¨ urlich ist es hier auch denkbar, Funktionen der Parameter oder Charakteristika zu sch¨ atzen.
3.2
Grundlagen zur Punktsch¨ atzung
55
Notation Ein interessierendes Merkmal werde in einer Grundgesamtheit durch eine Zufallsvariable X mit Verteilungsfunktion FX (x; ϑ) beschrieben. Dabei bezeichnet ϑ den wahren, aber unbekannten Wert des Parameters. H¨ angt eine Verteilung von mehreren Parametern ab, so ist ϑ ein Vektor. In diesen F¨allen wird explizit darauf hingewiesen. Der Definitionsbereich des Parameters ϑ, der Parameterraum, wird mit Θ bezeichnet. In der Regel gilt Θ ⊆ R. Zur Einf¨ uhrung allgemeiner Konzepte, unabh¨ angig vom Verteilungstyp, werden Parameter mit dem griechischen Buchstaben ϑ bezeichnet. In Beispielen, in denen die Verfahren f¨ ur eine spezifische Verteilung angewendet werden, verwenden wir die f¨ ur die Verteilungen typischen Parameterbezeichnungen, zum Beispiel p f¨ ur die Erfolgswahrscheinlichkeit einer Bernoulliverteilung oder λ f¨ ur den Parameter einer Poissonverteilung.
Um die interessierenden Parameter sch¨atzen zu k¨ onnen, ist es wichtig, aus den Beobachtungen die relevante Information zu extrahieren und zusammenzufassen. Dies geschieht mit Hilfe so genannter Statistiken.
Definition Statistik X
Die Zufallsvariable X besitze die Verteilungsfunktion F (x; ϑ); diese sei bis auf den Parameter ϑ ∈ Θ bekannt. Eine Statistik ist eine Funktion T von Zufallsvariablen X1 , . . . , Xn , welche als unabh¨angig und identisch wie X verteilt angenommen werden. Wir bezeichnen eine Statistik mit T (X1 , . . . , Xn ).
Eine besondere Art von Statistiken sind Sch¨ atzfunktionen.
Definition Sch¨ atzfunktion X
Die Zufallsvariable X besitze die Verteilungsfunktion F (x; ϑ); diese sei bis auf den Parameter ϑ ∈ Θ bekannt. Sch¨atzungen f¨ ur den unbekannten Parameter ϑ k¨ onnen u ¨ber Statistiken berechnet werden, die wir entsprechend Tϑ (X1 , . . . , Xn ) nennen. Eine solche Statistik zum Sch¨atzen eines Parameters wird Sch¨ atzfunktion genannt. Sind die Realisationen x1 , . . . , xn von X1 , . . . , Xn gegeben, kann der % berechnet werden als ϑ% = Tϑ (x1 , . . . , xn ). resultierende Sch¨ atzwert ϑ
56
3. Philosophie des Sch¨atzens
Weitere gebr¨auchliche Bezeichnungen f¨ ur eine Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) sind die Begriffe Punktsch¨ atzer, Sch¨ atzer oder auch Sch¨ atzstatistik. % Der beobachtete Sch¨ atzwert ϑ wird h¨ aufig als Sch¨ atzung bezeichnet. Eine Sch¨ atzfunktion ist also nichts anderes als eine Funktion der Beobachtungen, die einen Sch¨ atzwert ϑ% f¨ ur den unbekannten Parameter ϑ liefern soll. Die Sch¨atzfunktion Tϑ (X1 , . . . , Xn ) nimmt Werte aus dem Parameterraum Θ an. Soll nicht der Parameter ϑ einer Verteilung gesch¨atzt werden, sondern eine Funktion ϕ(ϑ), die von ϑ abh¨ angt, benutzt man entsprechend eine Sch¨ atzfunktion Tϕ(ϑ) (X1 , . . . , Xn ). Dabei ist ϕ eine Abbildung ϕ : Θ → R. Die Sch¨ atzung von ϕ(ϑ), das heißt der aus der Stichprobe realisierte Wert bezeichnet. Entsprechendes gilt, wenn eine Tϕ(ϑ) (x1 , . . . , xn ), wird mit ϕ(ϑ) allgemeine Kenngr¨ oße der Verteilung, beispielsweise ein Quantil, gesch¨ atzt werden soll.
Die Statistik Tϑ (X1 , . . . , Xn ) ist eine Zufallsvariable, da sie als Funktiallig ist. Die Verteilung on der Zufallsvariablen X1 , . . . , Xn ebenfalls zuf¨ angt somit von der Verteilung der Zufallsvariablen von Tϑ (X1 , . . . , Xn ) h¨ X1 , . . . , Xn ab. Seien also X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsatzer f¨ ur einen unbekannten variablen und sei Tϑ (X1 , . . . , Xn ) ein Punktsch¨ Parameter ϑ der Verteilungsfunktion von X. Da der Sch¨ atzer Tϑ (X1 , . . . , Xn ) ebenfalls eine Zufallsvariable ist, ist es m¨oglich, eine Dichte- bzw. Verteilungsfunktion dieses Sch¨ atzers anzugeben. Das heißt, das Verhalten des Punktsch¨atzers in Abh¨ angigkeit der m¨ oglichen Stichproben l¨ asst sich durch die Dichte- oder Verteilungsfunktion beschreiben. B
Beispiel Verteilungen von Sch¨ atzfunktionen
1. Die Zufallsvariable X sei normalverteilt mit Erwartungswert µ und Variangig und identisch anz σ 2 . Die Zufallsvariablen X1 , . . . , Xn seien unabh¨ wie X verteilt. Die Dichte von X ist gegeben durch (x − µ)2 1 · exp − , x ∈ R, µ ∈ R, σ ∈ R+ . f X (x; µ, σ 2 ) = √ 2 · σ2 2·π·σ Der Erwartungswert kann durch das arithmetische Mittel n Tµ (X1 , . . . , Xn ) = X = n1 · i=1 Xi gesch¨atzt werden. Das arithmetische alligen StichproMittel X ist selbst eine Zufallsvariable, da es von den zuf¨ angt. Um das Verhalten von X als Sch¨atzer benvariablen X1 , . . . , Xn abh¨
3.2
Grundlagen zur Punktsch¨ atzung
57
zu verstehen, ist es daher hilfreich, die Verteilung bzw. die Dichtefunktion von X zu betrachten. Unter den genannten Voraussetzungen ist die Verteilung von X 43 eine Normalverteilung mit Erwartungswert µ, jedoch mit Varianz σ 2 /n √ (x − µ)2 n X 2 √ · exp −n · , x ∈ R, µ ∈ R, σ ∈ R+ . f (x; µ, σ ) = 2 2 · σ 2·π·σ Man beachte, dass die Xi , i = 1, . . . , n, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 .
2. Die Verteilungsfunktion einer auf dem Intervall [a; b] rechteckverteilten Zufallsvariable X ist gegeben durch ⎧ f¨ ur x < a ⎨ 0 x−a f¨ u r a≤x≤b FX (x; a, b) = ⎩ b−a 1 f¨ ur x > b. Die Verteilung des Maximums Tmax (X1 , . . . , Xn ) = X(n) der Stichprobe als ein intuitiver Sch¨ atzer f¨ ur die obere Grenze b des Intervalls [a; b] ist gegeben durch ⎧ ur x < a ⎪ ⎨ & 0 'n f¨ X(n) x−a F (x) = f¨ ur a ≤ x ≤ b b−a ⎪ ⎩ 1 f¨ ur x > b. Die Verteilungsfunktionen sind also voneinander abh¨ angig.
B
Veranschaulichung Zur Verdeutlichung, dass Punktsch¨ atzer ebenfalls Zufallsvariablen sind und sich ihr Verhalten durch eine Dichte- bzw. Verteilungsfunktion beschreiben l¨ asst, bietet sich folgende kleine Simulation an, die zum Beispiel uhrt werden kann. mit dem Programmpaket R durchgef¨
58
3. Philosophie des Sch¨atzens
Wir ziehen dazu 100-mal (m = 100) eine Stichprobe vom Umfang n = 5 aus einer Normalverteilung42 mit Erwartungswert µ = 5 und Varianz atzer verwenden wir das arithmetische Mittel σ 2 = 1. Als Punktsch¨ Tµ (X1 , . . . , X5 ) =
5 1 · Xj 5 j=1
Die 100 resultierenden arithmetischen Mittelwerte xi werden dann in einem Histogramm abgetragen und sollten im Idealfall ebenfalls einer Normalverteilung folgen. Das Histogramm sollte also ungef¨ ahr eine glocken¨ahnliche Form besitzen. Programm in R: Mittelwerte< − rep(0,100) for (i in 1:100) { x.i< − rnorm(5,5,1) Mittelwerte[i]< − mean(x.i) } hist(Mittelwerte, nclass=15)
0.0
0.0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
1.0
Eine viermalige Durchf¨ uhrung dieses Programmes resultierte in den hier gezeigten vier Grafiken.
3
4
5
6
7
3
4
5
6
7
6
7
0.8 0.4 0.0
0.0
0.4
0.8
1.2
M ttelwerte
1.2
Mittelwerte
3
4
5 Mittelwerte
6
7
3
4
5 M ttelwerte
3.3
Beispiele
59
0.0
0.2
0.4
0.6
0.8
1.0
Mit m = 100 ist die Anzahl der Simulationen nicht ausreichend groß, um die Normalverteilung der arithmetischen Mittel erkennen zu k¨ onnen. Werden die vier simulierten Datens¨atze jeweils vom Umfang m = 100 zusammengefasst, so dass m = 400 ist, so erh¨alt man eine wesentlich bessere Veranschaulichung daf¨ ur, dass die Mittelwerte tats¨ achlich einer Normalverteilung folgen.
3
4
5
6
7
Mittelwerte
W¨ urde die Anzahl der Simulationen noch weiter erh¨ oht, beispielsweise m = 1000, w¨ urde man die Normalverteilung noch besser aus dem Histogramm erkennen.
3.3 Beispiele Beispiel (Fortsetzung 4) Klinischer Versuch Im Beispiel 4 des klinischen Versuchs aus der Einleitung kann man die Anzahl der geheilten Patienten als Indikator f¨ ur die Heilungswahrscheinlichkeit des Medikaments ansehen. Die Zufallsvariable, die diese Anzahl erfasst, ist binomialverteilt mit Parametern n und p. Dabei entspricht n der Anzahl der Patienten in der Studie, und die Heilungswahrscheinlichkeit ist p ∈ [0; 1]. Aus den zu den Beobachtungen x1 , . . . , xn geh¨orenden Stichprobenvariablen X1 , . . . , Xn soll nun eine geeignete Sch¨atzfunktion Tp (X1 , . . . , Xn ) konstruiert werden, so dass T (x1 , . . . , xn ) eine m¨oglichst genaue Sch¨ atzung p% f¨ ur die Heilungswahrscheinlichkeit liefert.
3.3
60
B
3. Philosophie des Sch¨atzens
Beispiel K¨ orpergr¨ oße
In einer Studie wird die K¨ orpergr¨ oße von Kindern ermittelt, sobald diese das 5. Lebensjahr erreicht haben. Es kann angenommen werden, dass die K¨ orpergr¨ oße gut durch eine normalverteilte Zufallsvariable beschrieben werden kann mit Lageparameter µ und Streuungsparameter σ 2 . Die Klasse aller Normalverteilungen ist gegeben durch {N (µ, σ 2 ),
µ ∈ R; σ 2 ∈ R+ }.
Darin befindet sich auch die Normalverteilung, die die Verteilung der K¨ orpergr¨ oße der Kinder zu Beginn des 5. Lebensjahres beschreibt. Basierend auf einer Stichprobe kann nun versucht werden, µ und σ 2 m¨oglichst genau zu sch¨atzen. Alternativ k¨ onnen auch Bereiche gesch¨atzt werden, die die unbe¨ berkannten Parameter µ und σ 2 mit einer gewissen Wahrscheinlichkeit u decken. Gesucht sind dann Konfidenzintervalle f¨ ur die Parameter µ und B σ2 . Beispiel Straßenk¨ unstler Ein Straßenk¨ unstler stellt sich des o¨fteren als bronzene Caesarstatue verkleidet auf den Markusplatz in Venedig. Als unbewegliches Objekt ist er dort hilflos den abgelassenen Exkrementen der zahlreichen Tauben ausgesetzt. Er geht davon aus, dass die Anzahl der Treffer innerhalb einer halben Stunde poissonverteilt ist mit unbekanntem Parameter λ. Um den f¨ ur ihn angenehmsten Standort herauszufinden, dokumentiert er f¨ ur verschiedene Standorte, wie oft er pro halber Stunde in seinen Statue-Spielzeiten von einer Taube getroffen wird, und erh¨ alt die folgenden Daten
2
1
2
0
0
1
1
1
0
1
Interessante Fragestellungen k¨ onnen sein: Welche Sch¨atzfunktionen eignen sich zur Sch¨ atzung des Parameters λ, des Erwartungswerts, der Varianz oder der mittleren Trefferrate? Wie sch¨atzt man die Wahrscheinlichkeit, dass er w¨ahrend seines halbst¨ undigen Stillstehens komplett verschont bleibt? Welche Eigenschaften besitzen diese Sch¨atzfunktionen? Wie sehen die Sch¨ atzwerte am konkreten Beispiel aus? Antworten auf diese Fragen werden in den folgenden Abschnitten zur Sch¨ atztheorie gegeben.
3.4
Was ist ein guter Punktsch¨ atzer?
61
3.4 Was ist ein guter Punktsch¨ atzer? Im Beispiel 59 soll die Heilungswahrscheinlichkeit p eines Medikaments in einem klinischen Versuch gesch¨atzt werden. F¨ ur eine gute“ Sch¨atzung von p ” muss das richtige Sch¨ atzverfahren verwendet werden. Wie wird aber entschieden, welche Verfahren gute“ Sch¨ atzungen liefern? Offensichtlich ben¨ otigen ” wir geeignete G¨ utekriterien als Grundlage f¨ ur die Herleitung von Sch¨ atzverfahren, die zu guten“ Sch¨ atzern f¨ ur unbekannte Parameter, Funktionen von ” Parametern oder andere Kenngr¨ oßen von Verteilungen f¨ uhren. Nachdem wir definiert haben, was eine Sch¨ atzfunktion ist, geben wir nun ein Beispiel daf¨ ur, wie Sch¨ atzfunktionen aussehen k¨ onnen. Beispiel (Fortsetzung 4 59) Klinischer Versuch Wir betrachten die bernoulliverteilte Zufallsvariable X mit Parameter angige und p, die den Heilungserfolg beschreibt. X1 , . . . , Xn seien unabh¨ identisch wie X verteilte Stichprobenvariablen. Der Parameterraum Θ ist das Intervall [0; 1]. Bezeichne X den Wertebereich von X. Dann sind alle Funktionen Tp mit
Tp : X → [0; 1] m¨ogliche Sch¨atzfunktionen, um den Parameter p zu sch¨atzen. Konstante Funktionen der Form Tp (X1 , . . . , Xn ) = c sind nach dieser Definition zugelassen, erscheinen jedoch nicht besonders sinnvoll, da sie von den Daten unabh¨ angig sind. Es k¨ onnen beispielsweise folgende Sch¨atzfunktionen betrachtet werden: a) Tp (X1 , . . . , Xn ) = 0, 9, b) Tp (X1 , . . . , Xn ) =
n ( i=1
eine konstante Sch¨ atzfunktion;
Xi ,
das Produkt aller Beobachtungen aus der Stichprobe; ) n * 1 · Xi + 2 , c) Tp (X1 , . . . , Xn ) = n + 4 i=1 das arithmetische Mittel aller Beobachtungen aus der Stichprobe, in die noch zwei Erfolge und zwei Misserfolge aufgenommen wurden;
3.4
62
3. Philosophie des Sch¨atzens
d) Tp (X1 , . . . , Xn ) =
n 1 · Xi , n i=1
das arithmetische Mittel aller Beobachtungen der Stichprobe; n/4 n 1 · Xi + Xi , e) Tp (X1 , . . . , Xn ) = n/2 i=1 i=n−n/4+1 das arithmetische Mittel des ersten und des letzten Viertels der Stichprobenvariablen, wobei wir davon ausgehen, dass n durch vier teilbar ist. Sei folgende Stichprobe x1 , . . . , x12 realisiert worden 1
1
0
1
1
1
1
1
1
1
0
0
F¨ ur die Sch¨ atzfunktionen aus a) bis e) ergeben sich damit die folgenden Sch¨ atzungen: a) p% = Tp (x1 , . . . , x12 ) = 0, 9 b) p% = Tp (x1 , . . . , x12 ) =
12 ( i=1
xi = 1 · 1 · 0 · 1 · 1 · 1 · 1 · 1 · 1 · 1 · 0 · 0 = 0
) 12 * 1 11 · = 0, 6875 c) p% = Tp (x1 , . . . , x12 ) = xi + 2 = 16 i=1 16 12 1 9 · = 0, 75 xi = d) p% = Tp (x1 , . . . , x12 ) = 12 i=1 12 ) 3 * 12 1 1 e) p% = Tp (x1 , . . . , x12 ) = · xi + xi = · [2 + 1] = 0, 5 6 i=1 6 i=10 Welcher dieser Sch¨atzer ist sinnvoll? Sicherlich darf die Eignung von Tp aus a) zur Sch¨ atzung von p bezweifelt werden, da unabh¨ angig von der gezogenen Stichprobe p immer konstant mit p% = 0, 9 gesch¨atzt wird. Außer f¨ ur den Fall, dass tats¨ achlich p = 0, 9 ist, ist er daher unbefriedigend. Da Tp aus b) das Produkt der Einzelbeobachtungen ist und diese als bernoulliverteilte Zufallsvariablen nur die Werte 0 und 1 annehmen k¨ onnen, k¨ onnen auch Sch¨ atzungen nur diese beiden Werte annehmen.
3.4
Was ist ein guter Punktsch¨ atzer?
63
Ist auch nur einer der beobachteten Werte 0, so wird sofort auch die Sch¨ atzung 0. Bei Verwendung der Sch¨atzfunktion Tp aus c) fließt die gesamte Information aus der Stichprobe in die Sch¨ atzung ein, jedoch ist zweifelhaft, warum man zwei Erfolge und zwei Misserfolge zur Stichprobe hinzunehmen soll. Die verbleibenden Sch¨ atzfunktionen aus d) und e) basieren auf dem arithmetischen Mittel von Beobachtungen aus der Stichprobe. Sie unterscheiden sich nur in der Anzahl der Beobachtungen, die in ihre Berechnung einfließen. Nachdem sich die ersten zwei Sch¨atzer als ungeeignet f¨ ur die Sch¨ atzung des Parameters p erwiesen haben, stellt sich die Frage, wie die verbleibenden sinnvoll zu bewerten sind, so dass wir die geeignetste unter ihnen f¨ ur die Sch¨ atzung von p finden. Dazu sollte man die Eigenschaften dieser Sch¨atzer betrachten. W¨ unschenswert ist zum Beispiel, dass bei wiederholter Stichprobenziehung die Sch¨ atzungen f¨ ur p im Mittel“ um den wahren Parameterwert streuen. Diese Ei” atzers genannt. Die genschaft wird Erwartungstreue 64 eines Punktsch¨ Sch¨ atzfunktion sollte aber auch eine m¨ oglichst geringe Varianz besitzen, das heißt bei wiederholten Sch¨atzungen sollten die erhaltenen Sch¨ atzwerte nur wenig streuen. Kriterien, die die Streuung eines Sch¨ atzers bewerten, sind der MSE (mittlerer quadratischer Fehler) 71 und die Effizienz 76. Eine weitere Eigenschaft einer Sch¨atzfunktion ist die Konsistenz 86. Sie besch¨aftigt sich mit dem Grenzverhalten der Sch¨ atzfunktion f¨ ur wachsende Stichprobenumf¨ ange. Eine suffiziente Sch¨ atzfunktion 94 verwertet die gesamte Information, die in der Stichprobe u ¨ber den zu sch¨ atzenden Parameter enthalten ist. Es geht keine wesentliche Information verloren. Gute Sch¨ atzer werden daher immer auf suffizienten Statistiken beruhen. Im Folgenden werden die beschriebenen Eigenschaften formal definiert und erl¨ autert. Zur Erinnerung Die Erarbeitung von Eigenschaften und G¨ utekriterien f¨ ur Punktsch¨ atzer setzt das Bewusstsein voraus, dass jeder Punktsch¨atzer selbst eine Zufallsvariable ist.
Erwartungstreue und asymptotische Erwartungstreue
Eine der wichtigsten Eigenschaften f¨ ur Punktsch¨ atzer ist die Erwartungsur ϑ betreue. Ein Punktsch¨ atzer Tϑ (X1 , . . . , Xn ) wird als erwartungstreu f¨ zeichnet, wenn Tϑ (X1 , . . . , Xn ) im Mittel den wahren Parameter ϑ sch¨atzt.
64
3. Philosophie des Sch¨atzens
Dies ist genau dann der Fall, wenn der Erwartungswert des Punktsch¨ atzers dem zu sch¨atzenden Parameterwert entspricht. H¨ aufig wird diese Eigenschaft auch Unverzerrtheit eines Punktsch¨ atzers genannt.
Definition Erwartungstreue
Seien X1 , . . . , Xn unabh¨angige Stichprobenvariablen mit identischer Verteilungsfunktion, welche von einem Parameter ϑ aus einer Menge Θ m¨oglicher Parameterwerte abh¨angig ist. Ein Punktsch¨atzer Tϑ (X1 , . . . , Xn ) wird als erwartungstreu oder unverzerrt (englisch unbiased) f¨ ur den Parameter ϑ bezeichnet, wenn gilt f¨ ur alle ϑ ∈ Θ.
Eϑ [Tϑ (X1 , . . . , Xn )] = ϑ
Soll eine Funktion ϕ(ϑ) des Parameters gesch¨atzt werden, so heißt eine Sch¨atzfunktion Tϕ(ϑ) (X1 , . . . , Xn ) f¨ ur ϕ(ϑ) erwartungstreu, wenn gilt f¨ ur alle ϑ ∈ Θ.
Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = ϕ(ϑ)
Beispiel (Fortsetzung 4 59 61) Klinischer Versuch Im Beispiel der Bernoulliverteilung haben sich die Sch¨ atzfunktionen (n Tp (X1 , . . . , Xn ) = 0, 9 und Tp (X1 , . . . , Xn ) = i=1 Xi bereits als ungeeignet erwiesen. F¨ ur die drei verbleibenden Sch¨ atzfunktionen betrachten wir nun den Erwartungswert. Unter der Annahme, dass die Zufallsvariablen X1 , . . . , Xn identisch verteilt sind, ergibt sich n 2 n·p 1 · + , c) Ep [Tp (X1 , . . . , Xn )] = Ep Xi + 2 = n+4 n+4 n+4 i=1
d) Ep [Tp (X1 , . . . , Xn )]
= Ep ⎡
e) Ep [Tp (X1 , . . . , Xn )]
= Ep ⎣
=
n n 1 1 · Xi = · Ep [Xi ] = p, n i=1 n i=1 ⎛
n/4
1 ⎝ · Xi + n/2 i=1
n i=n−n/4+1
n , 1 +n · · p + · p = p. n/2 4 4
⎞⎤ Xi ⎠⎦
3.4
Was ist ein guter Punktsch¨ atzer?
65
Es zeigt sich, dass nur Tp aus d) und e) die Eigenschaft der Erwartungstreue besitzen. F¨ ur den Sch¨ atzer Tp aus c) gilt aber immerhin limn→∞ Ep [Tp (X1 , . . . , Xn )] = p. Diese Eigenschaft ist als asymptotische Erwartungstreue 67 bekannt. Da die beiden Sch¨ atzer aus d) und e) beide erwartungstreu sind, k¨ onnen sie in diesem Sinne als gleich gut betrachtet werden. Um zu entscheiden, ob einer der beiden Sch¨ atzer besser“ ist, kann man zus¨atzlich ihre ” Varianzen betrachten. Unter der Annahme, dass die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch verteilt sind, ergibt der Vergleich von Tp aus d) und e) bez¨ uglich ihrer Varianz d) Varp [Tp (X1 , . . . , Xn )]
= Varp =
p · (1 − p) , n
⎡ e) Varp [Tp (X1 , . . . , Xn )]
= Varp ⎣
=
n n 1 1 · Xi = 2 · Varp [Xi ] n i=1 n i=1
⎛
n/4
1 ⎝ · Xi + n/2 i=1
n
⎞⎤ Xi ⎠⎦
i=n−n/4+1
2 · p · (1 − p) . n
Beide Sch¨ atzer werden also im Mittel den richtigen Wert sch¨ atzen, wobei Tp aus d) jedoch eine zweimal kleinere Varianz besitzt als Tp aus e). Dass ein Sch¨atzer, der nur eine kleine Varianz besitzt oder der nur erwartungstreu ist, noch nicht unbedingt als zufriedenstellend“ bezeichnet wer” den kann, kann man sich in EMILeA-stat e in einem interaktiven Applet ansehen. Der abgebildete Screenshot zeigt, wie sich die Realisierungen zweier Sch¨ atzer um den zu sch¨atzenden Parameter verteilen, wobei der eine Sch¨atzer erwartungstreu ist, aber eine große Varianz besitzt, w¨ ahrend der andere eine kleine Varianz aufweist, jedoch nicht erwartungstreu ist.
66
3. Philosophie des Sch¨atzens
Zus¨ atzlich sollte eine weitere Betrachtung beider Punktsch¨atzer bez¨ uglich der anderen G¨ utekriterien und Eigenschaften, wie Effizienz 76, Konsistenz 86 oder Suffizienz 93 vorgenommen werden. Die Definition der Erwartungstreue zieht die Definition des Bias einer Sch¨ atzfunktion nach sich. Ist eine Sch¨ atzfunktion n¨ amlich nicht erwartungstreu, dann m¨ ochte man gerne wissen, um welchen Wert sie im Mittel vom wahren Parameterwert abweicht.
Definition Bias
Seien X1 , . . . , Xn unabh¨angige Stichprobenvariablen mit identischer Verteilungsfunktion, welche von einem Parameter ϑ aus einer Menge Θ m¨oglicher Parameterwerte abh¨angt. Dann nennt man die mittlere“ Abweichung eines Punktsch¨atzers ” Tϑ (X1 , . . . , Xn ) vom wahren Parameter ϑ Bias oder auch Verzerrung und schreibt Biasϑ [Tϑ (X1 , . . . , Xn )] = Eϑ [Tϑ (X1 , . . . , Xn )] − ϑ. F¨ ur Funktionen ϕ(ϑ) ist der Bias analog definiert durch Biasϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] − ϕ(ϑ).
F¨ ur die Sch¨ atzfunktion Tp aus Teil c) des Beispiels 64 hatten wir festgestellt, dass sich ihr Erwartungswert f¨ ur wachsenden Stichprobenumfang n dem Parameter p zunehmend ann¨ ahert. Diese so genannte asymptotische Erwartungstreue bedeutet, dass der Bias von Tp mit wachsendem Stichprobenumfang verschwindet. Ist also n ausreichend groß, so kann die Sch¨ atzfunktion durchaus zuverl¨ assige Sch¨atzwerte f¨ ur p liefern.
3.4
Was ist ein guter Punktsch¨ atzer?
67
Definition Asymptotische Erwartungstreue
Bezeichne {T }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktsch¨atzern. Diese heißt asymptotisch erwartungstreu f¨ ur ϑ bzw. ϕ(ϑ), wenn gilt
lim {Eϑ [Tϑ (X1 , . . . , Xn )]}n = ϑ, lim {Eϑ Tϕ(ϑ) (X1 , . . . , Xn ) }n = ϕ(ϑ).
n→∞
bzw.
n→∞
Asymptotisch erwartungstreue Punktsch¨ atzer m¨ ussen also f¨ ur eine endliche Stichprobe nicht erwartungstreu sein, ihr Erwartungswert konvergiert aber f¨ ur n → ∞ gegen den wahren Parameterwert ϑ bzw. ϕ(ϑ). Ein Beispiel daf¨ ur ist gegeben, wenn f¨ ur eine auf dem Intervall [0; b] rechteckverteilte Zufallsvariable der Parameter b durch die maximale Beobachtung der Stichprobe gesch¨atzt wird. Das Zweifache des arithmetischen Mittels, 2 · X, ist hingegen erwartungstreu f¨ ur b, unabh¨ angig vom Stichprobenumfang. Beispiel Rechteckverteilung Sei X eine auf dem Intervall [0; b] rechteckverteilte Zufallsvariable, also angige und identisch wie X X ∼ R[0; b], und seien X1 , . . . , Xn unabh¨ verteilte Stichprobenvariablen. Zwei m¨ ogliche Sch¨ atzfunktionen f¨ ur den Parameter b sind Tb und Tb mit
Tb (X1 , . . . , Xn ) =
n 2 · Xi = 2 · X n i=1
und
Tb (X1 , . . . , Xn ) = max{X1 , . . . , Xn } = X(n) . Die Untersuchung auf Erwartungstreue ergibt f¨ ur Tb Eb [Tb (X1 , . . . , Xn )] = Eb [2 · X] = 2 · Eb [X] =
b 2 · n · = b. n 2
Somit ist Tb f¨ ur b erwartungstreu. ur Tb (X1 , . . . , Xn ) = F¨ ur Tb gilt dies nicht, denn der Erwartungswert f¨ asst sich wie folgt berechnen X(n) l¨ +
,
Eb Tb (X1 , . . . , Xn ) = Eb [X(n) ]
(∗)
∞ x · f X(n) (x)dx
=
−∞
68
3. Philosophie des Sch¨atzens
b = 0
b n · xn−1 n · xn+1 n · b. x· dx = = n n b (n + 1) · b 0 n+1
n−1 (∗) Die Dichte des Maximums ist gegeben durch f X(n) (x) = nb · xb f¨ ur 0 ≤ x ≤ b und 0 sonst 37. Das Maximum der Stichprobe ist also keine erwartungstreue Sch¨ atzfunktion. L¨ asst man jedoch den Stichprobenumfang n beliebig groß werden, ur den Parameter b asymso konvergiert n/(n + 1) gegen 1. X(n) ist also f¨ ptotisch erwartungstreu, denn es gilt n+1 · b = b. n→∞ n
lim Eb (X(n) ) = lim
n→∞
Aus diesem asymptotisch erwartungstreuen Sch¨ atzer Tb l¨ asst sich nun ein erwartungstreuer Sch¨ atzer konstruieren, indem Tb um einen entsprechenden Vorfaktor korrigiert wird. Betrachtet man den korrigierten Sch¨ atzer
Tb (X1 , . . . , Xn ) =
n+1 · X(n) , n
dann zeigt sich, dass dieser Sch¨atzer f¨ ur b erwartungstreu ist + , n+1 n+1 n · Eb X(n) = · · b = b. Eb Tb (X1 , . . . , Xn ) = n n n+1
Regel Sch¨ atzung des Erwartungswerts einer Zufallsvariable mit beliebiger Verteilung Seien X1 , . . . , Xn Stichprobenvariablen, die identisch wie X verteilt sind mit Verteilungsfunktion FX . Sei weiter mit µ = E[X] der Erwartungswert von X bezeichnet. Dann kann gezeigt werden, dass Tµ (X1 , . . . , Xn ) = X =
n 1 · Xi n i=1
ein erwartungstreuer Punktsch¨ atzer f¨ ur den Erwartungswert µ ist, falls E[X] existiert: n n n 1 1 n 1 · E[X] = E Xi = · E[Xi ] = · E[X] = · E[X] = µ. n i=1 n i=1 n i=1 n
3.4
Was ist ein guter Punktsch¨ atzer?
69
Regel Sch¨ atzung der Varianz einer Zufallsvariable mit beliebiger Verteilung Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch wie X verteilt sind mit Verteilungsfunktion FX . Sei weiter µ = E[X] der Erwartungswert und σ 2 = Var(X) die Varianz von X. Wir setzen voraus, dass beide Gr¨oßen existieren. Die Sch¨atzfunktion Tσ2 (X1 , . . . , Xn ) = S∗2 =
n n 1 1 2 2 · (Xi − X)2 = · X −X n i=1 n i=1 i
ist nicht erwartungstreu f¨ ur die Varianz σ 2 : n n 1 1 2 2 2 2 · E[S∗ ] = E Xi − X = · E[Xi2 ] − E[X ] n i=1 n i=1 =
n 2 1 · Var[Xi ] + [E[Xi ]]2 − Var[X] − E[X] n i=1
=
σ 2 + µ2 −
=
1 n−1 2 · σ2 = ·σ . 1− n n
(∗)
1 · σ 2 − µ2 n
(∗) Anwendung des Verschiebungssatzes 27 Der Bias von Tσ2 (X1 , . . . , Xn ) berechnet sich somit zu Bias [Tσ2 (X1 , . . . , Xn )]
= E [Tσ2 (X1 , . . . , Xn )] − σ 2 =
n−1 n
· σ2 − σ2 = −
1 2 ·σ . n
Das heißt, die Varianz wird durch S∗2 untersch¨ atzt. Jedoch gilt f¨ ur S∗2 n−1 asymptotische Erwartungstreue, da der Term n f¨ ur n → ∞ gegen 1 strebt. Eine erwartungstreue Sch¨ atzfunktion f¨ ur σ 2 ist dagegen durch die Stichprobenvarianz S2 =
n 1 n · · S2 (Xi − X)2 = n − 1 i=1 n−1 ∗
70
3. Philosophie des Sch¨atzens
gegeben, denn E[S 2 ] =
n−1 2 n n · E[S∗2 ] = · · σ = σ2 . n−1 n−1 n
Aus diesem Grund wird in der Stichprobenvarianz S 2 der Vorfaktor 1 1 ahlt. Das Prinzip der Momentensch¨ atzung 108 n−1 anstelle von n gew¨ und das Prinzip der Maximum-Likelihood-Sch¨ atzung 120 liefern als Sch¨ atzer f¨ ur σ 2 jedoch S∗2 (siehe Beispiele 111 und 123). B
Beispiel Binomialverteilung
Im Rahmen einer Qualit¨ atssicherungsmaßnahme bei der Produktion von Winterreifen interessiert der Anteil defekter Reifen in einer produzierten Charge. Zur Bestimmung des Ausschussanteils p wird eine Stichprobe vom Umfang n aus der Produktion genommen. Zu sch¨ atzen sei außerdem die Wahrscheinlichkeit, dass von zwei gezogenen Teilen beide defekt sind. Diese Wahrscheinlichkeit ist gerade p2 , so dass erwartungstreue Sch¨atzungen von p und p2 gesucht sind. Seien also X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen, wobei Xi , i = 1, . . . , n den Wert 1 annimmt, wenn es sich um einen defekten Reifen handelt, und 0 sonst. Dann sind X1 , . . . , Xn bernoulliverteilt mit Parameter p, wobei p die Wahrscheinlichkeit angibt, dass ein Reifen defekt ist. Bezeichne nun Y die Anzahl der defekten Reifen in der n Stichprobe. Dann ist Y = i=1 Xi binomialverteilt, Y ∼ Bin(n; p). Sei zun¨ achst der Anteil defekter Reifen zu sch¨atzen. Das arithmetische Mittel Tp (X1 , . . . , Xn ) = X = Yn als Sch¨atzfunktion ist erwartungstreu f¨ ur den Ausschussanteil p, da der Erwartungswert von Bin(n; p)-verteilten Zufallsvaochte man nun die riablen n · p ist (39 oder auch aus der Regel 68). M¨ achst vermuten, dass p2 Wahrscheinlichkeit p2 sch¨atzen, so k¨onnte man zun¨ 2 durch Tp2 (X1 , . . . , Xn ) = X erwartungstreu gesch¨atzt werden kann. Dies ist jedoch nicht der Fall 2
Ep [X ] = =
1 (∗) 1 · Ep [Y 2 ] = 2 · Varp [Y ] + [Ep [Y ]]2 2 n n p · (1 − p) 1 . · n · p · (1 − p) + n2 · p2 = p2 + n2 n
(∗) Anwendung des Verschiebungssatzes 27 Der Sch¨atzer ist jedoch asymptotisch erwartungstreu, da der zweite Term f¨ ur steigenden Stichprobenumfang n gegen Null konvergiert.
3.4
Was ist ein guter Punktsch¨ atzer?
71
Die Sch¨atzfunktion Tp2 (X1 , . . . , Xn ) = tungstreu
n n−1
+ 2 · X −
1 n
, · X ist f¨ ur p2 erwar-
Ep [Tp2 (X1 , . . . , Xn )] ) ) * * 1 1 n p · (1 − p) n 2 · Ep [X ] − · Ep [X] = · p2 + − ·p = n−1 n n−1 n n ) * n n · p2 p2 (n − 1) · p2 p2 = · p2 − = − = = p2 . n−1 n n−1 n−1 n−1 atzt werden, dann ist Soll also p2 erwartungstreu gesch¨ Tp2 (X1 , ..., Xn ) =
n 1 2 · (X − · X) n−1 n
ein geeigneter Sch¨ atzer.
B
Der mittlere quadratische Fehler (MSE)
Der Mittlere Quadratische Fehler, kurz MSE (englisch: mean-squared error), ist ebenfalls ein G¨ utemaß f¨ ur Punktsch¨ atzer. Er setzt sich zusammen aus dem Bias und der Varianz des Punktsch¨ atzers. Betrachtet man einen erwartungstreuen Sch¨ atzer, so wird dieser nicht zufriedenstellend sein, wenn er eine große Varianz aufweist. Daher ist die Varianz als G¨ utekriterium sinnvoll. Betrachtet man andererseits zwei nicht erwartungstreue Sch¨atzer, die beide dieselbe Varianz besitzen, von denen aber der erste einen deutlich gr¨ oßeren Bias besitzt als der zweite, so wird man den zweiten Sch¨atzer als besser ansehen. Der MSE schafft als G¨ utekriterium einen Ausgleich, denn f¨ ur nicht notwendig erwartungstreue Sch¨ atzer mit unterschiedlichen Varianzen erweist sich eine Kombination aus Bias und Varianz als sinnvoll. Dies konnten wir bereits in der Abbildung 65 erkennen. Eine solche Kombination der beiden Gr¨ oßen Bias und Varianz ergibt sich aus der Bestimmung des erwarteten quadrierten Abstands des Punktsch¨ atzers vom zu sch¨atzenden Parameter. Definition Mittlerer quadratischer Fehler (MSE)
ur einen Der mittlere quadratische Fehler eines Punktsch¨atzers Tϑ (X1 , . . . , Xn ) f¨ Parameter ϑ ist definiert als MSEϑ [Tϑ (X1 , . . . , Xn )] = Eϑ (Tϑ (X1 , . . . , Xn ) − ϑ)2 . Der MSE kann als Vergleichskriterium f¨ ur Punktsch¨atzer herangezogen werden. Sch¨atzer mit kleinem MSE sind dabei vorzuziehen.
72
3. Philosophie des Sch¨atzens
Das Kriterium kombiniert die Forderung nach einer geringen Verzerrung (Bias) mit der nach einer geringen Varianz, indem beide Maße gemeinsam betrachtet werden. Insbesondere gilt, dass der MSE die Summe aus der Varianz und dem Quadrat des Bias ist MSE = Varianz + Bias2 . Sei Tϑ = Tϑ (X1 , . . . , Xn ), dann ist + , 2 MSEϑ [Tϑ ] = Eϑ (Tϑ − ϑ) =
Eϑ [Tϑ2 ] − 2 · Eϑ [Tϑ ] · ϑ + ϑ2
=
Eϑ [Tϑ2 ] − [Eϑ [Tϑ ]] + [Eϑ [Tϑ ]] − 2 · Eϑ [Tϑ ] · ϑ + ϑ2
=
Varϑ [Tϑ ] + [E[Tϑ ] − ϑ] = Varϑ [Tϑ ] + [Biasϑ [Tϑ ]]2 .
2
(da Eϑ [ϑ] = ϑ) 2
2
Ist ein Sch¨atzer erwartungstreu, so ist der Bias gleich Null, und der MSE entspricht der Varianz MSEϑ [Tϑ ] = Varϑ [Tϑ ]. B
Beispiel Beispiel Exponentialverteilung
Sei X eine exponentialverteilte Zufallsvariable mit Parameter λ > 0, das heißt mit Dichtefunktion f X (x; λ) = λ · exp{−λ · x},
λ > 0.
angige und identisch wie X verteilte StichprobenvaSeien X1 , . . . , Xn unabh¨ riablen. Als Sch¨ atzfunktion f¨ ur den Parameter λ wird der Sch¨ atzer Tλ (X1 , . . . , Xn ) =
1 −1 =X X
vorgeschlagen. Der MSE ist definiert als der erwartete quadratische Abstand der Sch¨ atzfunktion Tλ (X1 , . . . , Xn ) vom wahren Parameterwert λ 2 1 MSEλ [Tλ (X1 , . . . , Xn )] = Eλ (Tλ (X1 , . . . , Xn ) − λ)2 = Eλ −λ X
3.4
Was ist ein guter Punktsch¨ atzer?
73
=
Eλ
1 X
2
) − 2 · λ · Eλ
* 1 + λ2 . X
Um den MSE explizit auszurechnen, m¨ ussen zun¨achst die Gr¨oßen ) * 2 1 1 und Eλ Eλ X X bestimmt werden. Dazu ben¨otigt man die Verteilung der Summe von X1 , . . . , Xn . Aus den Eigenschaften der Gammaverteilung 48 wissen wir, dass die Summe unabh¨ angiger und identisch exponentialverteilter Zufallsvariablen gammaverteilt ist, genauer n Y = Xi ∼ Γ(λ, n). i=1
Basierend auf dieser Kenntnis lassen sich nun beide Erwartungswerte berechnen als ) Eλ
1 X
* = Eλ ∞ = 0
=
+n, Y
∞ = −∞
n Y · f (y) dy y
n · λn · y n−2 · exp{−λ · y} dy Γ(n)
n · Γ(n − 1) ·λ· Γ(n)
∞ 0
Dichte einer Gammavtlg. mit Parametern n−1 und λ
=
1 · λn−1 · y n−2 · exp{−λ · y} dy Γ(n − 1) ./ 0 ./
=1
n ·λ n−1
und Eλ
1 X
2
) =
Eλ
* ∞ 2 n2 n · λn · y n−3 · exp{−λ · y} dy = 2 Y Γ(n) 0
2
=
n · Γ(n − 2) · Γ(n)
0
74
3. Philosophie des Sch¨atzens
λ2 ·
∞
0
=
1 · λn−2 · y n−3 · exp{−λ · y} dy Γ(n − 2) ./ 0 Dichte einer Gammavtlg. mit Parametern n−2 und λ
./
=1
0
λ2 · n2 . (n − 1) · (n − 2)
Damit l¨ asst sich nun der MSE berechnen als MSEλ [Tλ (X1 , . . . , Xn )]
=
n 2 · λ2 n − 2 · λ2 · + λ2 (n − 1) · (n − 2) n−1
=
n+2 · λ2 . (n − 1) · (n − 2) B
B
Beispiel Rechteckverteilung
Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsvariablen mit X ∼ R[ϑ; ϑ + 1]. Der Parameter ϑ ∈ R sei unbekannt. Eine m¨ ogliche Sch¨ atzfunktion f¨ ur ϑ ist T = Tϑ (X1 , . . . , Xn ) = X − c, wobei c ∈ R zun¨ achst beliebig gew¨ahlt werden kann. F¨ ur welchen Wert c wird der MSE dieser Sch¨atzfunktion, das heißt MSEϑ [Tϑ (X1 , . . . , Xn )], am kleinsten? Der Erwartungswert und die Varianz der Sch¨ atzfunktion berechnen sich zu Eϑ [T ] = Eϑ [X − c] = Eϑ [X] − c = Eϑ [X1 ] − c = ϑ + Varϑ [T ] = Varϑ [X − c] = Varϑ [X] =
1 − c, 2
1 Varϑ [X1 ] = . n 12 · n
Daraus folgt 2
MSEϑ [T ] = Varϑ (T ) + [Eϑ (T ) − ϑ] =
) *2 1 1 + −c , 12 · n 2
woraus ersichtlich wird, dass der MSE f¨ ur c = 1/2 minimiert wird. Das heißt, unter allen m¨ oglichen Sch¨ atzfunktionen T = Tϑ (X1 , . . . , Xn ) = X − c, c ∈ R, B besitzt Tϑ∗ = X − 1/2 den kleinsten MSE. Ein im Sinne des MSE guter“ Punktsch¨ atzer soll einen kleinen MSE besit” zen. Der beste“ Sch¨atzer w¨are in diesem Zusammenhang also derjenige mit ” dem kleinsten MSE unter allen m¨oglichen Sch¨atzern f¨ ur den interessierenden
3.4
Was ist ein guter Punktsch¨ atzer?
75
Parameter. Allerdings h¨ angt der mittlere quadratische Fehler eines Sch¨atzers in der Regel vom zu sch¨atzenden Parameter ϑ ab. Der beste Sch¨atzer m¨ usste also eine MSE-Funktion (in Abh¨ angigkeit von ϑ) besitzen, die f¨ ur alle m¨oglichen Werte von ϑ kleinere Werte besitzt als die MSE-Funktionen aller anderen Sch¨ atzer f¨ ur den Parameter. Oftmals u ¨berschneiden sich die MSE zweier Sch¨ atzfunktionen, wenn der MSE als Funktion von ϑ ∈ Θ betrachtet wird. Ei oglicherweise nur f¨ ur einen ne Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) besitzt dann m¨ Teil der m¨ oglichen Werte f¨ ur ϑ einen kleineren MSE, w¨ ahrend f¨ ur andere Werte von ϑ ein anderer Punktsch¨ atzer Tϑ (X1 , . . . , Xn ) einen kleineren MSE besitzt. Da aber der Wert von ϑ unbekannt ist, kann auch keine der beiden Sch¨ atzfunktionen als die bessere gew¨ahlt werden. Die folgenden Grafiken verdeutlichen dieses Problem.
In der ersten Grafik schneiden sich die MSE-Funktionen der Sch¨ atzer Tϑ und Tϑ . MSEJ
MSE J(T J'' )
MSE J(T J' )
0
2
4
6
8
J
In der zweiten Grafik ist ersichtlich, dass die Sch¨atzfunktion Tϑ u ¨ber den gesamten Parameterraum einen kleineren MSE aufweist und somit besser zur Sch¨ atzung des Parameters ϑ geeignet ist als Tϑ . MSEJ MSE J(T J'' )
MSE J(T J' )
0
2
4
6
8
J
76
3. Philosophie des Sch¨atzens
Effizienz
Der mittlere quadratische Fehler (MSE) ist ein geeignetes G¨ utekriterium f¨ ur Sch¨ atzfunktionen, wobei eine Sch¨ atzfunktion aus statistischer Sicht umso besser ist, je kleiner ihr MSE ist. Handelt es sich zudem um eine f¨ ur den Parameter erwartungstreue Sch¨ atzfunktion, so reduziert sich der MSE einer Sch¨ atzfunktion auf deren Varianz und der Vergleich unterschiedlicher erwartungstreuer Sch¨ atzfunktionen auf einen Vergleich der Varianzen. Das Ziel im Folgenden ist es, ein Kriterium zu finden, das es uns erm¨oglicht, die im statistischen Sinne beste“ Sch¨atzfunktion zu finden. ”
Definition MSE-effizientere Sch¨ atzfunktion
ur einen Parameter ϑ heißt MSE-effizienter Eine Sch¨atzfunktion Tϑ (X1 , . . . , Xn ) f¨ oder auch MSE-wirksamer als eine Sch¨atzfunktion Tϑ (X1 , . . . , Xn ), falls gilt
MSEϑ [Tϑ (X1 , . . . , Xn )] ≤ MSEϑ [Tϑ (X1 , . . . , Xn )] f¨ur alle ϑ ∈ Θ. F¨ ur erwartungstreue Sch¨ atzfunktionen kann die Suche nach einem effizienteren Sch¨ atzer f¨ ur einen Parameter ϑ auf den Vergleich der Varianzen reduziert werden. Dies ist darin begr¨ undet, dass der mittlere quadratische Fehler eines Sch¨ atzers Tϑ (X1 , . . . , Xn ) geschrieben werden kann als 72 + , 2 MSEϑ [Tϑ (X1 , . . . , Xn )] = Eϑ (Tϑ (X1 , . . . , Xn ) − ϑ) =
Varianz + Bias2 .
ur den PaSind die Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ) und Tϑ (X1 , . . . , Xn ) f¨ rameter ϑ erwartungstreu, so ist ihr Bias gleich Null, und der Vergleich ihrer mittleren quadratischen Fehler reduziert sich auf den Vergleich ihrer Varianzen.
Definition Effizienterer Sch¨ atzer
F¨ ur zwei erwartungstreue Sch¨atzfunktionen Tϑ (X1 , . . . , Xn ) und Tϑ (X1 , . . . , Xn ) heißt
Tϑ (X1 , . . . , Xn ) effizienter/wirksamer als Tϑ (X1 , . . . , Xn ), falls
Varϑ [Tϑ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )] f¨ur alle ϑ ∈ Θ.
3.4
Was ist ein guter Punktsch¨ atzer?
77
Die Sch¨atzfunktion Tϑ (X1 , . . . , Xn ) liefert also im Mittel genauere Sch¨ atz atzwerte von Tϑ (X1 , . . . , Xn ) weniger werte als Tϑ (X1 , . . . , Xn ), da die Sch¨ stark um den wahren Parameterwert ϑ streuen als die von Tϑ (X1 , . . . , Xn ). Definition Gleichm¨ aßig bester erwartungstreuer Sch¨atzer (UMVUE)
ur einen Parameter ϑ ∈ Θ Sei mit E die Klasse aller erwartungstreuen Sch¨atzer f¨ bezeichnet. Dann ist Tϑ∗ (X1 , . . . , Xn ) ∈ E eine effiziente Sch¨atzfunktion in dieser Klasse, wenn gilt
Varϑ [Tϑ∗ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )] f¨ ur alle ϑ ∈ Θ und f¨ ur alle Tϑ ∈ E . Das heißt, Tϑ∗ (X1 , . . . , Xn ) besitzt die gleichm¨aßig kleinste Varianz unter allen erwartungstreuen Sch¨atzfunktionen. Der Sch¨atzer Tϑ∗ (X1 , . . . , Xn ) heißt dann gleichm¨ aßig bester erwartungstreuer Sch¨ atzer (englisch: Uniformly minimum-variance unbiased estimator (UMVUE)). Beispiel (Fortsetzung 67) Rechteckverteilung
B
Seien X1 , . . . , Xn unabh¨ angige und identisch auf dem Intervall [0; b] rechteckverteilte Stichprobenvariablen, b > 0. Zwei f¨ ur den Parameter b erwartungstreue Sch¨atzfunktionen sind gegeben durch Tb (X1 , . . . , Xn ) = 2 · X
und Tb (X1 , . . . , Xn ) =
n+1 · X(n) , n
wobei X(n) das Maximum der Zufallsvariablen X1 , ..., Xn ist. Dann gilt: Tb (X1 , . . . , Xn ) ist effizienter als Tb (X1 , . . . , Xn ), denn
ur alle b > 0. Varb [Tb (X1 , . . . , Xn )] ≤ Varb [Tb (X1 , . . . , Xn )] f¨ Berechnen wir f¨ ur den Nachweis die Varianzen beider Sch¨ atzfunktionen. n 4 · Varb Xi Varb [Tb (X1 , . . . , Xn )] = Varb [2 · X] = n2 i=1 34 =
=
n 4 · Varb [Xi ] n2 i=1
b2 3·n
42 =
4 b2 ·n· 2 n 12
78
3. Philosophie des Sch¨atzens
und
Varb [Tb (X1 , . . . , Xn )]
= (∗)
=
=
=
n+1 n
2
· Varb X(n)
2 ) * n+1 n n2 2 2 ·b − · ·b n n+2 (n + 1)2 * ) n · (n + 2) (n + 1)2 − b2 · n · (n + 2) n · (n + 2)
b2 . n · (n + 2)
F¨ ur alle n ∈ N gilt b2 b2 ≤ , n · (n + 2) 3·n womit die obige Behauptung nachgewiesen ist. (∗) Zur Berechnung der Varianz von X(n) muss die Verteilung des Maximums B 37 herangezogen werden.
Ob eine erwartungstreue Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ) effizienter ist als ei asst sich also ne andere erwartungstreue Sch¨ atzfunktion Tϑ (X1 , . . . , Xn ), l¨ u ¨berpr¨ ufen, indem die Varianzen der beiden Sch¨ atzfunktionen miteinander verglichen werden. Von Interesse ist aber vor allem, ob eine Sch¨atzfunktion im Vergleich zu allen anderen erwartungstreuen Sch¨ atzfunktionen die kleinste Varianz besitzt und somit der gleichm¨aßig beste erwartungstreue Sch¨ atzer, also UMVUE ist. Es existiert eine untere Schranke f¨ ur die Varianz eines erwartungstreuen Sch¨ atzers, das heißt, es gibt einen kleinstm¨oglichen und damit besten Varianzwert f¨ ur die Sch¨ atzer aus der Klasse E aller erwartungstreuen Sch¨ atzer. Zur Bestimmung dieser Schranke dient die ultigkeit dieser Ungleichung h¨ angt von Cram´ er-Rao-Ungleichung 82. Die G¨ bestimmten Voraussetzungen ab, die Regularit¨atsbedingungen genannt werden.
Definition Regularit¨ atsbedingungen
Gegeben sei eine reellwertige Zufallsvariable X mit einer Verteilung aus der Familie P X = {Pϑ ; ϑ ∈ Θ} von Verteilungen mit Parameter ϑ ∈ Θ ⊂ R. P X wird eine regul¨ are Familie von Verteilungen genannt, falls folgende Bedingungen gelten R1) Θ ist ein offenes Intervall auf R.
3.4
Was ist ein guter Punktsch¨ atzer?
79
R2) F¨ ur alle ϑ ∈ Θ existiert zu Pϑ aus der Familie P X von Verteilungen die entsprechende Dichte f X (x; ϑ). R3) Die Ableitung der logarithmierten Dichte nach ϑ: existiert und ist stetig in ϑ ∈ Θ f¨ ur alle x ∈ R. + , X R4) F¨ ur alle ϑ ∈ Θ gilt: Eϑ ∂ ln f∂ϑ(X;ϑ) = 0.
∂ ∂ϑ
ln f X (x; ϑ)
Die Bedingungen R1) bis R4) heißen Regularit¨ atsbedingungen.
Regel Regularit¨ atsbedingungen F¨ ur diskrete Zufallsvariablen lassen sich die Regularit¨ atsbedingungen entsprechend modifizieren. Damit bleiben alle folgenden Eigenschaften bei Einhaltung der Regularit¨ atsbedingungen f¨ ur diskrete Zufallsvariablen ebenso g¨ ultig. Die Bedingung R4) ist im Allgemeinen erf¨ ullt, wenn die Reihenfolge von Differentiation und Integration bzw. Summation vertauschbar ist, das heißt, wenn gilt ∞
∂ ∂ ln f X (x; ϑ)dx = ∂ϑ ∂ϑ
−∞
bzw.
∞ ln f X (x; ϑ)dx −∞
∂ ∂ ln f X (xi ; ϑ) = ln f X (xi ; ϑ). ∂ϑ ∂ϑ x x i
i
Die Bedingung R4) ist in der Regel nicht erf¨ ullt, wenn der Definitionsbereich der Dichte vom Parameter ϑ abh¨ angt. Ein Beispiel daf¨ ur ist die Dichte der Rechteckverteilung R[0; b] die auf dem Intervall [0; b] definiert ist. Der Tr¨ ager ist somit abh¨ angig von der oberen Grenze b, dem Parameter.
Beispiel Normalverteilung
Bezeichne P X = {N (µ, σ02 ), µ ∈ R} die Familie der Normalverteilungen mit atsunbekanntem Parameter µ und bekannter Varianz σ02 > 0. Die Regularit¨ bedingungen sind f¨ ur diese Familie von Verteilungen erf¨ ullt:
B
80
3. Philosophie des Sch¨atzens
R1) Θ = R ist ein offenes Intervall. R2) Die Dichte der Normalverteilung f¨ ur x ∈ R 2 1 x−µ 1 1 X · exp − · f (x; µ) = √ 2 σ0 2 · π · σ0 existiert f¨ ur alle µ ∈ R. R3) Die Ableitung der logarithmierten Dichte (nach µ) 1 ∂ ln f X (x; µ) = 2 · (x − µ) ∂µ σ0 existiert und ist stetig in µ. + , X R4) Eµ ∂ ln f∂µ(X;µ) = σ12 · Eµ [X − µ] = 0, 0
da Eµ [X] = µ.
Daraus folgt, dass die Familie der Normalverteilungen mit bekannter Varianz σ02 eine regul¨ are Familie ist. B B
Beispiel Rechteckverteilung
Bezeichne P X = {R[0; b]; b > 0} die Familie der Rechteckverteilungen auf dem Intervall [0; b] mit unbekanntem Parameter b. Diese Familie von Verteilungen ist keine regul¨ are Familie, da die Regularit¨ atsbedingungen R3) und R4) nicht erf¨ ullt sind. Wir u ¨berlegen uns dazu, dass die Dichte gegeben ist ur alle 0 ≤ x ≤ b (f X (x; b) = 0 sonst) und somit nicht durch f X (x; b) = 1b f¨ stetig in b ist. Die Ableitung der Dichte ist demnach an der Stelle b nicht B definiert, und R3) und R4) sind somit nicht erf¨ ullt. Sind die obigen Regularit¨ atsbedingungen erf¨ ullt, so kann die minimale Varianz eines erwartungstreuen Sch¨ atzers in Abh¨angigkeit der so genannten Fisher-Information angegeben werden. Sie gibt Auskunft dar¨ uber, wie informativ eine Stichprobe f¨ ur einen interessierenden Parameter u ¨berhaupt sein kann. Je gr¨ oßer der Wert dieser Fisher-Information ist, desto pr¨aziser kann ein Parameter ϑ mit einer geeigneten Sch¨ atzfunktion gesch¨ atzt werden. Wei¨ terf¨ uhrende Uberlegungen zum Konzept der Fisher-Information findet man beispielsweise bei Lehmann und Casella (1998).
3.4
Was ist ein guter Punktsch¨ atzer?
81
Definition Fisher-Information
Sei f¨ ur festes ϑ ∈ Θ ⊆ R die Abbildung L∗ : R → R definiert als
L∗ (x; ϑ) =
∂ X f (x; ϑ) ∂ ln f X (x; ϑ) = ∂ϑ X . ∂ϑ f (x; ϑ)
Dann heißt die Abbildung FI : Θ → R mit ∗
FI(ϑ) = FIX (ϑ) = Varϑ [L (X; ϑ)]
)
∂ ln(f X (X; ϑ)) = Varϑ ∂ϑ ∂ X ∂ϑ f (X; ϑ) = Varϑ f X (X; ϑ)
*
die Fisher-Information.
Einfacher zu berechnen ist die Fisher-Information, wenn sie in folgender Form geschrieben wird 2 X ∂ ln f (X; ϑ) . FI(ϑ) = Varϑ [L∗ (X; ϑ)] = Eϑ L∗ (X; ϑ)2 = Eϑ ∂ϑ Dies gilt, da Varϑ [L∗ (X; ϑ)]
= R4)
=
2
Eϑ [L∗ (X; ϑ)2 ] − [Eϑ [L∗ (X; ϑ)]] Eϑ [L∗ (X; ϑ)2 ] − 0.
Satz Fisher-Information bei Unabh¨ angigkeit Seien die Zufallsvariablen X1 , . . . , Xn voneinander unabh¨ angig mit Dichtefunktionen f Xi (xi ; ϑ), i = 1, . . . , n. Dann gilt unter den Regularit¨ atsbedingungen 79 * ) n ∂ ln f X1 ,...,Xn (X1 , . . . , Xn ; ϑ) = FIX1 ,...,Xn (ϑ) = Varϑ FIXi (ϑ). ∂ϑ i=1
Den Nachweis findet man in EMILeA-stat e.
82
3. Philosophie des Sch¨atzens
Folgerung Sind die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch verteilt wie X, dann gilt unter Regularit¨ atsbedingungen FIX1 ,...,Xn (ϑ) = n · FIX (ϑ).
Satz Cram´ er-Rao-Ungleichung Gegeben seien reellwertige Zufallsvariablen X1 , . . . , Xn , die unabh¨ angig und identisch wie X verteilt sind mit Dichtefunktion f X (x; ϑ), atzϑ ∈ Θ ⊆ R. Sei weiter Tϕ(ϑ) (X1 , . . . , Xn ) eine erwartungstreue Sch¨ funktion f¨ ur ϕ(ϑ), das heißt Eϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = ϕ(ϑ), wobei ϕ(ϑ) eine Funktion des Parameters ϑ ∈ Θ ist. Es gelte zus¨atzlich atsbedingungen seien 0 < Var[Tϕ(ϑ) (X1 , . . . , Xn )] < ∞. Die Regularit¨ erf¨ ullt, die Funktion ϕ : Θ → R sei differenzierbar und f¨ ur die FisherInformation gelte 0 < FI(ϑ) = FIX (ϑ) < ∞. a) Dann gibt es eine Tϕ(ϑ) (X1 , . . . , Xn )
untere
Schranke
f¨ ur
2
Varϑ [Tϕ(ϑ) (X1 , . . . , Xn )] ≥
∂ϕ(ϑ) ∂ϑ
die
·
Varianz
von
1 . n · FI(ϑ)
Diese Ungleichung wird Cram´ er-Rao-Ungleichung genannt.
b) In der obigen Ungleichung tritt Gleichheit ein, das heißt die untere Schranke wird angenommen, genau dann, wenn eine Funktion K(ϑ) existiert, so dass n ∂ ln f X (xi ; ϑ) i=1
∂ϑ
= K(ϑ) · Tϕ(ϑ) (x1 , . . . , xn ) − ϕ(ϑ)
f¨ ur alle x1 , . . . , xn , bis auf eine Nullmenge, gilt. Das bedeutet, dass die Ableitung fast u ¨berall existiert und die Stellen, an denen sie nicht existiert, nur mit Wahrscheinlichkeit Null von X angenommen werden. Es gilt dann 2 ∂ϕ(ϑ) 1 . Varϑ [Tϕ(ϑ) (X1 , . . . , Xn )] = · ∂ϑ n · FI(ϑ)
3.4
Was ist ein guter Punktsch¨ atzer?
83
c) Ist die Dichte f X (x; ϑ) mindestens zweimal stetig differenzierbar, so l¨ asst sich die untere Schranke schreiben als 2 2 ∂ϕ(ϑ) ∂ϕ(ϑ) 1 1 + 2 X ,. = · · ∂ ln f (X;ϑ) ∂ϑ n · FI(ϑ) ∂ϑ −n · E 2 ϑ
∂ϑ
d) Im Spezialfall ϕ(ϑ) = ϑ f¨ ur alle ϑ ∈ Θ gilt Varϑ [Tϑ (X1 , . . . , Xn )] ≥
1 . n · FI(ϑ)
Den Nachweis findet man in EMILeA-stat e. Beispiel UMVUE f¨ ur den Parameter λ der Poissonverteilung Sei X poissonverteilt mit unbekanntem Parameter λ ∈ Θ = (0; ∞), das heißt λx · exp{−λ}, x ∈ N0 . f X (x; λ) = x!
Seien X1 , . . . , Xn unabh¨ angig und identisch wie X verteilt. Ist die Sch¨atzn funktion Tλ (X1 , . . . , Xn ) = n1 · i=1 Xi = X gleichm¨aßig bester erwartungstreuer Sch¨ atzer, also UMVUE f¨ ur den Parameter λ? ¨ Berechnen wir zun¨achst die Fisher-Information f¨ ur X1 , ..., Xn . Eine Uberpr¨ ufung der Regularit¨ atsbedingungen zeigt, dass diese erf¨ ullt sind: R1) Θ = (0, ∞) ist ein offenes Intervall auf R. R2) f X (x; λ) =
λx x!
· exp{−λ} existiert f¨ ur alle λ ∈ Θ.
R3) ∂ ln f X (x; λ) ∂λ
=
) x * λ ∂ ln · exp{−λ} ∂λ x!
=
x ∂ [x · ln λ − ln x! − λ] = − 1 ∂λ λ
existiert und ist stetig in λ f¨ ur alle x ∈ N0 .
84
3. Philosophie des Sch¨atzens
R4) F¨ ur alle λ ∈ Θ gilt * ) ∂ ln f X (X; λ) = Eλ ∂λ
) Eλ
* 1 X λ − 1 = · Eλ [X] − 1 = − 1 = 0. λ λ λ
F¨ ur die Fisher-Information gilt 2 2 ∂ ln f X (X; λ) X FIX (λ) = Eλ −1 = Eλ ∂λ λ ) * 2 X X + Eλ [1] − 2 · Eλ = Eλ λ λ = (∗)
=
2 1 1 · Eλ [X 2 ] − · Eλ [X] + 1 = 2 · Eλ [X 2 ] − 1 2 λ λ λ 1 1 · λ · (1 + λ) − 1 = . λ2 λ
(∗) Anwendung des Verschiebungssatzes 27: Varλ [X] = Eλ [X 2 ] − [Eλ [X]]2
⇒
λ = Eλ [X 2 ] − λ2
⇔
Eλ [X 2 ] = λ · (1 + λ).
⇒ F¨ ur X1 , ..., Xn gilt FIX1 ,...,Xn (λ)
= n · FIX (λ) = n · FI(λ) =
n . λ
Um zu zeigen, dass X tats¨ achlich UMVUE ist, m¨ ussen wir ihn nun auf Erwartungstreue und Varianz u ¨berpr¨ ufen: n n 1 1 1 · Eλ [X] = Eλ Xi = · Eλ [Xi ] = · n · λ = λ. n i=1 n i=1 n
Varλ [X] =
n n 1 λ 34 1 · Var X = · Varλ [Xi ] = . λ i 2 n2 n n i=1 i=1
Nach der Cram´er-Rao-Ungleichung gilt Varλ [Tλ (X1 , . . . , Xn )] ≥
λ 1 = n · FI(λ) n
3.4
Was ist ein guter Punktsch¨ atzer?
85
f¨ ur jeden erwartungstreuen Sch¨ atzer Tλ mit endlicher Varianz. X nimmt die untere Schranke an mit Varλ [X] =
1 λ = . n n · FI(λ)
Es gibt also unter diesen Bedingungen keinen Sch¨ atzer, der eine noch kleinere Varianz besitzt. Daher kann man schließen, dass X gleichm¨aßig bester erwartungstreuer Sch¨ atzer, also UMVUE ist. Dies l¨asst sich alternativ auch durch die Aussage in Teil b) des Satzes 82 zeigen. Es ist n n n ln f X (xi ; λ) = −n · λ + xi · ln λ − ln xi ! i=1
⇒
i=1
n ∂ ln f X (xi ; ϑ) i=1
∂ϑ
i=1
n
=
−n +
=
−n · λ + λ
i=1
λ
xi xi
=
n · (x − λ) λ
= K(λ) · [Tλ (x1 , . . . , xn ) − ϕ(λ)], mit K(λ) = nλ , Tλ (x1 , . . . , xn ) = x und ϕ(λ) = λ und es folgt, dass f¨ ur den Sch¨ atzer Tλ (X1 , . . . , Xn ) = X die Gleichheit gilt. Das heißt, die untere Schranke der Cram´er-Rao-Ungleichung wird angenommen, und Tλ (X1 , . . . , Xn ) = X ist tats¨achlich gleichm¨aßig bester erwartungstreuer Sch¨ atzer f¨ ur λ. Die untere Schranke der Cram´er-Rao-Ungleichung existiert immer, sie muss jedoch nicht notwendigerweise erreicht werden. Wird sie f¨ ur einen Sch¨atzer ur ϑ Tϑ (X1 , . . . , Xn ) angenommen, so bedeutet dies, dass seine Sch¨atzwerte f¨ minimale Varianz besitzen (unter allen erwartungstreuen Sch¨ atzern). Stammt die Verteilung FX von X aus der Klasse der so genannten einparametrigen atzer Exponentialfamilien 101, so existiert ein erwartungstreuer Sch¨ ur ϑ, dessen Varianz der Cram´er-Rao-Schranke entspricht. Tϑ (X1 , . . . , Xn ) f¨ Das heißt, der gleichm¨aßig beste erwartungstreue Sch¨atzer (UMVUE) exiatzer f¨ ur stiert. Umgekehrt gilt: Ist Tϑ (X1 , . . . , Xn ) ein erwartungstreuer Sch¨ ϑ, dessen Varianz gleich der unteren Cram´er-Rao-Schranke ist, so geh¨ort f X (x; ϑ) zu einer Verteilung aus der Klasse der einparametrigen Exponentiur ist die Poissonverteilung. alfamilien. Ein Beispiel 83 hierf¨
86
3. Philosophie des Sch¨atzens
Konsistenz
Generell verbindet man mit der Erhebung von Daten die Vorstellung, dass die Resultate der Datenauswertung um so besser sein sollten, je mehr Beobachtungen man zur Analyse zur Verf¨ ugung hatte. Besteht die Analyse aus der Sch¨ atzung eines Parameters, so erwartet man, dass die Sch¨atzung um so genauer werden sollte, je mehr Daten in ihre Berechnung eingehen. Die bisher besprochenen G¨ utekriterien sichern im Wesentlichen, dass bei wiederholter Stichprobenziehung und Parametersch¨ atzung die Sch¨ atzwerte im Mittel“ ” entweder um den Erwartungswert streuen (Erwartungstreue) oder nicht zu stark um einen Wert streuen, der zumindest nicht zu weit vom Erwartungswert entfernt liegt (kleiner MSE). Das bedeutet aber noch nicht, dass sich die Sch¨atzungen mit wachsendem Stichprobenumfang auch dem wahren Wert des Parameters n¨ahern. B
Beispiel Kein Informationsgewinn bei wachsendem Stichprobenumfang
Betrachten wir das Beispiel 15 24 des zw¨olfseitigen W¨ urfels. Bezeichnet X das Ergebnis eines W¨ urfelwurfs, so ist E(X) = 6, 5 24. Sind X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen, so ist X = n 1 · atzer f¨ ur ϑ = E(X) 68. i=1 Xi ein erwartungstreuer Sch¨ n Aber auch der folgende Sch¨ atzer ist erwartungstreu: Tϑ (X1 , . . . , Xn ), der mit Wahrscheinlichkeit 0,5 den Wert 6 und mit Wahrscheinlichkeit 0,5 den Wert 7 annimmt, denn: 24 ti · P (Tϑ (X1 , . . . , Xn ) = ti ) E(Tϑ (X1 , . . . , Xn )) = ti
=
0, 5 · 6 + 0, 5 · 7 = 3 + 3, 5 = 6, 5.
oßer werdendem Stichprobenumfang immer mehr InW¨ ahrend nun X mit gr¨ formation aufnimmt, ist Tϑ (X1 , . . . , Xn ) zwar erwartungstreu, verwertet aber die durch eine gr¨ oßere Anzahl an Stichprobenvariablen gelieferte Mehrinforoßer werdenden mation in keiner Weise. Insbesondere n¨ ahert sich X mit gr¨ Werten von n in gewissem Sinn immer weiter dem wahren Parameterwert 6,5 aherung (man sagt, X ist konsistent), w¨ahrend bei Tϑ (X1 , . . . , Xn ) keine Ann¨ an den Wert 6,5 stattfindet. B G¨ unstiger ist offenbar der Sch¨ atzer, der sich f¨ ur wachsendes n dem Wert 6,5 ann¨ ahert. Denn bei diesem Sch¨ atzer stimmt unsere Vorstellung, dass mehr
3.4
Was ist ein guter Punktsch¨ atzer?
87
Information auch eine bessere Sch¨ atzung liefert. Sch¨atzfunktionen mit einer solchen Eigenschaft nennt man konsistent. Die Eigenschaft der Konsistenz ist eine asymptotische Eigenschaft, die das Verhalten eines Punktsch¨ atzers beschreibt, wenn der Stichprobenumfang un” endlich groß“ wird. Es wird dabei angenommen, dass das betrachtete Zufallsexperiment Teil einer Folge von Experimenten ist. Statt nach einer festen Anzahl n von Experimenten aufzuh¨ oren, betrachtet man diese Folge der Experimente immer weiter, so dass der Stichprobenumfang n w¨achst. Nach jeder neuen Durchf¨ uhrung des Experiments berechnet man den Wert des Punktsch¨atzers neu, jeweils basierend auf allen bisher durchgef¨ uhrten Experimenten. Konvergiert die so entstehende Folge der Punktsch¨atzer f¨ ur steigenden Stichprobenumfang n → ∞ in gewissem, noch n¨aher zu spezifizierenden Sinn gegen den wahren Parameterwert, so ist der Sch¨ atzer konsistent. Es gibt verschiedene Formen der Konsistenz f¨ ur Punktsch¨ atzer; die schwache Konsistenz, die starke Konsistenz und die Konsistenz im quadratischen Mittel, die einer Hierarchie unterliegen. Aus starker Konsistenz kann die schwache Konsistenz f¨ ur eine Folge von Punktsch¨ atzern gefolgert werden. Genauso folgt die schwache Konsistenz aus der Konsistenz im quadratischen Mittel. Die Umkehrung gilt in beiden F¨ allen nicht.
Definition Schwache Konsistenz
Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktsch¨atzern f¨ ur einen Parameter ϑ. Diese heißt f¨ ur ϑ schwach konsistent, wenn f¨ ur jedes ε > 0 und alle ϑ ∈ Θ gilt
lim Pϑ (|Tn − ϑ| > ε) = 0.
n→∞
Dies ist ¨aquivalent zu der Aussage, dass
lim Pϑ (|Tn − ϑ| < ε) = 1.
n→∞
Man schreibt auch P
Tn −→ ϑ
f¨ ur alle ϑ ∈ Θ.
Liegt schwache Konsistenz vor, so wird oft auch von Konvergenz in Wahrscheinlichkeit gesprochen.
88
3. Philosophie des Sch¨atzens
Definition Starke Konsistenz
Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktsch¨atzern f¨ ur einen Parameter ϑ. Diese heißt f¨ ur ϑ stark konsistent, wenn f¨ ur alle ϑ ∈ Θ gilt & ' Pϑ lim Tn = ϑ = 1. n→∞
Man schreibt auch f.s.
Tn −→ ϑ
f¨ ur alle ϑ ∈ Θ.
Liegt starke Konsistenz vor, so wird oft auch von fast sicherer (f.s.) Konvergenz gesprochen.
Definition Konsistenz im quadratischen Mittel
Bezeichne {Tn }n = {Tϑ (X1 , . . . , Xn )}n , n ∈ N, eine Folge von Punktsch¨atzern f¨ ur den Parameter ϑ. Diese heißt f¨ ur ϑ konsistent im quadratischen Mittel, wenn f¨ ur alle ϑ ∈ Θ gilt lim Eϑ (Tn − ϑ)2 = 0. n→∞
Das ist gleichbedeutend mit
lim MSEϑ [Tn ] = 0
n→∞
und impliziert damit
lim Eϑ [Tn ] = ϑ und
n→∞
lim Varϑ [Tn ] = 0 f¨ur alle ϑ ∈ Θ,
n→∞
da MSEϑ (Tn ) = Varϑ (Tn ) + [Biasϑ (Tn )]2 . B
Beispiel Schwache Konsistenz
Seien X1 , . . . , Xn unabh¨ angig und identisch normalverteilt mit Parametern µ ∈ R und σ 2 = 1. Sei {Tn }n = {Tϑ (X1 , . . . , Xn )}n eine Folge von Punktsch¨atzern f¨ ur den Parameter µ, die definiert ist durch Tϑ (X1 , . . . , Xn ) = X n =
n 1 · Xi . n i=1
3.4
Was ist ein guter Punktsch¨ atzer?
89
Das arithmetische Mittel ist ebenfalls normalverteilt, X n ∼ N (µ, 1/n), so dass damit gilt Pµ
|X n − µ| < ε =
1 2 & n ' 12 (x − µ) dx · exp −n · 2·π 2
µ+ε
µ−ε
ε & = −ε
u2 n ' 12 du · exp −n · 2·π 2
√ ε n
= √ −ε n
=
1 2·π
P0 (−ε ·
12
t2 dt · exp − 2
(u = x − µ)
(t =
√ n · u)
√ √ n ≤ Z ≤ ε · n),
wobei Z ∼ N (0, 1) ist. F¨ ur n −→ ∞ folgt √ √ P0 (−ε · n ≤ Z ≤ ε · n) −→ 1. Somit ist gezeigt, dass {Tµ (X1 , . . . , Xn )}n = {X n }n eine schwach konsistente B Folge von Punktsch¨atzern f¨ ur den Parameter µ ist. Beispiel Konsistenz im quadratischen Mittel
B
Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Zufallsvariablen mit Dichtefunktion f X (x; λ) = exp{−(x − λ)}, λ < x < ∞, λ > 0. Die Folge {Tn }n von Sch¨atzfunktionen mit Tn = Tλ (X1 , . . . , Xn ) = min{X1 , . . . , Xn } ist konsistent im quadratischen Mittel f¨ ur den Parameter λ. Um dies zu zeigen, ben¨ otigen wir das folgende Resultat: Die Folge {Yn }n von Zufallsvariablen mit Yn = n · (Tn − λ) folgt einer Exp(1)-Verteilung und besitzt somit den Erwartungswert Eλ [Yn ] = asst sich der MSE von Tn wie folgt berechnen 1 = Varλ [Yn ]. Damit l¨ MSEλ [Tn ]
=
2
Varλ [Tn ] + [Biasλ [Tn ]]
90
3. Philosophie des Sch¨atzens
2
= Varλ [Tn ] + [Eλ [Tn ] − λ] ) = Varλ
=
* ) ) * *2 Yn Yn + λ + Eλ +λ −λ n n
⎤2 ⎡ 1 2 1 · Varλ [Yn ] + ⎣ · Eλ [Yn ]⎦ = 2 n2 - ./ 0 n - ./ 0 n 1
und es gilt limn→∞ MSEλ [Tn ] = B
1
limn→∞ n22
= 0 f¨ ur alle λ > 0.
B
Beispiel Konsistenzeigenschaften des arithmetischen Mittels
Seien X1 , . . . , Xn unabh¨ angige und identisch verteilte Zufallsvariablen mit Eµ [Xi ] = µ und Varµ [Xi ] = σ 2 . Sei wieder mit {Tµ (X1 , . . . , Xn )}n eine Folge von Punktsch¨ atzern f¨ ur den Parameter µ bezeichnet, die definiert sind als Tµ (X1 , . . . , Xn ) = X n =
n 1 · Xi . n i=1
ur den Parameter µ konsistent im quaDann kann gezeigt werden, dass X n f¨ dratischen Mittel ist. Gem¨aß der Definition des MSE mit Eµ [X n ] = µ gilt f¨ ur n → ∞ + , + 2 2 , MSEµ (X n ) = Eµ X n − µ = Eµ X n − Eµ [X n ] =
Varµ [X n ] =
σ2 −→ 0. n
Im Beispiel zur schwachen Konsistenz 88 haben wir gezeigt, dass das arithmetische Mittel schwach konsistent f¨ ur den Erwartungswert µ = Eµ [Xi ] ist, wenn die Zufallsvariablen Xi normalverteilt sind. Aus der Konsistenz im quadratischen Mittel 91 und dem Gesetz der Großen Zahlen e folgt P aber auch X n −→ µ = Eµ [Xi ], wenn die Xi nicht normalverteilt sind. B
3.4
Was ist ein guter Punktsch¨ atzer?
91
Zusammenhang der Konsistenzarten Die drei Arten der Konsistenz h¨ angen wie folgt zusammen: 1. Ist ein Punktsch¨ atzer konsistent im quadratischen Mittel, so ist er auch schwach konsistent. 2. Ist ein Punktsch¨ atzer stark konsistent, so ist er auch schwach konsistent. Die schwache Konsistenz eines Punktsch¨atzers f¨ ur einen Parameter ϑ kann also aus dem Vorliegen einer der beiden anderen Konsistenzarten gefolgert werden.
Den Nachweis findet man beispielsweise bei Serfling (1980), oder auch in EMILeA-stat e. Beispiel Arithmetisches Mittel
B
Das arithmetische Mittel ist nicht immer ein konsistenter Punktsch¨ atzer. Seien beispielsweise Y1 , . . . , Yn unabh¨ angige und identisch verteilte Zufallsur i = 1, . . . , n. Sei variablen mit Eϑ [Yi ] = ϑ + 1 und Varϑ [Yi ] = σ 2 f¨ ur den Parameter ϑ, die {Tϑ (Y1 , . . . , Yn )}n eine Folge von Punktsch¨atzern f¨ definiert sind als n 1 Yi . Tϑ (Y1 , . . . , Yn ) = Y n = · n i=1 ¨ Eine Uberpr¨ ufung auf schwache Konsistenz zeigt, dass f¨ ur n → ∞ gilt Pϑ |Y n − ϑ| > 1/2 = Pϑ {Y n − ϑ − 1} + 1 > 1/2 ≥
Pϑ |Y n − ϑ − 1| < 1/2 −→ 1,
wobei Pϑ |Y n − ϑ − 1| < 1/2 gegen 1 konvergiert, da nach dem Gesetz P
der Großen Zahlen Y n −→ Eϑ [Yi ] = ϑ + 1 gilt. Somit ergibt sich aber ur ϑ gem¨aß Pϑ |Y n − ϑ| > 1/2 → 1 was jedoch bedeutet, dass {Y n }n f¨ B Definition nicht schwach konsistent ist.
92
3. Philosophie des Sch¨atzens
Neben der Frage, ob die Werte einer Sch¨atzfunktion mit wachsendem Stichprobenumfang gegen den zu sch¨ atzenden Parameter konvergieren, kann man sich auch daf¨ ur interessieren, welche Verteilung der Sch¨atzer bei wachsender Informationsaufnahme besitzt. G¨ unstig sind Sch¨ atzer, deren Verteilung sich mit wachsendem Stichprobenumfang einer Normalverteilung n¨ ahert, da man dies beispielsweise zur Konstruktion von Konfidenzintervallen 147 und Tests 205 217 ausnutzen kann. Asymptotische Normalverteilung
Definition Asymptotische Normalverteilung
Seien X1 , . . . , Xn Stichprobenvariablen, die unabh¨angig und identisch wie eine Zufallsvariable X verteilt sind. Eine Sch¨atzfunktion T (X1 , . . . , Xn ) heißt asymptotisch normalverteilt, wenn es Konstanten a, b, c ∈ R, b > 0, gibt, so dass die Verteilung der Zufallsvariablen
nc ·
T (X1 , . . . , Xn ) − a b
gegen die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) 42 konvergiert. Genauer gilt T (X1 , . . . , Xn ) − a ≤ z −→ P(Z ≤ z) = Φ(z) (n → ∞) P nc · b f¨ ur Z ∼ N (0, 1).
Welche speziellen Sch¨atzfunktionen asymptotisch normalverteilt sind, geht aus den verschiedenen Varianten des Zentralen Grenzwertsatzes e hervor, vergleiche auch Casella, Berger (1990), Mood et al. (1974). Die bekannteste Version besagt, dass das arithmetische Mittel unabh¨ angiger und identisch verteilter Stichprobenvariablen, die alle den Erwartungswert µ und die Varianz σ 2 besitzen, asymptotisch normalverteilt ist, wobei in diesem Fall die Konstante c den Wert 0,5 annimmt: √ X −µ P ≤ z −→ Φ(z) f¨ ur n → ∞. n· σ
3.4
Was ist ein guter Punktsch¨ atzer?
93
Weiterf¨ uhrende Konzepte: Suffizienz, Vollst¨ andigkeit, Exponentialfamilien
Suffizienz und Vollst¨andigkeit
Die Suffizienz eines Punktsch¨atzers ist eine Eigenschaft, die auf der Suche nach dem gleichm¨aßig besten erwartungstreuen Sch¨atzer sehr hilfreich ist. Es zeigt sich, dass die Suche nach diesem Sch¨atzer auf die Klasse der suffizienten Sch¨ atzer eingeschr¨ankt werden kann. Dabei wird ein Sch¨ atzer als suffizient bezeichnet, wenn er die gleiche Information u ¨ber den Parameter enth¨ alt wie die Stichprobe selbst. Das folgende Beispiel verdeutlicht diese Idee. Beispiel Bernoulliverteilung Ein Bernoulliexperiment werde zweimal durchgef¨ uhrt, dabei steht das Ergebnis 1 f¨ ur Erfolg und 0 f¨ ur Misserfolg. Der Stichprobenraum X der m¨ oglichen Ausg¨ ange besteht dann gerade aus den vier Tupeln
X = {(0; 0), (1; 0), (0; 1), (1; 1)}. angig und identisch bernoulliverteilt mit Parameter p Seien X1 , X2 unabh¨ ur und sei Tp (X1 , X2 ) = X das arithmetische Mittel als Sch¨atzfunktion f¨ den Parameter p ∈ [0; 1]. Dann kann Tp (X1 , X2 ) die folgenden drei Werte annehmen: ⎧ ⎨ 0 Tp (x1 , x2 ) =
1/2 ⎩ 1
wenn
(x1 ; x2 ) = (0; 0) (x1 ; x2 ) ∈ {(1; 0), (0; 1)} (x1 ; x2 ) = (1; 1).
Durch den Sch¨ atzer Tp (X1 , . . . , Xn ) = X konnte die Information aus der Stichprobe u ¨ber den Parameter p verdichtet werden: anstelle von vier m¨ oglichen Ausg¨ angen des Bernoulliversuchs m¨ ussen nur noch drei M¨ oglichkeiten unterschieden werden. Wichtig ist aber: Haben wir durch diese Verdichtung Information u ¨ber den Parameter verloren? Dies kann nur dort geschehen sein, wo verschiedene Ausg¨ ange des Bernoulliversuchs zu gleichen Werten der Statistik f¨ uhren. Betrachten wir also die Menge {(1; 0), (0; 1)}. Die Elemente dieser Menge unterscheiden sich nur in der Anordnung der Erfolge. Deren Reihenfolge ist aber wegen der Unabh¨ angigkeit der Einzelversuche irrelevant. Um p zu sch¨atzen, geht also uber der Betrachtung der Oridurch die Betrachtung von Tp = X gegen¨ ginalstichprobe keine relevante Information verloren. Eine solche Statistik nennt man suffizient. Aus demselben Grund ist zum Beispiel auch 2 Tp = i=1 Xi eine suffiziente Statistik.
94
3. Philosophie des Sch¨atzens
Ein Gegenbeispiel stellt die Sch¨atzfunktion T2p (X1 , X2 ) = max{X1 , X2 } dar ⎧ (x1 ; x2 ) = (0; 0) ⎨ 0 T2p (x1 ; x2 ) = 1 wenn (x1 ; x2 ) ∈ {(1; 0), (0; 1)} ⎩ 1 (x1 ; x2 ) = (1; 1). Um den Parameter p zu sch¨ atzen, ist die H¨aufigkeit der Erfolge eine relevante Information. Die Statistik T2p liefert aber beispielsweise sowohl f¨ ur (1; 0) als auch f¨ ur (1; 1) denselben Wert. Die Information, wieviele Erfolge beobachtet wurden, kann aus dem Resultat T2p = 1 nicht mehr r¨ uckgeschlossen werden. Hier ist die Verdichtung der Information also eindeutig mit Informationsverlust verbunden. Eine viel ausgepr¨ agtere Informationsverdichtung liegt vor, wenn das Bernoulliexperiment dreimal durchgef¨ uhrt wird. Dies wird im Beispiel 95 verdeutlicht.
Definition Suffiziente Statistik
Seien X1 , . . . , Xn unabh¨angige und identisch wie X verteilte Stichprobenvariablen mit Dichtefunktion f X (x, ϑ). Eine Statistik S = Sϑ (X1 , . . . , Xn ) heißt suffizient f¨ ur den Parameter ϑ f¨ ur alle ϑ ∈ Θ genau dann, wenn die bedingte Dichte von X1 , . . . , Xn f¨ur festes S = s n (
f
X1 ,...,Xn
f (x1 ; ϑ) · . . . · f (xn ; ϑ) = (x1 , . . . , xn |S = s) = f S (s; ϑ) X
X
i=1
f X (xi ; ϑ)
f S (s, ϑ)
nicht von ϑ abh¨angt.
Wird die Statistik S zur Sch¨ atzung des Parameters ϑ benutzt, so handelt es sich dabei nat¨ urlich um eine Sch¨ atzfunktion. In diesem Fall wird die suffiziente Statistik S auch als suffizienter Sch¨ atzer bezeichnet und in der f¨ ur Sch¨ atzer eingef¨ uhrten Notation als T = Tϑ (X1 , . . . , Xn ) geschrieben. Die Idee ist also, dass bei bekanntem Wert der suffizienten Statistik S die Beobachtungswerte aus der Stichprobe nicht mehr ben¨ otigt werden, da sie keine zus¨atzliche Information u ¨ber den Parameter mehr liefern, die nicht schon in der suffizienten Statistik enthalten ist. W¨ urde die Stichprobe noch zus¨atzliche Information u ¨ber den Parameter enthalten, dann k¨ onnte die obige bedingte Dichte nicht von ϑ unabh¨ angig sein.
3.4
Was ist ein guter Punktsch¨ atzer?
95
Beispiel (Fortsetzung 93) Bernoulliverteilung
B
Angenommen das Bernoulliexperiment wird dreimal durchgef¨ uhrt. Dann besteht der Stichprobenraum X aus den acht Elementen (0; 0; 0), (1; 0; 0), (0; 1; 0), (0; 0; 1), (1; 1; 0), (0; 1; 1), (1; 0; 1), (1; 1; 1). Wird Tp (X1 , X2 , X3 ) = X als Sch¨ atzfunktion f¨ ur p verwendet, so ist eine Verdichtung der Information ohne Informationsverlust wie folgt m¨ oglich ⎧ 0 (x1 ; x2 ; x3 ) = (0; 0; 0) ⎪ ⎪ ⎨ 1/3 wenn (x1 ; x2 ; x3 ) ∈ {(1; 0; 0), (0; 1; 0), (0; 0; 1)} Tp (x1 ; x2 ; x3 ) = ⎪ 2/3 (x1 ; x2 ; x3 ) ∈ {(1; 1; 0), (0; 1; 1), (1; 0; 1)} ⎪ ⎩ 1 (x1 ; x2 ; x3 ) = (1; 1; 1). Anstelle von acht m¨ oglichen Ausg¨ angen m¨ ussen nur noch vier verschiedene M¨ oglichkeiten unterschieden werden. W¨ ahlt man als Sch¨ atzfunktion wieder T2p = max{X1 , X2 , X3 }, so ist der Informationsverlust offensichtlich ⎧ (x1 ; x2 ; x3 ) = (0; 0; 0) ⎪ ⎪ 0 ⎨ 1 wenn (x1 ; x2 ; x3 ) ∈ {(1; 0; 0), (0; 1; 0), (0; 0; 1)} T2p (x1 , x2 , x3 ) = ⎪ 1 (x1 ; x2 ; x3 ) ∈ {(1; 1; 0), (0; 1; 1), (1; 0; 1)} ⎪ ⎩ 1 (x1 ; x2 ; x3 ) = (1; 1; 1). B Wie bei der Notation von Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ), in denen der Index ϑ daf¨ ur steht, dass es sich um eine Sch¨atzfunktion f¨ ur den Parameter ϑ handelt, gilt auch f¨ ur die Schreibweise von suffizienten Statistiken S = ur den Parameter ϑ angibt Sϑ (X1 , . . . , Xn ), dass der Index ϑ die Suffizienz f¨ und nicht f¨ ur eine Abh¨ angigkeit der suffizienten Statistik S von ϑ steht. Satz von Fisher-Neyman Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angt. Eine Statistik ur den Parameter ϑ f¨ ur alle ϑ ∈ Θ, das heißt S(X1 , . . . , Xn ) ist suffizient f¨ S(X1 , . . . , Xn ) = Sϑ (X1 , . . . , Xn ), genau dann, wenn sich die gemeinsame Dichte von X1 , . . . , Xn schreiben l¨asst als Produkt aus der Dichtefunktion f S von S(X1 , . . . , Xn ) und einer Funktion h(x1 , . . . , xn ), die nicht von ϑ abh¨ angt. Also f X1 (x1 ; ϑ) · . . . · f Xn (xn ; ϑ) = f S (s(x1 , . . . , xn ); ϑ) · h(x1 , . . . , xn ).
96
3. Philosophie des Sch¨atzens
Die Faktorisierung ist im Allgemeinen wesentlich einfacher zu zeigen, als die Unabh¨ angigkeit von f X1 ,...,Xn (x1 , . . . , xn ; ϑ|S = s) vom interessierenden Parameter ϑ. Der Satz von Fisher-Neyman wird in der Literatur h¨ aufig auch als Faktorisierungssatz bezeichnet. B
Beispiel (Fortsetzung 93) Bernoulliverteilung
Seien die Zufallsvariablen X1 , . . . , Xn unabh¨ angig und identisch bernoulliverteilt mit Erfolgswahrscheinlichkeit p. Die Summe aller Erfolge von n unabh¨ angigen Bernoulliexperimenten Sp (X1 , . . . , Xn ) =
n
Xi ,
i=1
ist eine suffiziente Statistik. Der Nachweis erfolgt mit dem Satz von FisherNeyman 95. Zu zeigen ist f X1 (x1 ; p) · . . . · f Xn (xn ; p) = f S (s(x1 , . . . , xn ); p) · h(x1 , . . . , xn ). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist gerade das Produkt von n Dichten der Bernoulliverteilung f
X1
(x1 ; p) · . . . · f
Xn
(xn ; p)
=
n
pxi · (1 − p)1−xi
i=1
=
p
n
i=1
xi
n
· (1 − p)n−
i=1
xi
,
mit xi ∈ {0, 1}, p ∈ [0; 1]. Die Statistik Sp (X1 , . . . , Xn ), die Anzahl der Erfolge in n Versuchen, ist binomialverteilt mit Parametern n und p n n n n S s n−s · p · (1 − p) · p i=1 xi · (1 − p)n− i=1 xi f (s; p) = = n s i=1 xi n f¨ ur s = i=1 xi = 0, 1, . . . , n. Man kann sehen, dass die Funktion h(x1 , . . . , xn ) als −1 n h(x1 , . . . , xn ) = n i=1 xi gew¨ahlt werden muss, um die Faktorisierung nach Fisher-Neyman zu erf¨ ullen, n ur den Parameter p suffiziente das heißt Sp (X1 , . . . , Xn ) = i=1 Xi ist eine f¨ Statistik.
3.4
Was ist ein guter Punktsch¨ atzer?
97
Das arithmetische Mittel n 1 Tp (X1 , . . . , Xn ) = · Xi n i=1
ist eine Funktion von Sp (X1 , . . . , Xn ) und selbst suffiziente Statistik f¨ ur p. atzung von p verGleichzeitig kann die Statistik Tp auch sinnvoll zur Sch¨ wendet werden, da sie ein erwartungstreuer Sch¨ atzer f¨ ur den Parameter p B ist. Der Satz von Fisher-Neyman 95 setzt voraus, dass f S (s; ϑ) bekannt ist. Eine Verallgemeinerung dieses Satzes, bei der nur noch eine Funktion g[S(X1 , . . . , Xn )] als bekannt vorausgesetzt werden muss, ist der folgende Satz. Satz Verallgemeinerter Faktorisierungssatz Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angig ist. Die Statistik ur den Parameter ϑ genau dann, wenn gilt S(X1 , . . . , Xn ) ist suffizient f¨ f X1 (x1 ; ϑ) · . . . · f Xn (xn ; ϑ) = g[s(x1 , . . . , xn ); ϑ] · m(x1 , . . . , xn ), angt und m unwobei g von der Stichprobe nur durch s(x1 , . . . , xn ) abh¨ abh¨ angig von ϑ ist.
Wie mit Hilfe suffizienter Statistiken verbesserte Sch¨ atzer gewonnen werden k¨ onnen, erl¨ autert der folgende Satz. Satz von Rao-Blackwell Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angig ist. Sei weiter S = Sϑ (X1 , . . . , Xn ) eine suffiziente Statistik und T = Tϑ (X1 , . . . , Xn ) ein erwartungstreuer Sch¨ atzer f¨ ur ϑ. Sei V = Vϑ (X1 , . . . , Xn ) = Eϑ [T |S = s]. Dann gilt a) Vϑ (X1 , . . . , Xn ) ist eine Funktion der suffizienten Statistik S = angt nicht von ϑ ab. Sϑ (X1 , . . . , Xn ) und h¨ b) V ist ein erwartungstreuer Sch¨ atzer f¨ ur ϑ, das heißt Eϑ [V ] = ϑ.
98
3. Philosophie des Sch¨atzens
c) F¨ ur alle ϑ ∈ Θ mit Varϑ [T ] < ∞ gilt Varϑ [Vϑ (X1 , . . . , Xn )] ≤ Varϑ [Tϑ (X1 , . . . , Xn )]. Falls Tϑ (X1 , . . . , Xn ) = Vϑ (X1 , . . . , Xn ), so tritt mit Wahrscheinlichkeit 1 f¨ ur einige ϑ eine echt kleinere Varianz auf. ¨bereinstimmt, ist Wenn der Sch¨ atzer V = Vϑ (X1 , . . . , Xn ) nicht mit Tϑ u er also ein verbesserter Sch¨atzer f¨ ur ϑ, da seine Varianz kleiner ist. Den Nachweis findet man in EMILeA-stat e. Der Satz von Rao-Blackwell sagt aus, dass es m¨oglich ist, aus einem beliebigen, f¨ ur ϑ erwartungstreuen Sch¨ atzer Tϑ (X1 , . . . , Xn ) und einer suffizienatzer Vϑ (X1 , . . . , Xn ) abzuleiten Statistik Sϑ (X1 , . . . , Xn ) einen neuen Sch¨ ten. Nach Rao-Blackwell ist dann Vϑ (X1 , . . . , Xn ) ebenfalls erwartungstreu f¨ ur ϑ und besitzt eine Varianz kleiner oder gleich der von Tϑ (X1 , . . . , Xn ). F¨ ur die Suche nach dem gleichm¨ aßig besten erwartungstreuen Sch¨ atzer, dem UMVUE kann also die Suche nach erwartungstreuen Sch¨ atzern auf solche eingeschr¨ ankt werden, die suffiziente Funktionen von Statistiken sind. Stellt atzer dar, der selbst FunkTϑ (X1 , . . . , Xn ) schon einen erwartungstreuen Sch¨ tion einer suffizienten Statistik ist, so wird die Anwendung von Rao-Blackwell zu keinem besseren Sch¨ atzer f¨ uhren, sondern Vϑ (X1 , . . . , Xn ) wird dann mit atzen von Rao-Blackwell und LehTϑ (X1 , . . . , Xn ) identisch sein. In den S¨ ur mann-Scheff´e werden erwartungstreue Sch¨ atzfunktionen Tϑ (X1 , . . . , Xn ) f¨ den Parameter ϑ vorausgesetzt. Beide S¨atze lassen sich ebenso f¨ ur Sch¨ atzer Tϕ(ϑ) (X1 , . . . , Xn ) verallgemeinern, wenn Tϕ(ϑ) (X1 , . . . , Xn ) eine erwartungstreue Sch¨atzfunktion f¨ ur ϕ(ϑ) ist, wobei ϕ eine beliebige Funktion des Parameters ϑ bezeichnet. Das im Folgenden eingef¨ uhrte Prinzip der Vollst¨ andigkeit erlaubt es, den gleichm¨aßig besten erwartungstreuen Sch¨atzer (den UMVUE) f¨ ur einen Parameter zu finden. Wie das funktioniert, zeigt der Satz von Lehmann-Scheff´ e 101 am Ende dieses Abschnitts.
Definition Vollst¨ andigkeit
Seien X1 , . . . , Xn unabh¨angige und identisch wie X verteilte Stichprobenvariablen mit identischer Dichtefunktion f X (x; ϑ). Sei weiter Tϑ (X1 , ..., Xn ) eine Sch¨atzfunktion f¨ ur den Parameter ϑ.
3.4
Was ist ein guter Punktsch¨ atzer?
99
3 4 a) Die Familie f X (x; ϑ) : ϑ ∈ Θ von Dichten heißt vollst¨ andig genau dann, wenn f¨ ur jede beliebige Funktion H aus dem Zusammenhang Eϑ [H(X)] = 0
f¨ ur alle ϑ ∈ Θ
folgt
Pϑ [H(X) = 0] = 1. b) Eine Statistik T = Tϑ (X1 , . . . , Xn ) heißt vollst¨ andig, wenn f¨ ur alle Dichten 3 4 der Familie f X (x; ϑ) : ϑ ∈ Θ die zu Tϑ (X1 , . . . , Xn ) geh¨ orende Familie von Dichten {f T (t; ϑ) : ϑ ∈ Θ} vollst¨andig ist. Das heißt, aus
Eϑ [H(T )] = 0
f¨ ur alle ϑ ∈ Θ
folgt
Pϑ [H(T ) = 0] = 1. Allgemein l¨asst sich also sagen, dass eine Familie von Dichten vollst¨andig ist, wenn der einzige unverzerrte Sch¨atzer f¨ ur den Wert Null derjenige Sch¨ atzer ist, welcher mit Wahrscheinlichkeit 1 selbst nur den Wert Null annimmt. Beispiel Normalverteilung
B
Die Familie der Dichten der Normalverteilung mit bekanntem Erwartungswert µ0 und unbekannter Varianz σ 2 ∈ R+ (N (µ0 , σ 2 )) ist nicht vollst¨ andig. Sei X ∼ N (µ0 , σ 2 ). Wird beispielsweise f¨ ur H(X) = X − µ0 gew¨ahlt, dann gilt Eσ2 [H(X)] = Eσ2 [X − µ0 ] = Eσ2 [X] − µ0 = µ0 − µ0 = 0. Jedoch ergibt sich Pσ2 (H(X) = 0) = Pσ2 (X = µ0 ) = 0, da X eine stetige Zufallsvariable ist.
B
Beispiel Geometrische Verteilung
Die zur geometrischen Verteilung mit Parameter 0 < p < 1 und Dichtefunktion f X (x; p) = p · (1 − p)x−1 , x ∈ N, geh¨ orende Dichtefamilie ist vollst¨ andig.
B
100
3. Philosophie des Sch¨atzens
Um die Vollst¨andigkeit zeigen zu k¨ onnen, nehmen wir eine beliebige Funktion H an, so dass Ep [H(X)] = 0, also Ep [H(X)] =
∞
H(x) · p · q x−1 = 0
f¨ ur alle 0 < p < 1,
x=1
wobei q = 1 − p ist. Multipliziert man dies mit erh¨ alt man H(k) · k! + H(k + 1) · q ·
q p
und leitet k-mal nach q ab,
(k + 2)! (k + 1)! + H(k + 2) · q 2 · + ··· = 0 1! 2!
f¨ ur 0 < q < 1. F¨ ur q → 0 folgt, dass H(k) · k! = 0 bzw. H(k) = 0 f¨ ur jedes beliebige k ≥ 1. Somit ergibt sich Pp [H(X) = 0] = Pp [X ∈ {1, 2, . . .}] = 1,
f¨ ur alle 0 < p < 1.
B
Beispiel (Fortsetzung 67) Rechteckverteilung angige und identisch rechteckverteilte StichproSeien X1 , ..., Xn unabh¨ benvariablen auf dem Intervall [0; b] mit b > 0. Wird T = Tb (X1 , . . . , Xn ) = max{Xi } = X(n) gew¨ahlt, so kann gezeigt werden, dass T die Dichte 37
f T (t; b) = n ·
tn−1 , bn
0 ≤ t ≤ b,
besitzt und vollst¨ andig ist. Dazu nehmen wir zun¨ achst an, dass Eb [H(T )] = 0 gilt f¨ ur alle b > 0. Dann folgt bn bn · Eb [H(T )] = · 0= n n
b 0
tn−1 H(t) · n · n dt = b
b H(t) · tn−1 dt. 0
Bestimmt man nun die Ableitung des letzten Integrals nach b, so erh¨alt man 0 = H(b) · bn−1 . Dabei ist zugelassen, dass es einzelne Stellen gibt, an denen diese Ableitung nicht existiert. Die Wahrscheinlichkeit daf¨ ur betr¨agt dann gerade Null. Man sagt, die obige Beziehung gilt f¨ ur fast alle b > 0. Damit muss aber ebenfalls H(t) = 0 f¨ ur (fast) alle t > 0 gelten, so dass Pb [H(T ) = 0] = 1 folgt.
3.4
Was ist ein guter Punktsch¨ atzer?
101
Satz von Lehmann-Scheff´ e Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit identischer Verteilungsfunktion, die von einem Parameter ϑ abh¨ angt. Sei weiter S = andige und suffiziente Statistik und V = Sϑ (X1 , . . . , Xn ) eine vollst¨ atzfunkVϑ (X1 , . . . , Xn ) = Vϑ (Sϑ (X1 , . . . , Xn )) eine erwartungstreue Sch¨ angt. Dann ist tion f¨ ur ϑ, die nur von Sϑ (X1 , . . . , Xn ) abh¨ Vϑ (X1 , . . . , Xn ) gleichm¨aßig bester erwartungstreuer Sch¨ atzer f¨ ur ϑ, also UMVUE. Den Nachweis findet man in EMILeA-stat e. Durch Ausnutzung der Suffizienz oder Anwendung der Cram´er-Rao-Ungleichung bzw. des Satzes von Rao-Blackwell erh¨alt man immer nur einen besseren Sch¨atzer im Sinne einer kleineren Varianz. Die Identifizierung eines gleichm¨aßig besten unverzerrten Sch¨ atzers gelingt damit jedoch nicht notwendigerweise. Mit Hilfe der Eigenschaft der Vollst¨ andigkeit ist es dagegen m¨oglich, den gleichm¨ aßig besten erwartungstreuen Sch¨atzer f¨ ur ϑ zu finden. Dar¨ uber hinaus kann auch die Existenz eines solchen Sch¨ atzers durch diese Eigenschaft gesichert werden. Insbesondere gilt f¨ ur Verteilungen, die eine einparametrige Exponentialfamilie bilden, dass der UMVUE immer existiert. Exponentialfamilien
Viele Verteilungsfamilien lassen sich in die so genannte Klasse der Exponentialfamilien einordnen. Ist eine Verteilung eine Exponentialfamilie, so k¨ onnen f¨ ur ihre Parameter Sch¨ atzfunktionen gefunden werden, die sich durch besonders gute statistische Eigenschaften auszeichnen. Im Folgenden werden die Exponentialfamilien und ihre Charakteristika vorgestellt. Definition Einparametrige Exponentialfamilie
Eine Familie P X = {Pϑ : ϑ ∈ Θ} von Verteilungen bildet eine einparametrige Exponentialfamilie, falls sich die Dichtefunktion jeder ihrer Verteilungen schreiben l¨asst als
f X (x; ϑ) = c(ϑ) · h(x) · exp{q(ϑ) · G(x)} f¨ ur alle x ∈ R und alle ϑ ∈ Θ. Dabei sind c(ϑ) und q(ϑ) geeignete Funktionen des Parameters ϑ, h(x) und G(x) sind geeignete Funktionen von x, wobei weder q noch G konstant sein d¨urfen und beide nicht vom Parameter ϑ abh¨angen.
102
3. Philosophie des Sch¨atzens
Eine Auswahl einparametriger Exponentialfamilien Die folgenden Verteilungsfamilien bilden jeweils eine einparametrige Exponentialfamilie: Bernoulliverteilung Bin(1; p) mit Parameter p ∈ (0; 1) Binomialverteilung Bin(n; p) f¨ ur festes n mit Parameter p ∈ (0; 1) Poissonverteilung Poi(λ) mit Parameter λ > 0 Normalverteilung N (µ, σ02 ) mit fester, bekannter Varianz σ02 ∈ R+ und Parameter µ ∈ R Normalverteilung N (µ0 , σ 2 ) mit festem, bekanntem Erwartungswert µ0 und Parameter σ 2 ∈ R+ Exponentialverteilung Exp(λ) mit Parameter λ > 0 Gammaverteilung Γ(λ, α0 ) mit festem, bekanntem α0 > 0 und Parameter λ > 0
In den folgenden Beispielen ben¨otigen wir den Begriff der Indikatorfunktion.
Definition Indikatorfunktion
uglich einer Menge R ⊆ R ist Die Indikatorfunktion I{R} (x) : R → {0, 1} bez¨ definiert als 1, f¨ur x ∈ R; I{R} (x) = 0, sonst. B
Beispiel Binomialverteilung
F¨ ur festes n bilden die Binomialverteilungen {Bin(n; p), p ∈ (0; 1)} eine einparametrige Exponentialfamilie, denn f¨ ur jede solche Verteilung l¨ asst sich die diskrete Dichtefunktion schreiben als x p n · f X (x; p) = (1 − p)n · · I{0,1,...,n} (x) x 1−p
3.4
Was ist ein guter Punktsch¨ atzer?
=
103
6 5 n p · I{0,1,...,n} (x) · exp -./0 , (1 − p)n · x · ln - ./ 0 x 1−p ./ 0 ./ 0 G(x) c(p) h(x)
q(p)
wobei die Funktion G(x) der Identit¨at entspricht und I{0,1,...,n} die IndikaB torfunktion ist. Beispiel Exponentialverteilung
B
Die Exponentialverteilungen {Exp(λ); λ > 0} bilden eine einparametrige Exponentialfamilie. Die Dichtefunktion der Exponentialverteilung l¨ asst sich schreiben als f X (x; λ)
= λ · exp{−λ · x} · I{(0;∞)} (x) 6 5 = -./0 λ · exp -./0 x · (−λ) · I{(0;∞)} (x) . - ./ 0 - ./ 0 c(λ)
G(x)
q(λ)
h(x)
Die Funktionen c(λ), G(x) entsprechen der Identit¨at und I{(0;∞)} (x) der InB dikatorfunktion. Beispiel Poissonverteilung
B
Die Familie {Poi(λ); λ > 0} der Poissonverteilungen ist eine einparametrige Exponentialfamilie, da die Dichtefunktion geschrieben werden kann als f X (x; λ)
λx · exp{−λ} · I{0,1,2,...} (x) x! 1 ·I (x) · exp{-./0 x · -./0 ln λ }. = exp{−λ} · - ./ 0 x! {0,1,2,...} ./ 0 G(x) q(λ) c(λ) =
h(x)
Die Funktion G(x) ist die Identit¨ at und I{0,1,2,...} (x) die Indikatorfunktion. B Beispiel Rechteckverteilung
Die Rechteckverteilungen R[a; b] bilden keine Exponentialfamilie. Dasselbe gilt im Allgemeinen f¨ ur Verteilungen, deren Tr¨ ager direkt von Parametern abh¨ angt. B
B
104
3. Philosophie des Sch¨atzens
Regel Sei X eine reellwertige Zufallsvariable, deren Verteilung zu einer einparametrigen Exponentialfamilie 101 geh¨ort, dann gilt: T (X) = G(X) ist eine suffiziente Statistik. Stammt PϑX aus einer einparametrigen Exponentialfamilie, so existiert ur ϑ, deren Varianz die eine erwartungstreue Sch¨ atzfunktion Tϑ (X) f¨ untere Cram´er-Rao-Schranke annimmt, das heißt, der gleichm¨aßig beste erwartungstreue Sch¨ atzer (UMVUE) f¨ ur ϑ existiert. Umgekehrt gilt, wenn Tϑ∗ (X) eine erwartungstreue Sch¨ atzfunktion f¨ ur ϑ ist, deren Varianz gleich der unteren Cram´er-Rao-Schranke ist, dann geh¨ ort PϑX zu einer einparametrigen Exponentialfamilie. Es kann gezeigt werden, dass jede suffiziente Statistik Tϑ (X) f¨ ur den Parameter ϑ einer Verteilung aus der Exponentialfamilie auch vollst¨ andig ist und somit der gleichm¨ aßig besten erwartungstreuen Sch¨ atzfunktion f¨ ur ϑ entspricht. Insbesondere resultiert daraus, dass f¨ ur einen zu sch¨atzenden Parameter ϑ gilt 1 , FIX (ϑ) = Varϑ [Tϑ (X)] wenn PϑX einer einparametrigen Exponentialfamilie angeh¨ ort. Dabei ur ϑ. Die ist Tϑ (X) der gleichm¨aßig beste erwartungstreue Sch¨atzer f¨ Fisher-Information berechnet sich also aus der Varianz der Sch¨atzur ϑ. funktion Tϑ (X) f¨
Satz Vollst¨ andigkeit und Suffizienz in einparametrigen Exponentialfamilien Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichproort die Verteilung von X benvariablen mit Dichtefunktion f X (x; ϑ). Geh¨ zu einer einparametrigen Exponentialfamilie, so l¨ asst sich f X (x; ϑ) schreiben als f X (x; ϑ) = c(ϑ) · h(x) · exp{q(ϑ) · G(x)} f¨ ur alle x ∈ R und alle ϑ ∈ Θ, und Tϑ (X1 , . . . , Xn ) = eine vollst¨ andige und suffiziente Statistik.
n i=1
G(Xi ) ist
3.4
Was ist ein guter Punktsch¨ atzer?
105
Beispiel (Fortsetzung 93 96) Bernoulliverteilung angige und identisch bernoulliverteilte ZufallsvaSeien X1 , . . . , Xn unabh¨ riablen mit Erfolgswahrscheinlichkeit p ∈ (0; 1). Das arithmetische Mittel atzer Tp (X1 , . . . , Xn ) = X ist gleichm¨aßig bester erwartungstreuer Sch¨ f¨ ur den Parameter p. Die Dichtefunktion der Bernoulliverteilung kann geschrieben werden als
f X (x; p)
= px · (1 − p)1−x · I{0,1} (x) =
· exp (1 − p) · I - ./ 0 -{0,1} ./ 0 c(p)
h(x)
5
x · ln -./0 G(x) -
6 p , 1−p ./ 0 q(p)
aß des Satzes zu einwobei I{0,1} (x) die Indikatorfunktion darstellt. Gem¨ parametrigen Exponentialfamilien und vollst¨ andigen und suffizienten Stan tistiken 104 gilt, dass die Statistik Sp (X1 , . . . , Xn ) = i=1 G(Xi ) = n X vollst¨ a ndig und suffizient ist. Weiterhin ist zu bemerken, dass i i=1 Tp (X1 , . . . , Xn ) unverzerrt und eine Funktion der suffizienten Statistik Sp (X1 , . . . , Xn ) ist Ep [Tp (X1 , . . . , Xn )] = Ep [X] = p,
Tp (X1 , . . . , Xn ) =
Sp (X1 , . . . , Xn ) . n
Mit dem Satz von Lehmann-Scheff´ e 101 folgt dann, dass X der gleichm¨aßig beste unverzerrte Sch¨atzer (UMVUE) f¨ ur den Parameter p ist.
Definition k -parametrige Exponentialfamilie
Ist eine Familie von Verteilungen durch mehr als nur einen Parameter charakterisiert, so bildet sie eine k-parametrige Exponentialfamilie, wenn sich ihre Dichtefunktion schreiben l¨asst als k 1 X f (x; ϑ1 , ..., ϑk ) = c(ϑ1 , ..., ϑk ) · h(x) · exp qi (ϑ1 , . . . , ϑk ) · Gi (x) . i=1
f¨ ur alle x ∈ R und alle (ϑ1 , . . . , ϑk ) ∈ Θ. Dabei sind c(ϑ1 , . . . , ϑk ) und qi (ϑ1 , . . . , ϑk ) geeignete Funktionen des Parametervektors (ϑ1 , . . . , ϑk ), und h(x) und Gi (x) sind geeignete Funktionen von x, wobei weder qi noch Gi konstant sein d¨ urfen und beide nicht von ϑ1 , . . . , ϑk abh¨angen.
106
3. Philosophie des Sch¨atzens
Wie schon bei einparametrigen Exponentialfamilien gilt auch hier der Zusamn n menhang zu Vollst¨andigkeit und Suffizienz: ( i=1 G1 (xi ), . . . , i=1 Gk (xi )) ist suffizient und vollst¨ andig f¨ ur (ϑ1 , . . . , ϑk ). B
Beispiel Normalverteilung
Die Klasse der Normalverteilungen N (µ, σ 2 ) mit Parametern µ ∈ R und σ 2 ∈ R+ bildet eine zweiparametrige Exponentialfamilie, da sich ihre Dichten wie folgt umschreiben lassen f X (x; µ, σ 2 )
=
2 1 x−µ 1 1 √ · exp − · 2 σ 2·π·σ
=
6 5 1 µ2 6 5 1 µ 1 √ . · exp − · 2 · -./0 1 · exp − · -./0 x2 + · -./0 x 2 2 2 σ 2./· σ 0 σ 2·π·σ -./0 ./ 0 h(x) G1 (x) G2 (x) q1 (µ,σ 2 )
c(µ,σ 2 )
q2 (µ,σ 2 )
B Bisher haben wir uns mit den Eigenschaften von Sch¨ atzfunktionen auseinandergesetzt. Dabei haben wir stets angenommen, dass wir bereits eine Sch¨atzfunktion kennen, f¨ ur deren Eigenschaften wir uns interessieren. Der folgende Abschnitt besch¨ aftigt sich nun mit der Frage, wie wir Sch¨ atzfunktionen konstruieren k¨ onnen.
3.5
3.5 Wie kommt man zu einer Sch¨ atzfunktion? Ein intuitives Vorgehen zur Sch¨ atzung von Parametern ist das Verwenden ihrer empirischen Pendants. Die Parameter der Normalverteilung sind der Erucke sind das wartungswert µ und die Varianz σ 2 . Deren empirischen Gegenst¨ arithmetische Stichprobenmittel und die Stichprobenvarianz, gegeben durch n 1 x= · xi , n i=1
n 1 · s = (xi − x)2 . n − 1 i=1 2
Jedoch haben die Parameter einer Verteilung nicht immer solche empirischen Gegenst¨ ucke. Ebensowenig m¨ ussen die Parameter stets dem Erwartungswert und der Varianz entsprechen, wie die folgenden Beispiele zeigen. Die Recht-
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
107
eckverteilung ist definiert auf dem Intervall [a; b] mit a, b ∈ R, a < b. Sie wird durch die Parameter a und b eindeutig charakterisiert. Dabei entsprechen a und b nicht dem Erwartungswert und der Varianz einer rechteckverteilten Zufallsvariablen X, denn es gilt E(X) =
a+b 2
und
Var(X) =
(b − a)2 . 12
Zur Sch¨ atzung von a und b w¨ urde man intuitiv das Minimum Xmin = X(1) bzw. das Maximum Xmax = X(n) der Stichprobe verwenden. Die Exponentialverteilung wird eindeutig definiert durch den Parameter λ. Der Erwartungswert einer exponentialverteilten Zufallsvariablen X ist gegeben durch 1 E(X) = , λ so dass auch hier der Parameter nicht dem Erwartungswert entspricht. F¨ ur die Cauchy-Verteilung e existiert der Erwartungswert gar nicht, und f¨ ur die Poissonverteilung mit Parameter λ sind Erwartungswert und Varianz gleich λ. Ein allgemeines Prinzip, mit dem Sch¨ atzfunktionen f¨ ur Charakteristika von Verteilungen gefunden werden k¨ onnen, ist also w¨ unschenswert. In den folgenden Kapiteln werden Methoden zur Konstruktion von Punktsch¨ atzern eingef¨ uhrt. Diese Verfahren f¨ uhren in vielen Situationen zu sinnvollen Sch¨ atzfunktionen. Im Folgenden wollen wir die Momentenmethode 107 Maximum-Likelihood-Sch¨ atzung 115 Methode der Kleinsten Quadrate 134 als Punktsch¨ atzmethoden vorstellen.
Momentenmethode
Die Momentenmethode ist ein Verfahren zur Konstruktion von Punktsch¨ atzern f¨ ur die Parameter ϑ1 , . . . , ϑk der Verteilungsfunktion FX (x; ϑ1 , . . . , ϑk ) einer Zufallsvariablen X. Die Momentenmethode beruht auf dem Prinzip, durch das Gleichsetzen der empirischen und theoretischen Momente Sch¨atzfunktionen f¨ ur die Parameter ϑ1 , . . . , ϑk aus der L¨osung des resultierenden
108
3. Philosophie des Sch¨atzens
Gleichungssystems zu erhalten. Diese Sch¨atzfunktionen werden als Momentensch¨ atzer bezeichnet. Das r-te (theoretische) Moment der Zufallsvariablen X ist definiert als ∞ xr · f X (x; ϑ1 , . . . , ϑk ) dx,
r
µ(r) = E[X ] = −∞
wobei f X (x; ϑ1 , . . . , ϑk ) die Dichtefunktion von X bezeichne. F¨ ur r = 1 entspricht dies dem Erwartungswert von X. Das r-te empirische Moment ist definiert als n 1 r X . m(r) = · n i=1 i F¨ ur r = 1 entspricht dies dem arithmetischen Mittel der Stichprobenvariablen. Ist X verteilt gem¨aß FX (x; ϑ1 , . . . , ϑk ) und existiert eine Dichte ahern sich f¨ ur wachsenden Stichprobenumfang n die f X (x; ϑ1 , . . . , ϑk ), so n¨ empirischen Momente m(r) den theoretischen Momenten µ(r) an.
Definition Momentensch¨ atzer
Seien X1 , . . . , Xn unabh¨angig und identisch wie X verteilte Stichprobenvariablen mit Verteilungsfunktion FX (x; ϑ1 , . . . , ϑk ), die durch den Parametervektor ϑ = (ϑ1 , . . . , ϑk ) charakterisiert wird. Seien weiter die ersten k Momente von X bezeichnet mit µ(r) und entsprechend die ersten k empirischen Momente mit m(r) f¨ur r = 1, . . . , k. Sch¨atzfunktionen f¨ur die k Parameter ϑ1 , . . . , ϑk sind die L¨ osungen ω1 , . . . , ωk des k -elementigen Gleichungssystems
µ(1)
=
m(1)
µ(2)
= .. .
m(2)
µ(k)
=
m(k) .
Die L¨osungen ω1 , . . . , ωk werden als Momentensch¨ atzer f¨ ur ϑ1 , . . . , ϑk bezeichnet.
Resultiert eine Sch¨ atzfunktion f¨ ur einen Parameter ϑ aus der Momentenmeonnen auch die r-ten zentralen thode, so bezeichnen wir sie mit TϑM . Es k¨ Momente anstelle der r-ten Momente verwendet werden. F¨ ur r > 1 ist das
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
109
r-te zentrale Moment definiert als r
µz(r) = E [X − E[X]] . F¨ ur r > 1 ist das r-te empirische zentrale Moment gegeben durch mz(r) =
n 1 · (Xi − X)r . n i=1
Ein Beispiel f¨ ur das zweite zentrale Moment ist die Varianz mit 2
µz(2) = Var[X] = E [X − E[X]] . Das zweite empirische zentrale Moment entspricht also mz(2) = S∗2 =
n 1 · (Xi − X)2 . n i=1
atzung der Varianz verwendet werden, gebr¨ auchlicher Zwar kann S∗2 zur Sch¨ n 1 2 2 aufig als ist jedoch die modifizierte Version S = n−1 · i=1 (Xi − X) , die h¨ Stichprobenvarianz bezeichnet wird. Die zentralen Momente k¨onnen auch aus den nicht zentralen berechnet werden. F¨ ur das zweite, dritte und vierte zentrale Moment lauten die Berechnungvorschriften beispielsweise µz(2)
=
µ(2) − µ2(1)
µz(3)
=
µ(3) − 3 · µ(2) · µ(1) + 2 · µ3(1)
µz(4)
=
µ(4) − 4 · µ(3) · µ(1) + 6 · µ(2) · µ2(1) − 3 · µ4(1)
Die empirischen Momente lassen sich analog bestimmen. Die Momentenmethode ist in der Regel leicht anzuwenden. Sie liefert jedoch nicht grunds¨ atzlich die im statistischen Sinne besten“ Sch¨ atzer. Momen” tensch¨atzer besitzen nicht immer Eigenschaften wie Erwartungstreue, Effizienz oder Suffizienz. Der Momentensch¨atzer muss zudem nicht immer existieren. Ein Beispiel f¨ ur eine Verteilung, f¨ ur die sich keine Momentensch¨atzer konstruieren lassen, ist die Cauchy-Verteilung e. Ist die Zufallsvariable X Cauchy-verteilt, so gilt µ(1) = E[X] = ∞, das heißt, das erste theoretische Moment existiert nicht.
110
3. Philosophie des Sch¨atzens
Beispiel Momentensch¨ atzer
B
Sei X eine Zufallsvariable mit Verteilungsfunktion FX (x; ϑ) und Dichte ur 0 < x < 1. Der Parameter ϑ soll mit Hilfe f X (x; ϑ) = (ϑ + 1) · xϑ f¨ der Momentenmethode gesch¨atzt werden. Das erste Moment ist definiert als ∞ µ(1) = E[X]
1 x · f (x; ϑ) dx =
x · (ϑ + 1) · xϑ dx =
X
= −∞
0
ϑ+1 . ϑ+2
Wird das erste Moment µ(1) nun mit dem ersten empirischen Moment gleichur ϑ ermittelt werden gesetzt, kann daraus der Momentensch¨atzer TϑM f¨ =
m(1) n 1 = · Xi = X. n i=1
µ(1) ϑ+1 ϑ+2
Das Aufl¨ osen dieser Gleichung nach ϑ liefert dann ω1 = TϑM (X1 , . . . , Xn ) =
2·X −1 , 1−X B
den Momentensch¨ atzer f¨ ur den Parameter ϑ.
B
Beispiel Geometrische Verteilung
Bei einem Experiment mit den zwei m¨oglichen Ergebnissen Erfolg und Misserfolg beschreibe X die Anzahl der Versuche bis zum ersten Erfolg. Die Wahrscheinlichkeit f¨ ur das Ergebnis Erfolg sei p ∈ (0; 1). Dann ist X geometrisch verteilt mit Parameter p. Die Erfolgswahrscheinlichkeit p soll gesch¨atzt werden. Das erste Moment von X, der Erwartungswert, ergibt sich als µ(1) = E[X]
=
∞
x · p · (1 − p)x−1 =
x=1
1 . p
F¨ ur die Stichprobenvariablen X1 , . . . , Xn , die unabh¨ angig und identisch wie X verteilt sind, erh¨ alt man durch Gleichsetzen des theoretischen Moments mit dem ersten empirischen Moment µ(1)
=
m(1)
1 p
=
n 1 · Xi = X. n i=1
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
111
Der Momentensch¨atzer f¨ ur p wird nun durch Aufl¨ osen der obigen Gleichung nach p errechnet 1 B ω1 = TpM (X1 , . . . , Xn ) = . X Beispiel Normalverteilung
B
Die Zufallsvariable X sei normalverteilt mit Parametern µ ∈ R und σ 2 ∈ R+ . Die simultane Sch¨atzung beider Parameter mit Hilfe der Momentenmethode erfordert das L¨ osen eines zwei-elementigen Gleichungssystems. Das erste Moment entspricht dem Erwartungswert von X µ(1) = E(X) = µ. Die Varianz von X kann mit Hilfe des Verschiebungssatzes 27 σ 2 = Var[X]
=
E[X 2 ] − [E[X]]
=
µ(2) − µ2(1)
2
aus dem ersten und zweiten Moment berechnet werden. Daraus l¨asst sich ableiten, dass das zweite Moment gegeben ist als µ(2) und somit
µ(2)
= =
σ 2 + µ2(1) 2
mit µ(1) = µ
2
σ +µ .
Der erste Schritt zur Bestimmung des Momentensch¨atzers ist das Gleichsetzen der ersten zwei Momente mit den entsprechenden empirischen Momenten f¨ ur Stichprobenvariablen X1 , . . . , Xn n 1 · Xi n i=1
µ(1)
=
m(1)
⇒
µ=
µ(2)
=
m(2)
⇒
σ 2 + µ2 =
n 1 2 · X . n i=1 i
Das Aufl¨ osen der Gleichungen nach µ und σ 2 ergibt die Momentensch¨atzer ω1 = X =
n 1 · Xi n i=1
112
3. Philosophie des Sch¨atzens
als Sch¨ atzfunktion f¨ ur den Parameter µ und 2 n n n 1 2 1 1 · ω2 = · Xi − Xi = · (Xi − X)2 n i=1 n i=1 n i=1 als Sch¨ atzfunktion f¨ ur den Parameter σ 2 .
B
B
Beispiel Exponentialverteilung
Seien X1 , . . . , Xn unabh¨ angige und wie eine Zufallsvariable X verteilte Stichprobenvariablen mit Dichtefunktion f X (x; λ) = λ · exp{−λ · x}, x ≥ 0, λ > 0. Zu sch¨ atzen ist der Parameter λ der Exponentialverteilung mit Hilfe der Momentenmethode. Das erste Moment von X ist ∞ µ(1)
x · λ · exp{−λ · x}dx =
= E[X] = −∞
1 . λ
Das Gleichsetzen des ersten theoretischen Moments mit dem ersten empirischen Moment ergibt µ(1)
=
m(1)
1 λ
=
n 1 · Xi = X. n i=1
Den Momentensch¨atzer TλM = ω1 f¨ ur λ erh¨ alt man nun durch Aufl¨ osen der obigen Gleichung nach λ ω1 = TλM (X1 , . . . , Xn ) =
1 . X B
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
113
Beispiel (Fortsetzung 60) Straßenk¨ unstler) Die Dichtefunktion einer poissonverteilten Zufallsvariablen ist gegeben durch λx · exp{−λ} , x ∈ {0, 1, 2, . . .}, λ > 0. f X (x; λ) = x!
F¨ ur die Poissonverteilung gilt λ = E[X] = Var[X]. Das heißt, der Parameter λ, der Erwartungswert und die Varianz k¨ onnen mit der gleichen Stichprobenfunktion gesch¨ atzt werden. Die Wahrscheinlichkeit, dass der Straßenk¨ unstler innerhalb einer Zeitspanne von t Minuten verschont bleibt, ist definiert als p0 = Pλ (X = 0) = f (0; λ) = exp{−λ}. Die mittlere Trefferquote ist gegeben durch v=
λ . t
Bestimmung der Sch¨ atzer mit der Momentenmethode: Den Momentensch¨ atzer erh¨alt man durch Gleichsetzen des ersten theoretischen und des ersten empirischen Moments, also µ(1) = E[X] =
n 1 · Xi = m(1) . n i=1
Da E[X] = λ gilt, folgt, dass der Momentensch¨ atzer f¨ ur λ gegeben ist durch n 1 Xi = X. ω1 = · n i=1 Die Sch¨atzer f¨ ur die mittlere Trefferquote und f¨ ur die Wahrscheinlichkeit, dass der Straßenk¨ unstler nicht getroffen wird, k¨ onnen nun durch Einsetzen des Momentensch¨atzers f¨ ur λ in die entsprechenden Funktionen % = x ist erhalten werden. Basierend auf λ v% =
% λ t
die Sch¨ atzung f¨ ur die mittlere Trefferrate in einem Zeitraum von t Minuten. Die Sch¨ atzung f¨ ur die Wahrscheinlichkeit, dass der K¨ unstler nicht getroffen wird, ist demzufolge % p%0 = exp{−λ}.
114
3. Philosophie des Sch¨atzens
Da aber auch λ = Var[X] gilt, ist als Sch¨ atzer f¨ ur λ auch ω2 =
n 1 · (Xi − X)2 n i=1
nahe liegend. Sch¨ atzungen f¨ ur die konkreten Daten Die Stichprobe des Straßenk¨ unstlers sah wie folgt aus 2
1
2
0
0
1
1
1
0
1
Somit ergibt sich als Sch¨ atzung f¨ ur λ mit ω1 % = x = 2 + 1 + 2 + 0 + 0 + 1 + 1 + 1 + 0 + 1 = 9 = 0, 9. λ 10 10 Die gesch¨atzte mittlere Trefferrate v% und die Wahrscheinlichkeit p%0 , dass der Straßenk¨ unstler innerhalb von t = 30 Minuten nicht getroffen wird, sind % 0, 9 1 1 λ = 0, 03 = 1, 8 v% = = t 30 min min h sowie % = exp{−0, 9} = 0, 407. p%0 = exp{−λ} Der Straßenk¨ unstler wird also im Schnitt 1,8 mal pro Stunde getroffen. die Wahrscheinlichkeit, dass er bei einem 30 min¨ utigen Auftritt nicht getroffen wird, betr¨ agt 40,7%. Der gesch¨atzte Erwartungswert f¨ ur die Anzahl der Treffer in einer halben Stunde ist 0,9. Wird der Momentensch¨ atzer ur λ genutzt, so ergibt sich ω2 f¨ ω2
=
% = λ
=
n 1 · (Xi − X)2 , n i=1
1 · (1, 21 + 0, 01 + 1, 21 + 0, 81 + 0, 81 + 0, 01 + 0, 01 10 + 0, 01 + 0, 81 + 0, 01) 49 = 0, 54 90
und somit % = v%(λ)
% 0, 54 1 1 λ = = 0, 018 = 1, 08 t 30 min h
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
115
und % = exp{−λ} % = exp{−0, 54} = 0, 583. p%0 (λ) Glaubt man dieser Sch¨ atzung, so wird der Straßenk¨ unstler im Schnitt nur 1,08 mal pro Stunde getroffen, und die Wahrscheinlichkeit, dass er 30 Minuten lang nicht getroffen wird, betr¨ agt 58,3%. Die gesch¨atzte erwartete Anzahl der Treffer in einer halben Stunde betr¨ agt bei dieser Sch¨atzung nur 0,54. Inwiefern die gew¨ ahlten Sch¨ atzfunktionen sinnvoll sind, also f¨ ur die Parameter vern¨ unftige Sch¨ atzungen liefern, h¨ angt davon ab, welche G¨ uteeigenschaften die verwendeten Sch¨atzer besitzen. Dazu k¨onnten beispielsweise Eigenschaften wie Erwartungstreue oder MSE f¨ ur die Sch¨ atzer ω1 und ω2 miteinander verglichen werden. Obwohl beide Sch¨ atzfunktionen den Parameter λ der Poissonverteilung sch¨ atzen (einmal als Erwartungswert, einmal als Varianz), kommen sie zu unterschiedlichen Sch¨atzergebnissen. Der Sch¨ atzer ω2 ist nicht erwartungstreu und wird somit im Mittel verzerrte Sch¨atzungen f¨ ur λ liefern, w¨ ahrend ω1 erwartungstreu ist. Man kann also nicht damit rechnen, dass die beiden Sch¨ atzfunktionen notwendigerweise sehr a¨hnliche Ergebnisse liefern. Mit wachsendem Stichprobenumfang sollten sich die Ergebnisse jedoch angleichen, da beide Sch¨ atzer konsistent sind f¨ ur λ. W¨ urde man f¨ ur eine große Stichprobe immer usste noch sehr unterschiedliche Sch¨atzergebnisse aus ω1 und ω2 erhalten, m¨ man die Modellannahme der Poissonverteilung noch einmal u ¨berdenken. Eine alternative Idee, die ebenfalls zur Konstruktion von Sch¨ atzfunktionen benutzt werden kann, ist es herauszufinden, welcher Parameterwert einer Verteilung unter den realisierten Daten am plausibelsten erscheint. Dies f¨ uhrt zu den so genannten Maximum-Likelihood-Sch¨ atzern. Maximum-Likelihood-Methode
Die Likelihood-Funktion
Seien X1 , . . . , Xn unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie eine Zufallsvariable X mit Dichtefunktion f X (x; ϑ). Die gemeinsame Dichtefunktion von X1 , . . . , Xn ist gegeben durch f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = f X (x1 ; ϑ) · . . . · f X (xn ; ϑ) =
n i=1
f X (xi ; ϑ).
116
3. Philosophie des Sch¨atzens
Die gemeinsame Dichtefunktion der Stichprobenvariablen X1 , . . . , Xn wird als eine Funktion der Daten x1 , . . . , xn aufgefasst mit f X1 ,...,Xn (x1 , . . . , xn ) = f X1 ,...,Xn (x1 , . . . , xn ; ϑ). Die Beobachtungen x1 , . . . , xn werden als zuf¨allige Realisationen der Stichprobenvariablen X1 , . . . , Xn angesehen, w¨ahrend der Parameter ϑ festgehalten wird. F¨ ur die Parametersch¨ atzung erweist es sich als sinnvoll, die Rolle des Parameters ϑ und der Daten x1 , . . . , xn zu vertauschen. Das heißt, die gemeinsame Dichtefunktion wird nun als Funktion des Parameters ϑ aufgefasst, w¨ ahrend die Beobachtungen x1 , . . . , xn festgehalten werden. Die so entstandene neue Funktion wird mit dem Buchstaben L bezeichnet, und man schreibt L = L(ϑ) = L(ϑ; x1 , . . . , xn ) =
n
f X (xi ; ϑ).
i=1
Definition Likelihood-Funktion
Seien X1 , . . . , Xn unabh¨angige Stichprobenvariablen mit identischer Dichtefunktion f X (xi ; ϑ) f¨ ur i = 1, . . . , n. Wird die gemeinsame Dichtefunktion f X1 ,...,Xn (x1 , . . . , xn ; ϑ) von X1 , . . . , Xn als eine Funktion von ϑ aufgefasst und die Daten x1 , . . . , xn als fest, dann heißt die Funktion
L = L(ϑ) =
n
f X (xi ; ϑ)
i=1
Likelihood-Funktion.
Die Likelihood-Funktion erweist sich f¨ ur das Sch¨ atzen von Parametern als sehr n¨ utzlich, denn auf ihr beruht das Prinzip der Maximum-LikelihoodSch¨ atzung, und sie legt damit einen wichtigen Grundstein f¨ ur die Punktsch¨atzung. Die Likelihood-Funktion gibt zu jeder m¨ oglichen Wahl des Parameters ϑ an, wie plausibel es ist, dass gerade dieser Wert von ϑ zur beobachteten Stichprobe gef¨ uhrt hat. Je gr¨ oßer der Wert von L(ϑ) ist, um so plausibler ist es, dass solche Beobachtungen wie die in der Stichprobe realisiert werden. ur den L(ϑmax ) das Maximum der Likelihood-Funktion ist, Der Wert ϑmax , f¨ wird daher als einleuchtendste Wahl f¨ ur den Parameter ϑ angesehen. Darin atzung des Parameters ϑ. begr¨ undet sich die Verwendung von ϑmax zur Sch¨ Diese Methode wird als Maximum-Likelihood-Sch¨ atzung bezeichnet.
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
117
Interpretation der Likelihood-Funktion Bei diskreter Verteilung angige Stichprobenvariablen, die identisch Seien X1 , . . . , Xn unabh¨ verteilt sind wie eine diskrete Zufallsvariable X mit diskreter Dichtefunktion f X (x; ϑ). Dann beschreibt die Likelihood-Funktion die Wahrscheinlichkeit des Auftretens der tats¨achlich realisierten Stichprobe x1 , . . . , xn , wenn der wahre Parameter der Verteilung gerade ϑ ist L(ϑ) = P(X1 = x1 , . . . , Xn = xn ; ϑ) = L(ϑ; x1 , . . . , xn ). Bei stetiger Verteilung angige Stichprobenvariablen, die identisch Seien X1 , . . . , Xn unabh¨ verteilt sind wie eine stetige Zufallsvariable X mit Dichtefunktion f X (x; ϑ). In diesem Fall gibt es folgende Interpretation der Dichte. F¨ ur kleines ε > 0 gilt approximativ & ε ε' ≈ f X (xi ; ϑ) · ε. P xi − ≤ X ≤ xi + 2 2 Der Wert der Dichtefunktion an der Stelle xi entspricht in etwa der Wahrscheinlichkeit, dass die Zufallsvariable X in einem symmetrischen Intervall der Breite ε um xi realisiert wird. Die Wahrscheinlichkeit f¨ ur das Auftreten einer Stichprobe in ε-N¨ahe zur tats¨achlich realisierten Stichprobe x1 , . . . , xn ist damit approximativ berechenbar und proportional zur Likelihood-Funktion n & ε ε' X f (xi ; ϑ) · ε = εn · L(ϑ). ≈ P xi − ≤ X ≤ xi + 2 2 i=1 i=1 n
Beispiel Exponentialverteilung
Gegeben seien f¨ unf Beobachtungen x1 = 10, 0; x2 = 8, 6; x3 = 9, 2; x4 = 9, 7; x5 = 11, 0 einer exponentialverteilten Zufallsvariable X mit Dichtefunktion 1 · exp{−x/ϑ} f¨ ur x > 0. f X (x; ϑ) = ϑ Man beachte, dass hier eine Umparametrisierung der Exponentialverteilung vorgenommen wurde. Die Exponentialverteilung ist normalerweise durch den Parameter λ charakterisiert, welchen wir an dieser Stelle mit λ = ϑ1 gleichgesetzt haben. Damit k¨onnen wir die Likelihood-Funktion in Abh¨ angigkeit von
B
118
3. Philosophie des Sch¨atzens
ϑ leichter zeichnen. Die Likelihood-Funktion ergibt sich als L(ϑ) =
n
f X (xi ; ϑ) =
i=1
=
1 ϑ5
5 1 i=1
ϑ
· exp{−xi /ϑ}
5 6 1 5 3 4 · exp (−1/ϑ) · · exp − 48, 5/ϑ . xi = 5 ϑ i=1
8*10^-8
L(J)
0
2*10^-8 2 ^
4*10^-8 4 ^8
6*10^-8 *
Maaximum von L(J) für J= 9,7 97
0
10
5
15
20
2 25
30
J
Die Abbildung zeigt die Likelihoodfunktion in Abh¨ angigkeit von ϑ. Man sieht, dass an der Stelle ϑ = 9, 7 die Likelihoodfunktion ein Maximum besitzt. B B
Beispiel Likelihoodfunktion
Die Beobachtungen x1 = 0, 4; x2 = 0, 48 und x3 = 0, 36 seien Realisationen einer Zufallsvariablen X mit Dichtefunktion f X (x; ϑ) = ϑ · xϑ−1
0 < x < 1,
0 < ϑ < ∞.
Die Likelihood-Funktion l¨ asst sich schreiben als L(ϑ) =
n
f X (xi ; ϑ) =
i=1
= ϑ3 ·
3
ϑ · xϑ−1 i
i=1 3 i=1
xϑ−1 = ϑ3 · (0, 4ϑ−1 · 0, 48ϑ−1 · 0, 36ϑ−1 ). i
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
119
In der Abbildung ist die Likelihoodfunktion in Abh¨ angigkeit von ϑ abgetragen. An der Stelle ϑ = 1, 1436 besitzt sie ein Maximum.
L(J)
00
02
04
06
08
10
Maximum von L(J) für J= 1,1436
0
2
4
6
8
10
J B
Maximum-Likelihood-Sch¨atzung
Beispiel Kaffeeautomat
Auf einer Mitarbeiterversammlung einer kleinen Firma wird u ¨ber die Anschaffung eines neuen Kaffeeautomaten abgestimmt. Leider sind 10 der 20 Kollegen aus betrieblichen Gr¨ unden, die aber nichts mit der Abstimmung zu tun haben, nicht anwesend. Unter den 10 Anwesenden gibt es neun F¨ urstimmen und eine Gegenstimme. Es stellt sich die Frage, wie groß die Anzahl der Gegner der Anschaffung im gesamten Kollegium ist. Wir bezeichnen die Anzahl aller Mitarbeiter mit s und die Anzahl der Mitarbeiter in der Besprechung mit n. Die Anzahl der Mitarbeiter, die bei der Besprechung mit nein gestimmt haben, sei k, was als Realisation einer hypergeometrisch verteilten Zufallsvariable K aufgefasst werden kann. Bezeichnet man die unbekannte Anzahl der Gegner im gesamten Kollegium mit r, dann ist die Wahrschein-
B
120
3. Philosophie des Sch¨atzens
lichkeit, dass es nur eine Gegenstimme gibt r s−r r 20−r · 1 · n−1 s P(K = k; r) = P(K = 1; r) = = 1 209 . 10
n
In unserem Fall ist s = 20 und n = 10. Wir betrachten die jeweiligen Wahrscheinlichkeiten f¨ ur die denkbaren M¨ oglichkeiten f¨ ur r (r = 1, 2, . . . , 11) der gesamten Anzahl der Gegenstimmen im Kollegium, basierend auf der vorhandenen Information, n¨ amlich dass eine Gegenstimme unter 10 Kollegen bereits existiert, also k = 1 ist. In unserem Beispiel ergeben sich folgende Wahrscheinlichkeiten f¨ ur die verschiedenen M¨ oglichkeiten von r: r=1:
P(K = 1; r = 1)
= 0, 5
r=2:
P(K = 1; r = 2)
= 0, 526
r=3:
P(K = 1; r = 3)
= 0, 395.
F¨ ur Werte r ≥ 4 ergeben sich Wahrscheinlichkeiten f¨ ur das Ereignis K = 1, die s¨amtlich kleiner als P(K = 1; r = 3) = 0, 395 sind. Der Wert von r, f¨ ur den die Wahrscheinlichkeit f¨ ur die Beobachtung K = k = 1 am gr¨ oßten ist, wird als Sch¨ atzwert f¨ ur das wahre r angenommen. Somit ergibt sich als Sch¨ atzung f¨ ur r der Wert r% = 2, da in diesem Fall die Wahrscheinlichkeit f¨ ur B das Eintreten von K = k = 1 am gr¨ oßten ist.
Definition Maximum-Likelihood-Sch¨ atzung
Seien X1 , . . . , Xn unabh¨angige Stichprobenvariablen, die identisch wie eine Zufallsvariable X mit Dichtefunktion f X (x; ϑ) verteilt sind. Bezeichne weiter mit L(ϑ) die zugeh¨ orige Likelihood-Funktion. Der Wert ϑmax , bei dem die Likelihood-Funktion L(ϑ) ein globales Maximum annimmt, kann als Punktsch¨atzung f¨ur den Parameter ϑ genutzt werden. Das heißt, der Wert ϑmax , f¨ur den gilt
L(ϑmax ) ≥ L(ϑ)
f¨ ur alle ϑ ∈ Θ
wird Maximum-Likelihood-(ML-)Sch¨ atzung f¨ ur ϑ genannt.
Als Notation f¨ ur die Maximum-Likelihood-Sch¨ atzung (den Maximum-Likeli% atzer f¨ ur hood-Sch¨ atzwert) verwenden wir ϑML . Der Maximum-Likelihood-Sch¨ ur eine realsierte ϑ wird mit TϑML , das heißt es gilt TϑML (x1 , . . . , xn ) = ϑ%ML f¨ % aufig die Notation ϑ, Stichprobe x1 , . . . , xn . In der Literatur findet man sehr h¨ die sowohl als Bezeichnung f¨ ur einen Sch¨ atzer als auch f¨ ur einen Sch¨ atzwert verwendet wird. Es sollte daher immer sorgf¨ altig darauf geachtet werden, ob
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
121
es sich bei ϑ% schon um eine realisierte Sch¨atzung (Sch¨ atzwert) handelt oder ob damit der Sch¨ atzer gemeint ist. Zahlreiche Likelihood-Funktionen erf¨ ullen gewisse Regularit¨atsbedingungen, so dass der ML-Sch¨atzer bestimmt werden kann, indem man die erste Ableitung der Likelihood-Funktion berechnet und sie mit Null gleichsetzt ∂L(ϑ) = 0. ∂ϑ Dabei muss sicher gestellt werden, dass es sich bei der L¨osung tats¨ achlich um ein Maximum und kein Minimum handelt. Ein Maximum liegt vor, wenn die zweite Ableitung von L(ϑ) kleiner als Null ist. Gibt es mehrere L¨osungen, so muss unter allen Maxima das globale Maximum bestimmt werden. Unter Regularit¨ atsbedingungen gilt in vielen F¨ allen, dass der Maximum-LikelihoodSch¨ atzer konsistent und effizient ist. Die so genannte Log-Likelihood-Funktion, der nat¨ urliche Logarithmus der Likelihood-Funktion ln(L(ϑ)), ist eine monotone Transformation der Likelihood-Funktion. Daher besitzen sowohl L(ϑ) als auch ln(L(ϑ)) ihr Maximum an der gleichen Stelle ϑmax . Diese Eigenschaft ist sehr hilfreich, da das Maximum von ln(L(ϑ)) oftmals einfacher zu bestimmen ist. Der Vorteil besteht insbesondere darin, dass sich die LogLikelihood-Funktion schreiben l¨ asst als Summe der logarithmierten Dichtefunktionen ln(L(ϑ)) = ln
n
f X (xi ; ϑ) =
i=1
n
ln(f X (xi ; ϑ)).
i=1
Das Maximum dieses Ausdrucks l¨asst sich in der Regel einfacher bestimmen als das Maximum von L(ϑ). angig, Ist die Likelihood-Funktion von k Parametern ϑ1 , . . . , ϑk abh¨ (n X f (x ; ϑ , . . . , ϑ ), dann wird das Maximum also L(ϑ1 , . . . , ϑk ) = i 1 k i=1 osung des (ϑ%1 , . . . , ϑ%k ) der (Log-)Likelihood-Funktion bestimmt durch die L¨ k-elementigen Gleichungssystems ∂L(ϑ1 , . . . , ϑk ) = ∂ϑ1 ∂L(ϑ1 , . . . , ϑk ) = ∂ϑ2 .. . ∂L(ϑ1 , . . . , ϑk ) ∂ϑk
=
0 0
0.
122
3. Philosophie des Sch¨atzens
¨ Eine Uberpr¨ ufung, ob es sich bei den gefundenen Stellen tats¨ achlich um Maximalstellen handelt, ist in folgender Weise m¨ oglich. Bezeichne mit H eine k×k Matrix bestehend aus den partiellen Ableitungen der Likelihoodfunktion an der Stelle (ϑ%1 , . . . , ϑ%k ) ⎛ ⎞ h11 · · · h1k ∂L(ϑ1 , . . . , ϑk ) ⎜ .. ⎟ . . .. .. ⎠ mit hij = H=⎝ . . % ∂ϑi ∂ϑj %k ) (ϑ1 ,...,ϑ hk1 · · · hkk k k Ist die Matrix H negativ definit, das heißt es gilt i=1 j=1 yi yj hij < 0 f¨ ur jeden beliebigen Vektor y = (y1 , . . . , yk ) = (0, . . . , 0) ∈ Rk , so liegen Maximalstellen vor. Kann der Parameter ϑ nur diskrete Werte annehmen, bietet es sich an, die L(ϑ) Monotonieeigenschaften der Likelihood-Funktion bzw. des Quotienten L(ϑ+1) zu untersuchen. Wechselt der Wert des Quotienten von einem Wert kleiner als 1 auf einen Wert, der gr¨ oßer als 1 ist, so ist ein (lokales) Maximum erreicht. Unter allen lokalen Maxima ist dann das globale zu bestimmen. Alternativ kann das Maximum von L(ϑ) mit Hilfe numerischer Verfahren gefunden werden. Eigenschaften von ML-Sch¨ atzern Ein ML-Sch¨ atzer ist nicht notwendig erwartungstreu. Ein Beispiel ur ist S∗2 als ML-Sch¨atzer f¨ ur σ 2 im Normalverteilungsmodell. 123 daf¨ Der ML-Sch¨atzer ist nicht notwendig eindeutig; die Likelihoodfunktion kann mehrere Maxima besitzen. Daher heißt jede L¨ osung des Maximierungsproblems ML-Sch¨ atzer f¨ ur ϑ. Unter gewissen Bedingungen an die Dichtefunktion f gilt: Wenn mehur einen ML-Sch¨ atzer rere Sch¨ atzer Tϑ (X1 , . . . , Xn ) die Bedingungen f¨ erf¨ ullen, so gibt es unter diesen genau einen, der konsistent ist f¨ ur ϑ. Ist der ML-Sch¨ atzer eindeutig, so ist er damit nat¨ urlich konsistent f¨ ur ϑ. Der konsistente ML-Sch¨ atzer TϑML (X1 , . . . , Xn ) ist asymptotisch normalverteilt, das heißt ⎛ ⎞ ML T (X , . . . , X ) − ϑ 1 n P ⎝! ϑ ≤ z ⎠ −→ Φ(z) (n → ∞). ML Varϑ (Tϑ (X1 , . . . , Xn ))
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
123
Invarianz gegen¨ uber injektiven Transformationen Ist TϑML (x1 , . . . , xn ) = ϑ%ML der Maximum-Likelihood-Sch¨ atzwert f¨ ur den Parameter ϑ und ist ϕ : R → R eine injektive Funktion, dann ist atzwert f¨ ur ϕ(TϑML (x1 , . . . , xn )) = ϕ(ϑ%ML ) der Maximum-Likelihood-Sch¨ ϕ(ϑ). Die mit ϕ transformierte Maximum-Likelihood-Sch¨ atzung ist also selbst wieder Maximum-Likelihood-Sch¨ atung f¨ ur den mit ϕ transformierten Parameter, wenn die Funktion ϕ zu zwei verschiedenen Werten von ϑ stets auch voneinander verschiedene Funktionswerte besitzt. Das gleiche gilt f¨ ur die Sch¨ atzfunktionen. Die Injektivit¨ at von ϕ ist dabei hinreichend, aber nicht notwendig. Man sagt, der Maximum-Likelihood-Sch¨ atzer ist invariant gegen¨ uber injektiven Transformationen. Beispiel ML-Sch¨ atzer Ein Chemiker hat ein neues Instrument zur Bestimmung des Sauerstoffgehalts in Fl¨ ussigkeiten konstruiert. Er m¨ ochte wissen, ob das Instrument zuverl¨ assig funktioniert und bestimmt daher testweise den Sauerstoffgehalt im Wasser, da er in diesem Fall weiß, wie das Ergebnis der Messung aussehen muss. Nat¨ urlich liefert sein Ger¨ at nicht immer exakt den korrekten Wert, da durch a¨ußere Einfl¨ usse (Raumtemperatur, Luftdruck, Luftfeuchtigkeit etc.) gewisse zuf¨allige Schwankungen bei der Messung entstehen. Der Chemiker bestimmt die Differenz zwischen seinen Messwerten und dem bekannten Sauerstoffgehalt von Wasser und erh¨ alt bei 10 Versuchen die folgende Beobachtungsreihe x1 , . . . , x10
-0,491 0,198
0,178 0,521
-1,398 0,092
1,106 0,936
-0,246 -2,000
Als empirisch arbeitender Wissenschaftler weiß der Forscher, dass solche Messfehler in der Regel Realisierungen normalverteilter Zufallsgr¨oßen sind. Das heißt hier: x1 , . . . , x10 ist eine Stichprobe von X1 , . . . , X10 , at des Messger¨ats zu beurteilen, wobei Xi ∼ N (µ, σ 2 ). Um die Qualit¨ ben¨ otigt der Chemiker Informationen u ¨ber µ und σ 2 , die er mit Hilfe der Maximum-Likelihood-Sch¨ atzer f¨ ur diese beiden Parameter erhalten m¨ochte. Gesucht ist also der ML-Sch¨ atzer f¨ ur die Parameter einer Normalverteilung. Dazu wird zun¨ achst die Likelihoodfunktion bestimmt. Jede einzelne Stichprobenvariable Xi ist normalverteilt wie eine Zufallsvariable X mit ur Xi ist die Dichtefunktion gegeben Parametern µ und σ 2 , das heißt, f¨ durch
124
3. Philosophie des Sch¨atzens
(xi − µ)2 1 · exp − f X (xi ; µ, σ) = √ 2 · σ2 2·π·σ Die gemeinsame Dichte von X1 , . . . , Xn ergibt sich dann (da wir voraussetzen, dass alle Experimente unabh¨angig voneinander durchgef¨ uhrt wurden, die Stichprobenvariablen damit auch stochastisch unabh¨ angig sind) als Produkt der einzelnen Dichtefunktionen der Xi f
X1 ,...,Xn
(x1 , . . . , xn ; µ, σ)
=
n
f X (xi ; µ, σ)
i=1
(xi − µ)2 1 √ = · exp − 2 · σ2 2·π·σ i=1 n
=
(2 · π)−n/2 · (σ 2 )−n/2 · n 1 (xi − µ)2 exp − 2 · σ2 i=1
Zur Bestimmung des ML-Sch¨ atzers betrachtet man diese Funktion nun ¨ber zur als Funktion in den Parametern µ und σ 2 und geht damit u Likelihood-Funktion 1 n (xi − µ)2 −n/2 2 −n/2 · (σ ) · exp − L(ϑ) = L(ϑ; x1 , . . . , xn ) = (2 · π) 2 · σ2 i=1 mit ϑ = (µ, σ 2 ). Als ML-Sch¨atzer sucht man diejenige Stelle ϑ, an der diese Funktion ein Maximum besitzt. Dazu geht man folgendermaßen vor Bestimmung der Log-Likelihood: ln L(ϑ; x1 , . . . , xn )
−n/2
= ln (2 · π)
2 −n/2
· (σ )
· exp −
n (xi − µ)2 i=1
= −
1
2 · σ2
n n 1 n · ln(2 · π) − · ln(σ 2 ) − · (xi − µ)2 2 2 2 · σ 2 i=1
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
125
Log-Likelihood nach µ und nach σ 2 ableiten:
=
=
und
=
=
∂ ln L(ϑ; x1 , . . . , xn ) ∂µ n n n ∂ 1 − · ln(2 · π) − · ln(σ 2 ) − · (xi − µ)2 ∂µ 2 2 2 · σ 2 i=1 n 1 · (xi − µ) σ 2 i=1
(1)
∂ ln L(ϑ; x1 , . . . , xn ) ∂σ 2 n n n ∂ 1 2 · ln(2 · π) − · ln(σ − ) − · (xi − µ)2 ∂σ 2 2 2 2 · σ 2 i=1 −
n 1 n + · (xi − µ)2 2 · σ2 2 · σ 4 i=1
(2)
Nullsetzen der Ableitungen und L¨ osen des sich ergebenden Gleichungssystems n n 1 · (xi − µ) = 0 ⇔ (xi − µ) = 0 σ 2 i=1 i=1
(1) ⇔
n·x−n·µ=0⇔µ=x −
(2)
n 1 n + · (xi − µ)2 = 0 2 · σ2 2 · σ 4 i=1 2
n
(xi − µ)2 = 0
⇔
−n · σ +
⇔
n 1 (xi − µ)2 σ2 = · n i=1
i=1
⇔ σ2 =
n 1 · (xi − x)2 = s2∗ n i=1
(mit dem Ergebnis aus (1))
126
3. Philosophie des Sch¨atzens
¨ Uberpr¨ ufung, ob es sich bei der berechneten Stelle tats¨ achlich um eine Maximalstelle handelt. Die Matrix H ist hier gegeben als −n 0 , H= n 0 − 2·s 4 ∗
wobei sich zeigen l¨asst, dass H negativ definit ist und es sich somit bei der berechneten L¨ osung um eine Maximalstelle handelt. urde man als Sch¨ atzwert f¨ ur F¨ ur eine konkrete Stichprobe x1 , . . . , xn w¨ µ, σ %2 ) bestimmen mit (µ, σ 2 ) also (% µ %=x=
n 1 · xi n i=1
und σ %2 = s2∗ =
n 1 · (xi − x)2 . n i=1
Als Sch¨atzfunktion bzw. ML-Sch¨ atzer ergibt sich in dieser Situation somit ML T(µ,σ 2 ) (X1 , . . . , Xn )
n 1 · = (X, (Xi − X)2 ) n i=1
Im Beispiel des Chemikers erh¨ alt man µ % = x = −0, 1104
B
und σ %2 = 0, 953805.
Beispiel (Fortsetzung 119) Kaffeeautomat
Wir betrachten erneut das Kaffeeautomaten-Problem 119 und leiten den ML-Sch¨ atzer jetzt allgemein her. Sei wiederum s die Anzahl aller Mitarbeiter im Kollegium und n die Anzahl der anwesenden Mitarbeiter in der Besprechung. Sei k die Anzahl der Mitarbeiter, die mit nein gestimmt haben, und r die unbekannte Anzahl der Gegner im gesamten Kollegium. Dann ist k die Realisation einer hypergeometrisch verteilten Zufallsvariable K mit Dichtefunktion r s−r · P(K = k; r) = k s n−k , n, r, s ∈ N und r ≤ s, n ≤ s, n
k = max{0, n + r − s}, . . . , min{r, n}.
Da eine Realisation K = k als Resultat aus einer Stichprobe vom Umfang n angesehen werden kann, ist die Likelihood-Funktion zur Bestimmung des
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
127
Maximum-Likelihood-Sch¨ atzers f¨ ur den Parameter r gegeben durch r s−r · L(r) = k s n−k , f¨ ur k ≤ r ≤ s − (n − k). n
Da es sich hier um eine diskrete Verteilung handelt, bietet es sich an, die Monotonieeigenschaften der Likelihood-Funktion mit Hilfe des Quotienten L(r) L(r+1) zu untersuchen. Der Quotient ist gegeben als L(r) L(r + 1)
=
(∗)
=
(∗)
b+1 a
=
b a
·
r s−r s k · n−k s · r+1 ns−r−1 · n−k n k
f¨ ur k ≤ r < s − (n − k)
(s − r) · (r + 1 − k) (s − r − n + k) · (r + 1)
b+1 b+1−a ,
a≤b
Zu untersuchen ist nun, an welchen Stellen der Quotient gr¨ oßer bzw. kleiner als 1 ist > (s − r) · (r + 1 − k) L(r) = = 1 L(r + 1) (s − r − n + k) · (r + 1) < > (s + 1) · k ⇐⇒ r = − 1 =: r∗ . n < Damit ist L(r) monoton ⎧ ⎨ fallend ⎩
> r∗ f¨ ur r
steigend
≤ r∗
Ist r∗ < k, dann ist L(r) monoton fallend f¨ ur k ≤ r ≤ s − (n − k), so dass ur k ≤ r ≤ rˆML = k. Ist r∗ ≥ s − (n − k), dann ist L(r) monoton steigend f¨ s − (n − k), so dass die Maximum-Likelihood-Sch¨ atzung mit rˆML = s − (n − k) gegeben ist. Nehmen wir an, dass k ≤ r∗ < s − (n − k), dann unterscheiden wir die zwei folgenden F¨ alle: ur alle Fall 1: Sei r∗ ∈ N. Dann folgt, dass L(r∗ ) = L(r∗ + 1) gilt. F¨ ∗ ∗ anderen Werte von r = r oder r + 1 ist die Likelihood-Funktion kleiner.
128
3. Philosophie des Sch¨atzens
Damit sind r%ML1 = r∗ und r%ML2 = r∗ + 1 Maximum-Likelihood-Sch¨ atzungen f¨ ur r. Fall 2: Sei r∗ ∈ N Dann folgt, dass r%ML = r∗ die Maximum-LikelihoodSch¨ atzung f¨ ur r ist. Dabei sei mit x die kleinste ganze Zahl gr¨ oßer oder gleich x bezeichnet. Betrachtet man die realisierten Werte aus dem Beispiel 119, so ergibt sich mit s = 20, n = 10 und k = 1, dass r∗ =
21 (s + 1) · k −1= − 1 = 1, 1 n 10
ist. Damit ist 1 = k ≤ r∗ < s − (n − k) = 11, und r∗ ist nicht ganzzahlig. Also atzung f¨ ur r. Das stimmt ist r%ML = r∗ = 2 die Maximum-Likelihood-Sch¨ ¨berein. mit der L¨osung aus dem Beispiel 119 u Alternativ k¨ onnte der Maximum-Likelihood-Sch¨ atzer f¨ ur r mit Hilfe numerischer Verfahren gefunden werden. B B
Beispiel Binomialverteilung
Um den Anteil der mit Herpesviren infizierten Personen in der Bev¨olkerung zu sch¨atzen, wird eine repr¨ asentative Stichprobe vom Umfang n gezogen. Der i-ten Person wird der Wert xi = 1 zugeordnet, wenn sie infiziert ist, und der Wert xi = 0, wenn sie nicht infiziert ist. Die Stichprobenwerte angig erhobene Realisationen einer bernoulliverx1 , . . . , xn sind also unabh¨ teilten Zufallsvariablen X mit Erfolgswahrscheinlichkeit p ∈ [0; 1]. Die Van riable K = i=1 Xi , die Anzahl aller Infizierten in der Stichprobe, ist dann binomialverteilt mit Parametern n und p und besitzt die Dichtefunktion n K · pk · (1 − p)n−k , k = 0, 1, . . . , n. f (k; p) = Pp (K = k) = k Damit ist die Likelihood-Funktion gegeben durch n · pk · (1 − p)n−k , L(p; k) = k n wobei k = i=1 xi ist und 0 < k < n. Das Maximum dieser Funktion l¨ asst sich einfacher u ¨ber die Ableitung der Log-Likelihood-Funktion ermitteln * ) n · pk · (1 − p)n−k ln L(p; k) = ln k
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
=
ln
129
n + k · ln p + (n − k) · ln(1 − p). k
Die erste Ableitung lautet ∂ ln L(p; k) ∂p
=
k n−k − . p 1−p
Gleichsetzen der ersten Ableitung mit Null ergibt k n−k − = 0. p 1−p Daraus folgt, dass p%ML =
n 1 k = · xi . n n i=1
2
∂ k n−k Da die zweite Ableitung ∂p 2 ln L(p; k) = − p2 − (1−p)2 negativ ist, ist die n k 1 achlich eine Maximalstelle. F¨ ur k = 0 lautet Stelle n = n · i=1 xi tats¨ n ur die Likelihood-Funktion L(p; k = 0) = (1 − p) , welche maximal wird f¨ p%ML = 0 = nk . Ist k = n, dann wird die Likelihood-Funktion L(p; k = n) = pn maximal an der Stelle p%ML = 1 = nk . Das heißt, der Maximum-LikelihoodSch¨ atzer ist gegeben durch
T ML (X1 , . . . , Xn ) =
K . n
Der Anteil der mit Herpes infizierten Personen l¨asst sich also durch n 1 K = · Xi n n i=1
sch¨atzen.
B
Beispiel (Fortsetzung 117) Exponentialverteilung
Die in der Abbildung des Beispiels 117 zu erkennende Maximalstelle der Likelihood-Funktion kann bestimmt werden durch das Gleichsetzen der ersten Ableitung mit Null. Wir benutzen hier zur Bestimmung die Log-LikelihoodFunktion ln L(ϑ) 121, da mit ihr einfacher zu rechnen ist. Dies ist erlaubt, da es sich beim Logarithmus um eine monotone Transformation handelt und sich die Maximalstelle durch die Transformation nicht ver¨andert.
B
130
3. Philosophie des Sch¨atzens
1. Berechnung von ln L(ϑ) 5 6, 5 +1 xi ln L(ϑ) = ln 5 · exp (−1/ϑ) · ϑ i=1 5 x i = −5 · ln(ϑ) − i=1 , ϑ > 0. ϑ
2. Berechnung der ersten Ableitung der Log-Likelihood-Funktion und Gleichsetzen mit Null 5 xi 5 ∂ ln L(ϑ) = − + i=1 =0 ∂ϑ ϑ ϑ2 ⇒0 = ϑ−
5 i=1
xi
5
.
Das Aufl¨ osen nach ϑ liefert als potenzielle Maximalstelle der LikelihoodFunktion ϑ = ϑmax
=
5 1 48, 5 · = 9, 7. xi = 5 i=1 5
Da die zweite Ableitung der Log-Likelihood-Funktion negativ ist, handelt es sich tats¨achlich um eine Maximalstelle. Sind die Beobachtungen x1 , . . . , x5 gegeben, nimmt die Likelihood-Funktion ihr Maximum an der Stelle ϑmax = 9, 7 an. Bei beobachteten Werten x1 , . . . , x5 wie oben angegeben ist dies derjenige B Wert ϑ, der die h¨ochste Plausibilit¨ at besitzt. B
Beispiel (Fortsetzung 118) Likelihoodfunktion
Die Beobachtungen x1 = 0, 4; x2 = 0, 48 und x3 = 0, 36 seien Realisationen einer Zufallsvariablen X mit Dichtefunktion f X (x; ϑ) = ϑ · xϑ−1
0 < x < 1,
0 < ϑ < ∞.
Die Likelihood-Funktion war L(ϑ)
= ϑ3 · (0, 4ϑ−1 · 0, 48ϑ−1 · 0, 36ϑ−1 ).
Das Maximum der Likelihood-Funktion erh¨ alt man durch Gleichsetzen der ersten Ableitung der logarithmierten Likelihood-Funktion mit Null.
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
131
1. Berechnung von ln L(ϑ) +
ln L(ϑ)
=
3
ln ϑ ·
3
xϑ−1 i
,
= 3 · ln ϑ + ln
i=1
=
3 · ln ϑ +
3
xϑ−1 i
i=1
3
3
i=1
i=1
(ϑ − 1) · ln xi = 3 · ln ϑ + ϑ ·
ln xi −
3
ln xi .
i=1
2. Berechnung der ersten Ableitung der Log-Likelihood-Funktion und Gleichsetzen mit Null ∂ ln L(ϑ) ∂ϑ 1 ⇒ ϑ
3
=
3 + ln xi = 0 ϑ i=1
= −
3
i=1
3
ln xi
.
Das Aufl¨ osen nach ϑ liefert die Stelle, an der die Likelihood-Funktion maximal ist ϑmax = − 3
3
i=1
ln xi
=−
3 = 1, 144 (ln 0, 42 + ln 0, 48 + ln 0, 36) B
als ML-Sch¨ atzwert f¨ ur ϑ.
Beispiel (Fortsetzung 60 113) Straßenk¨ unstler Die Dichtefunktion einer poissonverteilten Zufallsvariable X ist gegeben durch λx · exp{−λ} , λ > 0, x ∈ N. f X (x; λ) = x!
F¨ ur die Poissonverteilung gilt λ = E[X] = Var[X]. Das heißt, der Erwartungswert und die Varianz k¨ onnen mit der gleichen Stichprobenfunktion gesch¨atzt werden. Sei wieder eine Zeitspanne von t = 30 Minuten betrachtet. Die Wahrscheinlichkeit, dass der Straßenk¨ unstler in dieser Zeit verschont bleibt, l¨ asst sich aus p0 = Pλ (X = 0) = f (0; λ) = exp{−λ} berechnen. Die mittlere Trefferquote ist gegeben durch v=
λ . t
132
3. Philosophie des Sch¨atzens
Maximum-Likelihood-Sch¨ atzer: Die gemeinsame Dichtefunktion von unabh¨ angig und identisch poissonverteilten Stichprobenvariablen X1 , . . . , Xn ist gegeben durch n xi 1 λxi · exp{−λ} = λi=1 ·exp{−n·λ}· ( (x1 , . . . , xn ; λ) = , n xi ! i=1 xi ! n
f
X1 ,...,Xn
i=1
ur i = 1, . . . , n und λ > 0. f¨ ur xi ∈ 0, 1, 2, . . . f¨ Die Likelihood-Funktion ist die gemeinsame Dichte, aufgefasst als Funktion des Parameters λ. Diese ist gegeben durch n
L(λ) = λ
i=1
xi
1 · exp{−n · λ} · ( , n xi !
λ > 0.
i=1
Zur Vereinfachung des Maximierungsproblems kann der nat¨ urliche Logarithmus dieser Funktion betrachtet werden ⎛ ⎞ ln(L(λ)) =
n
⎜ 1 ⎟ ⎟, xi · ln(λ) − n · λ + ln ⎜ n ⎝( ⎠ i=1 xi !
λ > 0.
i=1
Die erste Ableitung nach λ ist gegeben durch n 1 ∂ ln(L(λ)) = · xi − n, ∂λ λ i=1
und Gleichsetzen mit Null liefert
λ=
1 λ
·
n i=1
λ>0
xi − n = 0, woraus folgt
n 1 · xi = x. n i=1
F¨ ur die zweite Ableitung nach λ gilt n 1 ∂ 2 ln(L(λ)) = − · xi < 0, ∂λ2 λ2 i=1
λ > 0.
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
133
Die zweite Ableitung ist kleiner als Null, daher hat die Likelihood%ML = x ein Maximum. Somit ist Funktion L(λ) an der Stelle λ ML atzer f¨ ur λ, das heißt Tλ (X1 , . . . , Xn ) = X Maximum-Likelihood-Sch¨ f¨ ur den Erwartungswert und die Varianz der poissonverteilten Zufallsvariablen. Man beachte, dass sich der gleiche Sch¨atzer f¨ ur λ auch schon aus ur das erste Moment ergab. Resultierend der Momentenmethode 113 f¨ aus der Invarianz des Maximum-Likelihood-Sch¨ atzers gegen¨ uber injektiven Transformationen gilt, dass die Maximum-Likelihood-Sch¨ atzungen f¨ ur die mittlere Trefferrate sowie f¨ ur die Wahrscheinlichkeit, dass der Straßenk¨ unstler verschont bleibt, gegeben sind durch v% =
%ML λ t
bzw.
%ML }. p%0 = exp{−λ
Maximum-Likelihood-Sch¨ atzungen aus den Daten Die Stichprobe, die angibt, wie oft der Straßenk¨ unstler von einer Taube getroffen wurde, war 2
1
2
0
0
1
1
1
0
1
Als Maximum-Likelihood-Sch¨ atzung f¨ ur den Parameter λ ergibt sich dann %ML = x = 2 + 1 + 2 + 0 + 0 + 1 + 1 + 1 + 0 + 1 = 9 = 0, 9. λ 10 10 Als Maximum-Likelihood-Sch¨ atzungen f¨ ur die Trefferrate v und die Wahrscheinlichkeit, dass er in einer Zeitspanne von 30 Minuten nicht getroffen wird, resultieren v% =
%ML 0, 9 1 1 λ = = 0, 03 = 1, 8 , t 30 min min h
%ML } = exp{−0, 9} = 0, 407 . p%0 = exp{−λ Der Straßenk¨ unstler wird also im Schnitt 1,8 mal pro Stunde getroffen und die Wahrscheinlichkeit, dass er in einem Zeitraum von 30 Minuten nicht getroffen wird, ist 40,7%.
134
3. Philosophie des Sch¨atzens
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate findet als Sch¨ atzmethode haupts¨achlich Anwendung in der Regressionsanalyse. Die Regressionsanalyse dient zur Untersuchung von Zusammenh¨ angen zwischen Merkmalen. Im Unterschied zur Korrelationsrechnung e geht es dabei nicht nur um die Art, zum Beispiel linear oder monoton, und die St¨ arke des Zusammenhangs, sondern der Zusammenhang soll genauer durch eine Funktion beschrieben werden. Ein Beispiel, in dem eine solche Funktion gesucht ist, k¨ onnte das Folgende sein: Ein Unternehmer beobachtet, welchen Gewinn er jeweils erwirtschaftet, wenn er eine bestimmte Menge seines Produkts herstellt. Er vermutet, dass sein Gewinn Y von der produzierten Menge x im Wesentlichen linear abh¨ angt. Dabei wird der Zusammenhang in der Regel nicht ganz exakt eingehalten, da neben der produzierten Menge andere, von ihm nicht beobachtete Gr¨ oßen den Gewinn beeinflussen (etwa schwankende Nachfrage). Der Unternehmer vermutet also, dass Y =
+ ε β +β ·x -./0 - 0 ./ 1 0 alliger Fehler linearer Zusammenhang zuf¨
gilt. Dabei sind β0 , β1 unbekannt. Die produzierte Menge x wird nicht als zuf¨ allig betrachtet, sondern ist vom Unternehmer deterministisch vorgegeben. Der Unternehmer hat schon verschiedene Mengen produziert und die zugeh¨ origen Gewinne notiert. Er m¨ ochte nun wissen, mit welchem Gewinn er rechnen kann, wenn er eine weitere Menge x seines Produkts herstellt, und zwar, ohne dass er tats¨ achlich x Einheiten produziert und den Gewinn erwirtschaftet. W¨ urde er die Koeffizienten β0 und β1 der oben angegebenen Funktion kennen, so k¨ onnte er im Prinzip f¨ ur beliebige Werte von x den zu erwartenden Gewinn Y , bis auf einen zuf¨ alligen Fehler, vorhersagen. Die Methode der kleinsten Quadrate erlaubt es, aus beobachteten Datenpaaren (x1 , y1 ), . . ., (xn , yn ) die Koeffizienten einer solchen Regressionsfunktion zu sch¨ atzen. Wir werden uns zur Darstellung der Methode auf das einfachste Regressionsmodell beschr¨anken, die oben schon dargestellte so genannte einfache lineare Regression.
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
135
Das einfache lineare Regressionsmodell Betrachtet wird ein interessierendes Merkmal Y , das von einem Merkmal x abh¨ angt. An n unabh¨ angigen Merkmalstr¨agern werden Realisationen (x1 , y1 ), . . . , (xn , yn ) der beiden Merkmale beobachtet. Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n
wird ein linearer Einfluss des Merkmals x auf das Merkmal Y unterstellt. Die Groß- bzw. Kleinschreibung bedeutet dabei, dass wir x als feste, einstellbare Gr¨ oße, Y dagegen als Zufallsvariable auffassen. F¨ ur die nicht beobachtbaren, zuf¨ alligen Fehler εi , i = 1, . . . , n, unterstellen wir, dass sie unabh¨ angig und identisch verteilt sind mit Erwartungswert Null und ur alle i = 1, . . . , n. gleicher Varianz σ 2 f¨ Man bezeichnet Y auch als Zielgr¨ oße, x als Einflussgr¨ oße und den zuf¨ alligen Fehler ε als St¨ orgr¨ oße. Die unbekannten Konstanten β0 und β1 heißen Regressionskoeffizienten und werden auch als Parameter des Regressionsmodells bezeichnet. Um das lineare Regressionsmodell den Beobachtungen m¨oglichst gut anzupassen, sind β0 und β1 aus den beobachteten Werten (x1 , y1 ), . . . , (xn , yn ) zu sch¨atzen. Dies kann mit der Methode der kleinsten Quadrate geschehen. Beispiel Anwendungsbeispiele
Der Unternehmer 134 hat in verschiedenen Monaten jeweils 5 000, 6 000, 8 000, 10 000 und 12 000 St¨ uck produziert. Die erzielten Gewinne hat er notiert. Er m¨ ochte demn¨ achst 9 000 St¨ uck pro Monat produzieren und den zu erwartenden Gewinn prognostizieren. Die Bedienung in einer Szene-Kneipe stellt fest – was nicht u ¨ berraschend ist – dass sie umso mehr Trinkgeld bekommt, je mehr G¨ aste sie am Abend bedient. Nach regelm¨aßiger Beobachtung kommt sie zu dem Schluss, dass der Zuwachs an Trinkgeld pro bedientem Gast ungef¨ ahr konstant ist. Der Zusammenhang zwischen der Anzahl der G¨aste und dem eingenommenen Trinkgeld kann daher als linear angenommen werden. Die Bedienung m¨ochte herausfinden, wie viele G¨ aste sie am Abend bedienen muss, um auf einen gewissen Betrag an Trinkgeld zu kommen. Ein neues Medikament zur Senkung des Blutzuckerspiegels soll auf den Markt gebracht werden. Dazu muss eine angemessene Konzentration des
B
136
3. Philosophie des Sch¨atzens
Wirkstoffs in den Tabletten bestimmt werden. In einem kontrollierten klinischen Experiment mit freiwilligen Probanden werden verschiedene Dosierungen des Wirkstoffs verabreicht. Pro Patient werden jeweils die verabreichte Dosierung und der Blutzuckerspiegel vor und nach Verabreichung des Medikaments festgehalten. Daraus kann die erreichte Blutzuckersenkung bestimmt werden. Kann man davon ausgehen, dass die Reduktion des Blutzuckers linear von der Dosierung abh¨ angt, so ist es m¨ oglich, aus dem Experiment diejenige Dosierung zu bestimmen, bei der eine bestimmB te vorgegebene Blutzuckersenkung voraussichtlich erreicht wird. Betrachtet werden unabh¨ angige Zufallsvariablen Y1 , . . . , Yn , zusammen mit oße, so dass alle Paare (xi , Yi ) zugeh¨origen Werten x1 , . . . , xn der Einflussgr¨ dem gleichen einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n
45
folgen. Beobachtet seien die Paare (x1 , y1 ), . . . , (xn , yn ). Die Beobachtungspaare (xi , yi ), i = 1, . . . , n, kann man als Punkte in ein Koordinatensystem eintragen. Die Anpassung eines einfachen linearen Regressionsmodells bedeutet dann, dass man in diese Punktewolke eine Gerade einbeschreibt, die den Verlauf der Punkte m¨ oglichst gut wiedergibt. Diese Idee ist in der folgenden Abbildung veranschaulicht.
40
r9 r8
r10
r7
35
r5 r6
30
r4
r2
r1
r3
25
Y
r=y yˆ 1 1
1.0
1.2
1.4
1.6
X
1.8
2.0
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
137
Mathematisch wird die einbeschriebene Gerade durch die Funktionsgleichung y = β0 + β1 · x beschrieben. Die beobachteten yi haben von dieser Geraden die (senkrecht gemessenen) Abst¨ande ei = yi − (β0 + β1 · xi ) = yi − β0 − β1 · xi , i = 1, . . . , n. Die Gr¨ oßen ei werden auch als Residuen bezeichnet. Ein nahe liegendes Kriterium, um die Gerade optimal in die beobachteten Punkte zu legen, ist es, die Summe der Residuenquadrate e2i zu minimieren. In diesem Fall liegt die Gerade m¨oglichst nahe an m¨ oglichst vielen Punkten. Die Residuen ei werden hierbei quadriert, damit sich positive und negative Residuen nicht gegenseitig aufheben. Zu minimieren ist also n
e2i =
i=1
n
(yi − β0 − β1 · xi )2 .
i=1
ur die Regressionskoeffizienten sind diejenigen Die Sch¨atzwerte β%0 und β%1 f¨ Werte, f¨ ur die diese Summe minimal wird. Im einfachen linearen Regressionsmodell k¨ onnen analytische Formeln zur Berechnung von β%0 und β%1 hergeleitet werden. Um das Minimum zu finden, leitet man die Summe der Residuenquadrate getrennt nach β0 und β1 ab und setzt die Ableitungen gleich Null. Dies f¨ uhrt zu den so genannten Normalengleichungen n
yi = n · β%0 + β%1 ·
i=1
n
xi
und
n
i=1
i=1
xi · yi = β%0 ·
n
xi + β%1 ·
i=1
n
x2i .
i=1
ost werden. Man erh¨ alt Diese Gleichungen k¨onnen nach β%0 und β%1 aufgel¨ n n (x − x) · (yi − y) xi · yi − n · x · y i=1 ni n = i=1 , β%1 = 2 2 2 (x − x) i=1 i i=1 xi − n · x n n 1 % · yi − β%1 · xi = y − β%1 · x β0 = n i=1 i=1 mit x =
1 n
·
n
i=1
xi und y =
1 n
·
n
i=1
yi .
Als Zufallsvariablen geschrieben, ergeben sich die Sch¨ atzer n (xi − x) · (Yi − Y ) ((x1 , Y1 ), . . . , (xn , Yn )) = i=1n , TβKQ 1 2 i=1 (xi − x) ((x1 , Y1 ), . . . , (xn , Yn )) = Y − TβKQ ((x1 , Y1 ), . . . , (xn , Yn )) · x. TβKQ 0 1
138
3. Philosophie des Sch¨atzens
Die Groß- bzw. Kleinschreibung steht dabei wiederum f¨ ur die Tatsache, dass wir die xi als feste Gr¨oßen, die Yi als Zufallsvariablen betrachten.
Definition Kleinste-Quadrate-Sch¨ atzer
und TβKQ heißen Die aus dem hier vorgestellten Prinzip resultierenden Sch¨atzer TβKQ 0 1 die Kleinste-Quadrate-(KQ-)Sch¨ atzer f¨ ur β0 und β1 . Entsprechend heißen die Sch¨atzwerte β%0 und β%1 die KQ-Sch¨ atzungen.
Kleinste-Quadrate-Sch¨ atzer Im einfachen linearen Regressionsmodell 135 sind die KQSch¨ atzer f¨ ur die Regressionskoeffizienten gegeben durch n (x − x) · (Yi − Y ) i=1 ni ((x , Y ), . . . , (x , Y )) = , TβKQ 1 1 n n 1 2 i=1 (xi − x) ((x1 , Y1 ), . . . , (xn , Yn )) = Y − TβKQ ((x1 , Y1 ), . . . , (xn , Yn )) · x. TβKQ 0 1
Definition Prognose basierend auf Kleinste-Quadrate-Sch¨ atzung
Die Werte Y%i = TβKQ + TβKQ · xi sind Sch¨atzer f¨ur die Yi und werden auch 0 1 Vorhersagen oder Prognosen genannt. Die zugeh¨ origen Sch¨atzwerte sind y%i = β%0 + β%1 · xi . Die Abweichungen Ri = Yi − Y%i heißen Residuen, ihre Realisationen ri = yi − y%i nennt man gesch¨ atzte Residuen oder h¨aufig ebenfalls Residuen. B
Beispiel (Fortsetzung 135) Gewinn eines Unternehmers
Der Unternehmer aus dem Beispiel 135 hat folgende Daten beobachtet Menge xi (in 1 000 St¨ uck) Gewinn yi (in Euro)
5 2 600
6 3 450
8 5 555
10 7 700
12 9 350
Die Vermutung des Unternehmers war, dass Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n.
In der graphischen Darstellung sehen seine Beobachtungen wie folgt aus
Wie kommt man zu einer Sch¨ atzfunktion?
139
6000 0
2000
4000
Gewinn
8000
10000
12000
3.5
0
5
10
15
Menge (in 1000)
M¨ ochte er nun wissen, mit welchem Gewinn er bei 9 000 produzierten St¨ ucken rechnen kann, wird er graphisch: eine Ausgleichsgerade durch die beobachteten Punktepaare legen und deren Wert an der Stelle x = 9 ablesen; rechnerisch: β0 und β1 anhand der Daten sch¨ atzen und x = 9 in den gesch¨atzten Zusammenhang einsetzen. Zur Berechnung der Sch¨ atzwerte benutzt man die folgende Hilfstabelle i 1 2 3 4 5
xi 5 6 8 10 12 41 x = 8, 2
yi 2 600 3 450 5 555 7 700 9 350 28 655 y = 5 731
x2i 25 36 64 100 144 369
xi · yi 13 000 20 700 44 440 77 000 112 200 267 340
Mit den Formeln 137 f¨ ur die KQ-Sch¨ atzungen erh¨alt man
140
3. Philosophie des Sch¨atzens
n 267 340 − 5 · 8, 2 · 5731 i=1 xi · yi − n · x · y n = = 986, 860, 2 2 369 − 5 · (8, 2)2 i=1 xi − n · x
β%1
=
β%0
= y − β%1 · x = 5 731 −
32 369 · 8, 2 = − 2 361, 25. 32, 8
F¨ ur eine produzierte Menge von 9 000 St¨ uck sch¨atzt man also, dass ein Gewinn von
6000
y=6520,49
0
2000
4000
Gewinn
8000
10000
12000
y = 2 361, 25 + 986, 860 · 9 = 6 520, 49 (Euro) % − erwirtschaftet wird.
0
x= 9
5
10
15
Menge (in 1000)
Zu beachten ist bei solchen Prognosen, dass sie nur sinnvoll sind f¨ ur neue x¨ber die Qualit¨ at Werte in der N¨ahe der tats¨ achlich beobachteten xi , da man u der Approximation des Zusammenhangs außerhalb des beobachteten Bereichs nichts aussagen kann. Solche Aussagen sind auch nicht immer sinnvoll. Im hier dargestellten Beispiel erh¨alt man etwa f¨ ur sehr große Produktionsmengen die Prognose eines enormen Gewinns. Dabei werden aber andere Effekte, wie beispielsweise eine Markts¨ attigung, die bei sehr hohen Mengen produzierter B G¨ uter eintreten k¨onnte, nicht ber¨ ucksichtigt. B
Beispiel Intelligenz und Probleml¨ osen
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
141
In einer Studie soll untersucht werden, wie stark der Zusammenhang zwischen der Intelligenz und der Probleml¨ osef¨ahigkeit von Abiturienten ausgepr¨ agt ist. Dazu l¨ asst man zun¨achst 2 000 Abiturienten einen Intelligenztest bearbeiten und stellt ihren Intelligenzquotienten fest. F¨ ur eine festgelegte Auswahl von Intelligenzquotienten x1 , . . . , x8 w¨ahlt man dann aus den 2 000 Schulabg¨ angern 8 Personen aus, die gerade die festgelegten Intelligenzquotienten aufweisen. Diesen Sch¨ ulern stellt man eine komplexe Aufgabe und osung ben¨ otigen. Man misst jeweils die Zeit Yi (in Stunden), die sie zu ihrer L¨ erh¨ alt xi yi
100 3,8
105 3,3
110 3,4
115 2,0
120 2,3
125 2,6
130 1,8
135 1,6
0
1
2
Zeit
3
4
5
In der graphischen Darstellung sieht die Datenlage wie folgt aus
90
100
110
120
130
140
150
IQ
Es soll ein einfaches lineares Regressionsmodell angepasst werden, um vorherzusagen, wie lange ein Abiturient mit einem Intelligenzquotienten von 112 durchschnittlich zur L¨ osung der Aufgabe brauchen wird. ur das Modell Dazu werden die KQ-Sch¨ atzungen β%0 und β%1 f¨ Yi = β0 + β1 · xi + εi
142
3. Philosophie des Sch¨atzens
ben¨ otigt. Zur Berechnung der Sch¨ atzwerte stellt man die folgende Hilfstabelle ben¨otigter Gr¨ oßen auf i 1 2 3 4 5 6 7 8
xi 100 105 110 115 120 125 130 135 940 x = 117, 5
yi 3,8 3,3 3,4 2,0 2,3 2,6 1,8 1,6 20,8 y = 2, 6
x2i 10 000 11 025 12 100 13 225 14 400 15 625 16 900 18 225 111 500
xi · yi 380 346,5 374 230 276 325 234 216 2 381,5
Mit den Formeln 137 f¨ ur die KQ-Sch¨ atzungen erh¨alt man
β%1
= =
β%0
n 2 381, 5 − 8 · 117, 5 · 2, 6 i=1 xi · yi − n · x · y n = 2 − n · x2 111 500 − 8 · (117, 5)2 x i=1 i − 62.5 = − 0, 060, 1 050
(− 62.5) · 117, 5 = 9, 59. = y − β%1 · x = 2, 6 − 1 050
Damit ist die Ausgleichsgerade gegeben durch die Gleichung y = 9, 59 − 0, 060 · x. F¨ ur einen Abiturienten mit einem IQ von 112 sch¨ atzt man, dass er y% = 9, 59 − 0, 060 · 112 = 2, 87 Stunden ben¨ otigen wird, um das Problem zu l¨ osen. Graphisch sieht der gesch¨ atzte Zusammenhang zwischen Probleml¨osef¨ahigkeit und Intelligenzquotient von Abiturienten so aus
Wie kommt man zu einer Sch¨ atzfunktion?
143
0
1
2
Zeit
3
4
5
3.5
90
100
110
120
130
140
150
IQ
B Kann man unterstellen, dass die Fehler εi im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi normalverteilt sind mit Erwartungswert Null und Varianz σ 2 , so gibt es einen engen Zusammenhang zwischen KQ-Sch¨atzer und ML-Sch¨ atzer 119. In diesem Fall gilt n¨ amlich, dass die Zufallsvariablen Yi ebenfalls normalverteilt sind mit Erwartungswert β0 + β1 · xi und Varianz σ 2 , i = 1, . . . , n, das heißt Yi ∼ N (β0 + β1 · xi , σ 2 ), i = 1, . . . , n. Damit kann man die Dichte von Yi angeben 1 1 (yi − β0 − β1 · xi )2 . · exp − · f Yi (yi ) = √ 2 σ2 2 · π · σ2 Die Likelihood 116 f¨ ur die n Beobachtungen y1 , . . . , yn ist dann gegeben durch n 1 (yi − β0 − β1 · xi )2 1 √ L(β0 , β1 , σ 2 ) = · exp − · 2 σ2 2 · π · σ2 i=1
144
3. Philosophie des Sch¨atzens
=
n 1 &√ 'n · exp − · (yi − β0 − β1 · xi )2 2 2 · σ 2 2·π·σ i=1
1
1 .
Sie h¨ angt von den drei unbekannten Parametern β0 , β1 und σ 2 ab. Zur Bestimmung der ML-Sch¨ atzer f¨ ur die drei Parameter ist die Likelihood ¨ zu maximieren. Aquivalent dazu kann man die Log-Likelihood 121 maximieren, also ln L(β0 , β1 , σ 2 ) = −
n n n 1 · ln(2 · π) − · ln(σ 2 ) − · (yi − β0 − β1 · xi )2 . 2 2 2 · σ 2 i=1
Setzen wir zun¨ achst die Varianz σ 2 als bekannt voraus, so sind die ersten beiden Terme der Log-Likelihood konstant bzgl. der interessierenden Parameter β0 und β1 , so dass man die Log-Likelihood auch schreiben kann als ln L(β0 , β1 )
=
const. −
n 1 · (yi − β0 − β1 · xi )2 . 2 · σ 2 i=1
¨ kann Dieser Ausdruck ist bez¨ uglich β0 und β1 zu maximieren. Aquivalent man auch n 1 − · (yi − β0 − β1 · xi )2 2 · σ 2 i=1 maximieren bzw. n 1 · (yi − β0 − β1 · xi )2 2 · σ 2 i=1
minimieren. Diese Minimierung ist (bei bekannter Varianz σ 2 ) wiederum ¨aquivalent zur Minimierung von n (yi − β0 − β1 · xi )2 i=1
bez¨ uglich β0 und β1 . Die Maximierung der Likelihood ist in diesem Fall also a¨quivalent zur Minimierung von n (yi − β0 − β1 · xi )2 . i=1
3.5
Wie kommt man zu einer Sch¨ atzfunktion?
145
Dies entspricht dem zu minimierenden Term f¨ ur den KQ-Sch¨ atzer. ML-Sch¨at¨ berein. zer und KQ-Sch¨ atzer f¨ ur β0 und β1 stimmen also u Ist die Varianz σ 2 nicht bekannt, so f¨ uhrt das Maximum-Likelihood-Verfahren f¨ ur β0 und β1 ebenfalls zu denselben Sch¨atzern wie die Methode der kleinsten Quadrate. Zus¨ atzlich erh¨alt man als Sch¨ atzer f¨ ur σ 2 TσML 2 ((x1 , Y1 ), . . . , (xn , Yn ))
=
n 1 · (Yi − TβML − TβML · xi )2 0 1 n i=1
=
n 1 · (Yi − TβKQ − TβKQ · xi )2 . 0 1 n i=1
Dieser Maximum-Likelihood-Sch¨ atzer f¨ ur σ 2 ist verzerrt. Der unverzerrte ur σ 2 ergibt sich als Sch¨ atzer 64 f¨ TσU2 ((x1 , Y1 ), . . . , (xn , Yn )) =
n · T ML ((x1 , Y1 ), . . . , (xn , Yn )) 2 n−2 σ
Die Herleitung dieses unverzerrten Sch¨ atzers erfolgt bei der Betrachtung von Konfidenzintervallen im linearen Regressionsmodell 162 in der Regel zum Sch¨ atzer f¨ ur die Varianz 163. Satz von Gauß-Markov Der Satz von Gauß-Markov trifft eine Aussage u ¨ber die G¨ uteeigenschaften der KQ-Sch¨ atzer. Die grundlegenden Annahmen des einfachen linearen Regressionsmodells lauteten 1. Das Merkmal x wird nicht als stochastisch, sondern als fest vorausgesetzt. 2. Es wird ein linearer Einfluss des Merkmals x auf das Merkmal Y unterstellt gem¨aß Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n.
angig und besitzen alle den Erwar3. Die Fehlervariablen εi sind unabh¨ tungswert Null und die gleiche Varianz σ 2 . Unter diesen Annahmen sind die KQ-Sch¨ atzer TβKQ und TβKQ unverzerrt 0 1 (erwartungstreu) f¨ ur β0 und β1 und haben minimale Varianz unter allen linearen unverzerrten Sch¨ atzern f¨ ur β0 und β1 . Es gilt also insbesondere: E(TβKQ ) = β0 und E(TβKQ ) = β1 . 0 1
146
3. Philosophie des Sch¨atzens
Folgerung H¨ aufig interessiert man sich daf¨ ur, mit Hilfe eines linearen Regressionsmodells den Wert von Y an einer nicht beobachteten Stelle x0 vorherzusagen (vergleiche etwa die Beispiele 135 138 140). Im Modell Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n,
ist der Erwartungswert von Y bei gegebener Beobachtung x gegeben durch E(Y ) = β0 + β1 · x. Zur Vorhersage von Y an einer Stelle x0 bietet es sich damit an, die und TβKQ in diese Gleichung einzusetzen. Mit Hilfe der Sch¨ atzer TβKQ 0 1 Sch¨ atzereigenschaften und dem Satz von Gauß-Markov folgt, dass die entstehende Prognose Y%0 mit + TβKQ · x0 Y%0 = TβKQ 0 1 ebenfalls erwartungstreu (f¨ ur E(Y )) und der Sch¨ atzer mit minimaler Varianz unter allen unverzerrten Sch¨ atzern ist.
Weitere Sch¨ atzverfahren
Neben den hier vorgestellten grundlegenden Prinzipien zur Konstruktion von Punktsch¨ atzfunktionen gibt es noch eine Reihe weiterer Methoden, die man benutzen kann, um an Sch¨ atzungen f¨ ur interessierende Gr¨ oßen zu kommen. Dazu z¨ahlen beispielsweise Bayes-Verfahren (z.B. Gelman et al. (1998)), die in der Lage sind, Vorinformationen u ¨ber die Verteilungsparameter mit in die Sch¨ atzung zu integrieren. So genannte Resampling-Verfahren hingegen versuchen, die in der erhobenen Stichprobe enthaltene Information mehrfach auszunutzen und so pr¨ azisere Sch¨atzungen zu erhalten (vergleiche etwa Efron, Tibshirani (1993)).
3.6
Intervallsch¨ atzung
147
3.6 Intervallsch¨ atzung
3.6
Im Beispiel 53 der zwei Freunde, die herausfinden wollen, ob eine M¨ unze fair ist, waren zwei M¨ oglichkeiten angegeben, wie die Aussage u ¨ber die unbekannten Wahrscheinlichkeit f¨ ur Kopf bei der M¨ unze aussehen kann: Angabe eines einzelnen Werts f¨ ur p, zum Beispiel p% = 0, 3. Angabe eines Bereichs, in dem p liegen k¨onnte, zum Beispiel [0, 2 ; 0, 4]. Der erste Ansatz, die Angabe einer Punktsch¨atzung, wurde in den vorigen Abschnitten besprochen. Der zweite Ansatz ist die Angabe einer Intervallsch¨atzung, einer so genannten Konfidenzsch¨ atzung oder eines Konfidenzintervalls. Ein Konfidenzsch¨ atzer liefert auf Basis erhobener Daten einen Bereich KIϑ = oglichen Werten des Parameters ϑ. Durch die Konstruktion [Ku ; Ko ] von m¨ von KIϑ mit Hilfe eines statistischen Verfahrens kennt man vor der Datenerhebung die Wahrscheinlichkeit, dass KIϑ den Parameter ϑ beinhaltet. Es ist ur α n¨ amlich Pϑ (ϑ ∈ KIϑ ) = 1 − α, α ∈ (0; 1). Durch Vorgabe eines Werts f¨ kann man angeben, wie pr¨ azise die Sch¨ atzung werden soll. Man w¨ahlt dabei f¨ ur gew¨ ohnlich den Wert α so, dass die Wahrscheinlichkeit 1 − α hoch ist, zum Beispiel 1 − α = 90% oder 95%. Nach der Datenerhebung und der Berechnung des Intervalls KIϑ ist der Parameter ϑ im Intervall enthalten oder nicht. Mit dem realisierten Intervall ist also keine Wahrscheinlichkeitsaussage mehr verbunden. Jedoch wissen wir, dass vor der Erhebung der Daten die urde, sehr hoch gew¨ ahlt Wahrscheinlichkeit, dass ϑ in KIϑ enthalten sein w¨ wurde, n¨ amlich 1 − α. Daher k¨ onnen wir sagen, dass wir zu (1 − α) · 100% sicher sind, dass ϑ im Intervall KIϑ enthalten ist. Genau wie Punktsch¨ atzungen k¨ onnen Konfidenzintervalle f¨ ur Parameter und Kennzahlen von Verteilungen ebenso berechnet werden wie f¨ ur Funktionen dieser Gr¨ oßen. Wir benutzen im Folgenden die gleiche Notation 55, wie wir sie schon f¨ ur die Punktsch¨ atzung eingef¨ uhrt haben. Beispiel Binomialverteilung (n,p)
Sei X eine binomialverteilte Zufallsvariable mit Parametern n und p, also X ∼ Bin(n; p). Dabei entspricht n dem Stichprobenumfang und p aus dem Intervall [0; 1] definiert die Erfolgswahrscheinlichkeit. Aus einer Stichprobe vom Umfang n sollen nun mit geeigneten Sch¨ atzfunktionen eine untere Intervallgrenze Ku (X) und eine obere Ko (X) gefunden werden, so dass sich der
B
148
3. Philosophie des Sch¨atzens
wahre Wert p mit 95%iger Wahrscheinlichkeit in dem Intervall KIp = [Ku (X) ; Ko (X)] ⊂ [0; 1] befindet. Nehmen wir beispielsweise an, dass eine konkrete Stichprobe die onnen dann zu 95% sicher Grenzen Ku = 0, 2 und Ko = 0, 4 liefert. Wir k¨ sein, dass der Parameter p zwischen 0, 2 und 0, 4 liegt, sich also im Intervall B KIp = [0, 2 ; 0, 4] befindet. B
Beispiel Normalverteilung (µ,σ 2 )
Sei X eine normalverteilte Zufallsvariable mit Parametern µ und σ 2 , also X ∼ aufig sucht man ein Konfidenzintervall KIµ f¨ ur den Parameter µ, N (µ, σ 2 ). H¨ um anzugeben, innerhalb welcher Grenzen µ mit 95%-iger Wahrscheinlichkeit liegt. Aus einer gegebenen Stichprobe kann aber auch ein Konfidenzintervall ur die Varianz σ 2 konstruiert werden. B KIσ2 f¨
Definition Intervallsch¨ atzer
Sei X eine Zufallsvariable mit Verteilungsfunktion FX (x; ϑ). Dabei sei FX (x; ϑ) bis auf den Parameter ϑ ∈ Θ bekannt. Seien weiter die Stichprobenvariablen X1 , . . . , Xn unabh¨angig und identisch wie X verteilt. Ist
KIϑ = KIϑ (X1 , . . . , Xn ) = [Ku (X1 , . . . , Xn ); Ko (X1 , . . . , Xn )] = [Ku ; Ko ] ein Intervall, so dass gilt
P (ϑ ∈ KIϑ ) = P (Ku ≤ ϑ ≤ Ko ) ≥ 1 − α, dann ist KIϑ ein Intervallsch¨ atzer f¨ ur den Parameter ϑ, und KIϑ u ¨berdeckt ϑ mit Wahrscheinlichkeit (1 − α). Man nennt KIϑ auch Konfidenzintervall zum Niveau 1 − α oder (1 − α)-Konfidenzintervall. Die Wahrscheinlichkeit, dass das Intervall den interessierenden Parameter ϑ nicht enth¨alt, betr¨agt α. Analog zum Fall der Punktsch¨atzer heißt die Realisation von KIϑ an einer konkreten Stichprobe x1 , . . . , xn eine Sch¨atzung, hier Intervallsch¨ atzung.
3.6
Intervallsch¨ atzung
149
Beispiel Simulierte Konfidenzintervalle
B
0.0
0.1
0.2
0.3
0.4
F¨ ur die folgende Abbildung wurden 10 verschiedene Datens¨ atze simuliert, die jeweils 9 Beobachtungen aus einer N (0, 1)-Verteilung enthalten. Auf Basis jeder einzelnen Stichprobe wurde eine Intervallsch¨ atzung f¨ ur den Parameter µ dieser Verteilung vorgenommen. Man sieht, dass jede Stichprobe zu einem anderen gesch¨atzten Intervall gef¨ uhrt hat. Auch enthalten nicht alle gesch¨ atzten Intervalle den wahren Wert von µ = 0. Das ist lediglich f¨ ur 8 von 10 Intervallen der Fall. W¨ urde man das beschriebene Vorgehen noch o¨fter wiederholen, sollten im Schnitt 95 von 100 realisierten Intervallen den wahren Wert von µ enthalten, denn wir haben f¨ ur dieses Beispiel mit einer Konfidenzwahrscheinlichkeit von α = 0, 95 gearbeitet.
3
2
1
0
1
2
3
3
2
1
0
1
2
3
B Man unterscheidet einseitige und zweiseitige Konfidenzintervalle. F¨ ur zweiseitige Konfidenzintervalle m¨ ussen die obere und die untere Intervallgrenze aus der Stichprobe berechnet werden. F¨ ur einseitige Konfidenzintervalle wird nur eine der beiden Intervallgrenzen aus der Stichprobe berechnet. Die andere wird mit der entsprechenden Grenze des Wertebereichs Θ des Parameters gleichgesetzt. Wir sprechen von unteren Konfidenzintervallen, wenn die linke Intervallgrenze der unteren Grenze des Parameterbereichs gleichgesetzt wird, und von oberen Konfidenzintervallen, wenn die rechte Intervallgrenze durch die obere Grenze des Parameterbereichs bestimmt wird.
150
3. Philosophie des Sch¨atzens
Eigenschaften von Intervallsch¨ atzern Wie Punktsch¨ atzer sind auch die Grenzen Ku und Ko des Konfidenzintervalls Zufallsvariablen, deren Verteilung von X abh¨ angt. Ein Konfidenzintervall wird so konstruiert, dass der gesuchte Parameter mit Wahrscheinlichkeit (1 − α) darin eingefangen“ wird. ” Sobald aber das Konfidenzintervall f¨ ur konkrete Beobachtungen x1 , . . . , xn berechnet wurde, ist es fest und nicht mehr zuf¨ allig. Hier tritt derselbe Effekt ein wie schon bei Punktsch¨atzern und Punktsch¨ atzungen: das Konfidenzintervall selbst ist ein Intervallsch¨atzer und als solcher zuf¨ allig, w¨ ahrend das realisierte Konfidenzintervall eine Intervallsch¨ atzung und damit fest ist. Eine Aussage u ¨ber die Wahrscheinlichkeit, mit der der Parameter im realisierten Intervall liegt, ist also nicht mehr sinnvoll. Das aus den Daten konstruierte Konfidenzintervall u ¨berdeckt den unbekannten Parameter oder es u ¨ berdeckt ihn nicht. Die Zufallskomponente, die aus den noch unbeobachteten Daten resultiert und eine Wahrscheinlichkeitsaussage generell erm¨oglichte, ist nun weggefallen. Soll nicht f¨ ur den Parameter ϑ einer Verteilung, sondern f¨ ur eine Funktion ϕ(ϑ) des Parameters ein Konfidenzintervall konstruiert werden, dann k¨ onnen zur Intervallsch¨ atzung Statistiken Ku,ϕ(ϑ) und Ko,ϕ(ϑ) entsprechend so gew¨ahlt werden, dass der Funktionswert ϕ(ϑ) mit Wahrscheinlichkeit (1 − α) innerhalb dieser Grenzen liegt. Die Konstruktion eines Konfidenzintervalls basiert h¨ aufig auf einem Punktsch¨ atzer Tϑ (X1 , . . . , Xn ), dessen Verteilung bekannt ist. Der Intervallsch¨atzer kann dann durch geeignete Umformungen, wie wir sie uhren, hergeleitet werden. im Folgenden 151 153 durchf¨
3.6
Intervallsch¨ atzung
151
¨ Ubersicht u ¨ber Konfidenzintervalle in verschiedenen Situationen
¨ Ubersicht Im Folgenden werden Konfidenzintervalle f¨ ur verschiedene Standardsituationen statistischer Untersuchungen hergeleitet. Wir unterscheiden Konfidenzintervalle f¨ ur die Parameter der Normalverteilung N (µ, σ 2 ) Konfidenzintervalle f¨ ur den Erwartungswert µ bei bekannter Varianz σ 2 bei unbekannter Varianz σ 2 Konfidenzintervalle f¨ ur die Varianz σ 2 den Parameter p der Binomialverteilung Bin(n; p) f¨ ur kleine Stichproben (exakte Konfidenzintervalle) f¨ ur große Stichproben (approximative Konfidenzintervalle) den Erwartungswert einer beliebigen Verteilung f¨ ur große Stichproben (approximative Konfidenzintervalle) bei bekannter Varianz bei unbekannter Varianz die Regressionskoeffizienten im einfachen linearen Regressionsmodell
Konfidenzintervalle bei Normalverteilung
Beispiel Einseitiges Konfidenzintervall f¨ ur den Erwartungswert bei Normalverteilung, bekannte Varianz
Wir betrachten die normalverteilte Zufallsvariable X mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 . Der Parameterraum f¨ ur µ ist R. angig und identisch wie X Die Stichprobenvariablen X1 , . . . , Xn seien unabh¨ verteilt. Basierend auf X1 , . . . , Xn soll ein einseitiges, unteres Konfidenzintervall zum Niveau (1 − α) = 0, 95 f¨ ur den Erwartungswert µ erstellt werden. Da es sich hier um ein einseitiges Konfidenzintervall handelt, f¨ allt eine der Intervallgrenzen mit einer Grenze des Parameterraums zusammen. F¨ ur ein unteres Konfidenzintervall wird dann die untere Grenze mit Ku = −∞ un-
B
152
3. Philosophie des Sch¨atzens
abh¨ angig von der Stichprobe gew¨ ahlt. Als Punktsch¨ atzer f¨ ur µ verwenden wir das arithmetische Mittel Tµ (X1 , . . . , Xn ) =
n 1 · Xi = X. n i=1
F¨ ur die weiteren Schritte ben¨ otigen wir die Verteilung des Sch¨atzers. Da die , . . . , Xn jeweils N (µ, σ 2 )-verteilt sind, ist Stichprobenvariablen X 1 ' & 2 X ∼ N µ, σn 43, und damit gilt f¨ ur die standardisierte Variable √
n·
X −µ ∼ N (0, 1). σ
Eine solche Standardisierung eines Sch¨ atzers lohnt sich, da sich dadurch in der Regel weitere Rechnungen erleichtern. Wir k¨ onnen also im Folgenden Eigenschaften der Standardnormalverteilung ausnutzen. Das α-Quantil einer standardnormalverteilten Zufallsvariable Z ist der Wert zα∗ , f¨ ur den P(Z ≤ zα∗ ) = α gilt, α ∈ (0; 1). Es ist also √ X −µ ∗ P ≥ z0,05 = 0, 95. n· σ Ein Konfidenzintervall f¨ ur µ erhalten wir nun durch folgende Umformungen √ X −µ σ ∗ ∗ 0, 95 = P ≥ z0,05 = P X − µ ≥ z0,05 n· ·√ σ n σ σ ∗ ∗ = P µ ≤ X − z0,05 · √ = P µ ≤ X + z0,95 · √ . n n Hierbei nutzen wir zur Berechnung der Quantile die Symmetrie der Normal∗ zu ersetzen. verteilung aus, was uns erlaubt, −zα∗ durch z1−α Ein einseitiges&unteres Konfidenzintervall f¨ ur den Erwartungswert µ ist also , σ ∗ √ durch KIµ = −∞ ; X + z0,95 · n gegeben. Es u ¨berdeckt den Parameter µ mit einer Wahrscheinlichkeit von 95%. Liegt konkret die Stichprobe x1 3,02
x2 2,92
x3 0,97
x4 2,74
x5 2,28
x6 2,93
x7 -0,77
x8 3,67
x9 3,00
x10 5,41
x11 2,96
vor, von der wir wissen, dass die Beobachtungen voneinander unabh¨ angig aus 2 einer Normalverteilung mit Varianz σ = 4 gezogen wurden, dann erhalten
3.6
Intervallsch¨ atzung
153
wir durch Einsetzen der entsprechenden Gr¨ oßen als realisiertes Konfidenzintervall f¨ ur µ * * σ 2 ∗ KIµ = −∞ ; X + z0,95 · √ = −∞ ; 2, 648 + 1, 6449 · √ n 11 =
(−∞ ; 3, 637].
Wir k¨ onnen also zu 95% sicher sein, dass der tats¨achliche Erwartungswert µ B h¨ ochstens 3, 637 betr¨ agt. Konfidenzintervall f¨ ur den Erwartungswert bei Normalverteilung, bekannte Varianz Sei die Zufallsvariable X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und bekannter Varianz σ 2 ∈ R+ und seien weiter die Stichangig und identisch wie X verteilt. Zu probenvariablen X1 , . . . , Xn unabh¨ einer vorgegebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle (1 − α)-Konfidenzintervalle f¨ ur den Erwartungswert µ −∞ ; X +
∗ z1−α
σ ·√ n
*
) σ ∗ √ X − z1−α · ;∞ n
ist ein einseitiges, unteres Konfidenzintervall, ist ein einseitiges, oberes Konfidenzintervall,
* ) σ σ ist ein zweiseitiges ∗ ∗ X − z1−α/2 · √ ; X + z1−α/2 ·√ Konfidenzintervall. n n n Dabei bezeichnet X = n1 · i=1 Xi das arithmetische Mittel der Stichpro∗ das (1−α)-Quantil der Standardnormalverteilung. benvariablen und z1−α Beispiel Zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert bei Normal-
verteilung, unbekannte Varianz Sei die Zufallsvariable X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und unbekannter Varianz σ 2 ∈ R+ . Die Stichprobenvariablen angig und identisch wie X verteilt. Basierend auf X1 , . . . , Xn seien unabh¨ ur X1 , . . . , Xn soll ein zweiseitiges Konfidenzintervall zum Niveau (1 − α) f¨ den Erwartungswert µ bestimmt werden. Als Punktsch¨atzer f¨ ur den Erwartungswert verwenden wir das arithmetische Mittel X der Stichproben-
B
154
3. Philosophie des Sch¨atzens
variablen. Zun¨ achst bietet es sich wieder an, X zu standardisieren. Da jedoch die Varianz unbekannt ist, wird sie mit dem erwartungstreuen Sch¨ atzer n 1 2 2 S = n−1 · i=1 (Xi − X) gesch¨atzt. Die standardisierte Variante von X ist dann nicht mehr normalverteilt, sondern folgt einer t-Verteilung mit n − 1 Freiheitsgraden. Es gilt also √
n·
X −µ ∼ tn−1 . S
Bezeichnen t∗n−1;α/2 und t∗n−1;1−α/2 das (α/2)- bzw. das (1 − α/2)-Quantil asst sich ein Konfidenzintervall f¨ ur µ wie folgt der tn−1 -Verteilung, dann l¨ herleiten √ X −µ ≤ t∗n−1;1− α2 1 − α = P t∗n−1; α2 ≤ n · S S S = P −X + t∗n−1; α2 · √ ≤ −µ ≤ −X + t∗n−1;1− α2 · √ n n S S = P X − t∗n−1; α2 · √ ≥ µ ≥ X − t∗n−1;1− α2 · √ n n S S = P X + t∗n−1;1− α2 · √ ≥ µ ≥ X + t∗n−1; α2 · √ n n S S ∗ ∗ = P X + tn−1; α2 · √ ≤ µ ≤ X + tn−1;1− α2 · √ . n n Das Konfidenzintervall ist durch die letzte Zeile der Gleichung gegeben. Die Symmetrie der t-Verteilung erlaubt, dass t∗n−1; α mit −t∗n−1;1− α ersetzt wer2 2 den kann (t∗n−1;α = −t∗n−1;1−α ). Damit ist ) * S S ∗ ∗ KIµ = X − tn−1;1− α2 · √ ; X + tn−1;1− α2 · √ n n ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert µ bei unbekannter B Varianz einer normalverteilten Zufallsvariablen X. Theoretisch k¨onnen Intervalle von Interesse sein, die nicht symmetrisch sind, zum Beispiel durch Wahl von t∗n−1;α/4 und t∗n−1;1−3·α/4 . Dies ist in der Praxis jedoch selten der Fall.
3.6
Intervallsch¨ atzung
155
Konfidenzintervalle f¨ ur den Erwartungswert bei Normalverteilung, unbekannte Varianz Sei X normalverteilt mit unbekanntem Erwartungswert µ ∈ R und unbekannter Varianz σ 2 ∈ R+ . Seien die Stichprobenvariablen angig und identisch wie X verteilt. Zu einer vorgeX1 , . . . , Xn unabh¨ gebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle (1 − α)Konfidenzintervalle f¨ ur den Erwartungswert µ &
−∞ ; X + t∗n−1;1−α ·
√S n
,
ist ein einseitiges, unteres Konfidenzintervall,
+ X − t∗n−1;1−α ·
√S n
;∞
+ X − t∗n−1;1− α ·
√S n
; X + t∗n−1;1− α ·
2
'
ist ein einseitiges, oberes Konfidenzintervall,
2
√S n
,
ist ein zweiseitiges Konfidenzintervall.
n Dabei ist X = n1 · i=1 √ Xi das arithmetische Mittel der StichproS 2 die gesch¨atzte Standardabweichung mit benvariablen und S = n 1 2 2 S = n−1 · i=1 (Xi − X) . Mit t∗n−1;α ist das α-Quantil der t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Konfidenzintervall f¨ ur die Varianz bei Normalverteilung Sei X ∼ N (µ, σ 2 ) mit unbekannten Parametern µ ∈ R und σ 2 ∈ R+ , angig und identisch wie X verteilte Stichund seien X1 , . . . , Xn unabh¨ probenvariablen. Gesucht ist ein Konfidenzintervall f¨ ur die Varianz σ 2 . n 1 2 2 Als Sch¨atzer f¨ ur σ verwenden wir S = n−1 · i=1 (Xi − X)2 . Wird dieser geeignet normiert, so ist er χ2 -verteilt mit (n − 1) Freiheitsgraden, genauer gilt n−1 · S 2 ∼ χ2n−1 . σ2 2∗ Bezeichnen χ2∗ n−1;α/2 und χn−1;1−α/2 das (α/2)- bzw. das (1 − α/2)2 Quantil der χ -Verteilung mit n − 1 Freiheitsgraden, dann l¨ asst sich ein Konfidenzintervall f¨ ur σ 2 wie folgt herleiten
156
3. Philosophie des Sch¨atzens
1−α
=
=
=
n−1 2 2∗ α ≤ α P χ2∗ · S ≤ χ n−1; 2 n−1;1− 2 σ2 χ2∗ χ2∗ 1 n−1; α n−1;1− α 2 2 P ≤ ≤ 2 2 (n − 1) · S σ (n − 1) · S 2 (n − 1) · S 2 (n − 1) · S 2 2 . P ≤ σ ≤ χ2∗ χ2∗ n−1;1− α n−1; α 2
2
Als zweiseitiges Konfidenzintervall ergibt sich damit (n − 1) · S 2 (n − 1) · S 2 . KIσ2 = ; χ2∗ χ2∗ n−1;1− α n−1; α 2
2
Konfidenzintervalle bei Binomialverteilung
B
Beispiel Einseitiges Konfidenzintervall f¨ ur den Anteil p bei Binomialverteilung, kleiner Stichprobenumfang
Bei einem W¨ urfelspiel kommt einem Spieler der Verdacht, dass sein Mitspieler m¨oglicherweise einen gezinkten W¨ urfel verwendet, der in mehr als 1/6 der F¨ alle eine Sechs w¨ urfelt. Er l¨ asst sich daher den W¨ urfel des Mitspielers geben und w¨ urfelt 30-mal. Unter seinen Ergebnissen befinden sich zehn Sechsen. Gesucht ist ein einseitiges, oberes Konfidenzintervall zum Niveau (1 − α) = 0, 95 f¨ ur die Wahrscheinlichkeit, dass der W¨ urfel eine Sechs w¨ urfelt. Jeder Wurf Xi kann als Bernoulli-Experiment angesehen werden. Die Erfolgswahrscheinlichkeit ist in diesem Fall die Wahrscheinlichkeit p f¨ ur das Werfen einer Sechs. Sie ist unbekannt, aber in jedem der Experimente dieselbe. Setzen wir Xi = 1, falls beim i-ten Wurf eine Sechs geworfen wird, und Xi = 0 in allen anden ren F¨allen, so ist i=1 Xi binomialverteilt mit Parametern n und p, wobei n = 30 und p unbekannt ist. Da ein einseitiges, oberes Konfidenzintervall ur p, so dass gesucht ist, ist Ko = 1. Gesucht ist also eine untere Grenze Ku f¨ n P Xi ≥ 10| p = Ku ≥ 0, 95. i=1
3.6
Intervallsch¨ atzung
157
Das heißt, es ist der kleinstm¨ogliche Wert f¨ ur p zu bestimmen, so dass die Wahrscheinlichkeit, 10 oder mehr Sechsen zu w¨ urfeln, mindestens 95% betr¨ agt. Formal ergibt sich als L¨osung n 1 Xi ≥ 10| p ≥ 0, 95 . Ku = min p : P p
i=1
Zur Bestimmung von Ku muss in unserem konkreten Fall der kleinste Wert f¨ ur p bestimmt werden, so dass die Ungleichung 30 30 · pk · (1 − p)30−k ≥ 0, 95 k
k=10
erf¨ ullt ist. Dies ist rechnerisch nur sehr aufw¨ andig l¨ osbar. Durch Nachschlagen in Tabellen oder mit Hilfe eines entsprechenden Computerprogrammes erhalten wir das Ergebnis Ku = 0, 465. Die Realisierung des oberen 95%Konfidenzintervalls f¨ ur p ist also gegeben durch [0, 465 ; 1]. Da der Wert 1/6 = 0,167 nicht in diesem Intervall liegt, k¨ onnen wir folgern, dass der W¨ urfel B mit einer h¨ oheren Wahrscheinlichkeit als 1/6 eine Sechs w¨ urfelt. Beispiel (Fortsetzung 156) Zweiseitiges Konfidenzintervall f¨ ur den Anteil p bei Binomialverteilung, großer Stichprobenumfang
Wir betrachten wieder einen W¨ urfel, dessen Wahrscheinlichkeit, Sechsen zu w¨ urfeln, beurteilt werden soll. Die betrachtete Stichprobe X1 , . . . , Xn , wobei Xi ∼ Bin(1, p), i = 1, . . . , n, sei diesmal groß. In diesem Fall l¨asst sich unter Anwendung des Zentralen Grenzwertsatzes e die Zufallsvariable n X = n1 i=1 Xi geeignet standardisieren, so dass diese Gr¨oße approximativ standardnormalverteilt ist 92. Von Interesse ist, wie ein zweiseitiges Konfidenzintervall f¨ ur p zum Niveau (1 − α) bestimmt werden kann. Als Punktsch¨ atzer f¨ ur p verwenden wir den Anteil der gew¨ urfelten Sechsen. Wird diese Zufallsvariable entsprechend dem Zentralen Grenzwertsatz standardisiert, ist sie approximativ standardnormalverteilt. Es gilt E[X] = p und Var[X] = n1 · p · (1 − p), folglich ist approximativ √ X −p ∼ N (0, 1). n· p · (1 − p) Im Folgenden ersetzen wir im Nenner den Term p · (1 − p) durch den Sch¨ atzer ∗ X · (1 − X). Bezeichnet z1−α das (1 − α)-Quantil der Standardnormalverteilung, so l¨ asst sich ein approximatives Konfidenzintervall f¨ ur den Anteil p
B
158
3. Philosophie des Sch¨atzens
folgendermaßen herleiten ⎞ ⎛ √ X − p ∗ ∗ α ≤ α⎠ ≤ z1− n· ! 1 − α ≈ P⎝−z1− 2 2 X · (1 − X) ⎛ ⎞ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎠, α · α · = P⎝X − z1− ≤ p ≤ X + z1− 2 2 n n wobei die Umformungen analog zur Herleitung im Falle der Normalverteilung erfolgen. Ein zweiseitiges Konfidenzintervall f¨ ur p lautet somit ⎤ ⎡ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎦, α · α · ; X + z1− KIp = ⎣X − z1− 2 2 n n es ist aber bedingt durch das Ersetzen der echten Varianz durch ihren Sch¨ atzer nur approximativ. Einseitige Konfidenzintervalle erh¨ alt man auf analogem ∗ ∗ Weg unter Verwendung der Quantile z1−α statt z1−α/2 . B Konfidenzintervalle f¨ ur den Anteil p bei Binomialverteilung, große Stichprobe Seien X1 , . . . , Xn unabh¨ angige und identisch bernoulliverteilte Stichpron benvariablen mit Erfolgswahrscheinlichkeit p ∈ [0; 1]. Sei damit i=1 Xi binomialverteilt mit Parametern n und p. Als Daumenregel gilt: n ≥ 30, n·p ≥ 5 und n·(1−p) ≥ 5. Zu einer vorgegebenen Wahrscheinlichkeit α ∈ (0; 1) sind folgende Intervalle approximative (1 − α)-Konfidenzintervalle f¨ ur p: ⎤ ⎡ 9 X · (1 − X) ⎦ ist ein einseitiges, ∗ ⎣0; X + z1−α · unteres Konfidenzintervall, n ⎡ ∗ ⎣X − z1−α ·
⎡ ∗ ⎣X − z1− α · 2
9
⎤ X · (1 − X) ⎦ ;1 n
ist ein einseitiges, oberes Konfidenzintervall,
9
9 X · (1 − X) ∗ α · ; X + z1− 2 n
⎤ X · (1 − X) ⎦ n ist ein zweiseitiges Konfidenzintervall.
3.6
Intervallsch¨ atzung
Dabei ist X =
1 n
·
159
n i=1
∗ Xi und z1−α das (1 − α)-Quantil der N (0, 1).
Approximative Konfidenzintervalle bei beliebiger Verteilung
Beispiel Zweiseitige Konfidenzintervalle
B
Ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert einer Verteilung (unbekannten Typs) kann bei bekannter Varianz mit folgendem Verfahren recht einfach bestimmt werden. Es sei X eine Zufallsvariable mit beliebiger Verteilung, deren Erwartungswert E[X] = ϑ existiert und deren Varianz σ 2 bekannt ist. Es seien weiter X1 , . . . , Xn unabh¨ angige Stichprobenvariablen mit der gleichen Verteilung wie X. Das arithmetische Mittel X als Sch¨atzer f¨ ur den Erwartungswert ϑ ist nach dem Zentralen Grenzwertsatz e f¨ ur wachsende Stichprobenumf¨ ange ann¨ ahernd normalverteilt, wenn man es geeignet standardisiert. Ein approximatives Konfidenzintervall f¨ ur ϑ zum Niveau (1 − α) erh¨alt man daher mit ) * σ σ ∗ ∗ α · √ ;X + z α · √ Kϑ = X − z1− . 1− 2 2 n n ∗ Dabei ist z1−α das (1 − α)-Quantil der Standardnormalverteilung.
Falls die Varianz nicht bekannt ist, so muss sie zun¨ achst mit n 1 2 2 S = n−1 · i=1 (Xi − X) gesch¨atzt werden. Das Konfidenzintervall wird dann unter Einbeziehung von S 2 anstelle von σ 2 berechnet, wobei statt der Quantile der Normalverteilung die der t-Verteilung mit n − 1 Freiheitsgraden zu verwenden sind. Dadurch erh¨ alt man ) * S S KIϑ = X − t∗n−1;1− α2 · √ ; X + t∗n−1;1− α2 · √ . n n Ist der Stichprobenumfang ausreichend groß, n ≥ 30, k¨ onnen statt der tQuantile (t∗n−1;α ) wieder die Quantile der Standardnormalverteilung (zα∗ ) B verwendet werden. Beispiel Einseitige Konfidenzintervalle
Einseitige Konfidenzintervalle zum Niveau (1 − α) lassen sich analog zu den zweiseitigen Konfidenzintervallen berechnen. Bei bekannter Varianz sind ein-
B
160
3. Philosophie des Sch¨atzens
seitige Konfidenzintervalle gegeben durch * σ ∗ √ KIϑ = −∞; X + z1−α · n ) σ ∗ √ X − z1−α · ; +∞ KIϑ = n
(unteres) (oberes).
Entsprechend sind die Formeln bei unbekannter Varianz, welche dann durch S 2 gesch¨atzt wird * S KIϑ = −∞; X + t∗n−1;1−α · √ (unteres) n ) S X − t∗n−1;1−α · √ ; ∞ (oberes). KIϑ = n B Das Konstruktionsprinzip von Konfidenzintervallen f¨ ur den Erwartungswert einer Verteilung ist angelehnt an die 3 · σ-Regel e. F¨ ur eine normalverteilte Zufallsvariable werden ca. 66% ihrer Realisierungen in einem zentralen Intervall von -1 · σ bis +1 · σ um den Erwartungswert liegen. Innerhalb von -2 · σ bis +2 · σ um den Erwartungswert befinden sich etwa 95% aller beobachteten Werte, und in dem Intervall von -3 · σ bis +3 · σ befinden sich rund 99,7% aller Beobachtungen. Entsprechend geht man bei der Konstruktion von Konfidenzintervallen f¨ ur den Erwartungswert ebenfalls von solchen zentralen Bereichen aus, die symmetrisch um den Erwartungswert liegen und dehnt sie so weit aus, bis man davon ausgehen kann, dass ungef¨ ahr (1 − α) · 100% der realisierten Werte in diesem Bereich zu erwarten sind. Das oben beschriebene Konstruktionsverfahren eignet sich approximativ f¨ ur alle unabh¨ angigen, identisch verteilten Stichprobenvariablen. Je kleiner der Stichprobenumfang, desto ungenauer ist im Allgemeinen die Approximation. Stammen die Daten jedoch aus einer Normalverteilung, dann sind die obigen Intervalle wieder exakte (1 − α)-Konfidenzintervalle. Zu beachten ist, dass der Erwartungswert µ nicht notwendigerweise dem Parameter entspricht, der eine Verteilung charakterisiert. Bei der Normalverteilung ist dies zwar f¨ ur µ erf¨ ullt, bei der Exponentialverteilung aber beispielsweise nicht, hier ist λ = µ1 . B
Beispiel Hepatitis B
Hepatitis B z¨ahlt in Deutschland zu den meldepflichtigen Krankheiten. Wir betrachten die 23 St¨adte in Nordrhein-Westfalen, f¨ ur die die j¨ ahrlichen ge-
3.6
Intervallsch¨ atzung
161
meldeten Krankheitsf¨ alle bekannt sind. Da die St¨ adte unterschiedlich große Bev¨olkerungen haben, ist es sinnvoll, die Anzahl der F¨ alle pro 100. 000 Einwohner zu berechnen, die so genannte Inzidenz. Die folgenden Daten ahrliche Inzidenz der 23 St¨ adte an, welche x1 , . . . , x23 geben die mittlere j¨ auf Basis von Daten der 18 Monate von Januar 2001 bis Juni 2002 berechnet wurde. Es interessiert eine Aussage u ¨ ber die Inzidenz in ganz NordrheinWestfalen. 5,76 2,60 5,79
3,98 1,89 0,68
2,63 5,85 1,17
5,71 3,13 12,49
6,42 6,75 4,57
3,29 9,38 27,27
8,30 1,64 1,14
3,42 2,05
Vereinfachend gehen wir davon aus, dass die Verteilung der Inzidenzen in allen St¨ adten gleich ist. Gesucht ist ein zweiseitiges Konfidenzintervall f¨ ur den Erwartungswert der Inzidenzen zum Niveau 1 − α = 0, 95. Da es keine Verteilungsannahme zu den Daten gibt und die Varianz unbekannt ist, wird das Intervall entsprechend der allgemeinen Konstruktion durch ) * S S ∗ ∗ Kϑ = X − tn−1;1− α2 · √ ; X + tn−1;1− α2 · √ n n bestimmt, wobei ϑ den Erwartungswert der j¨ ahrlichen Inzidenz in einer Stadt beschreibt. Als Intervallsch¨ atzung erhalten wir also * ) * ) s s KIϑ = ϑˆ ± t∗n−1;1− α2 · √ = x ± t∗22;0,975 · √ n 23 ) * 5, 575 = 5, 474 ± 2, 0739 · √ = [3, 063; 7, 885]. 23 B Beispiel Kognitive F¨ ahigkeiten
In einem Versuch, der die kognitive Leistungsf¨ ahigkeit von T¨ ummlern erforschen soll, m¨ ussen die Versuchstiere je nach Pr¨asentation bestimmter Objekte (Ball, Reifen, Trillerpfeife, Trainer) mit einem zuvor einge¨ ubten Pfeifen reagieren. Dies bedeutet, dass ein Delfin das Objekt als solches erkannt hat. Hat der Delfin richtig gepfiffen, so wird das jeweilige Tier sofort mit einem Fisch belohnt. In zuf¨ alliger Reihenfolge werden f¨ unf T¨ ummlern die Objekte mehrfach gezeigt. Insgesamt wurde der Ball 48-mal gezeigt und 41-mal richtig erkannt. Die Trillerpfeife wurde 42-mal pr¨ asentiert und 18-mal richtig erkannt. Gesucht sind f¨ ur beide Objekte Konfidenzintervalle zum Niveau 0, 95
B
162
3. Philosophie des Sch¨atzens
f¨ ur die Wahrscheinlichkeit, dass die Delfine die Objekte jeweils richtig erkennen. Wir gehen hier davon aus, dass jedes Tier zu jeder Zeit ein bestimmtes Objekt mit der jeweils gleichen Wahrscheinlichkeit richtig erkennt. Da wir voraussetzen, dass das Ereignis einer richtigen Reaktion bernoulliverteilt ist mit unbekanntem Parameter p, ist die Anzahl richtiger Antworten f¨ ur ein bestimmtes Objekt binomialverteilt mit diesem Parameter p. Ein approximatives Konfidenzintervall ist gegeben durch ⎤ ⎡ 9 9 X · (1 − X) X · (1 − X) ∗ ∗ ⎦. α · α · ; X + z1− KIp = [Ku ; Ko ] = ⎣X − z1− 2 2 n n Die Anwendung der Approximationsformel ist erlaubt, da die Stichprobenumf¨ ange hier mit nBall = 48 bzw. nPfeife = 42 gr¨ oßer sind als 30. Durch 18 Einsetzen von nBall = 48, nPfeife = 42 sowie xBall = 41 48 und xPfeife = 42 erhalten wir als Sch¨ atzungen : 0, 854 · 0, 146 Ball = [0, 754; 0, 954] KIp = 0, 854 ± 1, 9599 · 48 und Pfeife
KIp
=
: 0, 429 ± 1, 9599 ·
0, 429 · 0, 571 = [0, 279; 0, 579]. 42 B
Konfidenzintervalle im linearen Regressionsmodell
Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n,
werden die Parameter β0 und β1 gesch¨atzt, aber auch der Wert von Y f¨ ur einen nicht beobachteten Wert x der Einflussgr¨ oße vorhergesagt. Hierbei h¨ angen die Sch¨ atzungen β%0 , β%1 und y% von der Zufallsstichprobe ab und nehmen f¨ ur unterschiedliche Stichproben verschiedene Werte an. Aus diesem Grund kann es auch in der Regressionsanalyse von Interesse sein, Konfidenzintervalle zu bestimmen, die die wahren Gr¨ oßen mit einer vorgegebenen Wahrscheinlichkeit (1−α) u ¨berdecken. Bei der einfachen linearen Regression k¨onnen insbesondere Bereichssch¨atzer f¨ ur β0 und β1 berechnet werden.
3.6
Intervallsch¨ atzung
163
Sch¨ atzer f¨ ur die Varianz Gegeben ist das einfache lineare Regressionsmodell Yi = β0 + β1 · xi + εi mit E(εi ) = 0 und Var(εi ) = σ 2 f¨ ur alle i = 1, . . . , n. In der Bemerkung 143 zum Zusammenhang zwischen den KleinsteQuadrate- und den Maximum-Likelihood-Sch¨ atzern wurde auch auf die Sch¨ atzung der Varianz σ 2 von εi bzw. Yi eingegangen. Dabei ergab sich, dass der ML-Sch¨ atzer f¨ ur σ 2 verzerrt ist. Zur Herleitung des unverzerr¨berlegen wir, wie die Varianz im Allgemeinen ten Sch¨atzers f¨ ur σ 2 u gesch¨atzt wird. Bei unabh¨ angigen und identisch verteilten Zufallsvariaur Var(Yi ) in der Regel die blen Yi zieht man als unverzerrten Sch¨atzer f¨ Stichprobenvarianz 69 S2 =
n 1 · (Yi − Y )2 n − 1 i=1
heran. Im linearen Regressionsmodell sind die Yi jedoch nicht mehr identisch ur alle i = verteilt, insbesondere sind die Erwartungswerte E(Yi ) nicht f¨ atzer f¨ ur den 1, . . . , n identisch. Daher kann man auch Y nicht als Sch¨ ” Erwartungswert“, das heißt alle Erwartungswerte E(Yi ) verwenden. Statt + TβKQ · xi eingesetzt. dessen werden hier die Prognosen Y%i = TβKQ 0 1 2 atzer ein einzelner ParameIm Fall von S geht in den Varianzsch¨ ur E(Yi ). Das ist der Grund daf¨ ur, dass die tersch¨ atzer ein, n¨ amlich Y f¨ n Quadratsumme i=1 (Yi − Y )2 durch n − 1 statt durch n geteilt wird. Man sagt, dass durch die Sch¨atzung von E(Yi ) ein Freiheitsgrad verloren geht. Im Fall des einfachen linearen Regressionsmodells m¨ ussen f¨ ur die Prognosen Y%i die zwei Parameter β0 und β1 gesch¨atzt werden. Dadurch gehen hier zwei Freiheitsgrade verloren, und man teilt die Quadratsumme durch n − 2. Als unverzerrte Sch¨atzung f¨ ur σ 2 ergibt sich σ %
2
n 1 · = (yi − y%i )2 n − 2 i=1
=
TσU2 ((x1 , y1 ), . . . , (xn , yn ))
=
n 1 · (yi − β%0 − β%1 · xi )2 . n − 2 i=1
164
3. Philosophie des Sch¨atzens
Verteilungen der Parametersch¨ atzer Sind im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi mit E(εi ) = 0 und Var(εi ) = σ 2 die Fehler normalverteilt, dann sind auch und TβKQ normalverteilt. Daraus folgt unmittelbar, die KQ-Sch¨ atzer TβKQ 0 1 KQ 2 oßen dass mit σj = Var(Tβj ) die Gr¨ TβKQ − βj j ! , σj2
j = 0, 1
atzer standardnormalverteilt sind. Sch¨ atzt man die Varianzen σj2 der Sch¨ KQ Tβj , j = 0, 1 durch Tσ02 =
TσU2
n x2 n i=1 i · n · i=1 (xi − x)2
und
TσU2 , 2 i=1 (xi − x)
Tσ12 = n
so sind TβKQ − βj j ! , Tσj2
j = 0, 1
t-verteilt mit n − 2 Freiheitsgraden. atzer f¨ ur die Varianz σ 2 aus der Dabei ist TσU2 der unverzerrte Sch¨ atzung der Fehlervarianz. Bemerkung 163 zur Sch¨ Auf Grundlage dieser Verteilungs¨ uberlegungen lassen sich die folgenden Wahrscheinlichkeitsaussagen treffen ⎞ ⎛ KQ T − β j β j ≤ t∗n−2;1− α2 ⎠ = 1 − α, j = 0, 1. P ⎝t∗n−2; α2 ≤ ! Tσj2 Dabei ist t∗n−2;p das p-Quantil der t-Verteilung mit n − 2 Freiheitsgraden. Durch Umformung dieser Wahrscheinlichkeitsaussage lassen sich Konfidenzintervalle f¨ ur β0 und β1 aufstellen.
3.6
Intervallsch¨ atzung
165
Konfidenzintervalle f¨ ur die Regressionskoeffizienten Mittels der Verteilungen der Parametersch¨ atzer 164 lassen sich folgende Konfidenzintervalle f¨ ur die Regressionskoeffizienten β0 und β1 des einfachen linearen Regressionsmodells aufstellen: f¨ ur β0 ist +
TβKQ − 0
!
Tσ02 · t∗n−2;1− α2 ; TβKQ + 0
!
Tσ02 · t∗n−2;1− α2
,
ein Konfidenzintervall zum Niveau 1 − α, mit n x2 n i=1 i Tσ02 = TσU2 · ; n · i=1 (xi − x)2 f¨ ur β1 ist +
TβKQ − 1
!
Tσ12 · t∗n−2;1− α2 ; TβKQ + 1
!
Tσ12 · t∗n−2;1− α2
,
ein Konfidenzintervall zum Niveau 1 − α, mit TσU2 . 2 i=1 (xi − x)
Tσ12 = n Dabei ist wieder TσU2 =
n 1 · (Yi − Y%i )2 n − 2 i=1
der unverzerrte Sch¨ atzer f¨ ur die Varianz σ 2 der εi . Beispiel (Fortsetzung 135 138) Gewinn eines Unternehmers
B
Im Beispiel 138 des Unternehmers waren zu den produzierten Mengen die folgenden Gewinne erzielt worden: Menge xi (in 1 000 St¨ uck) Gewinn yi (in Euro)
5 2 600
6 3 450
8 5 555
F¨ ur das einfache lineare Regressionsmodell Yi = β0 + β1 · xi + εi haben wir als KQ-Sch¨ atzungen β%0 = − 2 361, 25
und
β%1 = 986, 860
10 7 700
12 9 350
166
3. Philosophie des Sch¨atzens
erhalten. Damit ergeben sich die vorhergesagten Werte y%i = β%0 + β%1 · xi , die gesch¨atzten Residuen ri und die Residuenquadrate ri2 zu xi yi y%i ri ri2
5 2 600 2 573,05 26,95 726,3025
6 3 450 3 559,91 - 109,91 12 080,2081
8 5 555 5 533,63 21,37 456,6769
10 7 700 7 507,35 192,65 37 114,0225
12 9 350 9 481,07 - 131,07 17 179,3449
Zur Berechnung der Konfidenzintervalle f¨ ur β0 und β1 bestimmen wir den Sch¨ atzwert f¨ ur die Fehlervarianz σ 2 : n n 1 1 67 556, 55 2 σ % = · · = 22 518, 85. (yi − y%i ) = r2 = n − 2 i=1 n − 2 i=1 i 3 2
Als Sch¨atzungen f¨ ur die Varianzen σ02 und σ12 der Sch¨atzer f¨ ur β0 und β1 berechnen wir n 2 369 2 2 i=1 xi = 50 677, 41, σ %0 = σ % · = 22 518, 85 · n 5 · 32, 8 n · i=1 (xi − x)2 σ %2 22 518, 85 = 686, 5503. = 2 32, 8 i=1 (xi − x)
σ %12 = n
Die zur Berechnung verwendeten Zwischenergebnisse sind aus der Tabelle der Hilfsgr¨ oßen im Beispiel 138 des Unternehmers bzw. aus der Berechnung der KQ-Sch¨ atzwerte zu entnehmen. Zu einer Irrtumswahrscheinlichkeit von α = 0, 05 ergeben sich damit die Realisationen der 95%-Konfidenzintervalle f¨ ur β0 und β1 als * ) ! ! β%0 − σ %02 · t∗n−2;1− α2 ; β%0 + σ %02 · t∗n−2;1− α2 =
und
− 2 361, 25 − 225, 1164 · t∗3;0,975 ; − 2 361, 25 + 225, 1164 · t∗3;0,975
=
[− 2 361, 25 − 225, 1164 · 3, 1824 ; − 2 361, 25 + 225, 1164 · 3, 1824]
=
[− 3 077, 66 ; − 1 644, 84]
f¨ u r β0
3.6
Intervallsch¨ atzung
167
) * ! ! β%1 − σ %12 · t∗n−2;1− α2 ; β%1 + σ %12 · t∗n−2;1− α2 =
986, 860 − 26, 2021 · t∗3;0,975 ; 986, 860 + 26, 2021 · t∗3;0,975
= [986, 860 − 26, 2021 · 3, 1824 ; 986, 860 + 26, 2021 · 3, 1824] = [903, 47 ; 1 070, 25]
f¨ ur β1 . B
Beispiel (Fortsetzung 140) Intelligenz und Probleml¨ osen
B
Im Beispiel 140 der Untersuchung des Zusammenhangs zwischen der Intelligenz und der Probleml¨ osef¨ahigkeit von Abiturienten ergaben sich die Sch¨ atzwerte der Regressionskoeffizienten zu β%0 = 9, 59
und
β%1 = − 0, 060.
Die beobachteten und vorhergesagten Werte, die gesch¨ atzten Residuen und die quadrierten Residuen sind in der folgenden Tabelle zusammengestellt i xi yi y%i ri ri2
1 100 3,8 3,59 0,21 0,0441
2 105 3,3 3,29 0,01 0,0001
3 110 3,4 2,99 0,41 0,1681
4 115 2,0 2,69 - 0,69 0,4761
5 120 2,3 2,39 - 0,09 0,0081
6 125 2,6 2,09 0,51 0,2601
7 130 1,8 1,79 0,01 0,0001
8 135 1,6 1,49 0,11 0,0121
Zur Berechnung der Konfidenzintervalle f¨ ur β0 und β1 ben¨ otigt man die Sch¨ atzung f¨ ur die Varianz σ 2 σ %2 =
n n 1 1 0, 9688 · · = 0, 1615. (yi − y%i )2 = r2 = n − 2 i=1 n − 2 i=1 i 6
Als Sch¨atzungen f¨ ur die Varianzen σ02 und σ12 der Sch¨atzer f¨ ur β0 und β1 ergeben sich n x2 111 500 2 2 n i=1 i = 2, 1437 σ %0 = σ % · = 0, 1615 · 2 8 · 1 050 n · i=1 (xi − x) σ %2 0, 1615 = 0, 0002. = 2 1 050 (x − x) i=1 i
σ %12 = n
168
3. Philosophie des Sch¨atzens
Die zur Berechnung verwendeten Zwischenergebnisse sind aus den Berechnungen im Beispiel 140 entnommen. Zu einer Irrtumswahrscheinlichkeit von α = 0, 1 ergeben sich damit die Realisationen der 90%-Konfidenzintervalle f¨ ur β0 und β1 als * ) ! ! β%0 − σ %02 · t∗n−2;1− α2 ; β%0 + σ %02 · t∗n−2;1− α2 =
9, 59 − 1, 4641 · t∗6;0,95 ; 9, 59 + 1, 4641 · t∗6;0,95
=
[9, 59 − 1, 4641 · 1, 9432 ; 9, 59 + 1, 4641 · 1, 9432]
=
[6, 74 ; 12, 44]
f¨ ur β0
und * ) ! ! ∗ ∗ 2 2 % % β1 − σ %1 · tn−2;1− α2 ; β1 + σ %1 · tn−2;1− α2 =
− 0, 060 − 0, 0141 · t∗6;0,95 ; − 0, 060 + 0, 0141 · t∗6;0,95
=
[− 0, 060 − 0, 0141 · 1, 9432 ; − 0, 060 + 0, 0141 · 1, 9432]
=
[−0, 09 ; −0, 03]
f¨ ur β1 . B
Kapitel 4 Philosophie des Testens
4
4
4
Philosophie des Testens
4.1 4.2
Unschuldig bis zum Beweis des Gegenteils“ ............... 171 ” Beispiele ........................................................... 173
4.3
Grundlagen des Testens ........................................ 174
4.4
Wie kommt man zu einem Test? ............................. 205
171
4.1
Unschuldig bis zum Beweis des Gegenteils“ ”
171
4 Philosophie des Testens 4.1 Unschuldig bis zum Beweis des Gegenteils“ ” Der Filialleiter eines Drogeriemarkts stellt fest, dass seit einiger Zeit im Vergleich zu den Mengen an Kunden, die sich im Schnitt t¨ aglich dort aufhalten, ¨ die Einnahmen relativ gering sind. Durch versch¨ arfte Uberwachung des Personals ger¨ at ein Kassierer unter Verdacht, an seiner Kasse Einnahmen zu unterschlagen. Er wird verhaftet und vor Gericht gestellt. Staatsanwaltschaft und Verteidigung sammeln Zeugenaussagen, Indizien und Hinweise (mit anderen Worten: Daten), die f¨ ur bzw. gegen die Schuld des Angeklagten sprechen. Bei der gerichtlichen Untersuchung geht die Staatsanwaltschaft von der Annahme aus, einen Schuldigen vor sich zu haben und versucht, ihm diese Schuld anhand der erhobenen Daten f¨ ur den Richter glaubhaft nachzuweisen. Auf der anderen Seite geht die Verteidigung davon aus, dass ihr Mandant unschuldig ist, und versucht ebenfalls mit Hilfe der Daten, dem Richter dies plausibel zu machen. Der Richter hat nun prinzipiell zwei M¨ oglichkeiten. Strategie 1: Er kann davon ausgehen, dass der Angeklagte schuldig ist (Schuldvermutung). Dann steht die Verteidigung unter Beweiszwang. Der Angeklagte kann nur freigesprochen werden, wenn gen¨ ugend viele Indizien gegen seine Schuld sprechen. Strategie 2: Er kann davon ausgehen, dass der Angeklagte unschuldig ist (Unschuldsvermutung). Dann steht die Staatsanwaltschaft unter Beweiszwang. Der Angeklagte kann nur dann schuldig gesprochen werden, wenn gen¨ ugend viele Indizien f¨ ur seine Schuld sprechen. Solange die Hinweise (Daten) nicht stark genug auf die Schuld des Angeklagten hindeuten, bleibt die Unschuldsvermutung bestehen ( im Zweifel f¨ ur den Angeklag” ten“), und der Angeklagte wird freigesprochen. Gehen wir nun einmal davon aus, dass der Angeklagte tats¨ achlich schuldig ist. Bei der ersten Strategie des Richters m¨ usste die Verteidigung dann sehr starke Argumente beibringen, die auf seine Unschuld hinweisen, um einen (in diesem Fall fehlerhaften) Freispruch zu erreichen. Es ist nicht sehr wahrscheinlich, dass dies gelingen kann. Die Wahrscheinlichkeit f¨ ur die korrekte Verurteilung eines Schuldigen ist damit sehr hoch. Bei der zweiten Strategie des Richters muss die Anklage die z¨ undenden Argumente haben, um eine Verurteilung zu erreichen. Die Wahrscheinlichkeit f¨ ur die Verurteilung eines Schuldigen wird immer noch hoch sein, wenn die vor-
4.1
172
4. Philosophie des Testens
liegenden Daten stark genug f¨ ur seine Schuld sprechen. Es wird aber h¨ aufiger als unter Strategie 1 vorkommen, dass ein Schuldiger freigesprochen wird. Gehen wir andererseits davon aus, dass der Angeklagte unschuldig ist. Bei Strategie 1 muss die Verteidigung dann wieder sehr starke Argumente f¨ ur seine Unschuld haben, damit er korrekterweise freigesprochen wird. Die Wahrscheinlichkeit f¨ ur die f¨ alschliche Verurteilung eines Unschuldigen ist damit sicher h¨ oher als unter Strategie 2. Bei der zweiten Strategie des Richters dagegen muss erneut die Anklage u ¨ berzeugende Hinweise f¨ ur die Schuld des Angeklagten beibringen, damit der Richter ihn (in diesem Fall f¨ alschlicherweise) verurteilt. Das d¨ urfte bei einem Unschuldigen zumindest schwieriger sein. Die Wahrscheinlichkeit f¨ ur die Verurteilung eines Unschuldigen wird deutlich geringer sein als unter Strategie 1. Insgesamt sichert man also mit Strategie 1, dass Schuldige h¨aufiger verurteilt werden. Daf¨ ur bezahlt man den Preis, dass auch Unschuldige leichter f¨ alschlicherweise verurteilt werden. Mit Strategie 2 dagegen ist die Wahrscheinlichkeit der Verurteilung eines Unschuldigen geringer. Daf¨ ur nimmt man in Kauf, ¨ dass auch ein Schuldiger leichter freigesprochen wird. Nach diesen Uberlegungen ist Strategie 2 diejenige, die st¨arker dem Schutz von Unschuldigen dient. Sie wird daher in Rechtsstaaten verfolgt. Die beiden m¨oglichen Vermutungen des Richters (Angeklagter ist schuldig bzw. Angeklagter ist unschuldig) kann man auch als Hypothesen bezeichnen, deren G¨ ultigkeit anhand der vorliegenden Daten beurteilt werden soll. Dabei handelt es sich um eine Entscheidung zwischen zwei einander ausschließenden Aussagen. Der Angeklagte kann in Bezug auf das ihm zur Last gelegte Verbrechen nur entweder schuldig oder unschuldig sein. ¨ Ahnlich wie hier dargestellt, kann man auch in statistischen Untersuchungen zwei einander widersprechende Forschungshypothesen gegeneinander stellen und eine Entscheidung auf Basis vorliegenden Datenmaterials herbeif¨ uhren. Wie im Beispiel der Gerichtsverhandlung muss man sich u ¨berlegen, welche Fehlentscheidungen passieren k¨onnen und was die Konsequenzen sind. Statistische Hypothesentests dienen zur Entscheidung zwischen zwei solchen Forschungshypothesen. Dabei wird zur Entscheidung eine Entsprechung der Unschuldsvermutung als Prinzip benutzt.
4.2
Beispiele
173
4.2 Beispiele Beispiel Einf¨ uhrung eines neuen Handys
4.2
B
Ein neues Handy soll als Konkurrenz f¨ ur ein bereits angebotenes Ger¨at auf dem Markt eingef¨ uhrt werden. Damit sich die Einf¨ uhrung f¨ ur den Anbieter finanziell lohnt, muss die Verkaufswahrscheinlichkeit p f¨ ur das neue Ger¨ at h¨ oher sein als f¨ ur das alte. Aus den Produktions- und Verkaufszahlen f¨ ur das bereits angebotene Handy kennt man dessen Verkaufswahrscheinlichkeit p0 = 0, 6. Der Anbieter m¨ochte also wissen, ob die Verkaufswahrscheinlichkeit f¨ ur das neue Ger¨ at gr¨ oßer ist als 0, 6. Allgemein formuliert, interessiert sich der Anbieter daf¨ ur, wie sich die unbekannte Verkaufswahrscheinlichkeit p des neuen Handys zur Verkaufswahrur diese Unterscheinlichkeit p0 = 0, 6 des alten Handys verh¨alt. Die speziell f¨ suchung interessierenden Forschungshypothesen sind, dass das neue Handy sich entweder mit h¨ ochstens derselben Wahrscheinlichkeit verkaufen wird wie das schon auf dem Markt verf¨ ugbare, oder mit einer h¨ oheren Wahrscheinlichkeit. Es interessiert, ob p ≤ 0, 6 ist oder p > 0, 6. Im ersten Fall wird der Hersteller das neue Ger¨ at nicht bis zur Marktreife weiter entwickeln. Nur wenn er sicher genug sein kann, dass der zweite Fall gilt, lohnt sich f¨ ur ihn die Fortsetzung der Entwicklung. Im Sinne der oben diskutierten Unschuldsvermutung geht der Anbieter so lange davon aus, dass das neue Handy sich nicht besser verkaufen wird als das alte, bis er hinreichend starke Hinweise darauf findet, dass die Verkaufswahrscheinlichkeit f¨ ur das neue Ger¨ at besser B ist. Beispiel Wahlen
Bei Wahlen zum Bundestag oder Europawahlen interessiert besonders kleinere Parteien, ob sie die 5%-H¨ urde nehmen oder nicht. Die beiden hier relevanten Forschungshypothesen sind also, dass der Anteil p der von einer solchen Partei erzielten Stimmen gr¨oßer oder gleich 5% ist, bzw. dass p kleiner ist als 5%. Auf Basis des bereits ausgez¨ahlten Teils der abgegebenen Stimmen wird u ¨ber die G¨ ultigkeit dieser Hypothesen am Wahltag mit jeder Hochrechnung von Neuem entschieden. Schafft die Partei die 5%-H¨ urde nicht, so hat dies f¨ ur sie ernste Konsequenzen: sie ist nicht im gew¨ahlten Gremium vertreten, und die Zahlung von Wahlkampfgeldern f¨ allt weg. Deshalb m¨ochte sie sich lieber gegen ein Fehlurteil in dieser Richtung absichern. Im Sinne der Unschuldsvermutung sollte die Ausgangshypothese also in diesem Fall lauten, B dass p ≥ 5% ist.
B
174
B
4. Philosophie des Testens
Beispiel Fernsehverhalten von Vorschulkindern
Entwicklungspsychologen gehen davon aus, dass das Sozialverhalten von Kindern sich schlechter entwickelt, wenn diese bereits im Vorschulalter zu lange fernsehen. Sitzen Vorschulkinder im Schnitt maximal 75 Minuten t¨ aglich vor dem Fernseher, so gilt dies noch als unkritisch, sind es aber mehr als 75 Minuten, so f¨ uhrt dies zu St¨ orungen in der Entwicklung der Sozialkompetenz. Sollte sich herausstellen, dass deutsche Vorschulkinder t¨ aglich durchschnittlich zu viel fernsehen, so will die Familienministerin eine groß angelegte (und teure) Kampagne zur Aufkl¨ arung der Eltern starten. In einer empirischen Untersuchung soll u ¨berpr¨ uft werden, ob dies notwendig ist. Die hier interessierenden Forschungshypothesen sind also: Vorschulkinder sitzen im Schnitt t¨aglich bis zu 75 Minuten vor dem Fernseher bzw. Vorschulkinder sitzen im Schnitt t¨ aglich mehr als 75 Minuten vor dem Fernseher. Die teure Kampagne wird nur gestartet, wenn es gen¨ ugend starke Hinweise darauf gibt, dass die zweite der genannten Hypothesen tats¨achlich gilt. Ansonsten bleibt es bei der B Unschuldsvermutung“, dass die Kinder nicht zu viel fernsehen. ”
4.3
4.3 Grundlagen des Testens Viele statistische Analysen konzentrieren sich auf die Sch¨atzung unbekannter Gr¨ oßen mit Hilfe von wissenschaftlichen Versuchen und Studien. Sei zum Beispiel das Ziel einer klinischen Studie die Sch¨ atzung des mittleren Blutzuckerspiegels von Patienten nach Behandlung mit einem ausgew¨ ahlten Medikament. Die Wahlbeteiligung einer gerade laufenden Wahl ist von Interesse, oder die Wachstumsrate von Karotten, ged¨ ungt mit einem Substrat aus verschiedenen N¨ ahrstoffen und Mineralien, soll in einem Agrarexperiment gesch¨atzt werden. Die Ergebnisse solcher Studien und Versuche liegen also in Form von Sch¨ atzungen (Punktsch¨ atzungen oder Konfidenzintervalle) f¨ ur die gesuchte Gr¨oße vor. Das Ziel einer Studie kann aber auch eine Entscheidung zwischen zwei sich widersprechenden Aussagen bez¨ uglich der interessierenden Gr¨ oße sein. In der Statistik werden solche Aussagen als Hypothesen bezeichnet. Was genau ist unter einer Hypothese zu verstehen? Sei zum Beispiel in einem chemischen Experiment der Nachweis eines chemischen Stoffes mit Hilfe einer neuen Analysemethode von Interesse. Dann m¨ochte man entscheiden, ob sich die Chemikalie mit dieser neuen Methode tats¨ achlich nachweisen l¨ asst oder ob das nicht der Fall ist. Ein anderes Beispiel ist die Zulassung eines neuen Medikaments. Dazu muss mit Hilfe einer klinischen Studie zun¨ achst nachgewiesen werden, ob das neue Medikament tats¨ achlich wirksam ist. Hier
4.3
Grundlagen des Testens
175
k¨ onnen die Hypothesen wie folgt aufgestellt werden: Einerseits die Hypothese das neue Medikament ist wirksam“, andererseits das neue Medikament ” ” ist nicht wirksam“. Ziel der klinischen Studie ist es nun, durch geeignete Datenerhebung herauszufinden, welche der beiden Hypothesen wahr ist. Die Wirksamkeit des Medikaments l¨ asst sich nat¨ urlich numerisch formulieren. In dem oben beschriebenen Beispiel k¨onnte die Wirksamkeit definiert sein als die Senkung des Blutzuckerspiegels unter einen bestimmten Wert. Dieser Wert betrage bei Erwachsenen circa 110 mg/dl Blut. Die Hypothesen das ” neue Medikament ist wirksam“ und das neue Medikament ist nicht wirksam“ ” k¨ onnen damit a¨quivalent formuliert werden als das Medikament senkt den ” Blutzuckerspiegel im Mittel auf Werte kleiner oder gleich 110 mg/dl Blut“ bzw. das neue Medikament senkt den Blutzuckerspiegel h¨ochstens auf Werte ” gr¨ oßer als 110 mg/dl Blut“. Eine charakterisierende Eigenschaft von statistischen Hypothesen ist, dass sie sich gegenseitig ausschließen. Dies ist im obigen Beispiel der Fall. Außerdem m¨ ussen die Hypothesen den Definitionsbereich des interessierenden Parameters, in unserem Beispiel ist dies der Blutzuckerspiegel, vollst¨andig abdecken. Dies wird durch die obige dichotome Betrachtungsweise (≤ 110 mg/dl oder > 110 mg/dl) gesichert. Eine Entscheidung zwischen zwei sich gegenseitig ausschließenden Hypothesen auf Basis erhobener Daten heißt Test. Allgemein werden die m¨oglichen Ausg¨ ange eines statistischen Experiments dichotom in Form von zwei Hypothesen aufgeteilt. Anschließend wird auf der Grundlage von Wahrscheinlichkeiten eine Entscheidung zwischen den beiden Hypothesen getroffen. Die Vorgehensweise wird in der Statistik unter der Methodik des Testens von Hypothesen zusammengefasst. Definition Statistische Hypothese
Eine statistische Hypothese ist eine zu u ¨berpr¨ ufende Behauptung oder Aussage (auch Glaube oder Feststellung) u ¨ber einen Parameter einer Verteilung oder eine Verteilung selbst.
176
B
4. Philosophie des Testens
Beispiel Hypothesen
Im Beispiel 174 wird vermutet, dass Vorschulkinder t¨aglich durchschnittlich mehr als 75 Minuten vor dem Fernseher verbringen. Der interessierende Parameter ist hier die mittlere Zeit pro Tag, die Vorschulkinder fernsehen. Aufgestellt wird die Behauptung (Hypothese), dass die mittlere Zeit vor dem Fernseher mehr als 75 Minuten betr¨agt. Es wird gesch¨atzt, dass die mittlere verbleibende Lebenszeit bei Patienten, diagnostiziert mit ALS (Amyotrophe Lateralsklerose), nach Diagnosestellung 2,5 Jahre betr¨ agt. Hier ist der interessierende Parameter die ¨ durchschnittliche Uberlebenszeit von Patienten, bei denen ALS diagnostiziert wurde. Eine Behauptung (Hypothese) k¨ onnte sein, dass die mittlere ¨ Uberlebenszeit nach der Diagnose weniger als 2,5 Jahre betr¨agt. Beobachtete Daten aus einer Studie stammen aus einer Normalverteilung B mit Parametern µ und σ 2 . Ein statistisches Testproblem 177 setzt sich aus einer Null- und einer Alternativhypothese zusammen.
Definition Nullhypothese
Die Nullhypothese ist diejenige Hypothese, welche auf ihren Wahrheitsgehalt hin u ¨berpr¨ uft werden soll. Sie beinhaltet den Zustand des Parameters der Grundgesamtheit, der bis zum jetzigen Zeitpunkt bekannt ist oder als akzeptiert gilt. Die Nullhypothese, bezeichnet mit H0 , wird als Ausgangspunkt einer statistischen Untersuchung gesehen, den es zu widerlegen gilt.
Definition Alternativhypothese
Die Alternativhypothese beinhaltet bez¨ uglich der interessierenden Gr¨oße die zur Nullhypothese entgegengesetzte Aussage. Sie ist die eigentliche Forschungshypothese und dr¨ uckt aus, was mittels der statistischen Untersuchung gezeigt werden soll. Die Alternativhypothese wird mit H1 bezeichnet.
Beide Hypothesen widersprechen sich bez¨ uglich der interessierenden Gr¨ oße, sie schließen sich also gegenseitig aus. Vereint u ¨ berdecken Null-und Alternativhypothese den gesamten Definitionsbereich des Parameters.
4.3
B
Grundlagen des Testens
177
Beispiel (Fortsetzung 176) Null- und Alternativhypothesen
Im Beispiel 174 der Vorschulkinder lautete die interessierende Forschungshypothese wie folgt: Die durchschnittliche Zeit, die Vorschulkinder t¨aglich vor dem Fernseher verbringen, betr¨ agt mehr als 75 Minuten. Hier interessiert die mittlere Fernsehdauer µ von Vorschulkindern pro Tag (in Minuten). Das heißt, es soll eine Aussage u ¨ ber den Parameter µ der Verteilung der Fernsehdauer getroffen werden. Bisher ging man davon aus, dass es tats¨achlich doch weniger als 75 Minuten sind. Die Null- und Alternativhypothese lauten dann aglich Nullhypothese: H0 : µ ≤ 75, die mittlere Zeit, die Vorschulkinder t¨ vor dem Fernseher verbringen, betr¨ agt h¨ ochstens 75 Minuten. Alternativhypothese: H1 : µ > 75, die mittlere Zeit, die Vorschulkinder t¨aglich vor dem Fernseher verbringen, betr¨ agt mehr als 75 Minuten. Betr¨agt die mittlere verbleibende Lebensdauer von Patienten, diagnostiziert mit ALS (Amyotrophe Lateralsklerose), weniger als 2,5 Jahre nach Stellung der Diagnose? Hier ist der interessierende Parameter, bezeichnet ¨ mit µ, die durchschnittliche Uberlebenszeit von Patienten, nachdem bei ihnen ALS diagnostiziert wurde. Die Null- und Alternativhypothese lauten dann wie folgt ¨ von PatiNullhypothese: H0 : µ ≥ 2, 5, die mittlere Uberlebenszeit enten, diagnostiziert mit ALS, betr¨ agt mindestens 2,5 Jahre. ¨ von Alternativhypothese: H1 : µ < 2, 5, die mittlere Uberlebenszeit B Patienten, diagnostiziert mit ALS, betr¨ agt weniger als 2,5 Jahre. Definition Statistisches Testproblem
Die Formulierung einer Null- und einer Alternativhypothese bez¨ uglich eines Parameters einer Verteilung oder einer Verteilung selbst wird als statistisches Testproblem bezeichnet.
Im Folgenden formulieren wir Testprobleme zun¨ achst bez¨ uglich eines interessierenden Parameters. Typische Testprobleme f¨ ur Verteilungen selbst werden beim χ2 -Anpassungstest 290 besprochen.
178
4. Philosophie des Testens
Regel Aufstellen eines Testproblems Beschreibe ϑ ∈ Θ den interessierenden Parameter einer Verteilung, dann kann ein statistisches Problem wie folgt definiert sein Problem (1): Problem (2): Problem (3):
H0 : ϑ = ϑ0 H0 : ϑ ≤ ϑ0 H0 : ϑ ≥ ϑ0
gegen gegen gegen
H1 : ϑ = ϑ0 H1 : ϑ > ϑ0 H1 : ϑ < ϑ0
(zweiseitig) (rechtsseitig) (linksseitig)
wobei ϑ0 ein beliebiger Wert aus dem zul¨assigen Definitionsbereich Θ ist. Welches dieser drei Testprobleme geeignet ist, h¨angt von der zu untersuchenden Fragestellung ab.
B
Beispiel Schokoladentafeln
Die Firma Schoko stellt Schokoladentafeln her. Auf der Verpackung wird ihr Gewicht mit 100 g angegeben. Durch zuf¨ allige Schwankungen im Produktionsprozess bedingt, wiegt nicht jede Tafel exakt 100 g. Ein Kunde m¨ochte wissen, wie es um das Durchschnittsgewicht µ aller hergestellten Tafeln bestellt ist. Er kauft 15 dieser Tafeln und ermittelt das mittlere Gewicht. Die folgenden Testprobleme k¨ onnten von Interesse sein Problem (1): Problem (2): Problem (3):
H0 : µ = 100 g H0 : µ ≤ 100 g H0 : µ ≥ 100 g
gegen gegen gegen
H1 : µ = 100 g (zweiseitig) H1 : µ > 100 g (rechtsseitig) H1 : µ < 100 g (linksseitig)
Problem (1): =“ gegen =“ ” ” Der Kunde ist nur daran interessiert, ob die vom Hersteller angegebenen 100 g exakt eingehalten werden. Ob bei einer eventuellen Abweichung von 100 g die Schokoladentafeln im Schnitt mehr oder weniger als 100 g wiegen, ist nicht von Interesse. Problem (2): ≤“ gegen >“ ” ” Dieses Testproblem ist sinnvoll, wenn der Verdacht besteht, dass die Tafeln im Mittel mehr als 100 g wiegen. In diesem Fall w¨ urde der Kunde mehr Schokolade f¨ ur sein Geld erhalten. Problem (3): ≥“ gegen µ0 .
B
Beispiel Erk¨ altungsdauer
B
Eine herk¨ ommliche Erk¨altung dauert im Durchschnitt unter einer Standardbehandlung 6,5 Tage. Kann durch die zus¨ atzliche Einnahme eines Zinkpr¨aparates die durchschnittliche Erk¨altungsdauer verringert werden? In Worten formuliert bedeutet dies zun¨ achst f¨ ur das Aufstellen der Null- und Alternativhypothese: H0 : Die durchschnittliche Erk¨ altungsdauer betr¨ agt mindestens 6,5 Tage. altungsdauer betr¨ agt weniger als 6,5 Tage. H1 : Die durchschnittliche Erk¨ Formal schreibt man Null- und Alternativhypothese wie folgt: Sei der Parameter µ definiert als die durchschnittliche Erkrankungsdauer in Tagen unter Einnahme des Zinkpr¨ aparates. Dann l¨ asst sich das Testproblem schreiben als: H0 : µ ≥ 6, 5
gegen
H1 : µ < 6, 5.
B
180
4. Philosophie des Testens
Unterscheidung in zweiseitige und einseitige Testprobleme Testprobleme werden unterschieden in einseitige und zweiseitige Testprobleme. Diese Einteilung erfolgt in Abh¨ angigkeit von H1 , der Alternativhypothese. Testet man die Hypothese H0 : ϑ = ϑ0 gegen die Alternative H1 : ϑ = ϑ0 , so deckt die Alternativhypothese den Parameterbereich links und rechts der Nullhypothese ab. In diesem Fall spricht man von einem zweiseitigen Testproblem. Als einseitige Probleme werden dagegen Testprobleme bezeichnet, bei denen sich die Alternativhypothese nur in eine Richtung von dem unter der Nullhypothese angenommenen Wert des Parameters bewegt. Das Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 bezeichnet ein rechtsseitiges Problem, w¨ahrend H0 : ϑ ≥ ϑ0 gegen H1 : ϑ < ϑ0 ein linksseitiges Testproblem bezeichnet.
Unterscheidung in einfache und zusammengesetzte Hypothesen W¨ ahlt man mit Nullhypothese oder Alternative nur einen Wert aus dem Parameterraum aus, dann nennt man eine solche Hypothese einfach. So ist zum Beispiel H0 : ϑ = ϑ0 eine einfache Nullhypothese. Wird dagegen eine Menge von Werten f¨ ur den Parameter zugelassen, spricht man von einer zusammengesetzten Hypothese. Im Testproblem H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 sind sowohl Nullhypothese als auch Alternative zusammengesetzt.
Definition Teststatistik
Mit Hilfe eines statistischen Tests soll eine Entscheidung zwischen der Null- und der Alternativhypothese getroffen werden. Basierend auf einer geeignet gew¨ahlten Pr¨ ufgr¨ oße liefert der statistische Test eine formale Entscheidungsregel. Die Pr¨ ufgr¨ oße ist dabei eine Funktion, die auf die Beobachtungen aus der Zufallsstichprobe (Daten) angewendet wird. Abh¨angig von dem aus den Daten errechneten Wert der Pr¨ ufgr¨ oße wird die Nullhypothese entweder beibehalten oder aber verworfen. Die Pr¨ ufgr¨ oße in einem statistischen Testproblem wird in der Regel als Teststatistik bezeichnet. Die Teststatistik, definiert als eine Funktion der die Daten erzeugenden Stichprobenvariablen, ist eine Zufallsvariable. Außer in einigen Spezialf¨ allen, auf die gesondert hingewiesen wird, wird die Teststatistik im Folgenden unabh¨angig von der Art des Tests stets mit Z bezeichnet. Der an den beobachteten Daten konkret berechnete Wert wird mit zbeo bezeichnet, da es sich im Sinne einer Zufallsvariablen nun um eine Realisierung handelt.
4.3
Grundlagen des Testens
181
Fehler 1. und 2. Art beim Testen von Hypothesen
Das Treffen einer falschen Entscheidung beim Testen von Hypothesen l¨ asst sich nicht ausschließen. Unabh¨ angig davon, welcher statistische Test angewendet wird, k¨ onnen falsche Testentscheidungen nicht grunds¨ atzlich vermieden werden. Eine Begr¨ undung daf¨ ur ist, dass jede getroffene Testentscheidung nur auf einer begrenzten Anzahl von Daten aus der Grundgesamtheit beruht, also auf einer Zufallsstichprobe. Dadurch ist jede solche Entscheidung stets mit einer gewissen Unsicherheit behaftet. Die Zufallsauswahl, nach der die Stichprobe gezogen wurde, sollte so konstruiert sein, dass bei mehrfacher Wiederholung die entstehenden Stichproben im Mittel“ die Grundgesamt” heit abbilden (Repr¨ asentativit¨at). Dennoch kann die einzelne Stichprobe im ung¨ unstigsten Fall ein verzerrtes Abbild der Grundgesamtheit liefern. Ein statistischer Test kann zu den folgenden zwei Entscheidungen f¨ uhren die Nullhypothese H0 wird verworfen, man entscheidet f¨ ur H1 , die Nullhypothese H0 wird beibehalten. Je nachdem, welche der beiden Hypothesen tats¨achlich gilt, ergeben sich hier zwei richtige und zwei falsche Entscheidungen. Diese vier M¨oglichkeiten lassen sich wie folgt erkl¨ aren: Ein statistisches Testproblem setzt sich aus einer Null- und einer Alternativhypothese zusammen, wobei die Nullhypothese auf ihren Wahrheitsgehalt hin u ¨berpr¨ uft werden soll. Welche der beiden Hypothesen tats¨achlich wahr ist, ist unbekannt. Die Testentscheidung, die basierend auf den Daten getroffen wird, bezieht sich immer auf die Nullhypothese. Die Nullhypothese wird beibehalten (sie kann nicht verworfen werden), wenn in den Daten nicht gen¨ ugend Hinweise“ ent” halten sind, die f¨ ur die Alternativhypothese sprechen. Andernfalls wird die Nullhypothese verworfen, was man als eine Entscheidung f¨ ur die Alternativhypothese auffassen kann. Unter der Annahme, dass die Nullhypothese wahr ist, trifft man eine richtige Entscheidung, wenn die Nullhypothese nicht verworfen wird, und eine falsche Entscheidung, wenn die Nullhypothese verworfen wird. Unter der Annahme, dass die Nullhypothese falsch ist, trifft man eine richtige Entscheidung, wenn die Nullhypothese verworfen wird, und eine falsche Entscheidung, wenn die Nullhypothese nicht verworfen, also beibehalten wird.
182
4. Philosophie des Testens
Eine falsche Entscheidung liegt also vor, wenn die Nullhypothese H0 verworfen wird, obwohl sie wahr ist, man spricht vom Fehler 1. Art oder die Nullhypothese beibehalten wird, obwohl sie falsch ist, man spricht vom Fehler 2. Art. Eine richtige Entscheidung liegt demnach vor, wenn die Nullhypothese H0 verworfen wird und sie tats¨ achlich falsch ist oder die Nullhypothese beibehalten wird, wenn sie tats¨achlich wahr ist. Die folgende Tabelle fasst noch einmal die vier Entscheidungen eines statistischen Tests zusammen
Entscheidung lehne H0 nicht ab lehne H0 ab
Nullhypothese (H0 ) H0 wahr H0 falsch richtig Fehler 2. Art Fehler 1. Art richtig
Ob der Test nun zu einer richtigen oder einer falschen Entscheidung gef¨ uhrt hat, l¨ asst sich nicht feststellen, jedoch k¨onnen Wahrscheinlichkeiten f¨ ur das Treffen einer Fehlentscheidung berechnet werden.
Definition Fehler 1. Art
Der Fehler 1. Art wird begangen, wenn die Nullhypothese abgelehnt wird, obwohl sie wahr ist. Formal l¨asst sich die Wahrscheinlichkeit f¨ ur den Fehler 1. Art als bedingte Wahrscheinlichkeit schreiben
P(Fehler 1. Art) = P(H0 ablehnen | H0 ist wahr) = α. B
Beispiel Sport
Eine Umfrage unter 30 Studierenden einer Universit¨ at im vergangenen Jahr ergab, dass 50% der Befragten regelm¨aßig mindestens zweimal w¨ochentlich f¨ ur 30 Minuten Sport treiben. Durch den anhaltenden Fitness- und WellnessTrend wird vermutet, dass der Anteil p der Sporttreibenden gr¨ oßer als 50% ist. Getestet werden soll also die Nullhypothese H0 : p = 0, 5
gegen
H1 : p > 0, 5.
4.3
Grundlagen des Testens
183
Als Teststatistik wird hier Z, die Anzahl der Sporttreibenden unter den Befragten, verwendet. Wir werden sp¨ ater sehen, dass der Binomialtest 278 der angemessene Test zur Entscheidung dieses Problems ist. Die aus ihm abgeleitete Entscheidungsregel besagt, dass H0 zum Niveau α = 0, 05 abzulehnen ist, falls die Anzahl der Sporttreibenden unter allen 30 Befragten gr¨ oßer 19 ist (Z > 19). Daraus l¨ asst sich nun die Wahrscheinlichkeit f¨ ur den Fehler 1. Art berechnen als P(Fehler 1. Art)
=
P(lehne H0 ab |H0 ist wahr)
=
P (Z > 19 | p = 0, 5)
=
0, 0494 ≈ 0, 05.
Die genaue Herleitung, wie man diese Wahrscheinlichkeit berechnet, zeigen B wir im Beispiel 281 zum Binomialtest.
Definition Fehler 2. Art
Der Fehler 2. Art wird begangen, wenn die Nullhypothese H0 nicht verworfen wird, obwohl H0 falsch ist. Die Wahrscheinlichkeit, die mit diesem Fehler assoziiert ist, wird mit β bezeichnet. Der Fehler 2. Art kann als bedingte Wahrscheinlichkeit geschrieben werden
β = P(Fehler 2. Art)
=
P(H0 nicht ablehnen | H1 ist wahr).
Der exakte Wert dieser Fehlerwahrscheinlichkeit h¨angt vom wahren Wert des Parameters unter der Alternativhypothese ab. F¨ ur jeden Wert, den der Parameter unter der Alternativhypothese annehmen kann, f¨allt der Fehler 2. Art anders aus.
Angenommen, es soll die Nullhypothese H0 : p = 0, 25
gegen
H1 : p > 0, 25
getestet werden, wobei p die Erfolgswahrscheinlichkeit einer binomialverteilten Zufallsvariable X sei mit p ∈ [0; 1]. Dann kann die Wahrscheinlichkeit f¨ ur den Fehler 2. Art f¨ ur jeden Wert von p aus dem Intervall (0, 25; 1] berechnet werden. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art kann somit als eine Funktion des Parameters aufgefasst werden, definiert auf dessen Wertebereich unter der Alternativhypothese.
184
Beispiel (Fortsetzung 182) Sport
F¨ ur das Beispiel Sport soll die Wahrscheinlichkeit β f¨ ur den Fehler 2. Art berechnet werden unter der Annahme, dass der wahre Wert f¨ ur p gerade p = 0, 55 betr¨ agt. Aus der Definition und mit der Herleitung, die wir im Binomialtest 280 noch zeigen, ergibt sich P(Fehler 2. Art | p = 0, 55)
= P(lehne H0 nicht ab | p = 0, 55) =
P(Z ≤ 19 | p = 0, 55)
≈
0, 865.
Der Wert von 0,865 sagt aus, dass die erh¨ohte Sportrate unter den Befragten mit einer Wahrscheinlichkeit von circa 86,5% unentdeckt bleiben wird. F¨ alschlicherweise wird also bei wiederholter Durchf¨ uhrung der Befragung mit alle nicht verworfen jeweils neuen Stichproben H0 : p = 0, 5 in 86,5% der F¨ werden. Dass diese Wahrscheinlichkeit f¨ ur den Fehler 2. Art so groß ist, ist auf die Tatsache zur¨ uckzuf¨ uhren, dass die Parameterwerte unter der Nullund unter der Alternativhypothese (p = 0, 5 gegen p = 0, 55) sehr nahe beieinander liegen. Die Stichprobenverteilungen von Z unter der Null- und Alternativhypothese liegen dadurch ebenfalls sehr nahe beieinander und u ¨berlappen sich sogar auf einem großen Bereich des Definitionsbereiches f¨ ur den Parameter p, wie in folgender Grafik verdeutlicht ist. In der Grafik ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art eingezeichnet.
0.10 0.05
P(Z=z)
0.15
0.20
Dichtefunktion von Z unter H0
0.0
P(Z > 19 | p = 0,5) » 0,05 0
5
10
15
20
25
30
Dichtefunktion von Z unter H1
0.10
P(Z = 19 | p = 0,55) » 0,865
0.05
P(Z=z)
0.15
0.20
Nullhypothese verwerfen
0.0
B
4. Philosophie des Testens
0
5
10
15
Nullhypothese nicht verwerfen
20
25
30
4.3
Grundlagen des Testens
185
Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art h¨ angt also direkt vom Parameterwert p unter der Alternativhypothese ab. Nehmen wir f¨ ur p einen Wert von p = 0, 80 an, so ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art wesentlich kleiner und betr¨ agt nur noch circa 2,6%.
0.10 0.05
P(Z=z)
0.15
0.20
Dichtefunktion von Z unter H0
0.0
P(Z > 19 | p = 0,5) » 0,05 0
5
10
15
20
25
30
Dichtefunktion von Z unter H1
0.10 0.05
P(Z=z)
0.15
0.20
Nullhypothese verwerfen
0.0
P(Z = 19 | p = 0,8) » 0,026 0
5
10
15
20
25
30
Nullhypothese nicht verwerfen
B Im Gegensatz zum Fehler 1. Art kann die Wahrscheinlichkeit f¨ ur den Fehler 2. Art nicht ohne weiteres vor der Durchf¨ uhrung des Tests begrenzt werden. Dies ist darin begr¨ undet, dass die Wahrscheinlichkeit β vom Wert des Parameters unter der Alternativhypothese H1 abh¨ angt und ein ganzer Bereich von Werten f¨ ur β m¨oglich ist. Daher kann eine explizite Berechnung der Wahrscheinlichkeit f¨ ur den Fehler 2. Art nur in Abh¨ angigkeit eines vorher festgelegten Werts f¨ ur den interessierenden Parameter unter der Alternativhypothese H1 erfolgen. Zusammenfassend halten wir fest, welche Interpretationen von Testergebnissen angesichts der hier diskutierten Aspekte rund um die Fehlerwahrscheinlichkeiten sich ergeben.
186
4. Philosophie des Testens
Interpretation von Testergebnissen Beim Testen wird nur die Wahrscheinlichkeit f¨ ur den Fehler 1. Art durch α kontrolliert, das heißt P(H0 ablehnen | H0 ist wahr). Wenn achlich gilt, wird man sich nur in α · 100% der F¨ alle f¨ ur also H0 tats¨ H1 entscheiden. Die Entscheidung f¨ ur H1 ist in diesem Sinn statistisch abgesichert. ur H1 spricht man von einem Bei Entscheidung gegen H0 und damit f¨ signifikanten Ergebnis. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art wird dagegen nicht kontrolliert. Die Entscheidung, H0 beizubehalten, ist statistisch nicht abgesichert. Kann man H0 nicht verwerfen, so bedeutet das daher nicht, dass man sich aktiv“ f¨ ur H0 entscheidet (es spricht nur nichts gegen ” H0 ).
Sowohl Fehler 1. Art als auch Fehler 2. Art sind im Allgemeinen nicht zu verhindern. Ein guter Test sollte aber die Wahrscheinlichkeit f¨ ur das Auftreten solcher Fehlentscheidungen m¨oglichst klein halten. Am besten w¨ are ein Test, der die Wahrscheinlichkeiten f¨ ur das Auftreten beider Fehlerarten gleichzeitig klein h¨ alt. Dies funktioniert leider in der Regel nicht. Oft ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art um so gr¨ oßer, je kleiner die Wahrscheinlichkeit f¨ ur den Fehler 1. Art ist, und umgekehrt. Daher entscheidet man sich bei der Konstruktion von Tests f¨ ur ein unsymmetrisches Vorgehen, das der Vorgehensweise beim Nachweis der Schuld eines Angeklagten entspricht: Formuliere das Testproblem so, dass die interessierende Aussage (Schuld des Angeklagten) in der Alternative steht. Gib vor, wie groß die Wahrscheinlichkeit f¨ ur den Fehler 1. Art (Unschuldiger wird zu Unrecht verurteilt) h¨ ochstens sein darf. Bestimme alle f¨ ur das Testproblem m¨ oglichen Tests, die die Anforderung an den Fehler 1. Art erf¨ ullen. Suche unter diesen Tests denjenigen mit der kleinsten Wahrscheinlichkeit f¨ ur den Fehler 2. Art (Schuldiger wird freigesprochen). Da man auf diese Weise nur die Wahrscheinlichkeit f¨ ur die Fehlentscheidung in einer Richtung (H0 verwerfen, obwohl H0 gilt) mit einer Schranke nach oben absichert, ergibt sich die Notwendigkeit, die wichtigere Aussage (die statistisch abgesichert werden soll) als Alternative zu formulieren.
4.3
Grundlagen des Testens
187
Die Schranke, mit der man die Wahrscheinlichkeit f¨ ur den Fehler 1. Art nach oben absichert, heißt das Signifikanzniveau des Tests.
Definition Signifikanzniveau
Eine Obergrenze f¨ ur die Wahrscheinlichkeit f¨ ur den Fehler 1. Art wird vor der Durchf¨ uhrung des Tests festgelegt. Diese bezeichnet man als das Signifikanzniveau α des Tests. Dabei h¨angt die Wahl dieses Werts maßgeblich von der zugrunde liegenden Problemstellung und den Konsequenzen ab, die aus einer falschen Entscheidung vom Typ Fehler 1. Art resultieren k¨onnen. Gebr¨auchliche Werte f¨ ur den maximalen Wert des Fehlers 1. Art sind α = 0, 05, α = 0, 1 oder α = 0, 01.
Es k¨ onnen aber auch beliebige andere Werte gew¨ahlt werden. Die Fehlerwahrscheinlichkeit kann auch interpretiert werden als Risiko einer falschen Entscheidung, das man bereit ist einzugehen. Das folgende Beispiel verdeutlicht dies. Beispiel Forstbetrieb
B
Ein Forstbetrieb pr¨ uft das Wachstum seines Baumbestandes, indem der j¨ahrliche Zuwachs des Stammumfangs als ein Indikator f¨ ur die Gesundheit des Bestandes gemessen wird. Entspricht der Zuwachs des Stammumfangs nicht der Norm, so k¨onnen abh¨ angig von der Ursache beispielsweise D¨ ungemittel oder sch¨adlingsbek¨ ampfende Stoffe eingesetzt werden. Bezeichne µ den mittleren Zuwachs des Stammumfangs des Baumbestandes und µ0 die Norm. Dann k¨ onnen die Null- und Alternativhypothese wie folgt formuliert werden H0 : µ ≥ µ0
gegen
H1 : µ < µ0 .
Ein Fehler 1. Art wird genau dann begangen, wenn die Nullhypothese abgelehnt wird, obwohl sie wahr ist. In unserem Beispiel entspricht dies dem Fall, dass der Forstbetrieb basierend auf den Daten der Stichprobe zu dem Ergebnis kommt, dass der mittlere Zuwachs des Stammumfangs zu gering ist (H1 : µ < µ0 ), obwohl dies in Wahrheit nicht der Fall ist. Die Konsequenz einer solchen Fehlentscheidung ist, dass der Forstbetrieb nun eigentlich nicht ben¨ otigte D¨ ungemittel einsetzen wird, was zu einer Erh¨ ohung der Kosten und Sch¨ adigung der Umwelt f¨ uhrt. Das Signifikanzniveau sollte daher umso kleiner gew¨ahlt werden, je schwerwiegender die m¨oglichen Konsequenzen des B Fehlers 1. Art sind.
188
B
4. Philosophie des Testens
Beispiel Konsequenzen eines Fehlers 1. Art
Zur Vermeidung von Unf¨ allen im Flugverkehr sind Passagierflugzeuge kommerzieller Fluglinien in der Regel mit Kollisionswarnger¨ aten ausgestattet. Ein Unternehmen hat ein neues Kollisionswarnsystem entwickelt, das auf einer innovativen Technologie beruht. Man verspricht sich davon noch zuverl¨ assiger arbeitende Ger¨ ate, als sie bisher im Einsatz sind. Bevor die neue Technologie im realen Flugverkehr eingesetzt werden darf, muss sie ihre Zuverl¨assigkeit im Simulator unter Beweis stellen. Dabei interessiert vordringlich, ob das neue Ger¨ at in kritischen Situationen tats¨ achlich h¨ aufiger ein Warnsignal abgibt als das bisher in den Flugzeugen arbeitende Ger¨at. Nur in diesem Fall wird man n¨ amlich die neue Technologie u ¨bernehmen wollen. Bezeichne p den Anteil der korrekten Warnungen in kritischen Situationen, die durch die neue Technologie abgegeben werden, und p0 den bekannten Anteil korrekter Warnungen der derzeit eingesetzten Technologie. Zu testen ist damit H0 : p ≤ p0 gegen H1 : p > p0 . Das Testproblem wird so angesetzt, weil die Entscheidung, H0 zu verwerfen, die wichtigere Entscheidung ist. Entscheidet man, dass die neue Technologie besser warnt als die alte, tats¨achlich ist das neue Ger¨ at aber h¨ ochstens so gut wie das bisherige, eventuell sogar schlechter, so schadet man der Sicherheit. Mit dem Fehler 1. Art schadet man also unter Umst¨anden den Flugg¨ asten aktiv, indem man sie einer schlechteren Technologie aussetzt als dem bisherigen Standard. Das muss unbedingt vermieden werden. Auf der anderen Seite bedeutet hier der Fehler 2. Art, dass man schlimmstenfalls der Flugsicherheit ein besseres System vorenth¨alt, weil dessen Zuverl¨ assigkeit sich nicht deutlich genug gezeigt hat. Auch das schadet, aber man stellt die Passagiere zumindest nicht schlechter als vorher. In dieser Situation ist es angebracht, mit einem kleinen Signifikanzniveau α zu arbeiten, da die Konsequenzen eines Fehlers 1. Art lebensbedrohlich sein B k¨ onnen. Wahl des Signifikanzniveaus Grunds¨ atzlich gilt f¨ ur jeden statistischen Test, der durchgef¨ uhrt wird, dass das Signifikanzniveau vor der Durchf¨ uhrung der Tests zu w¨ ahlen ist.
Verwendet man zur Durchf¨ uhrung eines statistischen Tests eine Statistiksoftware, so wird zur Herbeif¨ uhrung der Testentscheidung h¨ aufig nicht nur der
4.3
Grundlagen des Testens
189
berechnete Wert der Teststatistik angegeben, sondern zus¨atzlich noch der so genannte p-Wert.
Definition p-Wert
Der p-Wert ist definiert als die Wahrscheinlichkeit, dass die Teststatistik den an den Daten realisierten Wert oder einen im Sinne der Alternativhypothese noch extremeren Wert annimmt. Dabei berechnet man diese Wahrscheinlichkeit unter der Annahme, dass die Nullhypothese wahr ist.
Im Falle eines rechtsseitigen Tests entspricht der p-Wert gerade der markierten Fl¨ ache:
Der p-Wert kann, ebenso wie der Wert der Teststatistik, als Entscheidungskriterium f¨ ur das Verwerfen der Nullhypothese herangezogen werden. Je kleiner der p-Wert ist, desto st¨ arker sprechen die Daten gegen die Nullhypothese und damit implizit f¨ ur die Alternativhypothese. Eine Realisierung, wie sie die Teststatistik geliefert hat, ist unter dieser Nullhypothese um so unwahrscheinlicher, je kleiner der p-Wert ist. Die Entscheidungsregel zum Verwerfen der Nullhypothese H0 lautet daher, dass die Nullhypothese zum Signifikanzniveau α verworfen wird, wenn der p-Wert kleiner als α ist, andernfalls wird auchliche Grenzen sind H0 beibehalten. Gebr¨ p-Wert > 0, 1 : 0, 05 < p-Wert ≤ 0, 1 : 0, 01 < p-Wert ≤ 0, 05 : 0, 001 < p-Wert ≤ 0, 01 :
schwache Beweislast gegen H0 m¨aßige Beweislast gegen H0 moderate Beweislast gegen H0 starke Beweislast gegen H0
190
4. Philosophie des Testens
p-Wert ≤ 0, 001 :
sehr starke Beweislast gegen H0 .
Eigenschaften des p-Werts Der p-Wert ist eine Wahrscheinlichkeit und nimmt daher immer Werte zwischen 0 und 1 an. Die Berechnung des p-Werts h¨angt von der Art des statistischen Testproblems ab (links-, rechts- oder zweiseitiges Testproblem), insbesondere von der Wahl der Alternativhypothese H1 e. Konkrete Beispiele sind bei den einzelnen Testverfahren zum Beispiel beim Gauß-Test 222 oder beim t-Test 242 zu finden.
Definition Kritischer Bereich und kritischer Wert
Der Wertebereich der Teststatistik, der zur Ablehnung der Nullhypothese f¨ uhrt, heißt kritischer Bereich oder Ablehnbereich und wird im Folgenden mit K bezeichnet. Kritische Bereiche sind typischerweise als Intervalle in Form von K = (−∞; k ∗ ), K = (k ∗ ; ∞), K = (−∞; −k ∗ ) ∪ (k ∗ ; ∞) gegeben. Der Wert k ∗ , der als Grenze in diesen Intervallen auftritt, wird als kritischer Wert bezeichnet.
Hier ist implizit formuliert, dass der kritische Bereich entweder ein halboffenes Intervall (k ∗ ; ∞) oder das Komplement eines symmetrischen Intervalls atzlich der Fall sein. Wir wollen uns aber [−k ∗ ; k ∗ ] ist. Dies muss nicht grunds¨ im Folgenden aus Gr¨ unden der Einfachheit auf diese F¨ alle beschr¨anken. Der kritische Bereich h¨angt von der Wahl des Signifikanzniveaus α des Tests ab. Die Abh¨ angigkeit von α wollen wir durch den Index α in kα∗ kennzeichnen. Betrachten wir beispielsweise ein zweiseitiges Testproblem, das zum Signifikanzniveau α = 0, 05 zu l¨ osen ist. Der kritische Bereich ist dann so zu w¨ahlen, dass die Fl¨ache, die die Dichtekurve der Teststatistik mit diesem kritischen Bereich einschließt, gerade den Fl¨acheninhalt 0,05 hat. Gleichzeitig sollen die Funktionswerte der Dichte u ¨ ber dem kritischen Wert m¨ oglichst klein sein. Man bestimmt den Bereich anhand der Dichte, die zur Verteilung der Teststatistik unter G¨ ultigkeit der Nullhypothese geh¨ ort. Im Fall eines zweiseitigen Tests wird der kritische Bereich aufgeteilt in die Enden“ der Verteilung der ” Teststatistik, wie in der Grafik zu erkennen ist.
4.3
Grundlagen des Testens
191
Definition Akzeptanzbereich
uhrt zur Beibehaltung der Nullhypothese und Der zu K komplement¨are Bereich f¨ heißt Akzeptanzbereich.
Definition Testentscheidung
Eine Testentscheidung f¨ ur ein Testproblem kann basierend auf zwei Entscheidungskriterien, so genannten Entscheidungsregeln, herbeigef¨ uhrt werden. Diese basieren ∗ auf dem kritischen Wert kα oder
auf dem p-Wert. Die Testentscheidung erfolgt dabei grunds¨atzlich bez¨ uglich der Nullhypothese. Die ugend viel gegen sie Nullhypothese H0 wird zum Niveau α verworfen, wenn gen¨ spricht. Andernfalls kann H0 nicht verworfen werden und wird beibehalten. Man
192
4. Philosophie des Testens
beachte dabei grunds¨atzlich die Abh¨angigkeit vom zuvor gew¨ahlten Signifikanzniveau α. Beide Entscheidungsregeln sind ¨aquivalent zueinander.
Explizit gelten folgende formale Entscheidungsregeln: Testentscheidung basierend auf dem kritischen Wert Bezeichne kα∗ den kritischen Wert zum Signifikanzniveau α. Mit Z sei eine Teststatistik bezeichnet, welche einer um Null symmetrischen Verteilung folgt. Die Nullhypothese H0 wird zum Signifikanzniveau α verworfen, wenn f¨ ur die Teststatistik Z gilt Problem (1): |Z|
∗ > k1−α/2
Problem (2):
Z
>
Problem (3):
Z
0, 5
0.0
0.2
0.4
1-ß
0.6
0.8
1.0
aus dem Beispiel Sport 182:
05
06
07
08
09
10
p
B Eigenschaften der G¨ utefunktion F¨ ur jeden festen Parameterwert aus dem Bereich der Alternativhypothese steigt die G¨ ute eines Tests mit wachsendem Stichprobenumfang n, dies f¨ uhrt zu einem steileren Anstieg der G¨ utefunktion unter der Alternativhypothese H1 . Vergr¨ oßert sich die Wahrscheinlichkeit α f¨ ur den Fehler 1. Art, so f¨ uhrt dies zu einer gr¨ oßeren G¨ ute des Tests.
196
4. Philosophie des Testens
F¨ ur Parameterwerte unter der Nullhypothese H0 nimmt die G¨ utefunktion Werte kleiner oder gleich α an. Die G¨ utefunktion ist monoton steigend, das heißt, je weiter entfernt oßer ist die ein Parameterwert aus H1 von dem aus H0 liegt, desto gr¨ G¨ ute des Tests an dieser Stelle.
Die Bedeutung der G¨ utefunktion wird in den folgenden zwei Aspekten deutlich 1. Die G¨ utefunktion gibt f¨ ur jeden Parameterwert aus der Alternativhypothese die Wahrscheinlichkeit an, dass die Nullhypothese abgelehnt wird, wenn diese tats¨achlich falsch ist. Je h¨oher diese Wahrscheinlichkeit ist, desto h¨oher ist die G¨ ute des Tests. Dies ist in der Praxis insbesondere von Bedeutung, da wir einen Test finden m¨ ochten, dem es gelingt, die Nullhypothese m¨ oglichst zuverl¨ assig abzulehnen, wenn sie falsch ist. 2. Es ist ebenfalls von Bedeutung, wie schnell die G¨ ute des Tests ansteigt, je weiter sich der wahre Parameterwert von der Nullhypothese entfernt, also wie steil die Steigung der G¨ utefunktion ist: Stehen n¨ amlich mehrere Testprozeduren f¨ ur ein Testproblem zur Auswahl, so sollte der Test gew¨ahlt werden, welcher die besten G¨ uteeigenschaften besitzt. Das ist der Test, dessen G¨ utefunktion den steilsten“ Anstieg besitzt, da dieser eine ” falsche Nullhypothese mit gr¨oßerer Wahrscheinlichkeit ablehnen wird.
4.3
Grundlagen des Testens
197
Beziehung zwischen α, β und n Die beiden Fehlergr¨ oßen α und β h¨ angen unmittelbar voneinander ab. Die Verkleinerung einer der beiden Gr¨ oßen bedeutet automatisch eine Vergr¨ oßerung der anderen. Eine parallele Minimierung beider Wahrscheinlichkeiten ist damit nicht m¨ oglich. Dieser Problematik kann jedoch teilweise entgegengewirkt werden, indem der Stichprobenumfang vergr¨ oßert wird, da dieser sowohl auf α als auch auf β einen direkten Einfluss aus¨ ubt. Die Wahrscheinlichkeit α f¨ ur den Fehler 1. Art kann bei gleichzeitiger Verringerung der Fehlerwahrscheinlichkeit 2. Art konstant gehalten werden, wenn der Stichprobenumfang n entsprechend erh¨oht wird. Bei einer Verkleinerung von α muss entweder β oder n vergr¨ oßert werden. Bei einer Verkleinerung von β muss entsprechend α oder n vergr¨ oßert werden. Wird ein kleinerer Stichprobenumfang n ben¨ otigt, so muss entweder α oder β vergr¨ oßert werden. Die folgende Grafik illustriert das Verhalten des Fehlers 2. Art bei steigendem Stichprobenumfang n. Man sieht, dass f¨ ur eine konstante Wahrscheinlichkeit α des Fehlers 1. Art die Wahrscheinlichkeit f¨ ur den Fehler 2. Art mit wachsendem n kleiner wird.
T ststat st k
unter H0
unter H1
2
4
2
0
4
6
0
2
4
0.4
6
6
8
D chte der Teststat stik
unter H0
u ter H1
2
0
2
4
6
8
k*( 0 95 )
Dichte der
Teststat st k
Tests atistik
unter H0
unter H1
0.4
n= 90
D ch e d r
D ch e d r
D chte der
Teststat st k
Te tstatistik
unter H0
unter H1
0.0
0.1
0.4 0.3 0.2
6
Teststati tik
4
0.0
0.0
4
k*( 0 95 )
4
0.0 2
0.1
u ter H1
0.1
Teststat st k
2
0.3
unter H1
0.2
Tes sta ist k
unter H0
n= 80
unter H0
2
Dichte der
k*( 0 95 )
Teststat st k
0
0
n= 60
Teststati tik
4
D ch e der
2
2
k*( 0 95 )
0.0 2
D ch e d r
4
4
0.1
0.4 0.3
unter H1
0.2
Teststatistik
unter H0
0.0 0.4
6
Dichte der
n= 70
0.3
4
Dichte der
k*( 0 95 )
0.2
2
0.1
Teststati tik
0
unter H1
n= 50 Dichte der
0.1
0.2
0.3
0.4
n= 40
2
Teststatistik
un er H0
k*( 0 95 )
Dichte der
4
Dichte der
Teststat stik
0.1 4
k*( 0 95 )
0.3
0
0.2
2
D chte der
0.0
0.1 0.0
0.1 0.0 4
0.4
Tests ati tik
0.3
D chte der
0.2
un er H1
0.3
Teststatistik
unter H0
n= 30
Dichte de
0.2
Tes sta ist k
0.4
n= 20
Dichte der
0.2
0.3
0.4
n= 10 Dichte de
4
2
0
2
4
k*( 0 95 )
6
8
4
2
0
2
4
k*( 0 95 )
6
8
198
4. Philosophie des Testens
Beste Tests
F¨ ur ein gegebenes Testproblem m¨ochte man unter allen Tests zum Niveau α denjenigen mit der kleinsten Wahrscheinlichkeit f¨ ur den Fehler 2. Art w¨ahlen. Das w¨are also ein Test, bei dem der Wert von β(ϑ) f¨ ur alle ϑ ∈ Θ1 unterhalb der entsprechenden Werte f¨ ur alle anderen m¨ oglichen Tests bleibt. Man sagt: die Wahrscheinlichkeit f¨ ur den Fehler 2. Art ist f¨ ur einen solchen Test ur alle anderen Tests (f¨ ur dasselbe Testprogleichm¨aßig kleiner auf Θ1 als f¨ blem). In der Umkehrung bedeutet das f¨ ur die G¨ utefunktion, dass diese auf oßere Werte annimmt als die G¨ utefunktionen der anderen Θ1 gleichm¨aßig gr¨ m¨oglichen Tests. Oft findet man allerdings keinen Test, der diese sehr strenge Anforderung erf¨ ullt. Als Ausweg bietet es sich an, in einer kleineren Klasse von Tests zu suchen, den so genannten unverf¨ alschten Tests.
Definition Beste Tests
F¨ ur diese Definition bezeichnen wir einen statistischen Test (das heißt die Kombination aus Teststatistik, kritischem Bereich und der Entscheidungsregel, nach der H0 zu verwerfen ist) als ϕ. Entsprechend benennen wir die G¨utefunktion von ϕ mit 1 − βϕ (ϑ). Ein Test ϕ∗ heißt gleichm¨ aßig bester Test zum Niveau α f¨ ur das Testproblem ∗ 2 2 H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 , wenn gilt: ϕ ist Test zum Niveau α f¨ur das Testproblem und
1 − βϕ∗ (ϑ) ≥ 1 − βϕ (ϑ) f¨ur alle ϑ ∈ Θ1 f¨ ur alle Tests ϕ zum Niveau α f¨ ur dieses Testproblem. Ein Test ϕ zum Niveau α heißt unverf¨ alscht, wenn
1 − βϕ (ϑ) ≥ α f¨ur alle ϑ ∈ Θ1 . Ein Test ϕ∗ heißt gleichm¨ aßig bester unverf¨ alschter Test zum Niveau α 2 ∈ Θ0 gegen H1 : ϑ2 ∈ Θ1 , wenn ϕ∗ unverf¨alschter Test zum Niveau f¨ ur H0 : ϑ α f¨ur das Testproblem ist und
1 − βϕ∗ (ϑ) ≥ 1 − βϕ (ϑ) f¨ur alle ϑ ∈ Θ1 f¨ ur alle unverf¨alschten Tests ϕ zum Niveau α f¨ ur das Testproblem.
4.3
Grundlagen des Testens
199
In einigen Spezialf¨ allen existieren gleichm¨ aßig beste Tests zum Niveau α f¨ ur das Problem H0 gegen H1 . Der grundlegende Fall, aus dem alles Weitere abgeleitet wird, ist dabei der, dass Θ nur genau zwei Elemente enth¨ alt. Das heißt: Θ = {ϑ0 , ϑ1 }, und Θ0 = {ϑ0 }, Θ1 = {ϑ1 } sind einelementige Mengen. Es handelt sich hier also um eine einfache Hypothese und eine einfache Alternative 180. Neyman-Pearson-Lemma 2 Seien Betrachtet wird eine Zufallsvariable X mit Verteilung FX (x; ϑ). angige und identisch wie X verteilte Zufallsvariablen. X1 , . . . , Xn unabh¨ F¨ ur die oben beschriebene Situation einer einfachen Nullhypothese und einer einfachen Alternative lautet das zu untersuchende Testproblem H0 : ϑ2 = ϑ0
gegen
H1 : ϑ2 = ϑ1 .
Bezeichne f X1 ,...,Xn (x1 , . . . , xn ; ϑ) die Likelihood 116 von X1 , . . . , Xn , wenn ϑ2 = ϑ gilt und die Stichprobe x1 , . . . , xn realisiert wurde. Ein (gleichm¨ aßig) bester Test zum Niveau α f¨ ur dieses Testproblem trifft folgende Entscheidung: H0 wird zum Niveau α verworfen, falls
f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) > kα∗ . f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )
Dabei ist der kritische Wert kα∗ so zu bestimmen, dass 1−β(ϑ0 ) = α, falls dieser Zusammenhang exakt erf¨ ullt werden kann. Sonst wird kα∗ bestimmt als der kleinste Wert, f¨ ur den 1 − β(ϑ0 ) < α gilt. Jeden Test wie im Neyman-Pearson-Lemma beschrieben kann man ¨aquivalent ausdr¨ ucken durch X1 ,...,Xn f (x1 , . . . , xn ; ϑ1 ) > g(kα∗ ) H0 wird zum Niveau α verworfen, falls g f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) mit g streng monoton wachsender Funktion, bzw. X1 ,...,Xn f (x1 , . . . , xn ; ϑ1 ) < g(kα∗ ) H0 wird zum Niveau α verworfen, falls g f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) mit g streng monoton fallender Funktion.
200
4. Philosophie des Testens
Beispiel Bester Test bei einfachen Hypothesen Die im Neyman-Pearson-Lemma 199 beschriebene Situation tritt beispielsweise dann ein, wenn durch Vorinformation, Umweltbedingungen ¨ oder Ahnliches klar ist, dass nur zwei Werte f¨ ur den interessierenden Parameter in Frage kommen. Wir betrachten eine Befragung, bei der zwei Personen die Interviews f¨ uhren. Man interessiert sich f¨ ur die Antwortverweigerungen bzw. f¨ ur die Wahrscheinlichkeit der Beantwortung. Bekannt ist, dass bei Interviewer 1 die Wahrscheinlichkeit, dass ein Befragter antwortet, p0 betr¨agt, bei Interviewer 2 aber p1 . Interviewer 1 gibt einen Stapel bearbeiteter Frageb¨ ogen zur Auswertung ab. Man hat den Verdacht, dass er die B¨ ogen nicht selbst hat ausf¨ ullen lassen, sondern dass er den Stapel von Interviewer 2 entwendet hat. Anhand der abgegebenen B¨ ogen m¨ochte man daher entscheiden zwischen
H0
: Der Interviewer hat die B¨ogen selbst abgearbeitet und
H1
: Er hat sich bei Interviewer 2 bedient.
Die Situation kann man f¨ ur n befragte Personen mit Bernoulli-Experimenten 38 modellieren. Wir betrachten n Zufallsvariablen Xi mit 1, falls i-ter Bogen beantwortet, Xi = 0, falls i-ter Bogen nicht beantwortet. Damit ist die Auswertung des i-ten Bogens ein Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p = Wahrscheinlichkeit f¨ ur die Beantwortung, ur i = 1, . . . , n. so dass Xi ∼ Bin(1; p) f¨ Die abgegebenen B¨ogen entsprechen dann Realisationen x1 , . . . , xn von X1 , . . . , Xn . Zu testen ist H0 : p = p0
gegen
H1 : p = p1 ,
wobei p die Wahrscheinlichkeit f¨ ur eine Beantwortung bezeichnet. Sei f¨ ur das hier betrachtete Beispiel p0 < p1 . F¨ ur das angegebene Testproblem bestimmt man einen besten Test nach dem Neyman-Pearson-Lemma u ¨ ber die Likelihood unter p1 und unter p0 ; allgemein ist die Likelihood im Bernoulli-Modell gegeben als n
f X1 ,...,Xn (x1 , . . . , xn ; p) = p f¨ ur xi ∈ {0, 1}.
i=1
xi
n
· (1 − p)n−
i=1
xi
4.3
Grundlagen des Testens
201
Damit ergibt sich die Teststatistik als f X1 ,...,Xn (x1 , . . . , xn ; p1 ) f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) = X ,...,X n (x , . . . , x ; ϑ ) f 1 f X1 ,...,Xn (x1 , . . . , xn ; p0 ) 1 n 0 n
=
p1
i=1
p0
i=1
n
n
xi
· (1 − p1 )n−
i=1
xi
· (1 − p0 )n−
i=1
n
xi xi
=
p1 p0
ni=1 xi n− ni=1 xi 1 − p1 · , 1 − p0
und der beste Test zum Niveau α f¨ ur H0 : p = p0 gegen H1 : p = p1 hat die Entscheidungsregel: H0 wird zum Niveau α verworfen, falls
p1 p0
ni=1 Xi n− ni=1 Xi 1 − p1 · > kα∗ 1 − p0
mit kα∗ m¨oglichst klein, so dass 1 − β(p0 ) = P(H0 verwerfen | p = p0 ) ≤ α, das heißt P
p1 p0
ni=1 Xi n− ni=1 Xi 1 − p1 · > kα∗ | p = p0 1 − p0
≤ α.
Aus diesem Zusammenhang ist kα∗ sehr schwer zu bestimmen; aber in der n oße ist bekannt. Teststatistik steckt i=1 Xi , und die Verteilung dieser Gr¨ Gem¨aß der Bemerkung nach dem Neyman-Pearson-Lemma 199 kann man einen Test durch eine streng monotone Transformation a¨quivalent umformen. Wir w¨ ahlen hier eine Transformation mit dem nat¨ urlichen Logarithmus: ln
f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )
=
=
ln n i=1
p1 p0
ni=1 Xi n− ni=1 Xi 1 − p1 · 1 − p0
Xi
· ln
p1 p0
+
n−
n i=1
Xi
· ln
1 − p1 1 − p0
202
4. Philosophie des Testens
⇒
H0 wird zum Niveau α verworfen, falls n n p1 1 − p1 + n− > ln(kα∗ ) Xi · ln Xi · ln p 1 − p 0 0 i=1 i=1 n 1 − p1 p1 1 − p1 ∗ − ln > ln(kα ) − n · ln ⇔ Xi · ln p0 1 − p0 1 − p0 i=1 ' & 1 n ln(kα∗ ) − n · ln 1−p 1−p0 & ' =: 2 & ' kα∗ ⇔ Xi > p1 1−p1 ln p0 − ln 1−p0 i=1 (F¨ ur die letzte Umformung ben¨ otigt man die Voraussetzung, dass p0 < p1 , sonst bliebe das Ungleichheitszeichen nicht erhalten.) Es gilt also H0 wird zum Niveau α verworfen, falls
n
Xi > 2 kα∗ .
i=1
kα∗ Dabei ist jetzt noch 2 kα∗ so zu bestimmen, dass 1 − β(p0 ) ≤ α (und 2 m¨oglichst klein). Beachte: w¨are p0 > p1 , so w¨ urde die Testentscheidung lauten H0 wird zum Niveau α verworfen, falls
n
Xi < 2 kα∗ .
i=1
kα∗ m¨oglichst klein, so dass Die obige Bedingung an 2 kα∗ ist a¨quivalent mit 2 n P Xi > 2 kα∗ | p = p0 ≤ α i=1
⇔
1−P
⇔ P
n
Xi ≤ 2 kα∗ | p = p0
≤α
i=1 n i=1
Xi ≤ 2 kα∗ | p = p0
≥ 1 − α.
n Im oben angesetzten Bernoulli-Modell ist i=1 Xi ∼ Bin(n; p), das heißt, n unter G¨ ultigkeit von H0 (falls also p = p0 ) gilt i=1 Xi ∼ Bin(n; p0 ). Die kα∗ das (1−α)-Quantil Bedingung an 2 kα∗ sagt dann nichts Anderes, als dass 2 der Bin(n; p0 )-Verteilung ist.
4.3
Grundlagen des Testens
203
F¨ ur die beiden Interviewer sei bekannt, dass bei Interviewer 1 die Beantwortungswahrscheinlichkeit p0 = 0, 5 betr¨agt, bei Interviewer 2 hingegen ur die von Interviewer 1 abgegebenen n = 8 B¨ogen vermutet p1 = 0, 75. F¨ man, dass er sie von Interviewer 2 genommen hat. Zu testen ist also H0 : p = 0, 5
gegen H1 : p = 0, 75.
Der Test soll zum Niveau α = 0, 05 durchgef¨ uhrt werden. Dazu zieht man den oben hergeleiteten Test heran: H0 wird zum Niveau α verworfen, falls
n
Xi > 2 kα∗
i=1
mit 2 kα∗ das (1 − α)-Quantil der Bin(8; 0, 5)-Verteilung. Zur Bestimmung des Quantils stellen wir die Verteilungsfunktion der Bin(8; 0, 5) auf: y F(y) y F(y)
0 0,0039 5 0,8555
1 0,0351 6 0,9649
2 0,1445 7 0,9861
3 0,3633 8 1
4 0,6367
⇒ P ( Xi ≤ 6 | p = 0, 5) = 0, 9649 ≥ 0, 95 = 1 − 0, 05, und 6 ist die kleinste Zahl, so dass dieser Zusammenhang gilt ⇒ 2 kα∗ = 6. Damit wird H0 zum Niveau α verworfen, falls n
Xi > 6.
i=1
Dies ist die Testentscheidung des besten Tests zum Niveau α = 0, 05 f¨ ur H0 : p = 0, 5 gegen H1 : p = 0, 75. Befinden sich unter den abgegebenen 8 B¨ogen 7 oder 8 beantwortete, so lehnt man H0 zu Gunsten von H1 ab und geht davon aus, dass Interviewer 1 sich bei Interviewer 2 bedient hat. Andernfalls gilt Interviewer 1 weiterhin als unschuldig“. ” Im Beispiel der beiden Interviewer liegt bei der Bestimmung des kritischen Werts des Tests ein Fall vor, wo die Bedingung 1 − β(ϑ0 ) = α nicht exakt zu erf¨ ullen ist. Als besten Ersatz“ bestimmt man den kritischen Wert m¨oglichst ” ur liegt in der Testklein, so dass noch 1 − β(ϑ0 ) ≤ α gilt. Die Ursache daf¨
204
4. Philosophie des Testens
n statistik i=1 Xi , die im Fall des Beispiels eine diskrete Zufallsvariable ist n ( i=1 Xi binomialverteilt). In einem solchen Fall kann man zum nominalen Testniveau α (im Beispiel α = 0, 05) zus¨atzlich das tats¨ achliche Niveau des Tests bestimmen, also P(H0 verwerfen | ϑ = ϑ0 ), im Beispiel: 8 Xi > 6 | p = 0, 5 = 1 − 0, 9649 = 0, 0451. P i=1
Da diese Wahrscheinlichkeit echt kleiner ist als α = 0, 05, sagt man auch, der Test sch¨ opft das Niveau nicht vollst¨ andig aus.
Definition Konservativer Test
Ist die Teststatistik eines statistischen Tests selbst eine diskrete Zufallsvariable, so kann die Niveaubedingung α nicht immer exakt mit Gleichheit erf¨ ullt werden. Falls bedingt durch diese Tatsache f¨ ur einen Test in der Regel die Wahrscheinlichkeit f¨ ur den Fehler 1. Art echt kleiner ist als das vorgegebene Signifikanzniveau α, also
P(H0 verwerfen | H0 ist wahr) < α, so heißt dieser Test konservativ. Man sagt auch, er sch¨ opft das Niveau nicht vollst¨andig aus. Beispiel (Fortsetzung 200) Interviewer Im Beispiel der beiden Interviewer bestimmt man die Wahrscheinlichkeit f¨ ur den Fehler 2. Art als
β(p1 )
=
1 − P (H0 verwerfen | p = p1 ) & ' & ' 1−P Xi > 6 | p = 0, 75 = P Xi ≤ 6|p = 0, 75
=
FBin(8;0,75) (6) = 0, 6329.
=
Dabei ist FBin(8;0,75) die Verteilungsfunktion der Binomialverteilung mit Parametern n = 8 und p = 0, 75. Im Beispiel 200 zeigt sich, dass der beste Test von H0 : p = p0 gegen angt, außer, dass H1 : p = p1 eigentlich nur von p0 , nicht jedoch von p1 abh¨ ur alle p1 > p0 w¨ urde man also denselben besten Test p1 > p0 gelten muss. F¨ f¨ ur dieses Testproblem erhalten. Allerdings h¨ angt die Wahrscheinlichkeit f¨ ur den Fehler 2. Art vom jeweiligen Wert von p1 ab.
4.4
Wie kommt man zu einem Test?
205
Regel Gleichm¨ aßig bester Test bei einfacher Nullhypothese Betrachtet wird eines der beiden Testprobleme 1. H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 > ϑ0 2. H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 < ϑ0 . Dann ist der Test mit Testentscheidung H0 wird zum Niveau α verworfen, falls
f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) > kα∗ f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 )
1. gleichm¨aßig bester Test f¨ ur das Testproblem H0 : ϑ2 = ϑ0
gegen
H1 : ϑ2 > ϑ0 ,
wenn er f¨ ur ein ϑ1 > ϑ0 konstruiert wurde, 2. gleichm¨aßig bester Test f¨ ur das Testproblem H0 : ϑ2 = ϑ0
gegen
H1 : ϑ2 < ϑ0 ,
wenn er f¨ ur ein ϑ1 < ϑ0 konstruiert wurde.
Zweiseitige Alternative F¨ ur das Testproblem H0 : ϑ2 = ϑ0 gegen H1 : ϑ2 = ϑ0 gibt es in der Regel keinen gleichm¨aßig besten Test.
4.4 Wie kommt man zu einem Test? Zusammenhang zwischen Konfidenzintervall und Test
Allgemein kann man das folgende Prinzip nutzen, wenn man einen Test f¨ ur ein interessierendes Testproblem u ¨ ber einen Parameter einer Verteilung konstruiert: Identifizierung des Parameters, u ¨ber den eine Aussage getroffen werden soll.
4.4
206
4. Philosophie des Testens
Sch¨ atzung dieses Parameters auf Basis der vorliegenden Stichprobe. Spricht der gesch¨ atzte Wert eher f¨ ur die Nullhypothese oder f¨ ur die Alternative? Dazu Bestimmung von Grenzen, innerhalb derer der gesch¨ atzte Wert ¨ noch f¨ ur die Nullhypothese spricht bzw. bei deren Uberschreitung alles gegen die Nullhypothese und damit f¨ ur die Alternative spricht; Testentscheidung anhand des Vergleichs des gesch¨atzten Werts mit diesen Grenzen. Das folgende Beispiel verdeutlicht diese Vorgehensweise. B
Beispiel (Fortsetzung 178) Schokoladentafeln
F¨ ur die Schokoladentafeln der Firma Schoko ist bekannt, dass ihr Gewicht X eine normalverteilte Zufallsgr¨ oße ist mit X ∼ N (µ, σ 2 ), wobei σ 2 = 1, 44 gilt. Die Firma behauptet, dass die produzierten Tafeln im Mittel 100 Gramm schwer sind, dass also µ = 100 ist. Den Verbraucher interessiert, ob diese Angabe stimmt, bzw. ob die Tafeln (zu Gunsten des Verbrauchers) vielleicht sogar etwas schwerer sind? In diesem Fall w¨ are der Verbraucher zufrieden und w¨ urde die Schokolade anstandslos akzeptieren. Falls aber das mittlere Gewicht kleiner w¨ are als 100 Gramm, w¨ urde der Verbraucher protestieren. Aus der Sicht des Verbrauchers ergibt sich also folgendes Testproblem H0 : µ ≥ 100
gegen
H1 : µ < 100.
Um dieses Problem anhand einer Stichprobe von n Tafeln Schokolade zu entscheiden, sch¨ atzt man zun¨ achst das erwartete Gewicht mit einem geeigneten Sch¨ atzer. Man betrachtet dazu die Gewichte der Schokoladentafeln x1 , . . . , xn als Realisationen von unabh¨ angigen Zufallsvariablen X1 , . . . , Xn , die alle der unftiger Sch¨ atzer f¨ ur µ gleichen Verteilung folgen wie X. Dann ist X ein vern¨ (siehe hierzu die Abschnitte zu den G¨ utekriterien f¨ ur Sch¨ atzer). Ist das durch X gesch¨atzte erwartete Gewicht deutlich gr¨ oßer als 100, so ahr gleich 100 oder spricht dies nicht gegen H0 (im Gegenteil). Ist X ungef¨ liegt knapp darunter, dann spricht das auch noch nicht gegen H0 . Ist X aber ur deutlich kleiner als 100, ist dies ein starker Hinweis gegen H0 und damit f¨ atzer X dient also gleichzeitig als Pr¨ ufgr¨ oße oder Teststatistik. H1 . Der Sch¨ Nat¨ urlich stellt sich unmittelbar die Frage: Wann ist X deutlich kleiner als 100? Wo setzt man die Grenze? Dies geschieht durch die Vorgabe des Signifikanzniveaus α. Die Grenze h¨angt von der gew¨ unschten Wahrscheinlichkeit
4.4
Wie kommt man zu einem Test?
207
f¨ ur den Fehler 1. Art ab. Dazu betrachtet man die Stelle, an der sich die Nullhypothese und Alternative treffen“, das heißt, man betrachtet den Fall ” µ = 100. In der oben beschriebenen Modellsituation ist √
n·
X − 100 √ X − µ = n· ∼ N (0, 1), 1, 2 1, 2
falls exakt µ = 100 gilt. Man verwendet daher statt X lieber die standardioße als Teststatistik. Bei G¨ ultigkeit der Nullhypothese soll die sierte 43 Gr¨ Wahrscheinlichkeit f¨ ur den Fehler 1. Art h¨ ochstens gleich α sein. Man stellt diesen Zusammenhang wieder f¨ ur den Trennpunkt zwischen Nullhypothese und Alternative her, das heißt √ X − 100 ∗ < kα | µ = 100 ≤ α. P(Fehler 1. Art | µ = 100) = P n· 1, 2 Gleichzeitig m¨ochte man die Schranke kα∗ bei dem hier untersuchten Testproblem m¨oglichst groß w¨ ahlen, damit Abweichungen nach unten vom postulierten Gewicht von µ ≥ 100 Gramm m¨oglichst schnell erkannt werden. Beide Bedingungen liefern, dass kα∗ als zα∗ , das α-Quantil der N (0, 1) gew¨ahlt werden muss. Durch diese Kontrolle des Fehlers 1. Art an der Stelle µ = 100, also am Trennpunkt zwischen Nullhypothese und Alternative kann der Fehler 1. Art f¨ ur alle Werte aus der Nullhypothese µ ≥ 100 kontrolliert werden: √ X − 100 < zα∗ | µ P(Fehler 1. Art | µ) = P n· 1, 2 √ µ − 100 √ X −µ ∗ < zα − n · | µ ≤ α, n· = P 1, 2 1, 2 da
√
n·
X−µ 1,2
standardnormalverteilt ist und zα∗ −
√ n·
µ−100 1,2
≤ zα∗ .
Insgesamt erh¨alt man auf diese Weise die folgende Entscheidungsregel: Lehne H0 : µ ≥ 100 zu Gunsten von H1 : µ < 100 ab, falls √
n·
X − 100 < kα∗ = zα∗ . 1, 2
Ein Verbraucher kauft n = 25 zuf¨ allig ausgew¨ahlte Tafeln Schokolade und ermittelt als durchschnittliches Gewicht einen realisierten Wert von x = 99 Gramm. F¨ ur den Test zum Niveau α = 0, 05 ermittelt er √ x − 100 √ 99 − 100 ∗ = 25 · = −4, 167 < −1, 6449 = z0,05 n· . 1, 2 1, 2
208
4. Philosophie des Testens
Die Hypothese kann also zum Niveau α = 0, 05 verworfen werden. Das erB wartete Gewicht der Schokoladentafeln liegt unter 100 Gramm. Der Test, der hier beispielhaft hergeleitet wurde, ist der so genannte Gauß-Test 222. Man sieht an diesem Beispiel, dass das oben beschriebene allgemeine Prinzip zur Herleitung eines Tests hier eine Verfeinerung erfahren hat: nicht der eigentliche Sch¨atzer X des interessierenden Parameters µ wird schließlich zur Testentscheidung herangezogen, sondern eine Transformation dieser Gr¨oße, √ = deren Verteilung man kennt. Hier ist es T (X1 , . . . , Xn ) = n · X−100 1,2 √ X−µ0 n · σ , wobei µ0 der Parameterwert ist, an dem sich Nullhypothese und Alternative treffen. Der kritische Bereich K 190 des im Beispiel hergeleiteten Tests ist K = (−∞; kα∗ ) = (−∞, ; zα∗ ) = (−∞; −1, 6449) f¨ ur den Test zum Niveau α. Damit ist der zu K komplement¨are Akzeptanzbereich 191 gegeben durch [zα∗ ; ∞), oder, wenn man ihn formal exakt aufschreibt, als {T (X1 , . . . , Xn ), so dass T (X1 , . . . , Xn ) =
√
n·
X − µ0 ≥ zα∗ }. σ
Dabei gilt wegen der Definition eines Akzeptanzbereichs als Komplement des & ' ∗ 0 kritischen Bereichs eines Test, dass P X−µ = 1 − α. ≥ z | H gilt, µ = µ 0 0 α σ Formen wir die Ungleichung, die diesen Akzeptanzbereich definiert, a¨quivalent um, so erhalten wir √
n·
X − µ0 ≥ zα∗ σ
⇔
σ ⇔ −µ0 ≥ −X + zα∗ · √ n
σ X − µ0 ≥ zα∗ · √ n ⇔
σ µ0 ≤ X − zα∗ · √ . n
Die Wahrscheinlichkeitsaussage f¨ ur den Akzeptanzbereich gilt nat¨ urlich weiterhin, so dass auch σ ∗ P µ0 ≤ X − zα · √ | H0 gilt, µ = µ0 n
4.4
Wie kommt man zu einem Test?
=
209
σ P µ ≤ X − zα∗ · √ | µ = µ0 = 1 − α. n
¨ Uber diese letzte Beziehung ist gerade ein (einseitiges, unteres) Konfidenzintervall f¨ ur den Erwartungswert µ bei Normalverteilung mit bekannter Varianz 153 definiert * * σ σ ∗ ∗ −∞; X − zα · √ = −∞; X + z1−α · √ . n n Beziehung zwischen Konfidenzintervallen und Tests Man kann den kritischen Bereich eines Tests stets in ein Konfidenzintervall f¨ ur den zu testenden Parameter umformen und umgekehrt. Dabei f¨ uhren die kritischen Bereiche von Tests zu einseitigen Testproblemen auch zu einseitigen Konfidenzintervallen. Zweiseitige Konfidenzintervalle entsprechen den kritischen Bereichen zu zweiseitigen Testproblemen. Beispiel (Fortsetzung 206) Schokoladentafeln
B
Damit ergeben sich aus den entsprechenden Konfidenzintervallen 153 im gleichen Testproblem wie im obigen Beispiel 206 die folgenden kritischen Bereiche f¨ ur die Tests der beiden anderen m¨oglichen Testprobleme: F¨ ur das Testproblem H0 : µ ≤ µ0
gegen
H1 : µ > µ0
erhalten wir aus dem einseitigen, oberen (1 − α)-Konfidenzintervall f¨ ur µ ) σ ∗ X − z1−α · √ ;∞ n den kritischen Bereich des Tests zum Niveau α als {T (X1 , . . . , Xn ), so dass T (X1 , . . . , Xn ) =
√ X − µ0 > z1−α }. n· σ
F¨ ur das Testproblem H0 : µ = µ0
gegen
H1 : µ = µ0
ergibt sich aus dem zweiseitigen (1 − α)-Konfidenzintervall f¨ ur µ ) * σ σ ∗ ∗ X − z1−α/2 · √ ; X + z1−α/2 ·√ n n
210
4. Philosophie des Testens
als kritischer Bereich des Tests zum Niveau α
√ X − µ0 > z∗ {T (X1 , . . . , Xn ), so dass |T (X1 , . . . , Xn )| = n · 1−α/2 }. σ B
Likelihood-Quotienten-Test
¨ Aus den Uberlegungen zu besten bzw. gleichm¨aßig besten Tests bei speziellen Typen von Hypothesen kann man ein weiteres generelles Prinzip zur Testkonstruktion ableiten: verwendet wurde in der einfachsten Situation als Teststatistik f X1 ,...,Xn (x1 , . . . , xn ; ϑ1 ) , f X1 ,...,Xn (x1 , . . . , xn ; ϑ0 ) das heißt ein Quotient aus der Likelihood unter H1 und der Likelihood unter H0 . Die Argumentation zur Verwerfung von H0 war: wenn unter H1 die Likelihood deutlich h¨ oher ist als unter H0 (und damit der Quotient groß wird), so ist H0 zu verwerfen. Im Fall zusammengesetzter Hypothesen k¨onnte man diese Argumentation erweitern, indem man unter Nullhypothese und Alternative jeweils die h¨ ochste Likelihood bestimmt: sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ)
ϑ∈Θ0
bzw. sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ),
ϑ∈Θ1
und diese beiden ins Verh¨ altnis setzt. Statt des Quotienten supϑ∈Θ1 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) (mit Ablehnung von H0 , falls der Quotient zu groß wird) kann man auch den Kehrwert supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) supϑ∈Θ1 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) heranziehen (mit Ablehnung von H0 , falls der Quotient zu klein wird). In einem letzten Schritt u ¨berlegt man, dass die Suche nach der h¨ochsten
4.4
Wie kommt man zu einem Test?
211
Likelihood unter H1 auch ersetzt werden kann durch eine Suche auf ganz ur Θ = Θ0 ∪ Θ1 (denn falls dabei herauskommt, dass sich der h¨ochste Wert f¨ ahler, der Quotient wird 1 ein ϑ ∈ Θ0 ergibt, entspricht der Nenner dem Z¨ und ist damit nicht klein; H0 wird nicht verworfen). Likelihood-Quotienten-Test Betrachtet wird das Testproblem H0 : ϑ2 ∈ Θ0 gegen H1 : ϑ2 ∈ Θ1 . Der Test mit der Entscheidungsregel H0 wird zum Niveau α verworfen, falls LQ :=
supϑ∈Θ0 f X1 ,...,Xn (x1 , . . . , xn ; ϑ) < kα∗ supϑ∈Θ f X1 ,...,Xn (x1 , . . . , xn ; ϑ)
heißt Likelihood-Quotienten-Test f¨ ur das angegebene Testproblem. Dabei ist f¨ ur einen Test zum Niveau α der kritische Wert kα∗ , 0 < kα∗ < 1, so zu w¨ahlen, dass sup P(LQ < kα∗ | ϑ2 = ϑ) = α,
ϑ∈Θ0
falls es ein solches kα∗ gibt, sonst so, dass kα∗ m¨oglichst groß und zugleich P (LQ < kα∗ | ϑ2 = ϑ) < α
f¨ ur alle ϑ ∈ Θ0 .
Außerdem wird festgelegt, dass LQ = 1,
falls sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = ∞ ϑ∈Θ
und sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) > 0, ϑ∈Θ0
LQ = 0,
falls sup f X1 ,...,Xn (x1 , . . . , xn ; ϑ) = 0. ϑ∈Θ
Beispiel Likelihood-Quotienten-Test
Seien die Stichprobenvariablen X1 , . . . , Xn unabh¨ angige und identisch normalverteilte Zufallsvariablen mit Erwartungswert µ ∈ R und Varianz σ 2 = 0, 25 sowie gemeinsamer Dichtefunktion 1 n n 1 X1 ,...,Xn 2 f (x1 , . . . , xn ) = √ · exp − (xi − µ) , x1 , . . . , xn ∈ R. π i=1
B
212
4. Philosophie des Testens
Gesucht ist ein Likelihood-Quotienten-Test zum Niveau α f¨ ur das Testproblem H0 : µ = µ0
gegen
H1 : µ = µ0
f¨ ur einen festen Wert µ0 . Hier ist Θ0 = {µ0 }, und der ganze Parameterraum ist Θ = R. Dann lautet die Likelihood-Funktion unter H0 1 n n 1 X1 ,...,Xn 2 sup f (x1 , . . . , xn ; µ) = √ · exp − (xi − µ0 ) . π µ∈Θ0 i=1
n uglich µ maDa f X1 ,...,Xn (x1 , . . . , xn ; µ) = ( √1π )n · exp{− i=1 (xi − µ)2 } bez¨ n 1 ximiert wird an der Stelle µ ˆ=x ¯ = n i=1 xi , welche der Maximum-Likelihood-Sch¨ atzung 111 entspricht, gilt sup f X1 ,...,Xn (x1 , . . . , xn ; µ)
µ∈Θ
= f X1 ,...,Xn (x1 , . . . , xn ; µ ˆ) =
1 √ π
n
· exp −
Der Likelihood-Quotient ist dann gegeben als n & 'n 2 √1 · exp − (x − µ ) i 0 π = i=1 LQ = & 'n n 1 2 √ · exp − (xi − x ¯) π
n
1 2
(xi − x ¯)
.
i=1
3 4 exp −n · (¯ x − µ0 )2 .
i=1
Um nun einen Test zum Niveau α zu finden, m¨ ussen wir den gr¨ oßten Wert ∗ ∗ kα bestimmen, so dass gilt supµ∈Θ0 P(LQ < kα | µ) ≤ α wobei gilt sup P(LQ < kα∗ | µ)
=
µ∈Θ0
= = Da
√
n·
¯ X−µ 0 σ
P(LQ < kα∗ | µ = µ0 ) ' & ¯ − µ0 )2 > − log(kα∗ ) | µ = µ0 P n · (X ¯ − µ0 | √ |X − log(kα∗ ) > n· P µ = µ0 σ σ
.
∼ N (0, 1) f¨ ur µ = µ0 , folgt, dass ¯ − µ0 | √ |X ∗ > z1−α/2 P( n · | µ = µ0 ) = α, σ
∗ wobei z1−α/2 das (1−α/2)-Quantil der Standardnormalverteilung ist, so dass ∗ z1−α/2
− log(kα∗ ) = σ
⇔
6 5 ∗ kα∗ = exp −σ 2 · (z1−α/2 )2
4.4
Wie kommt man zu einem Test?
213
f¨ ur σ 2 = 0, 25. Damit wird im Likelihood-Quotienten-Test die Nullhypothese zum Niveau α verworfen, wenn gilt 5 6 ∗ LQ < kα∗ = exp −σ 2 · (z1−α/2 )
⇔
√
n·
¯ − µ0 | |X ∗ > z1−α/2 . σ B
Kapitel 5 Verschiedene Situationen – verschiedene Tests
5
5
5
Verschiedene Situationen – verschiedene Tests
217
5.1
Situationen ........................................................ 217
5.2
Parametrische Tests ............................................. 222
5.3
Nichtparametrische Tests....................................... 314
5.1
Situationen
217
5 Verschiedene Situationen – verschiedene Tests
5.1 Situationen In praktischen Fragestellungen, die mit statistischen Tests untersucht werden, taucht eine Reihe von typischen Situationen immer wieder auf. F¨ ur derartige Standardsituationen gibt es bekannte Testverfahren, die in den folgenden Abschnitten dieses Kapitels dargestellt werden. Es handelt sich dabei um Tests f¨ ur die so genannten Einstichproben-, Zweistichprobenund Mehrstichprobenprobleme u ¨ber die Lage einer Verteilung, um Tests u ¨ber die Streuung einer Verteilung, Tests auf einen Anteil, Unabh¨ angigkeitstests, Anpassungstests und Tests im Regressionsmodell. Je nachdem, ob es sich um Tests u ¨ ber die Parameter von Verteilungen handelt oder nicht, unterscheiden wir die in den Situationen zu verwendenden Verfahren nach parametrischen und nichtparametrischen Testverfahren. Tests im Einstichprobenproblem Betrachtet wird eine Zufallsvariable X mit Verteilung FX . Im so genannten Einstichprobenproblem f¨ ur die Lage interessieren Aussagen u ¨ ber die Lage der Verteilung von X: streuen die Werte von X im Mittel um einen bestimmten vorgegebenen Wert? Liegen Realisationen von X im Schnitt unterhalb einer interessierenden Grenze? Zur Beantwortung dieser Fragen wird eine Stichprobe x1 , . . . , xn von Realisationen der Stichangig und identisch probenvariablen X1 , . . . , Xn beobachtet, die unabh¨ wie X verteilt sind. Anhand der in dieser Stichprobe enthaltenen Information wird eine Antwort auf die Frage nach der Lage von FX gefunden. Da hier nur eine Stichprobe eines Merkmales eine Rolle spielt, spricht man vom Einstichprobenproblem oder Einstichprobenfall. Betrachtet man solche Fragen im Rahmen eines parametrischen Modells, so interessiert man sich typischerweise f¨ ur Aussagen u ¨ber den Erwartungswert von X. Tests, die in diesem Fall u ¨ blich sind, sind der Gauß-Test 222 und der t-Test 236. Befindet man sich dagegen in einer nichtparametrischen Modellsituation, wird die Lage oft charakterisiert durch den Median der ¨ber den Median der VerVerteilung FX . Ein nichtparametrischer Test u teilung von X ist der Vorzeichen-Test 317.
5.1
218
5. Verschiedene Situationen – verschiedene Tests
Beispiel Einstichprobenproblem
N¨ ordlich von Berlin wird eine neue Kleingartenanlage angelegt. Laut Inserat betr¨agt die durchschnittliche Kleingartengr¨ oße 150 m2 . Eine Gruppe interessierter K¨aufer bef¨ urchtet, dass die Grundst¨ ucke tats¨achlich kleiner sind. Halten die Grundst¨ ucke, was das Inserat verspricht, oder hat die InteressenB tengruppe Recht? Tests im Zweistichprobenproblem Im Zweistichprobenproblem werden zwei Zufallsvariablen X und Y mit Verteilungen FX und FY betrachtet. Hier interessiert man sich beispielsweise daf¨ ur, ob sich diese beiden Verteilungen hinsichtlich ihrer Lage unterscheiden. Streuen die Werte von X im Mittel um dieselbe Gr¨oße wie die Werte von Y ? Tendiert Y im Mittel zu kleineren Werten als X? In dieser Situation werden zur Beantwortung der Fragen zwei Stichproben x1 , . . . , xn und y1 , . . . , ym betrachtet. Diese werden als Realisationen der Stichprobenvariablen X1 , . . . , Xn bzw. Y1 , . . . , Ym angesehen, die unabh¨ angig und identisch wie X bzw. Y verteilt und insgesamt voneinander unabh¨ angig sind. Da bei der Beantwortung der Fragen zwei Stichproben eine Rolle spielen, spricht man vom Zweistichprobenproblem oder Zweistichprobenfall. Beim Zweistichprobenproblem unterscheiden wir die Situation, in der die Lage der Verteilungen FX und FY interessiert, und die Situation, in der die Varianzen der beiden Verteilungen von Interesse sind. F¨ ur das Lageproblem sind im Fall parameangitrischer Modelle der Gauß-Test 222 und der t-Test 242 die g¨ gen Tests. Im Fall eines nichtparametrischen Ansatzes verwendet man ur das Streuungsproblem beden Wilcoxon-Rangsummen-Test 324. F¨ trachten wir den F-Test zum Vergleich zweier Varianzen 260, der f¨ ur ein parametrisches Modell konstruiert ist. Es gibt aber auch nichtparametrische Tests f¨ ur dieses Problem, wie zum Beispiel den Mood-Test oder den Siegel-Tukey-Test, die beispielsweise in B¨ uning, Trenkler (1994) zu finden sind.
B
Beispiel Zweistichprobenproblem f¨ ur die Lage
In einem Agrar-Betrieb gibt es zwei Maschinen, die Getreide in S¨acke abf¨ ullen. Der Betrieb will gew¨ahrleisten, dass die K¨aufer des Getreides S¨ acke mit identischem Gewicht (bis auf kleine Zufallsschwankungen) erhalten, unabh¨ angig davon, welche der beiden Maschinen das Getreide eingef¨ ullt hat. F¨ ullen also B beide Maschinen im Mittel gleich viel Getreide in die S¨acke?
B
5.1
Situationen
219
Beispiel Zweistichprobenproblem f¨ ur die Streuung
B
Es ist bekannt, dass Mineralwasser mit einem relativ hohen Magnesiumgehalt empfehlenswert ist. F¨ ur zwei von Verbrauchern bevorzugte Sorten Mineralwasser, die im Mittel den gleichen Magnesiumgehalt aufweisen, soll u ¨berpr¨ uft werden, ob beide Sorten den Magnesiumgehalt gleichm¨ aßig gut sicherstellen. Dazu muss untersucht werden, ob f¨ ur beide Mineralw¨asser die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterB scheiden. Tests im k-Stichprobenproblem Das k-Stichprobenproblem f¨ ur die Lage ist eine Verallgemeinerung des Zweistichproben-Lageproblems auf die Situation von mehr als zwei Zufallsvariablen. Betrachtet werden k Zufallsvariablen X1 , . . . , Xk mit Verteilungen FX1 , . . . , FXk . Es interessiert, ob alle diese Verteilungen dieselbe Lage haben oder ob sich mindestens zwei von ihnen hinsichtlich ihrer Lage unterscheiden. Streuen die Werte von X1 , . . . , Xk im Mittel alle um denselben Wert? Im Gegensatz zum Zweistichprobenproblem f¨ ur die Lage m¨ochte man hier nur eine Aussage u ¨ber Unterschiede zwischen den Lagewerten der Verteilungen treffen, man fragt aber nicht nach den Richtungen eventueller Unterschiede. Zum Aufdecken m¨oglicher Lageunterschiede werden nun k Stichproben x11 , . . . , x1n1 , . . . , xk1 , . . . , xknk herangezogen. Sie werden als Realisationen entsprechender Stichprobenvariablen betrachtet, die jeweils unabh¨ angig und identisch wie Xi verteilt und insgesamt voneinander unabh¨ angig sind, i = 1, . . . , k. Da bei der Beantwortung der Fragen k Stichproben eine Rolle spielen, spricht man vom k-Stichprobenproblem oder k-Stichprobenfall. F¨ ur den parametrischen Fall stellen wir den F-Test zum Vergleich ur den nichtparametrischen Fall den mehrerer Stichproben 269 vor, f¨ ur die StreuKruskal-Wallis-Test 335. Das k-Stichprobenproblem f¨ ung wird hier nicht behandelt. Tests, die die Gleichheit der Varianzen f¨ ur k Stichproben u ¨berpr¨ ufen, sind zum Beispiel Bartlett’s Test (Bartlett, (1967)) oder der Levene-Test (Netter et al. (1996)).
Beispiel k-Stichprobenproblem f¨ ur die Lage
Die Wartezeit beim Arztbesuch ist ein wiederkehrendes Thema. Viele Patienten sind der Meinung, dass sie zu lange im Wartezimmer sitzen, bis sie zur Behandlung vorgelassen werden. Insbesondere die Wartezeit beim Zahnarzt wird h¨ aufig als unangemessen lang empfunden. Unterscheidet sich die mitt¨ lere Wartezeit bei Zahn¨ arzten tats¨achlich von der bei anderen Arzten, wie
B
220
5. Verschiedene Situationen – verschiedene Tests
zum Beispiel Allgemeinmedizinern oder Haut¨ arzten, oder ist dieser Eindruck B doch durch die verbreitete Angst vor dem Zahnarzt begr¨ undet? Tests auf einen Anteil Betrachtet wird eine Grundgesamtheit, in der ein Anteil p der Objekte eine interessierende Eigenschaft besitzen. Es interessieren Fragen u ¨ ber diesen Anteil p. Besitzen beispielsweise weniger als 50% der Objekte in der Grundgesamtheit die interessierende Eigenschaft? Sind es genau 50% der Objekte? Diese Situation kann mit der Situation im Einstichprobenproblem verglichen werden. Definiert man die Zufallsvariable X durch die Zuordnung X = 1, falls ein Objekt die interessierende Eigenschaft besitzt, und X = 0 sonst, so ist X bernoulliverteilt 38 mit Parameter p. Der Erwartungswert als Lageparameter dieser Verteilung ist gerade p. Es ist also eine Aussage u ¨ber die Lage der Verteilung von X zu treffen. Da es sich hier aber um eine ganz spezielle Verteilung handelt, mit der man sich auseinander setzt, werden Probleme dieses Typs gesondert behandelt. Zu den Tests auf einen Anteil geh¨ oren der exakte Binomialtest 278 und der approximative Binomialtest 285. B
Beispiel Problem f¨ ur einen Test auf einen Anteil
Der Produzent einer Ware muss sicherstellen, dass seine Lieferungen keinen zu hohen Anteil an Ausschussware enthalten. Anderenfalls muss er mit zu vielen Reklamationen rechnen, die ihn Geld f¨ ur Reparatur oder Ersatz kosten. Enth¨ alt eine Lieferung h¨ ochstens den vorgegebenen Ausschussanteil oder wird der vom Produzenten als hinnehmbar angesehene Anteil u ¨berschritten? B Anpassungstests Die von Anpassungstests untersuchte Problemstellung bezieht sich auf die Frage, ob eine interessierende Zufallsvariable X einer Verteilung FX folgt, die zu einer bestimmten Menge von Verteilungen geh¨ ort. Handelt es sich bei FX beispielsweise um eine Normalverteilung 42? Folgt X einer Poissonverteilung 41 mit Parameter λ = 0, 3? Fragen dieses Typs beantwortet der χ2 -Anpassungstest 290. Ein nichtparametrischer Test f¨ ur diese Problemstellung ist der Kolmogorow-Smirnow-Test (B¨ uning, Trenkler (1994)).
5.1
Situationen
221
Beispiel Problem f¨ ur einen Anpassungstest
B
In einem Computer-Netzwerk ist der zentrale Server die Komponente, die nach M¨ oglichkeit nie ausfallen darf. Der Ausfall eines Servers sollte entsprechend ein seltenes Ereignis sein. Erhebt man die Anzahl der Ausf¨ alle eines Servers pro Woche, so sollte dieses Merkmal poissonverteilt sein. Besitzt die Zufallsvariable Anzahl der Ausf¨ alle eines Servers pro Woche B tats¨ achlich eine Poissonverteilung? Unabh¨ angigkeitstests Betrachtet werden zwei Zufallsvariablen X und Y , die an denselben Untersuchungsobjekten beobachtet werden. Man m¨ ochte wissen, ob die beiden interessierenden Merkmale miteinander zusammenh¨ angen, oder ob sie voneinander unabh¨ angig sind. Kann man basierend auf beobachteten Werten von X auf die Werte von Y schließen? Oder bringt die Information u ¨ber X keine Kenntnis u ¨ber Y ? Mit anderen Worten: sind X und Y stochastisch unabh¨ angig 31? Zur Beantwortung dieser Fragen zieht man eine Stichprobe (x1 , y1 ), . . . , (xn , yn ), wobei jeweils xi und yi am selben Objekt beobachtet werden. Statistische Unabh¨ angigkeitstests beantworten anhand der Information aus dieser Stichprobe die Frage der Unabh¨ angigkeit von X und Y . Wir betrachten den angigkeitstest 300 und den exakten Test nach Fisher χ2 -Unabh¨ 306. Beispiel Problem f¨ ur einen Unabh¨ angigkeitstest
Im Rahmen der Gleichstellungsdiskussionen kommt immer wieder die Frage auf, ob mittlerweile Frauen bei gleicher Arbeitsleistung auch das gleiche Einkommen erhalten wie M¨ anner. Ein Unabh¨ angigkeitstest k¨onnte anhand erhobener Daten aus verschiedenen Berufszweigen u ¨berpr¨ ufen, ob die beiden Merkmale Einkommen und Geschlecht stochastisch unabh¨angig sind und daB mit die Gleichstellung beim Einkommen mittlerweile erreicht ist. Tests im linearen Regressionsmodell Betrachtet wird eine Zufallsvariable Y , die durch einen einfachen linearen Zusammenhang von einer deterministischen Einflussgr¨ oße x abh¨ angt: Y = β0 + β1 · x + ε, die so genannte Regressionsgerade 135 e. Es interessieren Aussagen u ¨ber die Regressionskoeffizienten β0 und β1 . Der Zusammenhang zwischen Y und x wird nach der Modellgleichung im Wesentlichen durch eine Gerade mit Achsenabschnitt β0 und Steigung β1 beschrieben.
B
222
5. Verschiedene Situationen – verschiedene Tests
Liegt der Achsenabschnitt in einer bestimmten vorgegebenen H¨ ohe? Ist die Geradensteigung positiv oder negativ? Ist sie u ¨berhaupt von Null verschieden? Zur Beantwortung dieser Fragen wird eine Stichprobe (x1 , y1 ), . . . , (xn , yn ) herangezogen, wobei zu festen Werten x1 , . . . , xn die realisierten Werte y1 , . . . , yn beobachtet werden. Anhand der in dieser Stichprobe enthaltenen Information werden Antworten auf Fragen u ¨ber die Regressionskoeffizienten gesucht. Die entsprechenden Verfahren sind bei den Tests im linearen Regressionsmodell 309 zusammengestellt.
B
Beispiel Problem im linearen Regressionsmodell
Die Wettervorhersage bietet immer wieder Anlass zur Kritik. Manche Leute sind der Meinung, dass die Vorhersage morgen wird das Wetter genau so wie ” heute“ noch die zuverl¨assigste Prognose liefert. Bei der Temperaturvorhersage kann man jeweils die prognostizierte Durchschnittstemperatur f¨ ur einen Tag mit der an diesem Tag tats¨achlich eingetretenen Durchschnittstemperatur vergleichen. Wenn die Prognosen im Wesentlichen stimmen, m¨ ussten die Beobachtungspaare, bestehend aus prognostizierter und eingetretener Temperatur, entlang einer Geraden mit Steigung 1 und Achsenabschnitt 0 streuen. Kann man anhand beobachteter Daten nachweisen, dass die Prognosen der B letzten drei Monate gut waren?
5.2
5.2 Parametrische Tests Gauß-Test
Der Gauß-Test ist ein Test u ¨ ber den Erwartungswert einer normalverteilten Zufallsvariablen X. Ausgehend von unabh¨ angigen und identisch normalverteilten Stichprobenvariablen X1 , . . . , Xn , die der gleichen Normalverteilung folgen wie X selbst, basiert der Test auf dem arithmetischen Mittel der Stichprobenvariablen n 1 X= Xi . n i=1 Voraussetzung f¨ ur die Anwendung des Tests ist, dass die Varianz σ 2 von X bekannt ist. Diese Voraussetzung stellt naturgem¨ aß in der praktischen
5.2
Parametrische Tests
223
Anwendung einen Nachteil dar, da σ 2 dort nur selten bekannt ist. Alternativ findet dann der t-Test seine Anwendung. Der Vorteil des Gauß-Tests liegt darin, dass man ihn bei ausreichend großem Stichprobenumfang n auch anwenden kann, wenn die Stichprobenvariablen X1 , . . . , Xn nicht normalverteilt sind. In diesem Fall sind X1 , . . . , Xn unabh¨ angig und identisch wie X verteilt, wobei X einer beliebigen Verteilung folgen kann mit bekannter Varianz σ 2 . Da die Teststatistik des Gauß-Tests auf dem arithmetischen Mittel X beruht und dieses gem¨aß dem Zentralen Grenzwertsatz e f¨ ur gen¨ ugend großem Stichprobenumfang n approximativ normalverteilt ist, unabh¨ angig von der Verteilung der Stichprobenvariablen X1 , . . . , Xn , darf der Gauß-Test auch unter diesen gelockerten Voraussetzungen angewendet werden. Somit beruht die Testentscheidung beim Gauß-Test auf der Annahme, dass die Verteilung der Teststatistik zumindest approximativ einer Normalverteilung entspricht. Voraussetzungen Die Anwendung des Gauß-Tests setzt folgende Annahmen an die Daten voraus Die Beobachtungswerte x1 , . . . , xn sind Realisierungen unabh¨ angiger und identisch verteilter Stichprobenvariablen X1 , . . . , Xn , die der gleichen Verteilung folgen wie die Zufallsvariable X. Die Zufallsvariable X ist normalverteilt mit Erwartungswert E(X) = µ und bekannter ur die Stichprobenvariablen Varianz Var(X) = σ 2 . Das heißt, f¨ gilt E(X) = µ und Var(Xi ) = σ 2 , i = 1, . . . , n. oder folgt einer beliebigen Verteilung mit Erwartungswert E(X) = µ und bekannter Varianz Var(X) = σ 2 wobei der Stichprobenumfang mindestens n ≥ 30 betragen sollte. In diesem Fall greift der Zentrale Grenzwertsatz e, der gew¨ahrleistet, dass das arithmetische Mittel der Stichprobenvariablen approximativ normalverteilt ist. Zu testen sei eine Hypothese u ¨ ber den Erwartungswert µ der Zufallsvariablen X.
224
5. Verschiedene Situationen – verschiedene Tests
¨ Uberpr¨ ufbarkeit der Voraussetzungen in der Praxis In der Praxis ist die Annahme, dass die gesammelten Daten Realisierungen unabh¨ angiger und identisch verteilter Stichprobenvariablen sind, nicht leicht u ¨berpr¨ ufbar. Im Allgemeinen ist es ausreichend, sicherzustellen, dass die Beobachtungen aus einer Zufallsstichprobe stammen. Das heißt, die Beobachtungen wurden zuf¨ allig und damit auch unabh¨ angig voneinander aus der Grundgesamtheit ausgew¨ ahlt. F¨ ur den Fall, dass keine Normalverteilung zu Grunde liegt, ist es nicht immer zwingend, mindestens 30 Beobachtungen zu haben. Ist die Verteilung stetig und liegen keine extrem von der Hauptmasse der Daten abweichenden Beobachtungen vor, so sind auch kleinere Stichprobengr¨ oßen ausreichend. Dennoch gilt: Je gr¨ oßer die Stichprobe ist, desto besser kann die Verteilung des arithmetischen Mittels durch die Normalverteilung approximiert werden.
B
Beispiel Anwendbarkeit des Gauß-Tests
Der Intelligenzquotient (IQ) von Menschen wird durch so genannte Intelligenztests bestimmt. Das Resultat eines solchen Tests ist eine Gr¨oße X, die normalverteilt ist mit Erwartungswert µ und Standardabweichung σ=16, ¨ber µ zu testen, so kann der also Xi ∼ N (µ, 256). Ist eine Hypothese u Gauß-Test benutzt werden, wenn die Voraussetzungen erf¨ ullt sind. Beiangig spielhaft sind f¨ ur n = 4 Stichprobenvariablen X1 , . . . , X4 , die unabh¨ und identisch wie X verteilt sind, die Voraussetzungen erf¨ ullt, da hiermit angig und identisch normalverteilt sind mit bekannter X1 , . . . , X4 unabh¨ Varianz σ 2 = 256. Die Anwendung des Gauß-Tests basierend auf den vier Beobachtungen ist erlaubt. Die Brenndauer X einer bestimmten Sorte von Gl¨ uhbirnen kann als exponentialverteilt mit einer zu erwartenden Brenndauer von ϑ Stunden angenommen werden. Zu testen ist eine Hypothese u ¨ ber E(X) = ϑ. Eine Stichprobe vom Umfang n = 4 ist hier nicht ausreichend, da die Stichangig und identisch wie X verteilt probenvariablen X1 , . . . , X4 zwar unabh¨ sind, jedoch keiner Normalverteilung folgen. Ben¨ otigt wird eine Stichprobe von n ≥ 30 Beobachtungen. Die Anwendung des Gauß-Tests basierend auf den vier Beobachtungen ist hier nicht erlaubt. B
5.2
Parametrische Tests
225
Hypothesen F¨ ur den Erwartungswert E(X) = µ ∈ R der Zufallsvariablen X k¨onnen folgende Testprobleme mit dem Gauß-Test untersucht werden Problem (1): Problem (2): Problem (3):
H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0
gegen gegen gegen
H1 : µ = µ0 H1 : µ > µ0 H1 : µ < µ0
(zweiseitig) (rechtsseitig) (linksseitig)
Problem (1) beleuchtet die Frage, ob der Erwartungswert einem Zielwert entspricht oder nicht, w¨ ahrend Problem (2) sich um den Nachweis dreht, dass der Erwartungswert tats¨ achlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass der wahre Erwartungswert von X kleiner ist als unter Nullhypothese angenommen.
Beispiel Hypothesen
B
Eine Molkerei liefert Frischmilch in 0,5 l Flaschen. Im Rahmen der Qualit¨ atskontrolle u ¨berpr¨ uft die Molkerei, ob die Abf¨ ullanlage die vorgegebene Abf¨ ullmenge einh¨ alt. Getestet wird H0 : µ = 0, 5
gegen
H1 : µ = 0, 5.
Dabei bezeichnet µ die erwartete Abf¨ ullmenge der Anlage. N¨ ordlich von Berlin wird eine neue Kleingartenanlage angelegt. Die durchschnittliche Kleingartengr¨ oße µ betr¨agt laut Inserat 150 m2 . Eine Gruppe interessierter K¨aufer hat jedoch die Vermutung, dass die Grundst¨ ucke kleiner sind, als im Inserat ausgeschrieben. Sie geben einem Vermessungsb¨ uro den Auftrag, eine Stichprobe von Kleing¨ arten auszumessen, um die Vermutung zu u ¨berpr¨ ufen H0 : µ ≥ 150
gegen
H1 : µ < 150.
Ein Automobilhersteller behauptet, dass das Unternehmen die Emission ur ein neu entwickeltes Modell von urspr¨ unglich 140 g/km von CO2 Gasen f¨ entscheidend verringert hat. Eine Umweltbeh¨ orde vermutet jedoch, dass diese Angabe nicht der Wahrheit entspricht und nur zu Werbezwecken eingef¨ uhrt wurde. Die Umweltbeh¨ orde beantragt daraufhin, basierend auf ¨ einer Stichprobe, die Uberpr¨ ufung der erwarteten CO2 Emission µ dieser Fahrzeuge. Zu testen ist daher H0 : µ ≤ 140
gegen
H1 : µ > 140. B
226
5. Verschiedene Situationen – verschiedene Tests
Teststatistik Sei X eine Zufallsvariable mit unbekanntem Erwartungswert E(X) = µ uhrten Voraussetund bekannter Varianz Var(X) = σ 2 . Unter den eingef¨ zungen folgt das arithmetische Mittel X 43 e der Stichprobenvariablen X1 , . . . , Xn unter der Annahme µ = µ0 einer Normalverteilung mit Erwartungswert µ0 und Varianz σ 2 /n: σ2 , X ∼ N µ0 , n wobei die Verteilungsaussage nur approximativ gilt, wenn X1 , . . . , Xn nicht selbst normalverteilt sind. Damit ergibt sich als Teststatistik: Z=
√
n·
X − µ0 . σ
Die Teststatistik Z folgt unter der Annahme µ = µ0 einer Standardnormalverteilung N (0, 1), wobei dies nur approximativ gilt, wenn X1 , . . . , Xn nicht selbst normalverteilt sind.
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls Problem (1): |Z| Problem (2): Problem (3):
Z Z
∗ > z1−α/2
>
1, 9599 ist. Das Durchschnittsgewicht der Schokoladentafeln unterscheidet sich also B signifikant von den geforderten 100 g. B
Beispiel Weinkonsum
In einer Stadt an der Mosel interessiert man sich f¨ ur den durchschnittlichen Weinkonsum pro Einwohner in einem Jahr. Im letzten Jahr trank jeder Deutsche durchschnittlich 20 Liter Wein. Es wird allerdings vermutet, dass der ¨ortliche Konsum h¨ oher ist. Aus diesem Grund wird aus der Stadtbev¨ olkerung eine repr¨ asentative Stichprobe von 100 Personen gezogen, deren Liter-Verbrauch an Wein in einem Jahr kontrolliert wird. Das aus diesen Daten resultierende Mittel betr¨agt 20,3 Liter. Es wird vorausgesetzt, dass die
5.2
Parametrische Tests
229
Standardabweichung des Konsums pro Person 3 Liter betr¨ agt. Da u ¨ berpr¨ uft werden soll, ob die Einwohner einen h¨ oheren Verbrauch an Wein haben als 20 Liter, ist das Testproblem ein rechtsseitiges, und die Hypothesen m¨ ussen wie folgt aufgestellt werden H0 : µ ≤ 20
gegen
H1 : µ > 20.
Getestet wird zu einem Niveau von α = 0, 05. Bei einem Stichprobenumfang von n = 100 kann man davon ausgehen, dass das arithmetische Mittel X approximativ normalverteilt ist. Außerdem ist die Varianz bekannt. Daher ist das gegebene Testproblem mit dem Gauß-Test u ¨ berpr¨ ufbar. Das Einsetzen der entsprechenden Gr¨ oßen in die Teststatistik Z=
√
n·
X − µ0 σ
ergibt zbeo =
√
100 ·
20, 3 − 20 = 0, 9985. 3
∗ Die Realisation der Teststatistik wird nun mit dem (1 − α)-Quantil z1−α ∗ der Standardnormalverteilung verglichen. F¨ ur α = 0, 05 entspricht z1−α dem ∗ 0,95-Quantil, welches mit z0,95 = 1, 6449 gegeben ist. Die Nullhypothese H0 wird zum Niveau α = 0, 05 nicht abgelehnt, da zbeo = 0, 9985 < 1, 6449. Damit kann kein signifikanter Unterschied im durchschnittlichen Weinkonsum des Moselst¨adtchens im Vergleich zu dem der Gesamtbev¨olkerung nachgewieB sen werden.
Beispiel Akkus
B
Eine Firma, die elektrische Zahnb¨ ursten herstellt, bezieht ihre Akkus f¨ ur die Zahnb¨ ursten von einer Zulieferfirma. Die Laufzeit der Akkus folgt nach Angaben der Lieferfirma einer Normalverteilung mit Erwartungswert µ = 80 Stunden und einer Standardabweichung σ = 2 Stunden. Eine zuf¨ allige Stichprobe von 10 Beobachtungen liefert die folgenden Laufzeiten bis zur Ersch¨ opfung der Akkus 74,76
78,27
74,81
77,10
78,91
71,37
80,63
73,59
85,63
78,59
Anhand dieser Stichprobe soll nun u ¨berpr¨ uft werden, ob die durchschnittliche Laufzeit der Akkus nicht geringer ist, als es die Lieferfirma angegeben hat. Es ergibt sich also folgendes linksseitiges Testproblem H0 : µ ≥ 80
gegen
H1 : µ < 80,
das zu einem Niveau von α = 0, 05 u ¨berpr¨ uft werden soll. Da die AkkuLaufzeit normalverteilt und die Varianz bekannt ist, kann der Gauß-Test f¨ ur
230
5. Verschiedene Situationen – verschiedene Tests
¨ die Uberpr¨ ufung der Hypothese verwendet werden. Zu berechnen ist also die Teststatistik Z=
√
n·
X − µ0 . σ
Aus den gegebenen n = 10 Beobachtungen ergibt sich als arithmetisches Mittel x = 74, 74. Bekanntermaßen ist σ = 2 Stunden. Durch Einsetzen dieser Werte in die Gleichung erh¨ alt man zbeo =
√
10 ·
74, 74 − 80 = −8, 32. 2
Verglichen wird das Ergebnis der Teststatistik mit dem α-Quantil zα∗ der Standardnormalverteilung. F¨ ur α = 0, 05 entspricht zα∗ dem 0,05-Quantil, ∗ welches mit z0,05 = −1, 6449 gegeben ist. Bei dem gew¨ahlten Signifikanzniveau von α = 0, 05 wird die Nullhypothese H0 abgelehnt, da zbeo = −8, 32 < −1, 6449. Damit scheint die Laufzeit der Akkus durchschnittlich geringer als B 80 Stunden zu sein. G¨ utefunktion f¨ ur den Gauß-Test
Die G¨ ute eines Tests ist definiert als die Wahrscheinlichkeit, die Nullhypotheangigkeit se H0 abzulehnen, wenn diese tats¨achlich falsch ist. Sie wird in Abh¨ eines konkreten Parameterwerts aus dem Bereich der Alternativhypothese berechnet und kann deshalb als Funktion des Parameters aufgefasst werden. F¨ ur den Gauß-Test l¨ asst sich die G¨ ute wie folgt aufschreiben: Bezeichne K den kritischen Bereich des Gauß-Tests, Z die Teststatistik sowie µ den zu testenden Parameter. Dann l¨ asst sich die G¨ utefunktion als Funktion von µ schreiben als Pµ (Z ∈ K) = P(Z ∈ K | µ) = P(H0 ablehnen | µ), die Wahrscheinlichkeit, H0 abzulehnen, wenn der Erwartungswert von X gleich µ ist. Die G¨ ute eines Tests ist in Abh¨angigkeit vom Ablehnbereich des Tests zu sehen. F¨ ur das Testproblem H0 : µ ≤ µ0 gegen H1 : µ > µ0 wird die Nullhypothese verworfen, falls ∗ ist, das der auf den Daten basierende Wert der Teststatistik Z > z1−α heißt die G¨ utefunktion berechnet sich als √ X − µ0 ∗ > z1−α , Pµ (Z ∈ K) = Pµ n· σ
5.2
Parametrische Tests
231
∗ wobei der kritische Bereich K = (z1−α , ∞) ist. Es kann gezeigt werden, dass sich die obige Gleichung umformen l¨ asst zu √ µ − µ0 ∗ , Pµ (Z ∈ K) = 1 − Φ z1−α − n · σ
wobei Φ die Verteilungsfunktion der Standardnormalverteilung N (0, 1) bezeichnet. Analog ergibt sich die G¨ utefunktion f¨ ur die verbleibenden Testprobleme. G¨ utefunktion f¨ ur den Gauß Test H0 : µ ≤ µ0 gegen H1 : µ > µ0 Pµ (Z ∈ K)
=
=
√ µ − µ0 ∗ 1 − Φ z1−α − n· σ √ µ − µ0 ∗ Φ −z1−α − n· σ
H0 : µ ≥ µ0 gegen H1 : µ < µ0 Pµ (Z ∈ K)
=
√ µ − µ0 ∗ Φ zα − n · σ
H0 : µ = µ0 gegen H1 : µ = µ0 √ µ − µ0 ∗ Pµ (Z ∈ K) = Φ −z1−α/2 + n · σ √ µ − µ0 ∗ + Φ −z1−α/2 − n · σ
Die G¨ utefunktion h¨ angt von drei Faktoren ab. Als Funktion des Parameters nimmt sie unterschiedliche Werte in Abh¨angigkeit des Parameters an. Der Stichprobenumfang n sowie die Wahl des Signifikanzniveaus α haben jedoch ebenfalls einen Einfluss auf den Wert der G¨ utefunktion. Man vergleiche hierzu auch die Ausf¨ uhrungen im Kapitel zur G¨ ute 193.
232
B
5. Verschiedene Situationen – verschiedene Tests
Beispiel (Fortsetzung 178 227) Schokoladentafeln
Die G¨ ute f¨ ur das zweiseitige Testproblem aus dem Beispiel Schokoladentafeln ist von Interesse. Angenommen, der Schokoladentafelproduzent stellt tats¨ achlich Tafeln mit einem durchschnittlichem Gewicht von 101 g her. Wie groß ist die Wahrscheinlichkeit, dass die Testentscheidung richtig ist, das heißt die Behauptung µ = 100 g abgelehnt wird. Der wahre Parameter µ hat den Wert 101, und f¨ ur die G¨ ute dieses Tests ergibt sich √ 101 − 100 Pµ (Z ∈ K | µ = 101) = Φ −1, 9599 + 10 · 1 √ 101 − 100 + Φ −1, 9599 − 10 · 1 & ' & √ √ ' = Φ −1, 9599 + 10 + Φ −1, 9599 − 10 =
0, 8854.
Die Wahrscheinlichkeit, die Nullhypothese richtigerweise abzulehnen, wenn µ = 101 ist, betr¨agt also 88,54%. F¨ ur andere Werte aus der Alternative B andert sich die G¨ ¨ ute nat¨ urlich. B
Beispiel (Fortsetzung 228) Weinkonsum
Betrachtet wird nun das rechtsseitige Testproblem aus dem Beispiel Weinkonsum. Trinken die Bewohner des Moselst¨adtchens tats¨achlich u ¨ berdurchschnittlich viel Wein, ist zum Beispiel µ = 21, so ist die G¨ ute √ µ − µ0 ∗ Pµ (Z ∈ K | µ = 21) = 1 − Φ z1−α − n · σ √ 21 − 20 = 1 − Φ 1, 6449 − 100 · 3 √ 100 = 1 − Φ 1, 6449 − 3 =
0, 9543.
Das heißt, die Wahrscheinlichkeit, die Nullhypothese korrekterweise zu verB werfen, wenn µ = 21 ist, ist 95,43%.
5.2
Parametrische Tests
233
Beispiel (Fortsetzung 229) Akkus
Die G¨ ute f¨ ur das linksseitge Testproblem aus dem Beispiel Akkus f¨ ur einen Wert von µ = 78, 5 l¨ asst sich berechnen durch √ µ − µ0 Pµ (Z ∈ K | µ = 78, 5) = Φ zα∗ − n · σ √ 78, 5 − 80 = Φ −1, 6449 − 10 · 2 ' & √ = Φ −1, 6449 − 10 · 0, 75 =
0, 7663.
Damit betr¨ agt die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn B der wahre Parameter µ = 78, 5 ist, 76,63%. Der Gauß-Test im Zweistichprobenproblem
Ist nicht nur die Lage einer Zufallsvariable X von Interesse, sondern der Vergleich zweier Zufallsvariablen X und Y bez¨ uglich ihrer Lage, so befinden wir uns im so genannten Zweistichprobenproblem 218. Die Anwendung des Gauß-Tests im Zweistichprobenfall ist eher selten, da vorausgesetzt wird, dass die Varianz sowohl von X als auch von Y bekannt ist, was in der Praxis sehr unwahrscheinlich ist. Alternativ wird dann der t-Test 242 verwendet. Voraussetzungen Folgende Voraussetzungen m¨ ussen f¨ ur die Anwendung der Testprozedur erf¨ ullt sein Gegeben sei ein Merkmal, das in zwei verschiedenen Grundgesamtheiten interessiert. Das Merkmal in Grundgesamtheit 1 sei charakterisiert durch eine Zufallsvariable X mit Erwartungswert E(X) = µX und Varianz 2 2 . Dabei ist σX bekannt. Entsprechend sei das MerkVar(X) = σX mal in Grundgesamtheit 2 beschrieben durch eine Zufallsvariable Y mit Erwartungswert E(Y ) = µY und Varianz Var(Y ) = σY2 . Dabei ist σY2 bekannt.
B
234
5. Verschiedene Situationen – verschiedene Tests
Betrachtet werden die zugeh¨ origen Stichprobenvariablen X1 , . . . , Xn und Y1 , . . . , Ym , die jeweils f¨ ur sich genommen unabh¨ angig und identisch wie X bzw. Y verteilt sind.
X1 , . . . , Xn folgen einer Normalverteilung mit Erwartungswert 2 2 , also Xi ∼ N (µX , σX ) f¨ ur i = 1, . . . , n, µX und Varianz σX oder die Stichprobe X1 , . . . , Xn ist mindestens vom Umfang n ≥ 30.
Y1 , . . . , Ym folgen einer Normalverteilung mit Erwartungswert ur i = 1, . . . , m, µY und Varianz σY2 , also Yi ∼ N (µY , σY2 ) f¨ oder die Stichprobe Y1 , . . . , Ym ist mindestens vom Umfang m ≥ 30. X1 , . . . , Xn , Y1 , . . . , Ym sind voneinander unabh¨ angig. Zu testen sei eine Hypothese u ¨ ber die Differenz der Erwartungswerte µX und µY der Zufallsvariablen X und Y .
Hypothesen F¨ ur den Vergleich Testm¨oglichkeiten Problem (1): Problem (2): Problem (3):
der
Erwartungswerte
H0 : µX = µY H0 : µX ≤ µY H0 : µX ≥ µY
gegen gegen gegen
ergeben
sich
folgende
H1 : µX = µY (zweiseitig) H1 : µX > µY (rechtsseitig) H1 : µX < µY (linksseitig)
Der Test zu Problem (1) u ¨ berpr¨ uft, ob die Differenz µX − µY verschieden von Null ist oder ob die beiden Erwartungswerte gleich sind. Soll gepr¨ uft oßer als µY ist, so muss der Test zu Problem (2) gew¨ahlt werden, ob µX gr¨ werden. Der Test zu Problem (3) wird durchgef¨ uhrt, wenn gezeigt werden soll, dass µX kleiner ist als µY .
5.2
Parametrische Tests
235
Teststatistik Seien X und Y Zufallsvariablen mit unbekanntem Erwartungswert 2 E(X) = µX und E(Y ) = µY sowie bekannten Varianzen Var(X) = σX 2 und Var(Y ) = σY . Bezeichne X das arithmetische Mittel 46 der Stichprobenvariablen X1 , . . . , Xn und Y das arithmetische Mittel der Stichprobenvariablen Y1 , . . . , Ym . Unter der Annahme, dass µX = µY gilt, folgt die Teststatistik Z=
X − Y − (µX − µY ) ! 2 2 σX σY n + m
einer Standardnormalverteilung N (0, 1), wobei dies nur approximativ gilt, wenn X1 , . . . , Xn , Y1 , . . . , Ym nicht normalverteilt sind.
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2
Problem (2): Problem (3):
Z Z
>
µ0 H1 : µ < µ0
(zweiseitig) (rechtsseitig) (linksseitig)
Der Test zu Problem (1) u ¨ berpr¨ uft die Ungleichheit der beiden Erwartungswerte, w¨ ahrend der Test zu Problem (2) f¨ ur den Nachweis geeignet ist, dass der Erwartungswert tats¨ achlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) eignet sich demzufolge, wenn gezeigt werden soll, dass der wahre Erwartungswert von X kleiner ist als unter der Nullhypothese angenommen wird.
B
Beispiel Hypothesen
Eine Umfrage einer studentischen Zeitung aus dem letzten Semester ergab, dass die Studierenden im Schnitt 150 Euro monatlich f¨ ur Lebensmittel ausgaben. Aufgrund der gestiegenen Inflationsrate vermutet ein Leser, dass 150 Euro im jetzigen Semester nicht mehr ausreichend sind. Zu testen ist H0 : µ ≤ 150
gegen
H1 : µ > 150.
Dabei bezeichnet µ die erwarteten monatlichen Ausgaben f¨ ur Lebensmittel im jetzigen Semester. Ein Lebensmittelhersteller behauptet in seiner Werbung, dass er durch verbesserte Verarbeitungstechniken die Konservierungsstoffe in seinem Produkt von urspr¨ unglich 3 mg signifikant reduzieren konnte. Bezeichne µ die durchschnittliche Menge an Konservierungsstoffen in seinem Produkt, so ist zum Nachweis der Behauptung des Herstellers zu testen H0 : µ ≥ 3 gegen
H1 : µ < 3.
Goldene Rechtecke sind Rechtecke, bei denen die lange Seite zur kurzen Seite im Verh¨ altnis des Goldenen Schnitts stehen, das heißt Breite und L¨ ange des Rechtecks haben ein Verh¨altnis von 0,618. Der Ursprung dieser als besonders ¨asthetisch angesehenen geometrischen Form wird allgemein bei den Griechen angesiedelt, welche auch bei der Gestalt des menschlichen K¨orpers wiedergefunden werden kann. Es heißt n¨ amlich, dass das
5.2
Parametrische Tests
239
Verh¨altnis des Abstandes vom Fuß bis zum Bauchnabel geteilt durch den Abstand vom Fuß zum Kopf von als besonders sch¨ on angesehenen Menschen genau diesem Verh¨altnis von 0,618 entspricht. Gen¨ ugt das menschliche Sch¨onheitsideal dem Goldenen Schnitt? H0 : µ = 0, 618
H1 : µ = 0, 618.
gegen
B Teststatistik Sei X eine Zufallsvariable mit unbekanntem Erwartungswert E(X) = µ und unbekannter Varianz Var(X) = σ 2 . Bezeichne X das arithmetische Mittel 46 und S die Stichprobenstandardabweichung 46 der Stichprobenvariablen X1 , . . . , Xn . Unter der Annahme, dass µ = µ0 gilt, folgt die Teststatistik √ X − µ0 T = n· S einer t-Verteilung mit n − 1 Freiheitsgraden, T ∼ tn−1 . Die Anzahl der Freiheitsgrade entspricht der Anzahl der Beobachtungen n minus 1. Die Verteilungsaussage gilt nur approximativ, wenn X1 , . . . , Xn nicht selbst normalverteilt sind.
Testentscheidung und Interpretation Die Testentscheidung kann basierend auf dem kritischen Wert oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls Problem (1): |T | > t∗n−1;1−α/2 Problem (2):
T
>
Problem (3):
T
t∗10;0,95 ist, kann die Nullhypothese verworfen werden, das heißt, die neue Trainingsmethode ist tats¨ achlich besser. Auch lassen sich der kritische Wert und der p-Wert mit Hilfe von R bestimmen. kritischer Wert: qt(0.95,10) p-Wert: pt(2.5037, 10, lower.tail=FALSE) Der p-Wert betr¨agt hier 0,01562, welcher kleiner als das vorgegebene Signifikanzniveau ist. B B
Beispiel (Fortsetzung 254) Motor¨ ol
Der Hersteller von Motor¨olen aus dem fr¨ uheren Beispiel 254 behauptet, dass die Verwendung seines neuen Motor¨ ols den Treibstoffverbrauch eines Kraftfahrzeugs sogar um mehr als 0,4 l/100 km verbessern kann. Es wurden Tests mit 15 Fahrzeugen eines Typs durchgef¨ uhrt. Die Messergebnisse x1 , . . . , x15 der Verbrauchswerte (in l/100 km) bei Verwendung des neuen ¨ und die Messwerte y1 , . . . , y15 unter Verwendung eines herk¨ ommlichen Ols
5.2
Parametrische Tests
259
¨ sind in der folgenden Tabelle angegeben. Es kann angenommen werOls den, dass die Messwerte x1 . . . , x15 bzw. y1 , . . . , y15 jeweils Realisierungen unabh¨ angiger und identisch normalverteilter Zufallsvariablen sind. Somit kann man auch ihre Differenzen di = xi − yi , i = 1, . . . , 15, als Realisierungen unabh¨ angiger und identisch normalverteilter Zufallsvariablen betrachten. Fahrzeug Verbr. mit Verbr. mit Differenz Fahrzeug Verbr. mit Verbr. mit Differenz
¨ neuem Ol ¨ herk¨ omml. Ol
¨ neuem Ol ¨ herk¨ omml. Ol
1 8,1 8,5 -0,4 9 8,0 8,4 -0,4
2 8,2 8,7 -0,5 10 8,4 8,8 -0,4
3 7,8 8,2 -0,4 11 8,0 8,5 -0,5
4 8,5 8,9 -0,4 12 8,1 8,6 -0,5
5 8,1 8,5 -0,4 13 7,9 8,3 -0,4
6 7,9 8,3 -0,4 14 8,2 8,7 -0,5
7 8,3 8,9 -0,6 15 8,2 8,5 -0,3
8 8,6 9,1 -0,5
Wir m¨ ochten zum Niveau α = 0, 05 testen, ob sich der Treibstoffverbrauch ¨ um mehr als 0,4 l verbessert hat. Dazu muss unter Verwendung des neuen Ols das Testproblem wie folgt formuliert werden H0 : µD ≥ −0, 4
gegen
H1 : µD < −0, 4.
Die Verbesserung des Treibstoffverbrauchs wird beschrieben durch die Werte di = xi −yi , i = 1, . . . , 15, der verbundenen Stichprobe (x1 , y1 ), . . . , (x15 , y15 ). Das arithmetische Mittel 46 und die Stichprobenstandardabweichung 46 berechnen sich zu d = 0, 44 und sD = 0, 0737. Die Teststatistik lautet T =
√ D − δ0 n· SD
und errechnet sich zu tbeo =
√
15 ·
(−0, 44 + 0, 4) = −2, 102. 0, 0737
F¨ ur α = 0, 05 ist das 0,05-Quantil gegeben als t∗14;0,05 = −t∗14;0,95 − 1, 7613 und somit tbeo = −2, 102 < −1, 7613. Das heißt, die Nullhypothese kann zum 5%-Niveau verworfen werden, und wir k¨ onnen davon ausgehen, dass mit ¨ die Fahrzeuge mindestens 0,4 l / 100 km weniger Treibstoff dem neuen Ol B verbrauchen als vorher.
260
5. Verschiedene Situationen – verschiedene Tests
Der F-Test Der F-Test zum Vergleich zweier Varianzen
Eine Kaufhauskette erleidet durch Ladendiebst¨ ahle nicht unerhebliche Ver¨ luste. Um diese einzud¨ammen, soll eine verst¨ arkte Uberwachung der Kunden stattfinden. Dazu stehen zwei Varianten zur Auswahl, die in einigen Filialen ausprobiert werden, um ihre Wirksamkeit einzusch¨ atzen, bevor man sich fl¨ achendeckend f¨ ur eine von ihnen entscheidet. Variante 1:
Video¨ uberwachung, mehrere Angestellte beobachten Monitore, als Diebe Verd¨ achigte werden an das Personal im Verkaufsraum gemeldet.
Variante 2:
Kaufhausdetektive halten sich, als Kunden getarnt, im Verkaufsraum auf und stellen verd¨ achtige Personen direkt.
Das Kriterium, mit dem die Wirksamkeit der Maßnahmen gemessen wird, ¨ ist die erreichte Umsatzsteigerung, wenn die Uberwachung stattfindet, im ¨ Vergleich zum Umsatz im urspr¨ unglichen Zustand ohne verst¨ arkte Uberwachung. Zur Einsch¨ atzung der Wirksamkeit setzt die Kette an einer Reihe von ¨ r¨ aumlich weit entfernten Standorten jeweils eine der beiden Uberwachungsstrategien ein, wobei die Verteilung der Strategien auf die Standorte zuf¨ allig erfolgt. Es werden n Filialen mit Variante 1 und m Filialen mit Variante 2 u ¨berwacht. H¨ aufig wird man n und m gleich w¨ahlen. Wenn man hingegen zum Beispiel eine Vermutung dar¨ uber hat, welche Strategie besser ist, kann es sinnvoller sein, n und m verschieden zu w¨ahlen. Wir gehen im folgenden davon aus, dass die n + m an den verschiedenen Orten gemessenen prozentualen Umsatz¨anderungen Realisierungen normalverteilter Zufallsvariablen sind, wobei sich die Beobachtungen f¨ ur Strategie 2 2 ur Strategie 2 durch N (µY , σY )-verteilte Zu1 durch N (µX , σX )- und die f¨ fallsvariablen beschreiben lassen. Unter diesen Annahmen reduziert sich der ¨ Vergleich der beiden Uberwachungsstrategien also auf den Vergleich der er2 und σY2 . warteten Umsatz¨anderungen µX und µY oder der Varianzen σX W¨ ahrend µX und µY als mittlere Umsatz¨anderungen zu interpretieren sind, 2 und σY2 die dabei auftretende Unsicherheit, also ein Risiko. Daher messen σX 2 und σY2 zu vergleichen. Genau dies leistet der kann es von Interesse sein, σX F-Test zum Vergleich zweier Varianzen. Er u ¨ berpr¨ uft die Gleichheit der Varianzen normalverteilter Zufallsvariablen bei unbekanntem Erwartungswert.
5.2
Parametrische Tests
261
Der F-Test zum Vergleich zweier Varianzen erlaubt es zu u ¨berpr¨ ufen, ob die Streuung in zwei normalverteilten Grundgesamtheiten gleich ist. Er bedient sich also einer konkreten Verteilungsannahme und ist somit ein parametrisches Verfahren. Er wird oft vor der Durchf¨ uhrung eines t-Tests 244 zum Mittelwertvergleich durchgef¨ uhrt, um die Gleichheit der Varianzen zu u ¨berpr¨ ufen. Je nachdem, ob der F-Test die Gleichheit der Varianzen verwirft oder eine Gleichheit nicht ausschließt, verwendet man anschließend den t-Test f¨ ur den Fall unbekannter, verschiedener Varianzen 247 oder den t-Test f¨ ur den Fall unbekannter, aber gleicher Varianzen 249. Von unmittelbarem Interesse ist der hier beschriebene F-Test, wenn die Varianz als Maß eines Risikos oder einer Genauigkeit interpretiert wird. So kann die Pr¨ azision zweier Waagen, welche mathematisch definiert ist als der Kehrwert der Varianz, anhand wiederholter Messungen von Prototypen verglichen werden. Voraussetzungen F¨ ur die Anwendung des F-Tests zum Vergleich zweier Varianzen m¨ ussen folgende Voraussetzungen erf¨ ullt sein Gegeben sei ein Merkmal, das in zwei verschiedenen Grundgesamtheiten interessiert. Das Merkmal in Grundgesamtheit 1 sei durch eine Zufallsvariable X beschrieben mit Erwartungswert E(X) = µX und Varianz Var(X) = 2 . Entsprechend sei das Merkmal in Grundgesamtheit 2 beschrieben σX durch eine Zufallsvariable Y mit E(Y ) = µY und Var(Y ) = σY2 . Betrachtet werden die zugeh¨ origen Stichprobenvariablen X1 , . . . , Xn und Y1 , . . . , Ym , die jeweils f¨ ur sich genommen unabh¨ angig und identisch wie X bzw. Y verteilt sind. X1 , . . . , Xn folgen einer Normalverteilung mit Erwartungswert 2 2 , also Xi ∼ N (µX , σX ) f¨ ur i = 1, . . . , n. µX und Varianz σX oder die Stichprobe X1 , . . . , Xn ist mindestens vom Umfang n ≥ 30.
262
5. Verschiedene Situationen – verschiedene Tests
Y1 , . . . , Ym folgen einer Normalverteilung mit Erwartungswert ur i = 1, . . . , m. µY und Varianz σY2 , also Yi ∼ N (µY , σY2 ) f¨ oder die Stichprobe Y1 , . . . , Ym ist mindestens vom Umfang m ≥ 30. X1 , . . . , Xn , Y1 , . . . , Ym sind voneinander unabh¨ angig. 2 Zu testen sei eine Hypothese u ¨ ber die Varianzen σX und σY2 der Zufallsvariablen X und Y .
Hypothesen 2 ¨ Der F-Test wird zur Uberpr¨ ufung der Gleichheit der Varianzen σX und 2 ¨ ufung der folgenden Hypothesen σY herangezogen. Es ist eine Uberpr¨ m¨oglich Problem (1): Problem (2): Problem (3):
B
2 2 = σY2 gegen H1 : σX σY2 = H0 : σX 2 2 ≤ σY2 gegen H1 : σX > σY2 H0 : σX 2 2 2 H0 : σX ≥ σY gegen H1 : σX < σY2
(zweiseitig) (rechtsseitig) (linksseitig)
Beispiel Hypothesen
Es ist bekannt, dass Mineralwasser mit einem relativ hohen Magnesiumgehalt empfehlenswert ist. Ein langj¨ ahriger Vergleich zwischen zwei angebotenen Sorten ergab, dass beide im Mittel den gleichen Gehalt an Magnesium aufweisen. Außerdem kann man davon ausgehen, dass der Magnesiumgehalt von Mineralwasser eine normalverteilte Zufallsgr¨ oße ist. Ein unabh¨ angiges Institut soll nun pr¨ ufen, ob die beiden Sorten den Magnesiumgehalt auch gleichm¨ aßig gut sicherstellen. Dazu muss untersucht werden, ob f¨ ur beide Mineralw¨ asser die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterscheiden. 2 = σY2 H0 : σX
gegen
2 H 1 : σX = σY2
Ein Energieversorger muss sicherstellen, dass die Stromversorgung gleichm¨aßig geschieht. Die Stromspannung im Netz ist niemals ganz konstant, kleine Schwankungen sind u ¨blich, und die Stromspannung kann als
5.2
Parametrische Tests
263
normalverteilt angenommen werden. Große Schwankungen in der Spannung sind jedoch unerw¨ unscht. Ein großer Energieversorger vermutet, dass ein Marktkonkurrent ein Schwarzes Schaf“ ist und die Stromspannung ” nicht so gleichm¨aßig aufrecht erh¨ alt wie sein eigenes Unternehmen. Will er dem Konkurrenten dies nachweisen, so muss er untersuchen, ob die Variabilit¨ at in der Stromspannung beim Konkurrenten tats¨ achlich gr¨oßer ist als bei ihm selbst. 2 ≤ σY2 H0 : σX
gegen
2 H 1 : σX > σY2
Ein Apotheker, der selbst Rezepturen anmischt, ben¨ otigt unter Anderem eine sehr pr¨azise Waage. Das von der Waage angezeigte Gewicht ist eine Zufallsgr¨ oße, die man als normalverteilt betrachten kann. Ein Verteter f¨ ur Pr¨ azisionswaagen m¨ochte den Apotheker dazu bringen, eine neue (teure) Waage zu kaufen. Der Apotheker wird sein altes Ger¨ at nur ersetzen, wenn der Vertreter nachweisen kann, dass das von ihm verkaufte neue Ger¨ at wirklich genauer misst. Er will daher nachweisen, dass die Varianz der Messungen bei der neuen Waage geringer ist als bei der alten des Apothekers. 2 ≥ σY2 H0 : σX
gegen
2 H 1 : σX < σY2
B Beispiel Kaufhauskette
B
Im Beispiel aus der Einf¨ uhrung 260 k¨ onnte als Vorinformation f¨ ur die Durchf¨ uhrung eines Lagevergleichs mit einem t-Test interessieren, ob die Va¨ riabilit¨ at der Umsatz¨anderungen sich unter den beiden Uberwachungsstrategien unterscheidet. W¨ are dies der Fall, so m¨ usste der Vergleich der Wirksamkeit beider Strategien mit Hilfe des t-Tests f¨ ur den Fall ungleicher uhrt werden. Sollte sich hingegen herausstellen, Varianzen 247 durchgef¨ dass man nicht auf Unterschiede in den Varianzen schließen kann, reicht die Anwendung des t-Tests f¨ ur den Fall gleicher Varianzen 249. Zu testen ist demzufolge 2 = σY2 H0 : σX
gegen
2 H 1 : σX = σY2 .
B
264
5. Verschiedene Situationen – verschiedene Tests
Teststatistik Der F-Test zum Vergleich zweier Varianzen beruht auf einem Vergleich der Stichprobenvarianzen. Sei X das arithmetische Mittel 46 der Stichprobenvariablen X1 , . . . , Xn aus Grundgesamtheit 1 und Y entsprechend das arithmetische Mittel der Stichprobenvariablen aus Grundgesamtheit 2. Die Stichprobenvarianzen der beiden Gruppen von Stichprobenvariablen sind dann 2 SX =
n 1 · (Xi − X)2 n − 1 i=1
und
SY2 =
m 1 · (Yi − Y )2 . m − 1 i=1
Die mit F bezeichnete Teststatistik errechnet sich als Quotient der Stichprobenvarianzen F =
2 SX . SY2
2 Unter der Annahme, dass σX = σY2 gilt, folgt die Teststatistik einer F Verteilung mit n − 1 und m − 1 Freiheitsgraden. Diese Verteilungsaussage gilt nur approximativ, wenn X1 , . . . , Xn und Y1 , . . . , Ym nicht normalverteilt sind.
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert In Abh¨ angigkeit vom gew¨ ahlten Signifikanzniveau α gelten f¨ ur die Testprobleme (1) bis (3) folgende Entscheidungsregeln: Die Nullhypothese H0 der Gleichheit der Varianzen wird zum Niveau α verworfen, falls ∗ ∗ oder F > Fn−1;m−1;1−α/2 (zweiseitig) Problem (1): F < Fn−1;m−1;α/2
Problem (2): Problem (3):
∗ F > Fn−1;m−1;1−α
F
onnen die t∗9;0,95 gilt. Hier ist |tbeo | = 1, 6470 < 1, 8331, das heißt, wir k¨ Nullhypothese nicht verwerfen. Die Daten lassen nicht darauf schließen, dass ¨ die beiden Uberwachungsstrategien zu unterschiedlichen Erfolgen f¨ uhren. F¨ ur die Kaufhauskette bedeutet das: sie kann sich f¨ ur die preiswertere der beiden B Strategien entscheiden und diese in allen Filialen einf¨ uhren. B
Beispiel Mineralwasser
Im Beispiel 262 zum Vergleich der beiden Mineralw¨asser werden von beiden Sorten zuf¨ allig jeweils 20 Flaschen aus verschiedenen Abf¨ ullungen ausgew¨ahlt und ihr Magnesiumgehalt bestimmt. In der folgenden Tabelle sind die Ergebnisse der Untersuchung dargestellt (Angaben in mg/l): Mineralwasser 1 80,41 80,57
81,25 79,98
80,22 81,03
80,89 80,64
81,07 80,21
80,55 80,66
79,99 80,52
80,76 81,10
80,02 80,42
81,11 80,88
78,03 80,39
80,05 78,58
81,22 79,99
80,56 80,77
80,98 80,26
82,08 81,10
80,53 80,21
79,42 80,85
Mineralwasser 2 80,42 80,30
82,24 81,97
Es sollte untersucht werden, ob f¨ ur beide Mineralwassersorten die Varianz des Magnesiumgehalts gleich ist oder ob sich die beiden Sorten hierbei unterscheiden. Wir wollen den Test hier zum Niveau α = 0, 05 durchf¨ uhren. Da der Magnesiumgehalt von Mineralwasser als normalverteilte Zufallsgr¨ oße angesehen werden kann, ist der F-Test zum Vergleich zweier Varianzen f¨ ur dieses Problem geeignet. Da es hier nur darum geht, gegebenenfalls einen Unterschied in den Varianzen nachzuweisen, ist das Testproblem 2 = σY2 H0 : σX
gegen
2 H 1 : σX = σY2
2 angemessen. Dabei bezeichnet σX die Varianz des Magnesiumgehalts in der 2 Mineralwassersorte 1, σY die entsprechende Varianz der Sorte 2.
5.2
Parametrische Tests
269
Zur Berechnung der Teststatistik bestimmen wir zun¨ achst die Varianzen in den beiden Stichproben 20
x = 80, 614
⇒
s2X =
1 (xi − 80, 614)2 = 0, 1579 19 i=1
y = 80, 4975
⇒
s2Y =
1 (yj − 80, 4975)2 = 1, 0847. 19 j=1
und 20
Der beobachtete Wert fbeo der Teststatistik ergibt sich als fbeo =
0, 1579 ≈ 0, 1456. 1, 0847
∗ ∗ ∗ = F19;19;0,975 = 2, 5264 und Fn−1;m−1;α/2 = F¨ ur α = 0, 05 ist Fn−1;m−1;1−α/2 ∗ ∗ F19;19;0,025 = 1/F19;19;0,975 = 1/2, 5264 = 0, 3958.
Wegen ∗ fbeo = 0, 1456 < F19;19;0,025 = 0, 3958
onnen wird die Nullhypothese H0 zum Niveau α = 0, 05 verworfen. Wir k¨ daraus schließen, dass die beiden Mineralw¨asser den mittleren Magnesiumgehalt nicht in gleicher Weise genau einhalten. Die Varianzen des Merkmals Magnesiumgehalt unterscheiden sich signifikant zwischen den beiden MineB ralwassersorten. Der F-Test zum Vergleich mehrerer Stichproben
Im Beispiel 263 ging es um die Eind¨ ammung von Ladendiebstahl durch ¨ ¨ verst¨arkte Uberwachung der Kunden. Es wurden zwei Uberwachungsvarianten ausprobiert. Stellen wir uns vor, dass statt zwei Varianten drei zur Verf¨ ugung stehen, n¨ amlich Variante 1:
Video¨ uberwachung, mehrere Angestellte beobachten Monitore, als Diebe Verd¨achigte werden an das Personal im Verkaufsraum gemeldet.
Variante 2:
Kaufhausdetektive halten sich, als Kunden getarnt, im Verkaufsraum auf und stellen verd¨ achtige Personen direkt.
270
5. Verschiedene Situationen – verschiedene Tests
Variante 3:
Alle Waren werden mit codierten Aufklebern versehen, die von Leseger¨aten an den Ausg¨angen interpretiert werden k¨ onnen. Beim Bezahlen der Ware an der Kasse werden die Codes freigeschaltet, bezahlte Ware passiert die Leseger¨ate ohne Alarm. Nicht bezahlte Ware hingegen f¨ uhrt zu einem lauten Alarmsignal.
¨ Wiederum ist die Umsatzsteigerung unter Einsatz der Uberwachung im Ver¨ gleich zum Umsatz ohne verst¨arkte Uberwachung ein Indikator f¨ ur die Wirksamkeit der Maßnahme. Da die Einf¨ uhrung der Maßnahmen unterschiedlich teuer ist, interessiert die Kaufhauskette in einem ersten Schritt, ob sich die drei Maßnahmen in ihrer Wirksamkeit unterscheiden. ¨ Testweise werden die drei Uberwachungsstrategien in sechs (Strategie 1), f¨ unf (Strategie 2) bzw. sieben (Strategie 3) zuf¨allig ausgew¨ahlten Kaufh¨ ausern der Kette f¨ ur eine Woche eingef¨ uhrt. Von Interesse ist, ob sich die Umsatz¨ande¨ rungen (jeweils im Vergleich zur Vorwoche) unter den drei Uberwachungsvarianten unterscheiden. Wie im Beispiel Kaufhauskette 263 266 k¨onnen wir unterstellen, dass es sich bei den zugrunde liegenden Zufallsvariablen um normalverteilte Gr¨ oßen handelt. In einem solchen Fall ist der F-Test zum Vergleich mehrerer Stichproben der angemessene Test, um die betrachtete Frage zu beantworten.
Der F-Test zum Vergleich mehrerer Stichproben untersucht, ob f¨ ur ein Merkmal die Beobachtungen aus mehr als zwei unabh¨ angigen Stichproben aus derselben zugrunde liegenden Normalverteilung stammen k¨ onnten. Voraussetzung ist, dass die betrachteten Normalverteilungen alle dieselbe (unbekannte) Varianz aufweisen. Daher untersucht man mit dem F-Test tats¨ achlich nur, ob die Erwartungswerte des interessierenden Merkmals in k betrachteten Grundgesamtheiten (k > 2) gleich sind oder ob sie sich unterscheiden. Der F-Test zum Vergleich mehrerer Stichproben ist ein parametrischer Test, er ist eine Erweiterung des t-Tests im Zweistichprobenfall 244. Im Gegensatz zum t-Test unterscheidet man beim F-Test jedoch nicht weiter in die Spezialf¨ alle bekannter und unbekannter Varianzen. Wie sein nichtparametrisches Gegenst¨ uck, der Kruskal-Wallis-Test 335, deckt der F-Test nur auf, ob es Lageunterschiede zwischen den betrachteten Verteilungen gibt. Er weist nicht aus, zwischen welchen der Verteilungen diese Unterschiede gegebenen-
5.2
Parametrische Tests
271
falls bestehen. Hierzu m¨ ussten paarweise Vergleiche von je zwei Stichproben auf Lageunterschiede durchgef¨ uhrt werden. Zu diesem Zweck existieren so genannte multiple Testprozeduren, die insbesondere daf¨ ur sorgen, dass bei mehreren statistischen Tests am gleichen Datenmaterial der Fehler 1. Art f¨ ur die insgesamt getroffene Aussage unter Kontrolle bleibt. Voraussetzungen F¨ ur die Anwendung des F-Tests zum Vergleich mehrerer Stichproben m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet wird ein interessierendes Merkmal X in k Grundgesamtheiten. Die Zufallsvariablen X1 , X2 , . . . , Xk der k Grundgesamtheiten sind voneinander stochastisch unabh¨ angig. Die Zufallsvariable Xi , i = 1, . . . , k besitzt Erwartungswert E(Xi ) = µi und Varianz Var(Xi ) = σ 2 . Die Varianz σ 2 ist unbekannt, aber in allen betrachteten Grundgesamtheiten gleich. Die Zufallsvariable Xi , i = 1, . . . , k ist normalverteilt, Xi ∼ N (µi , σ 2 ) oder die i-te Stichprobe Xi1 , Xi2 , . . . Xini ist mindestens von Umfang ni ≥ 30, i = 1, . . . , k. Die Stichprobenvariablen Xi1 , Xi2 , . . . Xini , i = 1, . . . , k, sind voneinander unabh¨ angig und jeweils identisch verteilt wie Xi , wobei ni den Stichprobenumfang der i-ten Stichprobe bezeichnet. Zu testen sei eine Hypothese u ¨ ber die Gleichheit der Erwartungswerte µ1 , µ2 , . . . , µk der Zufallsvariablen X1 , X2 , . . . , Xk . Damit wird unterstellt, dass die Verteilungen des Merkmals in den k Grundgesamtheiten s¨amtlich Normalverteilungen sind, die die gleiche Streuung besitzen, sich aber in ihrer Lage unterscheiden k¨ onnen.
272
5. Verschiedene Situationen – verschiedene Tests
Hypothesen Der F-Test zum Vergleich mehrerer Stichproben u ¨ berpr¨ uft global die Hypothese, ob alle Stichproben aus der gleichen Normalverteilung stammen k¨ onnen. Er kann nur aufdecken, ob sich mindestens zwei der Verteilungen in ihrer Lage unterscheiden. Er entscheidet nicht, zwischen welchen Verteilungen und in welche Richtung diese Unterschiede bestehen. Damit sind einseitige Hypothesen ausgeschlossen. Das Testproblem formuliert sich daher wie folgt H0 : µ1 = µ2 . . . = µk
gegen
H1 : µi = µj
f¨ ur mindestens eine Kombination (i, j), i = j. Unter der Nullhypothese haben die Zufallsvariablen X1 , . . . , Xk identische Verteilungsfunktionen. Unter der Alternativhypothese wird angenommen, dass sich f¨ ur mindestens ein Paar i und j, 1 ≤ i, j, ≤ k, die zugeh¨origen Normalverteilungen bez¨ uglich ihrer Lage unterscheiden.
B
Beispiel Hypothesen
Es wird vermutet, dass K¨ uhe unterschiedliche Mengen an Milch geben, je nachdem, ob sie im Stall Musik zu h¨oren bekommen oder nicht. Auch die Art der Musik k¨ onnte dabei eine Rolle spielen. In einem Experiment soll dies gekl¨art werden. Dazu werden in einem landwirtschaftlichen Großbetrieb insgesamt 15 Milchk¨ uhe zuf¨ allig ausgew¨ahlt und ihre Milchleistung (in Litern pro Tag) festgehalten. Anschließend werden die Tiere in speziellen St¨allen untergebracht. In den Stall 1 kommen f¨ unf der K¨ uhe, um einige Wochen lang t¨ aglich klassische Musik zu h¨oren. Stall 2 werden sechs K¨ uhe zugeordnet, die Rockmusik zu h¨ oren bekommen. Stall 3 dient als Kontrollstall“, indem die vier dort untergebrachten Tiere ohne Musik” beschallung stehen. Wieder wird die Milchleistung der Tiere erhoben. Die Unterschiede zwischen der Leistung in der experimentellen und in der Standardsituation geben Auskunft dar¨ uber, ob die Musikbeschallung einen Einfluss auf die Milchleistung hat. H0 : µ1 = µ2 = µ3
gegen
H1 : µi = µj
f¨ ur mindestens eine Kombination (i, j), i = j. Die Haltbarkeit von Lebensmitteln h¨ angt unmittelbar mit den sich auf den Lebensmitteln befindlichen Bakterien zusammen, welche letztlich dazu
5.2
Parametrische Tests
273
f¨ uhren, dass das Lebensmittel verdirbt. Zur Verl¨angerung der Haltbarkeit von Fleisch wird eine Studie durchgef¨ uhrt, in welcher das Fleisch mit radioaktiven Strahlen behandelt wird. Dabei handelt es sich um Mengen, die f¨ ur den Menschen als ungef¨ ahrlich angenommen werden k¨ onnen. Die Strahlung wird in drei unterschiedlichen Dosen verabreicht. Zudem gibt es eine Kontrollgruppe, bei der das Fleisch keinerlei Strahlung erh¨ alt. Gemessen wird die Haltbarkeit des Fleisches anhand der Anzahl der im Fleisch befindlichen Bakterien. H0 : µ1 = µ2 = µ3 = µ4
gegen
H1 : µi = µj
f¨ ur mindestens eine Kombination (i, j), i = j. B Beispiel (Fortsetzung 263 266) Kaufhauskette
B
Im Beispiel 260 aus der Einf¨ uhrung interessiert sich die Kaufhauskette daf¨ ur, ob drei Strategien unterschiedlich wirksam sind. Daher testet sie die Hypothese, dass die drei Strategien gleich gut wirken, gegen die Alternative, dass es Unterschiede in der Wirksamkeit der Maßnahmen gibt H0 : µ1 = µ2 = µ3
gegen
H1 : µ1 = µ2 oder µ1 = µ3 oder µ2 = µ3 . B
Der F-Test zum Vergleich mehrerer Stichproben untersucht, wie stark die Mittelwerte der einzelnen Stichproben vom Gesamtmittelwert aller Stichproben abweichen. Dies geschieht basierend auf der Variabilit¨ at der Stichprobenmittelwerte untereinander, welche verglichen wird mit der Variabilit¨at innerhalb der Stichproben. Ist die Variabilit¨ at zwischen den Stichprobenmittelwerten zu groß im Vergleich zur Variabilit¨ at innerhalb der einzelnen Stichproben, deutet dies auf Lageunterschiede zwischen den zugrunde liegenden Verteilungen in den Grundgesamtheiten hin. Teststatistik Die Teststatistik ist definiert durch k 1 2 i=1 ni · (X i − X) k−1 · . F = 1 k ni 2 i=1 j=1 (Xij − X i ) N −k ·
274
5. Verschiedene Situationen – verschiedene Tests
Dabei ist N
=
k
ni der betrachtete Gesamtumfang
i=1
Xi
=
ni 1 · Xi der Mittelwert der Stichprobenvariablen ni j=1 j
aus der i-ten Grundgesamtheit
X
=
k ni 1 · Xi der Gesamtmittelwert. N i=1 j=1 j
Sind die Erwartungswerte µ1 , . . . , µk in allen Grundgesamtheiten gleich, das heißt, die Nullhypothese H0 gilt, so folgt die Teststatistik einer F Verteilung mit k − 1 und N − k Freiheitsgraden. Diese Verteilungsaussage gilt nur approximativ, wenn die Zufallsvariablen X1 , . . . , Xk nicht normalverteilt sind.
Testentscheidung und Interpretation In Abh¨ angigkeit des Niveaus α gilt die folgende Entscheidungsregel: Die Nullhypothese H0 wird zu einem vorgegebenen Signifikanzniveau α verworfen, falls ∗ F > Fk−1;N −k;1−α . ∗ Dabei ist Fk−1;N −k;1−α das (1 − α)-Quantil der F -Verteilung mit k − 1 und N − k Freiheitsgraden, und F bezeichnet die Teststatistik, deren realisierter Wert basierend auf den Beobachtungen x11 , . . . , x1n1 , . . . , xk1 , . . . , xknk bestimmt wird. Wird die Nullhypothese verworfen, so kann geschlossen werden, dass es einen Unterschied bez¨ uglich des Erwartungswerts des interessierenden Merkmals in mindestens zwei der betrachteten Grundgesamtheiten gibt.
B
Beispiel (Fortsetzung 263 266 273) Kaufhauskette
In der Fortsetzung des Beispiels Kaufhauskette aus der Einf¨ uhrung 269 ¨ werden die drei Uberwachungsstrategien in den sechs (Strategie 1), f¨ unf (Strategie 2) bzw. sieben (Strategie 3) zuf¨allig ausgew¨ahlten Kaufh¨ ausern einge¨ setzt. Die Zuweisung der Uberwachungsstrategien zu den Filialen erfolgt nach einem Zufallsprinzip, um den Einfluss anderer Effekte auszuschließen. Man
5.2
Parametrische Tests
275
beobachtet die folgenden prozentualen Umsatz¨ anderungen (jeweils gegen¨ uber ¨ der Vorwoche, in der keine besondere Uberwachung stattfand) Variante 1 Variante 2 Variante 3
4,88 5,12 4,81
2,37 3,56 3,44
6,32 1,82 4,08
5,87 2,77 3,79
3,92 3,18 4,21
4,36 4,01
3,66
¨ Da die Filialen zuf¨ allig ausgew¨ahlt und die Uberwachungsvarianten ebenfalls zuf¨ allig zugewiesen wurden, kann man davon ausgehen, dass die zugrunde liegenden Zufallsvariablen unabh¨ angig sind. Durch die Erhebung prozentualer Umsatz¨anderungen liegen alle Zufallsvariablen auf der gleichen Skala vor und sind damit vergleichbar. Insbesondere k¨ onnen wir deshalb annehmen, dass innerhalb der einzelnen Grundgesamtheiten (mit Strategie 1, 2 bzw. 3 u ¨berwachte Filialen) die Umsatz¨anderungen jeweils identisch verteilt sind. Es spricht nichts gegen eine Normalverteilungsannahme. ¨ Zu testen ist, ob sich die Umsatz¨anderungen unter den verschiedenen Uberwachungsstrategien im Schnitt unterscheiden H0 : µ1 = µ2 = µ3
H1 : µ1 = µ2 oder µ1 = µ3 oder µ2 = µ3 .
gegen
Das Signifikanzniveau soll α = 0, 05 betragen. Die arithmetischen Mittelwerte 46 in den drei betrachteten Gruppen errechnen sich zu x1 = 4, 62,
x2 = 3, 29,
x3 = 4.
Weiter ist der Gesamtstichprobenumfang N
=
3
ni = 6 + 5 + 7 = 18
i=1
und x =
3 ni 1 · xi = 72, 17/18 ≈ 4, 01 N i=1 j=1 j
der Gesamtmittelwert. Damit ergibt sich als realisierter Wert der Teststatistik k 1 2 i=1 ni · (xi − x) k−1 · fbeo = 1 k ni 2 i=1 j=1 (xij − xi ) N −k · Z¨ahler: =
1 · 6 · (4, 62 − 4, 01)2 + 5 · (3, 29 − 4, 01)2 + 7 · (4 − 4, 01)2 2 0, 8906 1 · (0, 3721 + 0, 5184 + 0, 0001) = = 0, 4453 2 2
276
5. Verschiedene Situationen – verschiedene Tests
1 · (4, 88 − 4, 62)2 + . . . + (4, 36 − 4, 62)2 + (5, 12 − 3, 29)2 15 + . . . + (3, 18 − 3, 29)2 + (4, 81 − 4)2 + . . . + (3, 66 − 4)2
Nenner:
=
gesamt :
17, 1854 1 · (10, 1402 + 5, 8652 + 1, 18) = ≈ 1, 1457 15 15 0, 4453 ≈ 0, 3887. 1, 1457
Die realisierte Teststatistik ergibt sich also als fbeo = 0, 3887. Der kritische ∗ = 3, 6823. Wert ist F2;15;0,95 Wegen ∗ fbeo = 0, 3887 < F2;15;0,95 = 3, 6823
kann die Nullhypothese H0 zum Niveau α = 0, 05 nicht verworfen werden. ¨ Die Daten konnten keinen Hinweis darauf geben, dass die drei UberwachungsB strategien zu unterschiedlichen Erfolgen f¨ uhren. B
Beispiel (Fortsetzung 272) Milchleistung bei Musik
Im Beispiel zur Musikbeschallung von Milchk¨ uhen 272 wurden folgende Unterschiede zwischen der Leistung in der experimentellen und in der Standardsituation f¨ ur die drei St¨ alle notiert Stall 1 Stall 2 Stall 3
0,5 0,2 -0,3
0,7 -0,2 0,2
1,2 -0,3 0,2
0,1 -0,5 -0,1
0,6 -0,8
0,1
Die Unterschiede in den Leistungen k¨onnen wir als Realisierungen normalverteilter Zufallsvariablen betrachten. Die Unterschiede in Stall 1 sind dabei Realisationen von X1 , dem Unterschied in der Milchleistung zwischen der Berieselung mit klassischer Musik und ohne Musikbeschallung. Entsprechend beschreibt f¨ ur Stall 2 X2 den Unterschied in der Leistung, wenn die Tiere Rockmusik h¨ oren bzw. keine Musik. Die Zufallsvariable X3 beschreibt die Differenz in der durchschnittlichen Milchmenge pro Tag zwischen der Experimentsituation ohne Musik und der Standardsituation ohne Musik. ¨ Wir wollen wissen, ob es einen Unterschied in der Anderung der Milchmenge gibt, je nachdem ob verschiedene Musik bzw. keine Musik gespielt wird. Bezeichnet man den erwarteten Unterschied in der Milchleistung f¨ ur Stall i mit
5.2
Parametrische Tests
277
µi , so wollen wir also testen H0 : µ1 = µ2 = µ3
gegen
H1 : µi = µj
f¨ ur mindestens ein Paar (i, j). Als Signifikanzniveau w¨ ahlen wir α = 0, 1. Zur Berechnung der Teststatistik bestimmen wir zun¨ achst die arithmetischen Mittelwerte der Leistungsunterschiede in den drei St¨allen x1 = 0, 62,
x2 = −0, 25,
x3 = 0.
Außerdem ist der Gesamtstichprobenumfang N
=
3
ni = 5 + 6 + 4 = 15
i=1
und x
=
3 ni 1 · xi = 1, 6/15 ≈ 0, 11 N i=1 j=1 j
der Gesamtmittelwert. F¨ ur die Teststatistik erhalten wir k 1 2 i=1 ni · (xi − x) k−1 · fbeo = 1 k ni 2 i=1 j=1 (xij − xi ) N −k · 1 · 5 · (0, 62 − 0, 11)2 + 6 · (−0, 25 − 0, 11)2 2 + 4 · (0 − 0, 11)2
Z¨ahler:
= Nenner:
=
zusammen :
1 · (0, 3721 + 0, 5184 + 0, 0001) = 1, 06325 2 1 · (0, 5 − 0, 62)2 + . . . + (0, 6 − 0, 62)2 + (0, 2 + 0, 25)2 12 + . . . + (0, 1 + 0, 25)2 + (−0, 3)2 + . . . + (−0, 1)2 1, 503 1 · (0, 628 + 0, 695 + 0, 18) = = 0, 12525 12 12 1, 06325 ≈ 8, 4890. 0, 12525
Der realisierte Wert fbeo der Teststatistik ist fbeo = 8, 4890. Der kritische ∗ = 2, 8068. Wert ist F2;12;0,9
278
5. Verschiedene Situationen – verschiedene Tests
Damit ist ∗ F2;12;0,9 = 2, 8068 < fbeo = 8, 4890,
und die Nullhypothese H0 kann zum Niveau α = 0, 1 verworfen werden. Die Milchleistung der K¨ uhe unterscheidet sich signifikant, je nachdem, ob und B welche Musik sie im Stall zu h¨oren bekommen. Der exakte Binomialtest
Der Binomialtest ist ein Test u ¨ ber die Erfolgswahrscheinlichkeit p einer bernoulliverteilten 38 Zufallsvariable X. Eine Biologin m¨ ochte u ¨berpr¨ ufen, wie hoch der Anteil an Lachsforellen in einem Teich ist, indem sowohl Lachs- als auch Regenbogenforellen leben. Sie kann dazu nicht den ganzen Teich leer fischen, sondern entnimmt stattdessen eine Stichprobe vom Umfang n. Bei jedem gefangenen Tier bestimmt sie, ob es eine Lachsforelle ist oder nicht. Sie f¨ uhrt also n unabh¨ angige Bernoulli-Experimente 38 mit den Ausg¨angen Erfolg (Lachsforelle) und Misserfolg (keine Lachsforelle) durch. Die zugeh¨origen Stichprobenvariaangig und identisch bernoulliverteilt, blen X1 , . . . , Xn sind demnach unabh¨ Xi ∼ Bin(1; p), und die Erfolgswahrscheinlichkeit p entspricht dem gesuchten Anteil an Lachsforellen im Teich.Der Binomialtest beruht auf der Summe der n Stichprobenvariablen, i=1 Xi , die eine Binomialverteilung besitzt, woraus sich der Name des Tests ableitet. Da die Erfolgswahrscheinlichkeit p auch als Anteil der Objekte in der Grundgesamtheit betrachtet werden kann, die eine bestimmte Eigenschaft besitzen (hier: Lachsforelle), spricht man beim Binomialtest auch von einem Test u ¨ber einen Anteil. Voraussetzungen Das zu untersuchende Merkmal X muss dichotom sein, das heißt es besitzt genau zwei Merkmalsauspr¨ agungen. Zur Bestimmung der Anteile dieser Merkmalsauspr¨agungen in der Grundgesamtheit wird eine unabh¨ angige Stichprobe x1 , x2 , ..., xn vom Umfang n gezogen, wobei die xi Realisierungen einer bernoulliverteilten Zufallsvariablen X mit Parameter p sind. Zu testen sei eine Hypothese u ¨ ber den Anteil p einer Merkmalsauspr¨ agung einer dichotomen Zufallsvariablen X.
5.2
Parametrische Tests
279
Im eingef¨ uhrten Beispiel w¨ urde unabh¨ angiges Ziehen bedeuten, dass vor dem Einfangen des n¨ achsten Tieres das vorige wieder ins Wasser gesetzt und ausreichend lange gewartet wird. Hypothesen Der unbekannte zu u ¨berpr¨ ufende Parameter ist p, w¨ ahrend mit p0 der unter der Nullhypothese unterstellte Wert bezeichnet wird. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):
H0 : p = p0 H0 : p ≤ p0 H0 : p ≥ p0
gegen gegen gegen
H1 : p = p0 H1 : p > p0 H1 : p < p0
(zweiseitig) (rechtsseitig) (linksseitig)
Problem (1) beleuchtet die Frage, ob der Anteil einem Zielwert entspricht oder nicht, w¨ahrend Problem (2) sich um den Nachweis dreht, dass der Anteil tats¨achlich gr¨ oßer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass der wahre Anteil kleiner ist als unter der Nullhypothese angenommen.
Beispiel Hypothesen
B
Eine Biologin m¨ ochte wissen, wie sich der Anteil an Lachsforellen und Regenbogenforellen in einem Teich zueinander verh¨alt. Getestet wird, ob es genauso viele Lachs- wie Regenbogenforellen gibt, das heißt H0 : p = 0, 5
gegen
H1 : p = 0, 5.
Dabei bezeichnet p die Erfolgswahrscheinlichkeit, eine Lachsforelle aus dem Teich zu ziehen. Ein Gesch¨ aftsf¨ uhrer u ¨berpr¨ uft eine eingegangene Warenlieferung und m¨ochte sicherstellen, dass die gelieferte Ware keinen h¨oheren Ausschussanteil als 10% aufweist. Es wird getestet H0 : p ≤ 0, 1
gegen
H1 : p > 0, 1.
Dabei steht p f¨ ur die Wahrscheinlichkeit, ein defektes Teil in der Lieferung zu finden. Die vom Bundesministerium 2003 eingef¨ uhrte Aufkl¨ arungskampagne, welche auf die gesundheitlichen Gefahren des Rauchens hinweist, hat zu aus-
280
5. Verschiedene Situationen – verschiedene Tests
dr¨ ucklichen Warnhinweisen auf Zigarettenschachteln gef¨ uhrt. Um die Effektivit¨ at dieser Kampage zu u ¨ berpr¨ ufen, soll eine Studie durchgef¨ uhrt werden. Hat fr¨ uher jeder zweite Jugendliche im Alter zwischen 12 und 16 Jahren mindestens einmal eine Zigarette geraucht, so erhofft man sich, dass sich diese Zahl mit Hilfe der Aufkl¨ arungskampage verringert hat. Hier soll also getestet werden H0 : p ≥ 0, 5
gegen
H1 : p < 0, 5.
Mit p wird die Wahrscheinlichkeit bezeichnet, dass ein Jugendlicher zwischen 12 und 16 Jahren das Rauchen zumindest einmal ausprobiert. B Teststatistik Sei mit M die interessierende Merkmalsauspr¨agung der Zufallsvariablen X bezeichnet, die mit Wahrscheinlichkeit p eintritt. Die Stichprobenvariablen X1 , X2 , ..., Xn werden wie folgt definiert 1 falls i-tes Objekt Auspr¨ agung M zeigt, Xi = 0 falls i-tes Objekt nicht Auspr¨ agung M zeigt. Die Teststatistik ist definiert durch Y =
n
Xi ,
i=1
wobei Y unter der Nullhypothese binomialverteilt ist mit Parametern n und p0 , Y ∼ Bin(n; p0 ).
Testentscheidung Die Testentscheidung wird basierend auf den Quantilen der Binomialveruhrt. F¨ ur einen Wert α mit teilung mit Parametern n und p0 herbeigef¨ ur die gilt 0 < α < 1 bezeichne qα;U die kleinste ganze Zahl f¨ P(Y ≤ qα;U ) = P(Y = 0) + P(Y = 1) + . . . + P(Y = qα;U ) > α oßte ganze Zahl mit und qα;O die gr¨ P(Y ≥ qα;O ) = P(Y = n) + P(Y = n − 1) + . . . + P(Y = qα;O ) > α.
5.2
Parametrische Tests
281
Die Wahrscheinlichkeit errechnet sich wie folgt n · py0 · (1 − p0 )n−y , y = 0, . . . , n. P(Y = y) = y Die Nullhypothese H0 wird dann zum Niveau α abgelehnt, falls Problem (1): Y < qα/2;U oder Y > qα/2;O
(zweiseitig)
Problem (2):
Y > qα;O
(rechtsseitig)
Problem (3):
Y < qα;U
(linksseitig)
Der exakte Binomialtest ist konservativ 204, das heißt, das Niveau α wird nicht immer ganz ausgesch¨opft. F¨ ur große Stichprobenumf¨ ange ist es sinnvoll, den approximativen Binomialtest 285 zu verwenden, da die Berechnung der Quantile mit gr¨ oßer werdendem Stichprobenumfang n aufw¨ andiger wird. Beispiel (Fortsetzung 182) Sport
B
In Kapitel 4 wurden die Fehlerwahrscheinlichkeiten f¨ ur den Fehler 1. Art 182 und den Fehler 2. Art 183, welche beim Testen von Hypothesen auftreten k¨ onnen, besprochen. Das Beispiel Sport diente dabei zur Illustration, dass der Fehler 1. Art kontrollierbar ist, in dem man sich eine obere Schranke f¨ ur die Wahrscheinlichkeit seines Auftretens vor der Durchf¨ uhrung des Tests vorgeben kann, w¨ahrend dies f¨ ur den Fehler 2. Art nicht zutrifft. Dieser h¨angt insbesondere von Parameterwert aus der Alternative ab, was wir auch grafisch dargestellt hatten. Die der Grafik zugrunde liegenden Berechnungen sollen nun an dieser Stelle nachgeholt werden. Dazu berechnen wir zun¨ achst den Fehler 1. Art:
α = P(Fehler 1. Art)
=
P(lehne H0 ab |H0 ist wahr)
P (Z > 19 | p = 0, 5) 30 30 · (0, 5)z · (1 − 0, 5)30−z = z z=20
=
=
0, 0494 ≈ 0, 05 ,
wobei mit Z die Anzahl der Sporttreibenden unter den befragten Studierenden bezeichnet wurde.
282
5. Verschiedene Situationen – verschiedene Tests
Der Fehler 2. Art berechnet sich f¨ ur einen Wert aus der Alternative von p = 0, 55 als
P(Fehler 2. Art | p = 0, 55)
= P(lehne H0 nicht ab | p = 0, 55) P(Z ≤ 19 | p = 0, 55) 19 30 · (0, 55)z · (1 − 0, 55)30−z = z z=0
=
≈
0, 865.
F¨ ur p = 0, 80, welcher wesentlich weiter von dem unter der Nullhypothese postulierten Wert von p = 0, 5 entfernt ist, wird der Fehler 2. Art entscheidend kleiner:
P(Fehler 2. Art | p = 0, 80)
= P(lehne H0 nicht ab | p = 0, 80) P(Z ≤ 19 | p = 0, 80) 19 30 · (0, 80)z · (1 − 0, 80)30−z = z z=0
=
≈
0, 026. B
B
Beispiel Jaguare und Panter
In der Familie der Jaguare gibt es Tiere, die anstelle eines hellen Fells mit schwarzen Flecken ein komplett schwarzes Fell besitzen. Wir kennen sie als Panter. In einem großen Reservat in Mittelamerika wurde der Anteil der Panter in den vergangenen Jahren konstant mit 25% gesch¨ atzt. Wildh¨ uter haben jedoch seit ungef¨ ahr einem Jahr vermehrt Panter gesichtet. Nun soll die Nullhypothese getestet werden, dass in dem Reservat h¨ochstens 25% aller Jaguar Panter sind. Als Signifikanzniveau wird α = 0, 05 gew¨ahlt. Die Observierung der Tiere wird dabei so durchgef¨ uhrt, dass die ben¨ otigte Annahme der Unabh¨ angigkeit der Beobachtungen gerechtfertigt werden kann. Das Testproblem lautet damit H0 : p ≤ 0, 25
gegen
H1 : p > 0, 25.
5.2
Parametrische Tests
283
Es handelt sich also um ein rechtsseitiges Testproblem. Die interessierende Merkmalsauspr¨ agung M ist, dass der Jaguar schwarz ist. Von sieben beobachteten Tieren waren sechs schwarz. Die realisierte Teststatistik ergibt sich somit zu 7 xi = 6. ybeo = i=1
Die Nullhypothese wird zum Niveau α verworfen, falls Y > qα;O ist, wobei qα;O der kritische Wert einer Binomialverteilung mit n = 7 und p = 0, 25 achst die Wahrscheinlichkeiten ist. Zur Bestimmung von qα;O stellt man zun¨ P(Y = y) zusammen y P(Y = y)
0 0,1355
1 0,3114
2 0,3015
3 0,1730
4 0,0577
5 6 0,0116 0,0012
7 0, 0001
Je mehr Panter in der Stichprobe sind, desto st¨ arker sprechen die Daten gegen die Nullhypothese. Zur Bestimmung von qα;O beginnt man damit, den kritischen Bereich ab y = 7 aufzuf¨ ullen. Dies geschieht so lange wie die Wahrscheinlichkeit, dass Y in diesen Bereich f¨ allt, noch kleiner oder gleich α = 0, 05 ist. Dabei bestimmt man diese Wahrscheinlichkeit f¨ ur p = 0, 25: P(Y = 7) = 0, 0001 ≤ 0, 05, das heißt, 7 geh¨ ort in den kritischen Bereich. P(Y ≥ 6) = P(Y = 6) + P(Y = 7) = 0, 0014 ≤ 0, 05, das heißt, 6 geh¨ort ebenfalls in den kritischen Bereich. P(Y ≥ 5) = P(Y = 5) + P(Y ≥ 6) = 0, 0129 ≤ 0, 05, das heißt, 5 geh¨ort in den kritischen Bereich. P(Y ≥ 4) = P(Y = 4) + P(Y ≥ 5) = 0, 0706 > 0, 05, das heißt, 4 geh¨ort nicht mehr in den kritischen Bereich, y = 4 ist n¨amlich die gr¨ oßte ganze Zahl, f¨ ur die P(Y ≥ y) > α = 0, 05 gilt. Demnach ist der kritische Wert qα;O = 4, und da der aus den Daten resultierende Wert der Teststatistik ybeo = 6 > 4 ist, kann die Nullhypothese H0 zum Niveau α = 0, 05 abgelehnt werden. Der Anteil an Pantern im Reservat B scheint also h¨oher als 25% zu sein.
284
B
5. Verschiedene Situationen – verschiedene Tests
Beispiel Unterhaltungsshow
Ein Kandidat einer abendlichen Unterhaltungsshow wettet, dass er bei mindestens 90% aller Handyklingelmelodien den zugeh¨ origen Titel und Interpreten sowie das Herstellerfabrikat erkennt. In der Show werden ihm 15 verschiedene Melodien vorgespielt, von denen er mindestens 13 richtig erkennen muss, um die Wette zu gewinnen. Ein an Statistik interessierter Fernsehzuschauer u ¨ berlegt, ob diese Bedingung sinnvoll gew¨ ahlt ist. Er nimmt an, dass p die Wahrscheinlichkeit ist, mit welcher der Kandidat eine zuf¨ allig eingespielte Melodie richtig erkennt. Auch sei die komplette Anzahl an verf¨ ugbaren Melodien so groß, dass die Unabh¨ angigkeitsannahme gerechtfertigt ist. Betrachtet wird dann das Testproblem H0 : p ≥ 0, 9
gegen
H1 : p < 0, 9
zu einem Niveau α = 0, 05. Seien X1 , . . . , X15 die Antworten des Kandidaten zur i-ten Klingelmelodie, i = 1, . . . , 15. Die uns interessierende Merkmalsauspr¨ agung ist die richtige Antwort, kodiert mit 1, w¨ ahrend eine falsche Antwort mit 0 kodiert ist. Y bezeichne dann die Gesamtzahl der richtigen Antworten. Da hier ein linksseitiger Test vorliegt, muss der kritische Wert ur die qα;U so bestimmt werden, dass qα;U die kleinstm¨ogliche ganze Zahl ist, f¨ gilt P(Y ≤ qα;U ) > 0, 05. Dabei wird diese Wahrscheinlichkeit berechnet f¨ ur Y ∼ Bin(15; 0, 9). Es ist m¨oglich, diesen Wert durch Berechnen und Aufsummieren von P(Y = 0), P(Y = 1), P(Y = 2), . . . , P(Y = 15) zu erhalten. In unserem Fall ist es jedoch einfacher, die kleinstm¨ ogliche ganze Zahl zu bestimmen, f¨ ur die gilt P(Y > qα;U ) ≤ 0, 95 , was ¨aquivalent zur obigen Vorgehensweise ist. Dazu berechnen wir f¨ ur die unter der Nullhypothese angenommene Binomialverteilung die folgenden Wahrscheinlichkeiten y P(Y = y) P(Y > y)
15 0,2059 0
14 0,3432 0,2059
13 0,2669 0,5490
12 0,1285 0,8159
11 0,0428 0,9444
10 0,0105 0,9873
... ... ...
Der kleinste Wert f¨ ur y, f¨ ur den P(Y > y) ≤ 0, 95 gilt, ist y = 11. Da P(Y > 11) ≤ 0, 95 ist, ist P(Y ≤ 11) > 0, 05 und wir erhalten qα;U = 11. Das bedeutet, selbst wenn der Kandidat mit 11 oder 12 richtigen Antworten seine
5.2
Parametrische Tests
285
Wette verlieren sollte, so spricht das auf einem 5%-Niveau nicht gegen die Annahme, dass er tats¨achlich mit 90%iger Wahrscheinlichkeit Klingelmelodien B richtig erkennen kann. Beispiel Platondialog
B
Arch¨aologen haben auf einer Pergamentschriftrolle, auf der sich die Abschrift eines Platon-Dialoges befindet, entdeckt, dass sich darunter vorher eine eventuell gel¨ oschte und u ¨berschriebene Abschrift eines anderen, m¨oglicherweise antiken Textes befand. Nachdem Fragmente dieses Textes entziffert werden konnten, glaubt ein Wissenschaftler, dass es sich dabei um ein bislang unbekanntes St¨ uck aus einem anderen Platon-Dialog handeln k¨ onnte. Nach einer Theorie des Wissenschaftlers findet sich in 80% aller S¨ atze mindestens ein von Platon so genanntes F¨ ullwort, das f¨ ur den Satzinhalt unwichtig ist. Um seine Behauptung u ¨ber den Autor des gefundenen Texts zu untermauern, will er einen Test f¨ ur die Hypothesen H0 : p = 0, 8
gegen
H1 : p = 0, 8
durchf¨ uhren. Dabei bezeichnet p den Anteil der S¨ atze der Dialogpartner, der mindestens eins der F¨ ullw¨ orter enth¨ alt. Der Test soll zum Niveau α = 0, 05 durchgef¨ uhrt werden. Insgesamt konnten auf der Schriftrolle n = 24 S¨ atze der atzen findet sich ein solches Dialogpartner entziffert werden. In ybeo = 23 S¨ F¨ ullwort. F¨ ur einen zweiseitigen Test berechnen sich die kritischen Werte qα/2;U und qα/2;O , so dass gilt P(Y ≤ qα/2;U ) > 0, 025 und P(Y ≥ qα/2;O ) > 0, 025, wobei die Wahrscheinlichkeiten f¨ ur Y ∼ Bin(24; 0, 8) berechnet werden. Man erh¨ alt P(Y ≤ 14) = 0, 013 und P(Y ≤ 15) = 0, 036, damit ist qα/2;U = 15. Analog berechnen sich P(Y ≥ 24) = 0, 005 und P(Y ≥ 23) = 0, 033, also atze mit F¨ ullwort weder ist qα/2;O = 23. Da die Anzahl der beobachteten S¨ gr¨ oßer 23 noch kleiner 15 ist, kann die Nullhypothese nicht abgelehnt werden. B Der approximative Binomialtest
Bei gr¨ oßer werdenden Stichprobenumf¨ angen steigt auch der Aufwand zur ur eine Stichprobe vom Durchf¨ uhrung des exakten Binomialtests 278. F¨ Umfang n = 100 sei unter den u ¨blichen Voraussetzungen die Hypothese H0 : p ≤ 0, 5
gegen
H1 : p > 0, 5
286
5. Verschiedene Situationen – verschiedene Tests
zum Niveau α = 0, 05 zu testen. Gem¨aß der beim exakten Binomialtest beschriebenen Vorgehensweise ist das Quantil qα;O der Bin(100; 0, 5)-Verteilung als kritischer Wert des Tests zu bestimmen. Gesucht ist also der kleinste Wert qα;O , so dass 100
P(Y = y) > α
y=qα;O
f¨ ur Bin(100; 0, 5). Dazu m¨ ussten die Summen 100
P(Y = y) f¨ ur k = 100, 99, 98, . . .
y=k
sukzessiv berechnet werden, bis derjenige Wert von k gefunden ist, f¨ ur den diese Summe zum ersten Mal gr¨oßer wird als α = 0, 05. In unserem Fall bedeutet das, 57 Summen zu bestimmen, da qα;O = 57. Bei ausreichend großem Stichprobenumfang kann statt des exakten Binomialtests auch der approximative Binomialtest verwendet werden. Dieser basiert auf der Normalverteilung, die eine Approximation f¨ ur die Binomialverteilung darstellt, wenn die unten genannten Voraussetzungen erf¨ ullt sind. Voraussetzungen Seien X1 , . . . , Xn unabh¨ angige und identisch verteilte Zufallsvariablen, die den Wert 1 mit Wahrscheinlichkeit p und den Wert 0 mit Wahrscheinlichkeit (1 − p) annehmen. Dann ist Y =
n
Xi
binomialverteilt mit Parametern n und p, Y ∼ Bin(n; p)
i=1
Gilt f¨ ur p aus der Nullhypothese n · p ≥ 5 und n · (1 − p) ≥ 5, so ist Y approximativ normalverteilt mit Erwartungswert n · p und Varianz σ 2 = n · p · (1 − p). Diese Annahme erm¨oglicht die Testentscheidung basierend auf einer approximativ normalverteilten Teststatistik. Zu testen sei eine Hypothese u ¨ ber den Anteil einer Merkmalsauspr¨ agung einer dichotomen Zufallsvariable X.
5.2
Parametrische Tests
287
Hypothesen Bezeichne p den unbekannten zu u ¨berpr¨ ufenden Parameter, w¨ ahrend p0 der Wert ist, mit dem dieser verglichen werden soll. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):
H0 : p = p0 H0 : p ≤ p0 H0 : p ≥ p0
H1 : p = p0 H1 : p > p0 H1 : p < p0
gegen gegen gegen
(zweiseitig) (rechtsseitig) (linksseitig)
Problem (1) beleuchtet die Frage, ob die Erfolgswahrscheinlichkeit einem Zielwert entspricht oder nicht, w¨ ahrend Problem (2) sich um den Nachweis dreht, dass die Erfolgswahrscheinlichkeit tats¨ achlich gr¨oßer ist als unter der Nullhypothese angenommen wird. Problem (3) wird demzufolge aufgestellt, wenn es das Ziel ist zu zeigen, dass die wahre Erfolgswahrscheinlichkeit von X kleiner ist als unter der Nullhypothese angenommen.
Teststatistik Die Teststatistik f¨ ur den approximativen Binomialtest lautet Z=
Y − n · p0 n · p0 · (1 − p0 )
und folgt approximativ einer Standardnormalverteilung unter der Annahme, dass p = p0 gilt.
Testentscheidung Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Abh¨ angig von der Wahl des Signifikanzniveaus α und des Testproblems gelten folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2
Problem (2): Problem (3):
Z Z
>
5 und
5.2
Parametrische Tests
289
n·(1−p0 ) = 158·0, 85 = 134, 3 > 5 ausreichend groß, um den approximativen Binomialtest durchzuf¨ uhren. Die Teststatistik berechnet sich zu zbeo =
54 − 158 · 0, 15 =√ = 0, 9580. 158 · 0, 15 · 0, 85 n · p0 · (1 − p0 ) ybeo − n · p0
∗ = −1, 9599 gegeben. F¨ ur den F¨ ur α = 0, 025 ist das 0,025-Quantil mit z0,025 beobachteten Wert der Teststatistik gilt zbeo = 0, 9580 > −1, 9599. Somit kann die Hypothese nicht zum 2,5%-Niveau abgelehnt werden. Die Daten sprechen nicht daf¨ ur, dass der Anteil sanierungsbed¨ urftiger Wasserleitungen B gesunken ist.
Beispiel Faire 50 Cent M¨ unze
B
W¨ are die 50 Cent M¨ unze fair, so w¨ urde die Wahrscheinlichkeit f¨ ur Kopf beim ¨ Wurf der M¨ unze p = 0, 5 betragen. Ein Tourist aus Ubersee glaubt nach intensiver Betrachtung einer 50 Cent M¨ unze nicht, dass diese fair sein kann, und wirft die M¨ unze unabh¨ angig voneinander 100-mal. Dabei erscheint 40-mal Kopf. L¨ asst sich damit zu einem Signifikanzniveau von α = 0, 05 nachweisen, dass die M¨ unze nicht fair ist? Das Testproblem daf¨ ur muss wie folgt formuliert werden H0 : p = 0, 5
gegen
H1 : p = 0, 5.
Unter der Nullhypothese ist die Anzahl der Erfolge Y in den 100 W¨ urfen, also die Anzahl der W¨ urfe mit Kopf binomialverteilt mit Parametern n = 100 und p = 0, 5, Y ∼ Bin(100; 0, 5). ur die AnwenUnter der Annahme, dass p0 = 0, 5 gilt, ist die Voraussetzung f¨ ullt. dung des approximativen Binomialtests n · p0 = 50 = n · (1 − p0 ) > 5 erf¨ Die beobachtete Anzahl an Erfolgen ist ybeo = 40. Damit berechnet sich die Teststatistik zu zbeo =
40 − 50 =√ = −2. 100 · 0, 5 · 0, 5 n · p0 · (1 − p0 ) ybeo − n · p0
F¨ ur α = 0, 05 ist das (1−α/2)-Quantil der Standardnormalverteilung gegeben ∗ = 1, 9599. Da der Absolutbetrag der beobachteten Teststatistik als z0,975 oßer als 1, 9599, kann die Nullhypothese verworfen werden. Das |zbeo | = 2 gr¨ ¨ heißt, der Tourist aus Ubersee kann tats¨achlich davon ausgehen, dass die 50 B Cent M¨ unze, die er hat unfair ist.
290
5. Verschiedene Situationen – verschiedene Tests
Beispiel T¨ agliche Kalorienzufuhr
B
Ern¨ ahrungswissenschaftler vermuten, dass mehr als die H¨ alfte aller Bundesb¨ urger t¨ aglich mehr Kalorien zu sich nimmt, als empfohlen. F¨ ur genauere Ergebnisse f¨ uhren sie dazu eine umfangreiche Studie durch, in welcher auch die unterschiedlichen Altersklassen, der Grad der k¨ orperlichen Belastung und das Geschlecht ber¨ ucksichtigt werden. Die Studie soll u ¨berpr¨ ufen, ob der Anteil der Bundesb¨ urger mit erh¨ ohter t¨aglicher Kalorienzufuhr gr¨ oßer ist als 0, 5. Innerhalb einer der untersuchten Gruppen wird dazu f¨ ur 11 zuf¨ allig ausgew¨ahlte Personen die durchschnittliche t¨ agliche Kalorienaufnahme ermittelt. In der Auswahl finden sich 9 Personen, deren Kalorienaufnahme h¨ oher als empfohlen ist. Kann zu einem Signifikanzniveau von α = 0, 05 geschlossen werden, dass in der Gruppe mehr als 50% der Personen eine erh¨ohte Kalorienaufnahme aufweisen? Das Testproblem kann formuliert werden als H0 : p ≤ 0, 5
gegen
H1 : p > 0, 5.
Dabei gibt p die Wahrscheinlichkeit an, dass eine Person eine h¨ohere Kalorienaufnahme als die empfohlene hat. Die Anwendung des approximativen Binomialtests ist hier erlaubt, denn es gilt n·p0 = n·(1−p0 ) = 11·0, 5 = 5, 5 > 5. Die Teststatistik berechnet sich als zbeo =
ybeo − n · p0 n · p0 · (1 − p0 )
=
9 − 5, 5 = 2, 11. 1, 658
∗ F¨ ur α = 0, 05 erhalten wir als kritischen Wert z0,95 = 1, 65. Der beobachtete oßer als 1,65. Die Nullhypothese kann Wert der Teststatistik zbeo = 2, 11 ist gr¨ also verworfen werden und es kann zum 5% Niveau geschlossen werden, dass f¨ ur die untersuchte Gruppe mehr als die H¨ alfte der Personen t¨ aglich zu viele B Kalorien zu sich nimmt.
Der χ2 -Anpassungstest
Nicht immer ist beim Testen ein spezieller Parameter einer Verteilung von Interesse, sondern vielmehr die zugrunde liegende Verteilung selbst. Beispielsweise k¨onnte ein Unternehmen u ¨berpr¨ ufen, ob montags und freitags die Anzahl der Krankmeldungen doppelt so hoch ist wie an den restlichen Arbeitstagen der Woche. Einem unglaubw¨ urdigen Gl¨ ucksspieler ließe sich nachweisen, ob jede Augenzahl bei seinem W¨ urfel mit gleicher Wahrscheinlichkeit auftritt oder nicht. Der χ2 -Anpassungstest untersucht allgemein gesprochen, ob die vorliegenden Daten den Schluss zulassen, dass sie aus einer speziellen Verteilung stammen.
5.2
Parametrische Tests
291
Folgende Idee steckt dahinter: Der Wertebereich des Merkmals wird zun¨ achst in k Klassen eingeteilt. In der Nullhypothese wird unterstellt, dass die Daten aus einer bestimmten Verteilung stammen. Auf dieser Annahme beruhend berechnet man, welche Besetzungszahlen f¨ ur die einzelnen Klassen in diesem Fall zu erwarten sind. Diese so genannten erwarteten H¨ aufigkeiten vergleicht man mit den tats¨achlich beobachteten Besetzungszahlen in der vorliegenden Stichprobe. Je weniger die beobachteten von den unter der Nullhypothese erwarteten H¨aufigkeiten abweichen, desto st¨arker unterst¨ utzt dies die Annahme, dass die Beobachtungen aus der in der Nullhypothese angenommenen Verteilung stammen. Voraussetzungen X1 , . . . , Xn seien stochastisch unabh¨ angige Stichprobenvariablen, die identisch verteilt sind wie X. Der Wertebereich von X wird in k disjunkte Klassen eingeteilt. F¨ ur die realisierte Stichprobe x1 , . . . , xn werden die ur die k Klassen bestimmt Klassenh¨ aufigkeiten ni f¨ Klasse Anzahl der Beobachtungen
1 n1
2 n2
3 n3
... ...
k nk
k Dabei gilt i=1 ni = n, das heißt, in der Summe addieren sich die einzelnen Klassenh¨ aufigkeiten wieder zum Gesamtstichprobenumfang n. Im Fall einer diskreten Zufallsvariable X mit einer kleinen Anzahl k von m¨oglichen Auspr¨ agungen bilden diese die Klassen. Bei einer h¨ oheren Anzahl m¨ oglicher Auspr¨ agungen werden jeweils mehrere zu einer Klasse zusammengefasst. Im Fall einer stetigen Zufallsvariablen wird die x-Achse in k disjunkte, aneinander angrenzende Intervalle eingeteilt, die beispielsweise wie folgt gew¨ahlt werden k¨ onnen (a0 , a1 ], (a1 , a2 ], . . . , (ak−1 , ak ] oder
[a0 , a1 ), [a1 , a2 ), . . . , [ak−1 , ak ),
wobei a0 = −∞ und ak = ∞ m¨oglich sind. F¨ ur die Durchf¨ uhrung des Tests m¨ ussen die Klassen stark genug besetzt sein. Die zu u ¨berpr¨ ufende Faustregel wird nach Aufstellung der Nullhypothese besprochen. Zu testen sei eine Hypothese u ¨ ber die Verteilung FX einer Zufallsvariablen X.
292
5. Verschiedene Situationen – verschiedene Tests
Hypothesen Sei FX (x) die unbekannte, wahre Verteilungsfunktion von X und F0 (x) die unter H0 unterstellte. Dann ist das Testproblem definiert als ur alle x ∈ R H0 : FX (x) = F0 (x) f¨ gegen ˜ ∈ R mit FX (˜ x) = F0 (˜ x). H1 : Es existiert mindestens ein x Das Testproblem kann alternativ auch in Form der Wahrscheinlichkeiten p1 , . . . , pk formuliert werden, wobei pi die Wahrscheinlichkeit ist, dass sich die Zufallsvariable X in der i-ten Klasse realisiert. Das Testproblem lautet dann H0 : p1 = p10 , p2 = p20 , . . . , pk = pk0 gegen H1 : pi = pi0
f¨ ur mindestens ein i, i = 1, . . . , k,
wobei pi0 die unter der Nullhypothese angenommene Wahrscheinlichkeit f¨ ur die i−te Klasse ist.
B
Beispiel Hypothesen
Es ist eine weit verbreitete Meinung, dass sich Babies f¨ ur ihre Geburt die f¨ ur uns eher unp¨ asslichen Nachtstunden aussuchen. Ist diese Meinung berechtigt, so m¨ ussten nachts weitaus mehr Babies geboren werden als tags¨ uber. Die Geburtszeit w¨ are also nicht u ¨ber den Tag hinweg gleich¨ verteilt sein. Zur Uberpr¨ ufung dieser These teilen wir den Tag in vier Abschnitte von je 6 Stunden ein: 1 = (0 - 6 Uhr], 2 = (6 - 12 Uhr], 3 = (12 - 18 Uhr] und 4 = (18 - 24 Uhr]. W¨ are die Geburtszeit u ¨ber den Tag hinweg gleichm¨aßig verteilt, so w¨ urde man etwa 1/4 aller an einem Tag geborenen Babies f¨ ur jedem der vier Zeitabschnitte erwarten. Bezeichne p1 die Wahrscheinlichkeit, dass ein Kind in den ersten sechs Stunden eines Tages geboren wird, also dass die Geburtszeit in das Intervall 1 = (0 - 6 Uhr] f¨ allt, p1 = P(X = 1). Analog seien p2 = P(X = 2), p3 = P(X = 3) und p4 = P(X = 4) definiert. Das Testproblem kann dann formuliert werden als H0 : p10 = p20 = p30 = p40 =
1 4
gegen
ur mindestens einen Zeitabschnitt ist die angenommene WahrH1 : f¨ scheinlichkeit falsch
5.2
Parametrische Tests
293
Mit diesem Testproblem u ¨ berpr¨ ufen wir nur die Gleichverteilung der Geburtszeiten. Wir k¨ onnen nicht zeigen, dass nachts tats¨achlich mehr Kinder zur Welt kommen. Dazu d¨ urften wir den Tag nur in die zwei Zeitabschnitte nachts und nicht nachts einteilen. An dieser Stelle soll uns aber nur interessieren, ob die Vermutung u ¨berhaupt begr¨ undet ist. Allem neuzeitlichen Aufk¨ arungsgeist zum Trotz h¨alt sich in der Bev¨olkerung immer noch der Aberglaube vom Freitag, dem 13., als Ungl¨ uckstag. Eine große Versicherung analysiert ihre Schadensmeldungen, um zu u ¨berpr¨ ufen, ob dieser Aberglaube tats¨ achlich berechtigt ist oder nicht. Sie schaut sich dazu die Anzahl der Schadensmeldungen f¨ ur den 13. eines jeden Monats, gruppiert nach den Wochentagen an. Ist der Aberglaube berechtigt, so m¨ usste es mehr Schadensmeldungen geben (einen h¨oheren Anteil), wenn der 13. auf einen Freitag f¨ allt, als f¨ ur die anderen Wochentage. H0 :
p10 = P(Schaden, wenn 13. nicht Fr) = p20 = P(Schaden, wenn 13. Fr) =
6 , 7
1 7
gegen H1 :
f¨ ur mindestens einen der Wochenabschnitte ist die angenommene Wahrscheinlichkeit falsch. B
Teststatistik Die Teststatistik ist definiert als k (ni − n · pi0 )2 , V = n · pi0 i=1
wobei ni die beobachtete Klassenh¨aufigkeit in der i-ten Klasse und n · pi0 die unter H0 erwartete H¨ aufigkeit in Klasse i bezeichnet. Unter den genannten Voraussetzungen ist unter der Nullhypothese V approximativ χ2 -verteilt mit (k − 1) Freiheitsgraden, V ∼ χ2k−1 . Faustregel: F¨ ur die G¨ ultigkeit der Approximation m¨ ussen die erwarteten ur alle i = 1, . . . , k Klassenh¨ aufigkeiten die Voraussetzung n · pi0 ≥ 5 f¨ erf¨ ullen.
294
5. Verschiedene Situationen – verschiedene Tests
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Je gr¨oßer der Wert von V ist, desto st¨arker spricht das Testergebnis f¨ ur die Alternativhypothese. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls gilt V > χ2k−1;1−α , wobei χ2k−1;1−α das (1 − α)-Quantil der χ2 -Verteilung mit k − 1 Freiheitsgraden ist. Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Werts herbeigef¨ uhrt werden: Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik V berechnet als P(V ≥ vbeo ) Dabei ist vbeo der errechnete (beobachtete) Wert der Teststatistik basierend auf den Beobachtungen. F¨ ur einen p-Wert kleiner dem Wert von α wird gesagt, dass das Ergebnis statistisch signifikant ist zum Niveau α.
Berechnung des kritischen Werts und des p-Werts in R Mit dem Programmpaket R kann der kritische Wert wie folgt berechnet werden qchisq(1-alpha, k-1) Den p-Wert erh¨ alt man mit pchisq(v.beo, k-1, lower.tail = FALSE)
5.2
Parametrische Tests
295
Beispiel (Fortsetzung 292) Geburtszeiten
B
Betrachten wir noch einmal die Vermutung der von Babies bevorzugten Zeiten, um auf die Welt zu kommen. Als Signifikanzniveau legen wir α = 0, 05 fest. Die gesammelten Daten eines Krankenhauses im Verlaufe eines Jahres ergaben Zeitabschnitt beob. Geburten
(0 - 6 ] 623
(6 - 12 ] 377
(12 - 18 ] 336
(18 - 24 ] 418
Summe 1754
Wie schon im Beispiel zu Hypothesen 292 gesehen, kann das Testproblem formuliert werden als H0 : p10 = p20 = p30 = p40 =
1 4
gegen
ur mindestens einen Zeitabschnitt ist die angenommene WahrH1 : f¨ scheinlichkeit falsch Unter der Annahme der Nullhypothese berechnen sich die erwarteten H¨aufigkeiten f¨ ur alle Zeitabschnitte zu 1754 ·
1 = 438, 5. 4
Die Teststatistik V =
5 (ni − n · pi0 )2 n · pi0 i=1
berechnet sich dann zu vbeo
=
(377 − 438, 5)2 (336 − 438, 5)2 (623 − 438, 5)2 + + 438, 5 438, 5 438, 5 2 (418 − 438, 5) = 111, 1717. + 438, 5
Der kritische Wert zum Niveau α = 0, 05 ist gegeben mit χ24−1;0,95 = χ23;0,95 = 7, 815. Der Wert der Teststatistik 111,1717 ist gr¨oßer als der kritische Wert 7,815. Damit kann H0 zum Niveau α = 0, 05 verworfen werden. Es scheint also tats¨achlich nicht unberechtigt zu sein, dass sich Babies den Zeitpunkt B f¨ ur den Start ins Leben willk¨ urlich aussuchen.
296
B
5. Verschiedene Situationen – verschiedene Tests
Beispiel Motoren
Ein japanischer Autofabrikant m¨ ochte beruhend auf Daten eingegangener Beschwerden w¨ahrend der Garantiezeit u ¨berpr¨ ufen, ob die Lebensdauer in Kilometern X eines seiner Automotoren exponentialverteilt ist mit einem Erwartungswert von nur 50 000 km statt der eigentlich angestrebten Kilome¨ terzahl. Zur Uberpr¨ ufung dieser Hypothese wurden die gefahrenen Kilometer bis zum ersten Motorschaden f¨ ur 60 zuf¨ allig ausgew¨ahlte PKW’s des Herstellers ermittelt. Als Signifikanzniveau wurde α = 0, 05 festgelegt. Die Daten sind angegeben als gefahrene Kilometer bis zum ersten Motorschaden
33272 3421 2847 95442 132824 97585 109138
1640 69322 50415 31949 50069 25946 158960
12504 53749 129307 22184 66169 11602 163972
167623 38448 8365 3945 13544 14027 61062
35501 42185 73700 74931 49549 32370 63448
25842 42029 30099 27308 73146 12440 7828
45134 54303 20202 5288 34588 75012
10229 23481 42763 142996 5947 17768
79803 28097 16177 19182 22036 88867
Zu testen ist die Nullhypothese H0 : FX (x) =
4 3 1 − exp − 50 1000 · x 0
x≥0 x 0, 05. Das heißt, die Nullhypothese kann nicht verworfen B werden. Sind die Parameter der Verteilung aus der Nullhypothese unbekannt, so kann der χ2 -Anpassungstest trotzdem angewendet werden. Bezeichnen wir mit F0 (x; ϑ1 , . . . , ϑr ), x ∈ R eine Verteilungsfunktion unter der Nullhypothese, angt. Die unbekannwelche von r unbekannten Parametern ϑ1 , . . . , ϑr abh¨ ten Parameter werden zun¨achst aus den Daten gesch¨atzt. Dies geschieht in der Praxis meist durch eine Maximum-Likelihood-Sch¨ atzung 119 basierend atzungen auf der Dichtefunktion f 0 (x; ϑ1 , . . . , ϑr ). Mit den erhaltenen Sch¨ onnen wir dann die k Wahrscheinlichkeiten p1 , . . . , pk f¨ ur die k ϑˆ1 , . . . , ϑˆr k¨ Klassen sch¨atzen (% p1 , . . . , p%k ) und diese zur Berechnung der Teststatistik einsetzen k (ni − n · p%i )2 V = . n · p%i i=1 Die Teststatistik V folgt nun approximativ einer χ2 -Verteilung mit (k −r −1) Freiheitsgraden, das heißt, die Anzahl der Freiheitsgrade verringert sich um die Anzahl der zu sch¨ atzenden Parameter.
5.2
B
Parametrische Tests
299
Beispiel Familien
F¨ ur Daten aus einer großen sozialwissenschaftlichen Studie u ¨ber 500 Familien mit 2 Kindern soll u ¨berpr¨ uft werden, ob die Anzahl von M¨ adchen, X, in der Familie binomialverteilt ist. Als Niveau sei α=0,05 vorgegeben. Anzahl M¨ adchen in der Familie i Anzahl Familien ni
0 118
1 254
2 128
Die zu u ¨ berpr¨ ufende Nullhypothese lautet x 2 · pt · (1 − p)2−t H0 : FX (x) = t t=0 f¨ ur x = 0, 1, 2 mit unbekanntem Parameter p. Zur Berechnung der Teststatistik k (ni − n · p%i )2 V = n · p%i i=1 sind zun¨ achst Sch¨atzwerte f¨ ur
2 · pi · (1 − p)2−i , pi = P(X = i) = i
i = 0, 1, 2
zu bestimmen, wobei p die Wahrscheinlichkeit f¨ ur eine M¨ adchengeburt bezeichnet. Die Maximum-Likelihood-Sch¨ atzung f¨ ur p aus allen Daten ist gegeben durch die relative H¨ aufigkeit von M¨ adchen, das heißt p% =
0 · 118 + 1 · 254 + 2 · 128 Anzahl M¨ adchen = = 0, 51. Anzahl Kinder 500 · 2
Damit gilt p%0
=
p%1
=
p%2
=
2 2 · (% p)0 · (1 − p%)2 = · (0, 51)0 · (0, 49)2 = 0, 2401 0 0 2 2 · (% p)1 · (1 − p%)1 = · (0, 51)1 · (0, 49)1 = 0, 4998 1 1 2 2 · (% p)2 · (1 − p%)0 = · (0, 51)2 · (0, 49)0 = 0, 2601 2 2
und der Wert der Teststatistik kann berechnet werden als vbeo
=
k (ni − n · p%i )2 i=1
n · p%i
=
(118 − 500 · 0, 2401)2 500 · 0, 2401
300
5. Verschiedene Situationen – verschiedene Tests
+
(128 − 500 · 0, 2601)2 (254 − 500 · 0, 4998)2 + = 0, 1346. 500 · 0, 4998 500 · 0, 2601
Da die Binomialverteilung nur von einem unbekannten Parameter, n¨ amlich p, abh¨ angt und dieser zun¨ achst gesch¨atzt werden musste, verringert sich die Anzahl der Freiheitsgrade von (k−1) auf (k−2). F¨ ur α = 0, 05 ist der kritische Wert somit gegeben als χ21;0,95 = 3, 84. Der beobachtete Wert der Teststatistik vbeo = 0, 1346 ist kleiner als 3,84 woraus folgt, dass die Nullhypothese nicht verworfen werden kann. Das heißt, es besteht kein Hinweis darauf, dass die B Annahme einer Binomialverteilung nicht gerechtfertigt ist. Der χ2 -Unabh¨ angigkeitstest
Werden in einer Studie an unabh¨ angigen Untersuchungsobjekten jeweils zwei Merkmale beobachtet, so stellt sich die Frage nach dem Zusammenhang bzw. angigkeitstests der Unabh¨ angigkeit dieser Merkmale. Mit Hilfe des χ2 -Unabh¨ kann die Hypothese der Unabh¨ angigkeit zweier Merkmale untersucht werden. Ein Vorteil dieser Methode ist, dass bereits nominales Messniveau der Merkmale zur Anwendung ausreicht. Voraussetzungen Betrachtet werden zwei Merkmale, die durch Zufallsvariablen X und Y mit Auspr¨ agungen k1 , . . . , km bzw. l1 , . . . , lq beschrieben werden. Dabei m¨ ussen X und Y mindestens nominal skaliert sein. F¨ ur stetige Zufallsvariablen werden die Wertebereiche in m bzw. q disjunkte, aneinander angrenzende Intervalle eingeteilt. Die Klasseneinteilung muss vollst¨ andig sein, das heißt jedes Objekt geh¨ ort zu genau einer Klasse. Die Stichprobenvariablen (X1 , Y1 ), . . . , (Xn , Yn ) sind unabh¨ angig und identisch wie das Paar (X, Y ) verteilt. Als Ausgangspunkt wird eine zweidimensionale Stichprobe (x1 , y1 ), . . . , (xn , yn ) vom Umfang n gezogen. Die Darstellung der Daten ist in Form einer H¨ aufigkeitstabelle m¨oglich, welche als Kontingenztafel bezeichnet wird.
5.2
Parametrische Tests
k1 k2 .. . km Summe
301
l1 n11 n21
l2 n12 n22
... ... ...
lq n1q n2q
Summe n1• n2•
... nm1 n•1
... nm2 n•2
... ··· ...
... nmq n•q
... nm• n
nij stellt die absolute Klassenh¨ aufigkeit der Kombination (ki , lj ) dar, also die Anzahl der Beobachtungspaare mit Merkmalsauspr¨ agung ki von X und Merkmalsauspr¨ agung lj von Y . Mit ni• wird die Sumur die i-te Merkmalsauspr¨agung der Zume der H¨aufigkeiten nij f¨ fallsvariable X u ¨ber alle q Merkmalsauspr¨ agungen von Y bezeichnet: q aufigkeit von ki . Analog ni• = j=1 nij . Die Gr¨oße ni• heißt Randh¨ m aufigkeit der j-ten Merkmalsbezeichnet n•j = i=1 nij die Randh¨ auspr¨ agung lj von Y . Damit gew¨ahrleistet werden kann, dass die Teststatistik unter der ur die erwarteten Nullhypothese approximativ χ2 -verteilt ist, muss f¨ Klassenh¨ aufigkeiten gelten n ˜ ij =
ni• · n•j ≥ 5. n
Zu testen sei eine Hypothese u ¨ ber die Unabh¨ angigkeit der Zufallsvariablen X und Y .
Hypothesen Es ergibt sich die Fragestellung, ob die Merkmale voneinander unabh¨ angig sind oder nicht. Im stochastischen Sinne liegt Unabh¨ angigkeit von zwei Ereignissen A und B genau dann vor, wenn P(A ∩ B) = P(A) · P(B) gilt. Diese Beziehung f¨ uhrt zu folgender Formulierung der Hypothesen H0 : pij = pi• · p•j
f¨ ur i = 1, . . . , m und j = 1, . . . , q
gegen H1 : pij = pi• · p•j
f¨ ur mindestens ein Paar (i, j).
302
5. Verschiedene Situationen – verschiedene Tests
Dabei ist pij = P(X = ki , Y = lj ) die Wahrscheinlichkeit, dass X die i-te und Y die j-te Merkmalsauspr¨ agung annimmt. pi• = P(X = ki ) die Wahrscheinlichkeit, dass X die i-te Merkmalsauspr¨ agung annimmt, unabh¨ angig von der Auspr¨ agung von Y und p•j = P(Y = lj ) die Wahrscheinlichkeit, dass Y die j-te Merkmalsauspr¨ agung annimmt, unabh¨ angig von der Auspr¨ agung von X. Anders ausgedr¨ uckt, lautet das Testproblem angig H0 : X und Y sind stochastisch unabh¨ gegen angig. H1 : X und Y sind stochastisch abh¨
B
Beispiel Hypothesen
H¨ angen die Reihenfolge der Geburt von Geschwistern und der erzielte Ausbildungsgrad zusammen? Oft wird beobachtet, dass Erstgeborene einen l¨ angeren Bildungsweg einschlagen als ihre j¨ ungeren Geschwister. Dies wird psychologisch damit begr¨ undet, dass sich die j¨ ungeren Geschwister oft von ihren a¨lteren Geschwistern abgrenzen wollen. Als Testproblem ergibt sich H0 : Die Variablen Geburtsreihenfolge und Ausbildungsgrad sind stochastisch unabh¨ angig gegen H1 : Die Variablen Geburtsreihenfolge und Ausbildungsgrad sind stochastisch abh¨angig. Gibt es einen Zusammenhang zwischen dem Geschlecht und der Teevorliebe? Der Inhaber eines Teeladens m¨ochte dies herauszufinden, um den Kunden gezielt verschiedene Tees anzubieten. Als Testproblem ergibt sich H0 : Die Variablen Geschlecht und Teevorliebe sind stochastisch unabh¨ angig gegen angig. H1 : Die beiden Variablen sind stochastisch abh¨ B
5.2
Parametrische Tests
303
Teststatistik Die Teststatistik des χ2 -Unabh¨ angigkeitstests misst den Unterschied zwischen den tats¨achlich beobachteten H¨ aufigkeiten nij der Kontingenztafel und den unter der Nullhypothese erwarteten H¨ aufigkeiten n ˜ ij . Die Randaufigkeiten wahrscheinlichkeiten pi• und p•j werden durch die relativen H¨ p%i• =
ni• n
und p%•j =
n•j n
gesch¨atzt, wobei n der Gesamtstichprobenumfang ist. Unter der Nullhypothese H0 : pij = pi• · p•j wird die Wahrscheinlichkeit pij gesch¨atzt durch p%ij = p%i• · p%•j . Die Teststatistik ist definiert als V =
mit n ˜ ij =
q m (nij − n ˜ ij )2 , n ˜ ij i=1 j=1
ni• · n•j = n · p%ij . n
Unter der Nullhypothese ist V approximativ χ2 verteilt mit (m−1)·(q−1) Freiheitsgraden, V ∼ χ2(m−1)·(q−1) . Faustregel: Die Approximation ist umso besser, je gr¨ oßer n ist. Es sollte ur alle i, j gelten. n ˜ ij ≥ 5 f¨
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert Je gr¨oßer der Wert von V ist, desto st¨arker spricht das Testergebnis f¨ ur die Alternativhypothese. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls gilt V > χ2(m−1)·(q−1);1−α , wobei χ2(m−1)·(q−1);1−α das (1 − α)-Quantil der χ2 -Verteilung mit (m − 1) · (q − 1) Freiheitsgraden ist.
304
5. Verschiedene Situationen – verschiedene Tests
Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Wertes herbeigef¨ uhrt werden: Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik V berechnet als P(V ≥ vbeo ). Dabei ist vbeo der errechnete (beobachtete) Wert der Teststatistik basierend auf den Beobachtungen. F¨ ur einen p-Wert kleiner dem Wert von α wird gesagt, dass das Ergebnis statistisch signifikant ist zum Niveau α.
Berechnung des kritischen Werts und des p-Werts in R Mit dem Programmpaket R kann der kritische Wert wie folgt berechnet werden qchisq(1-alpha, (m-1)*(q-1)) Den p-Wert erh¨ alt man mit pchisq(v.beo, (m-1)*(q-1), lower.tail = FALSE)
B
Beispiel Unabh¨ angigkeit von Einkommen und Geschlecht
Eine Untersuchung der Merkmale X = Einkommen mit Auspr¨ agungen niedrig, mittel und hoch Y = Geschlecht mit Auspr¨ agungen m¨ annlich und weiblich bei n = 500 Personen erbrachte die folgenden Ergebnisse
5.2
Parametrische Tests
305
niedrig mittel hoch Summe
m¨annlich 50 110 70 230
weiblich 100 140 30 270
Summe 150 250 100 500
Die gemeinsame Verteilung von X und Y ist in einer Kontingenztafel darstellbar: sie besitzt m = 3 Zeilen und q = 2 Spalten. Als Nullhypothese interessiert angig H0 : Die Variablen Geschlecht und Einkommen sind stochastisch unabh¨ gegen H1 : Die Variablen Geschlecht und Einkommen sind stochastisch abh¨angig. Der Test wird zum Signifikanzniveau α = 0, 01 durchgef¨ uhrt. Die erwarteten H¨ aufigkeiten berechnen sich zu n ˜ ij =
ni• · n•j = n · p%ij n
f¨ ur i = 1, 2, 3 und j = 1, 2,
und es ergibt sich n ˜ 11
=
150 · 230 = 69, 500
n ˜ 22
=
250 · 270 = 135, 500
n ˜ 12 =
150 · 270 = 81, 500
n ˜ 31 =
100 · 230 = 46, 500
n ˜ 21 =
250 · 230 = 115, 500
n ˜ 32 =
100 · 270 = 54. 500
Die beobachtete und die unter Unabh¨ angigkeit der Merkmale zu erwartende Kontingenztafel sehen im Vergleich also folgendermaßen aus Einkommen
niedrig mittel hoch
Geschlecht beobachtet nij erwartet n ˜ ij m¨annlich weiblich m¨annlich weiblich 50 100 69 81 110 140 115 135 70 30 46 54
306
5. Verschiedene Situationen – verschiedene Tests
Die Teststatistik V bestimmt nun, wie groß der Unterschied zwischen diesen beiden Tafeln ist. Die Teststatistik ist definiert als V =
3 2 (nij − n ˜ ij )2 . n ˜ ij i=1 j=1
Damit berechnet sie sich zu vbeo
=
(100 − 81)2 (110 − 115)2 (140 − 135)2 (50 − 69)2 + + + 69 81 115 135
+
(30 − 54)2 (70 − 46)2 + = 33, 28. 46 54
Der kritische Wert zum Niveau α = 0, 01 ist χ2(3−1)·(2−1);0,99 = χ22;0,99 = 9, 21. Da der beobachtete Wert 33,28 der Teststatistik gr¨ oßer als der kritische Wert asst ist, kann H0 verworfen werden. Zu einem Signifikanzniveau von α = 0, 01 l¨ sich nachweisen, dass eine Abh¨angigkeit zwischen den Variablen Geschlecht B und Einkommen besteht. Der Exakte Test nach Fisher
Bei 2 × 2- Kontingenztafeln (m = q = 2) und kleinen Stichprobenumf¨ angen ¨ kann auch der exakte Test von Fisher zur Uberpr¨ ufung der Unabh¨ angigkeitshypothese angewandt werden. Hypothese Getestet werden soll die Nullhypothese H0 : pij = pi• · p•j
f¨ ur i = 1, 2 und j = 1, 2
H1 : pij = pi• · p•j
f¨ ur mindestens ein Paar (i, j)
gegen
Die Idee des Tests von Fisher ist es, die beobachtete 2 × 2-Tafel mit allen u ¨brigen Tafeln zu vergleichen, die bei gleichbleibender Randh¨ aufigkeit h¨ atten beobachtet werden k¨onnen. Durch die H¨ aufigkeit n11 ist jede dieser Tafeln mit fest vorgegebener Randsumme eindeutig bestimmt, n11 dient daher als Teststatistik. Teststatistik Die Teststatistik lautet X = n11 .
5.2
Parametrische Tests
307
Gilt die Nullhypothese, das heißt, sind die beiden Merkmale unabh¨ angig, so wird die bedingte Wahrscheinlichkeit f¨ ur das Auftreten einer Tafel mit H¨ aufigaufigkeiten RHF = (n1• , n•1 , n•2 , n) beschrieben keit n11 bei festen Randh¨ durch eine hypergeometrische Verteilung n•1 n•2 n11 n −n 1• 11 , n11,min ≤ n11 ≤ n11,max , P(X = n11 |RHF) = n n1• wobei n11,min = max{0, n1• − n•2 }, n11,max = min{n•1 , n1• }. Zu kleine oder zu große Werte f¨ ur X f¨ uhren zur Ablehnung der Nullhypothese. Testentscheidung Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik X berechnet als P(X = n11 |RHF), p-Wert = n11 ∈Mn11
Mn11 =
n11 : n11,min ≤ n11
P(X = n11 |RHF) ≤1 . ≤ n11,max , P(X = n11,beo |RHF)
Dabei ist die bedingte Verteilung von X | RHF eine hypergeometrische Verteilung Hyp(n, n•1 , n1• ), und n11,beo ist der errechnete (beobachtete) Wert der Teststatistik X basierend auf der ersten H¨ aufigkeit in der Tafel. Mn11 bezeichnet die Menge der m¨oglichen Ereignisse, die eine kleinere bedingte Wahrscheinlichkeit haben als X = n11,beo . Beispiel (Fortsetzung 302) Teevorliebe
B
Der Inhaber eines Teeladens befragt alle Kunden eines Tages, ob sie lieber Fr¨ uchtetee oder schwarzen Tee trinken. Zudem notiert er das Geschlecht der Kunden.
Fr¨ uchtetee schwarzer Tee Summe
m¨annlich 3 3 6
weiblich 9 15 24
Summe 12 18 30
308
5. Verschiedene Situationen – verschiedene Tests
Der Besitzer vermutet, dass ein Zusammenhang zwischen Geschlecht und Teevorliebe besteht. Um diese Vermutung zu u ¨ berpr¨ ufen, wird das folgende Testproblem formuliert H0 : Die Variablen Geschlecht und Teevorliebe sind stochastisch unabh¨ angig gegen H1 : Die Variablen Geschlecht und Teevorliebe sind stochastisch abh¨ angig. Das heißt, formal H0 : pij = pi• · p•j
f¨ ur i = 1, 2 und j = 1, 2
H1 : pij = pi• · p•j
f¨ ur mindestens ein Paar (i, j),
gegen
wobei f¨ ur die Teesorten der Fr¨ uchtetee mit 1 und der schwarze Tee mit 2 kodiert sind, f¨ ur das Geschlecht die Auspr¨ agung m¨ annlich als 1 und weiblich als 2. Mit pij ist die Wahrscheinlichkeit f¨ ur die i-te Teesorte und das j-te Geschlecht bezeichnet. Es soll ein Test zum Niveau α = 0, 1 durchgef¨ uhrt werden. Die Teststatistik des exakten Tests von Fisher nimmt den Wert n11,beo = 3 an. Mit der bedingten hypergeometrischen Verteilung X | RHF ∼ Hyp(30, 12, 6), wobei RHF = (n1• , n•1 , n•2 , n) = (12, 6, 24, 30) ist, wird der p-Wert berechnet 24 6 3 12 − 3 = 0, 3023. p-Wert ≥ P(X = n11,beo = 3) = 30 12 Der p-Wert muss gr¨ oßer als α = 0, 1 sein, da n11,beo = 3 ∈ Mn11 . Damit kann die Hypothese der Unabh¨ angigkeit der Variablen Geschlecht und B Teevorliebe zum Niveau α = 0, 1 nicht abgelehnt werden.
5.2
Parametrische Tests
309
Tests im linearen Regressionsmodell
Im einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,
f¨ ur i = 1, . . . , n
gibt es die beiden Parameter β0 und β1 . Dabei entspricht β0 dem Achsenabaufig will man wissen, schnitt und β1 der Steigung der Regressionsgeraden. H¨ ob die Steigung signifikant von Null verschieden ist. Sollte dies nicht der Fall sein, so kann man gem¨ aß dem linearen Regressionsmodell davon ausgehen, dass kein signifikanter linearer Zusammenhang zwischen den beiden betrachteten Merkmalen Y und x besteht. So k¨ onnte die Bedienung aus dem ur sie u ¨berhaupt Beispiel 135 daran interessiert sein zu wissen, ob es sich f¨ lohnt, mehr G¨ aste am Abend zu bedienen (das heißt ob β1 > 0), zum Beispiel ¨ durch das Ubernehmen eines gr¨ oßeren Bedienbereichs. Im Beispiel 140 167 der Intelligenz m¨ochten die Initiatoren der Studie erfahren, ob intelligentere Abiturienten die gestellte Aufgabe tats¨ achlich signifikant schneller l¨ osen k¨onnen (das heißt ob β1 < 0). Nat¨ urlich kann man sich auch allgemeiner fragen, ob sich der Steigungsparameter signifikant von einem festen Wert c ∈ R unterscheidet. Ebenso kann man u ¨berpr¨ ufen, ob sich der Achsenabschnitt signifikant von Null oder von einem anderen vorgegebenen Wert unterscheidet. Voraussetzungen Zur Anwendung der Tests u ¨ber die Parameter des einfachen linearen Regressionsmodells m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet werden unabh¨ angige Zufallsvariablen Y1 , . . . , Yn , zusamoße. Alle Paare men mit zugeh¨origen Werten x1 , . . . , xn der Einflussgr¨ (xi , Yi ) folgen dem gleichen einfachen linearen Regressionsmodell Yi = β0 + β1 · xi + εi ,
i = 1, . . . , n.
Beobachtet seien die Paare (x1 , y1 ), . . . , (xn , yn ). F¨ ur die Modellfehler εi gilt: εi sind unabh¨ angig und identisch normalverteilt, εi ∼ N (0, σ 2 ), i = 1, . . . , n. Damit sind auch die Zufallsvariablen Yi normalverteilt mit E(Yi ) = β0 + β1 · xi , i = 1, . . . , n.
310
5. Verschiedene Situationen – verschiedene Tests
Hypothesen F¨ ur die Parameter β0 und β1 des einfachen linearen Regressionsmodells k¨ onnen folgende Testprobleme betrachtet werden Problem (1): Problem (2): Problem (3):
H0 : βj = c H0 : βj ≤ c H0 : βj ≥ c
H1 : βj = c H1 : βj > c H1 : βj < c
gegen gegen gegen
(zweiseitig) (rechtsseitig) (linksseitig)
Dabei ist c ∈ R ein fest vorgegebener Wert, und die Testprobleme k¨onnen f¨ ur j = 0, 1 aufgestellt werden.
Teststatistik Wie bei der Herleitung der Konfidenzintervalle f¨ ur die Regressionskoeffizienten (Verteilungen der Parametersch¨atzer oßen 164) sind die Gr¨ − βj TβKQ j ! , Tσj2
j = 0, 1
t-verteilt mit n − 2 Freiheitsgraden. Hierbei sind f¨ ur j = 0, 1 TβKQ j
die KQ Sch¨ atzer 138 f¨ ur βj ,
σj2
=
Tσ02
=
Tσ12
=
TσU2
=
Var(TβKQ ) die Varianzen der Sch¨ atzer TβKQ , j j n x2 n i=1 i TσU2 · , n · i=1 (xi − x)2 TσU2 , 2 i=1 (xi − x) n 1 · (Yi − Y%i )2 , n − 2 i=1 n
wobei Tσ02 , Tσ12 , Tσ2 Varianzsch¨ atzer f¨ ur σ02 , σ12 , σ 2 bezeichnen. Unter der Annahme, dass βj = c gilt, sind daher die Teststatistiken TβKQ −c j , Tj = ! Tσj2 t-verteilt mit n − 2 Freiheitsgraden.
j = 0, 1
5.2
Parametrische Tests
311
Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert In Abh¨ angigkeit vom gew¨ahlten Signifikanzniveau α gelten f¨ ur die Testprobleme (1) bis (3) folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, wenn Problem (1): |Tj |
> t∗n−2;1−α/2
Problem (2):
Tj
>
Problem (3):
Tj
900
auf. Als Signifikanzniveau w¨ ahlt er α = 0, 05. Die zu berechnende Teststatistik ist − 900 TβKQ . T1 = 1! Tσ12 Aus den vorherigen Berechnungen zum Gewinn eines Unternehmers 138 sind die folgenden realisierten Gr¨ oßen bereits bekannt atzung f¨ u r β1 , β%1 = 986, 860, die KQ Sch¨ σ %12 = 686, 5503, die gesch¨atzte Varianz des Sch¨atzers TβKQ . 1 Die realisierte Teststatistik t1,beo ergibt sich zu t1,beo =
86, 860 β%1 − 900 = 3, 3150. = 2 26, 2021 σ %1
Der kritische Werte ist das 0,95-Quantil der t-Verteilung mit 3 Freiheitsgraden t∗3;0,95 = 2, 3534.
5.2
Parametrische Tests
313
Wegen t∗3;0,95 = 2, 3534 < t1,beo = 3, 3150 kann die Nullhypothese H0 zum Niveau α = 0, 05 verworfen werden. Der Gewinnzuwachs bei einer Erh¨ ohung der Produktion um 1 000 Einheiten ist B signifikant gr¨ oßer als 900. Beispiel (Fortsetzung 140 167) Intelligenz und Probleml¨ osen
Im Beispiel der Untersuchung des Zusammenhangs zwischen der Intelligenz und der Probleml¨ osef¨ahigkeit von Abiturienten 140 167 waren die folgenden Daten beobachtet worden: xi yi
100 3,8
105 3,3
110 3,4
115 2,0
120 2,3
125 2,6
130 1,8
135 1,6
Die graphische ¨ Uberpr¨ ufung 141 des Zusammenhangs zwischen den Intelligenzquotienten und den Zeiten bis zur Probleml¨ osung ergibt keinen Hinweis, der gegen den Ansatz eines einfachen linearen Regressionsmodells Yi = β0 + β1 · xi + εi spricht. Eine Normalverteilung der Fehler kann ebenfalls unterstellt werden. Die Initiatoren der Studie interessiert, ob eine h¨ ohere Intelligenz zu signifikant geringerer Zeit bis zur L¨ osung des gestellten Problems f¨ uhrt. Sie m¨ ochten also H0 : β1 ≥ 0
gegen
H1 : β1 < 0
testen. Als Signifikanzniveau soll α = 0, 1 gew¨ ahlt werden. Die zu berechnende Teststatistik ist −0 TβKQ 1 . T1 = ! Tσ12 Aus den Berechnungen zu Intelligenz und Probleml¨ osen 140 wissen wir, dass die KQ Sch¨ atzung f¨ ur β1 den Wert β%1 = − 0, 060 hat und die gesch¨atze Varianz des Sch¨atzers TβKQ gerade σ %12 = 0, 0002 ist. 1
B
314
5. Verschiedene Situationen – verschiedene Tests
Man berechnet die realisierte Teststatistik t1,beo als − 0, 060 β%1 = − 4, 2553. t1,beo = 2 = 0, 0141 σ %1 Als kritischen Wert erh¨alt man das 0,1-Quantil der t-Verteilung mit 6 Freiheitsgraden: t∗6;0,1 = −t∗6;0,9 = − 1, 4398. Wegen t∗6;0,1 = − 1, 4398 > t1,beo = − 4, 2553 kann die Nullhypothese H0 zum Niveau α = 0, 1 verworfen werden. AbituriB enten mit einem h¨oheren IQ l¨ osen die Aufgabe signifikant schneller.
5.3
5.3 Nichtparametrische Tests Eine Großzahl statistischer Verfahren unterstellt, dass die beobachteten Daten aus einer Grundgesamtheit stammen, die sich durch ein statistisches Modell aus einer bekannten Verteilungsklasse beschreiben l¨ asst. Damit wird angenommen, dass die Daten durch einen bestimmten Mechanismus erzeugt wurden, n¨ amlich durch eine spezielle Verteilung, die bis auf die sie charakterisierenden Parameter bekannt ist. (Der Erwartungswert und die Varianz einer Zufallsvariablen sind oftmals Funktionen dieser Parameter, wenn die Zufallsvariable dieser Verteilung folgt.) Methoden, die auf der obigen Annahme aufbauen, werden allgemein als parametrische Verfahren bezeichnet. H¨ aufig geht diese Annahme so weit, dass zur Anwendung eines statistischen Verfahrens speziell das Vorliegen von Daten aus einer normalverteilten Grundgesamtheit gefordert wird. Diese Anforderung an die Daten ist jedoch nicht immer zu rechtfertigen. In diesen F¨ allen bedarf es alternativer Methoden, den so genannten nichtparametrischen Verfahren. Da die Kenntnis der zugrunde liegenden Verteilung in der nichtparametrischen Statistik nicht vorausgesetzt wird, werden nichtparametrische Verfahren insbesondere dann eingesetzt, wenn wenig oder keine Information u ¨ber die Verteilung, aus der die Daten stammen, vorliegt. Dar¨ uber hinaus zeigt sich ein weiterer Vorteil in der zumeist einfachen Anwendung dieser Methoden. Die Verfahren basieren oft auf den R¨ angen der Beobachtungen oder auf den Vorzeichen, die aus den Abweichungen von einem bestimmten Wert resultieren.
5.3
Nichtparametrische Tests
315
Grundlagen
In diesem Abschnitt wollen wir zun¨ achst ben¨ otigte Grundlagen f¨ ur die Durchf¨ uhrung nichtparametrischer Tests einf¨ uhren. Diese beziehen sich haupts¨ achlich auf das Verhalten von Ordnungstatistiken, da beispielsweise der Wilcoxon-Rangsummen-Test 209 oder auch der Kruskal-Wallis-Test angen der geordneten Beobachtungen aus der Stichprobe ba335 auf den R¨ sieren. Dazu f¨ uhren wir zun¨ achst R¨ange und den Begriff der Bindungen ein. Betrachtet wird eine Stichprobe z1 , . . . , zn+m vom Umfang n+m. Dabei kann es sich um Beobachtungen eines Merkmals handeln, aber auch um die Kombination von Beobachtungen verschiedener Merkmale. Die Merkmale m¨ ussen mindestens ordinal skaliert sein. Regel Verfahren zur Rangbildung: Die Beobachtungen z1 , . . . , zn+m werden der Gr¨ oße nach geordnet, beginnend mit der kleinsten. Den geordneten Beobachtungen werden Platznummern, die so genannten R¨ ange zugewiesen. Die kleinste Beobachtung erh¨ alt dabei den Rangwert 1, die n¨ achst gr¨oßere den Rangwert 2 und so weiter. Die Rangwerte reichen von 1 bis n + m. Der Rang der i-ten Beobachtung wird mit R(zi ) bezeichnet. Stimmen mehrere Beobachtungen u ¨berein (Bindungen), so werden ihnen Durchschnittsr¨ ange zugewiesen.
Bindungen Besitzen zwei oder mehrere Beobachtungen in einer Stichprobe den gleichen Wert, so wird dies als Bindung bezeichnet. Eine eindeutige Zuweisung der R¨ ange ist nicht mehr m¨oglich. In der Praxis werden dann h¨ aufig Durchschnittsr¨ ange gebildet.
In der Theorie ist das Auftreten von Bindungen bei der Betrachtung stetiger Zufallsvariablen X und Y ausgeschlossen. Die Praxis jedoch erm¨oglicht in vielen Situationen nur bedingt exakte Messungen, so dass sich gleiche Werte nicht immer vermeiden lassen. Durchschnittsr¨ ange Kann f¨ ur zwei oder mehrere Beobachtungen der Rang nicht eindeutig zugewiesen werden, so wird ihr Durchschnittsrang ermittelt. Dieser errechnet sich aus dem arithmetischen Mittel der betroffenen R¨ange.
316
5. Verschiedene Situationen – verschiedene Tests
Den von Bindungen betroffenen Beobachtungen k¨ onnen die R¨ ange auch basierend auf einem Zufallsprinzip zugewiesen werden. Diese Methode ist aber aus statistischer Sichtweise weniger effizient und ist daher in der Praxis un¨ ublich. B
Beispiel Quiz Show
In einer Quiz Show stehen sich die zwei Teams Blau und Rot mit je vier Kandidaten gegen¨ uber. Allen Kandidaten werden je zehn Fragen gestellt, die individuell beantwortet werden m¨ ussen. F¨ ur jede richtige Antwort gibt es einen Punkt. Es gewinnt das Team, das am Ende die h¨ ochste Punktzahl hat. Gegeben sei folgender Spielausgang:
Team Punkte je Kandidat Summe
Blau 6 6 23
6
5
Rot 8 2 19
5
4
Innerhalb des blauen Teams erzielten drei Kandidaten die gleiche Punktzahl (6 Punkte). Ebenso gibt es je einen Kandidaten in beiden Teams mit 5 Punkten. Die geordneten Daten sehen wie folgt aus:
geordnete Beobachtungen Rang (ri )
2 1
4 2
5
5
6
6
6
8 8
Die R¨ange {3; 4} und {5; 6; 7} lassen sich nicht eindeutig vergeben. Daher werden die jeweiligen Durchschnittsr¨ ange gebildet: r3;4 =
3+4 = 3, 5 2
und
r5;6;7 =
5+6+7 = 6. 3
Die R¨ange werden somit wie folgt zugewiesen: geordnete Beobachtungen Rang (ri )
2 1
4 2
5 3,5
5 3,5
6 6
6 6
6 6
8 8 B
5.3
Nichtparametrische Tests
317
Der Vorzeichen-Test
In einem S¨ agewerk werden Bretter zugeschnitten. Die Soll-L¨ange betr¨agt 100 cm, die tats¨achlich geschnittenen L¨angen variieren aufgrund von Zufallsschwankungen. Man kann zwar davon ausgehen, dass sie sich im Mittel symmetrisch um einen festen Wert verteilen, die zugrunde liegende Verteilung der Schnittl¨ ange ist jedoch unbekannt. Der Besitzer des S¨agewerks m¨ochte u ¨berpr¨ ufen, ob seine Maschine, die die Bretter zuschneidet, im Mittel die korrekte Schnittl¨ ange einh¨ alt. K¨ onnte man unterstellen, dass die Schnittl¨ ange einer Normalverteilung folgt, w¨ are der t-Test im Einstichprobenfall der angemessene Test f¨ ur dieses Problem. Im Fall des S¨agewerks kann man lediglich von einer symmetrischen Verteilung, jedoch nicht von einer Normalverteilung der Schnittl¨ angen ausgehen. In einem solchen Fall kann man auf den nichtparametrischen Vorzeichen-Test zur¨ uckgreifen. Seine Testentscheidung basiert auf den Abweichungen der Daten zum Median der zugrunde liegenden Verteilung. Voraussetzungen Seien X1 , . . . , Xn unabh¨ angige und identisch wie X verteilte Stichprobenvariablen mit stetiger Verteilungsfunktion FX (x). Das Messniveau der Daten muss mindestens ordinal sein. Zu testen sei eine Hypothese u ¨ ber den Median 13 e xmed einer Zufallsvariablen X.
Hypothesen Der unbekannte Median der Zufallsvariable X wird mit xmed bezeichnet, w¨ahrend δ0 ein gegebener, unter der Nullhypothese unterstellter Wert sei. Das Testproblem lautet dann in Abh¨ angigkeit der gew¨ unschten Alternativhypothese Problem (1): Problem (2): Problem (3):
H0 : xmed = δ0 H0 : xmed ≤ δ0 H0 : xmed ≥ δ0
gegen gegen gegen
H1 : xmed = δ0 (zweiseitig) H1 : xmed > δ0 (rechtsseitig) H1 : xmed < δ0 (linksseitig)
318
5. Verschiedene Situationen – verschiedene Tests
Teststatistik Die Teststatistik beim Vorzeichen-Test ist definiert als Y = Anzahl der Xi mit einem Wert kleiner als δ0 . Es wird also f¨ ur jede Beobachtung festgehalten, ob sie kleiner oder gr¨ oßer bzw. gleich dem Wert δ0 ist. Dies l¨asst sich als Bernoulliversuch 38 auffassen, und die Teststatistik Y ist somit unter der Annahme xmed = δ0 binomialverteilt mit Parametern n und p = 0, 5, Y ∼ Bin(n; 0, 5). Der Wert 0,5 f¨ ur den Parameter p l¨ asst sich damit begr¨ unden, dass f¨ ur ur, dass Xi kleiner als δ0 ist, gerade xmed = δ0 die Wahrscheinlichkeit daf¨ 0,5 betr¨ agt. Dies folgt aus der Definition des Medians. Beim linksseitigen und rechtsseitigen Test ist der Fall xmed = δ0 lediglich der Grenzfall der Hypothese. Dennoch f¨ uhrt das Vorgehen in der beschriebenen Form (siehe ¨ Testentscheidung) zu einer validen Uberpr¨ ufung der entsprechenden Nullhypothese. Testentscheidung und Interpretation Die Testentscheidung kann anhand des kritischen Werts oder mit Hilfe des p-Werts herbeigef¨ uhrt werden. Entscheidungsregel basierend auf dem kritischen Wert F¨ ur einen Wert α mit 0 < α < 1 bezeichne qα die kleinste ganze Zahl f¨ ur die gilt P(Y ≤ qα ) = P(Y = 0) + P(Y = 1) + . . . + P(Y = qα ) > α. Große Werte der Teststatistik Y (Y nahe an n, dem Stichprobenumfang) sprechen f¨ ur xmed < δ0 , kleine Werte (Y nahe bei 0) hingegen f¨ ur xmed > δ0 . Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls Problem (1): Y < qα/2 oder Y > n − qα/2
(zweiseitig)
Problem (2):
Y < qα
(rechtsseitig)
Problem (3):
Y > n − qα
(linksseitig)
5.3
Nichtparametrische Tests
319
Entscheidungsregel basierend auf dem p-Wert Anstelle des kritischen Werts kann die Testentscheidung auch mit Hilfe des p-Werts herbeigef¨ uhrt werden. Die Nullhypothese H0 wird zum Niveau α abgelehnt, falls der p-Wert < α ist, wobei sich der p-Wert der Teststatistik Y berechnet als Problem (1): p-Wert = 2 · [P(Y = 0) + ... + P(Y = min{ybeo , n − ybeo })] * ) n n n + ... + + = 2 · 0, 5n· min{ybeo , n − ybeo } 1 0 Problem (2): p-Wert = P(Y = 0) + P(Y = 1) + ... + P(Y = ybeo ) = 0, 5n ·
* ) n n n + ... + + ybeo 1 0
Problem (3): p-Wert = P(Y = n) + P(Y = n − 1) + ... + P(Y = ybeo ) * ) n n n + ... + + = 0, 5 · ybeo n−1 n n
Der Vorzeichen-Test ist ein konservativer 204 Test, das heißt, das Niveau α wird nicht immer ganz ausgesch¨ opft. Da die Berechnungen der Quantile f¨ ur große Stichprobenumf¨ ange sehr aufw¨andig werden, kann die Approximation der Binomialverteilung durch die Normalverteilung zur Bestimmung der Quantile oder des p-Werts verwendet werden. Der Vorzeichen-Test kann auch zum Vergleich der mittleren Lage (im Sinne des Medians) zweier Zufallsvariaangige blen herangezogen werden. Seien hierzu (X1 , Y1 ), . . . , (Xn , Yn ) unabh¨ und identisch wie (X, Y ) verteilte Zufallsvariablen mit stetigen Verteilungsfunktionen FX (x) und FY (y). Besitzen X und Y den gleichen Median, so ist der Median von X − Y gleich 0, so dass die Gleichheit der mittleren Lage von X und Y anhand von X1 − Y1 , . . . , Xn − Yn getestet werden kann, indem f¨ ur den Schwellenwert δ0 = 0 angenommen wird. Dieses Vorgehen ist
320
5. Verschiedene Situationen – verschiedene Tests
genauso wie im Fall normalverteilter Zufallsvariablen X und Y beim t-Test im Zweistichprobenfall f¨ ur unverbundene Stichproben. B
Beispiel S¨ agewerk
In einem S¨ agewerk sollen Bretter mit einer L¨ange von 100 cm hergestellt werden, dazu wird die S¨ age auf den Sollwert von 100 cm eingestellt. Zus¨atzlich muss jedoch von Schwankungen ausgegangen werden, die zuf¨ allig, aber begrenzt sind. Die Firma u ¨berpr¨ uft in regelm¨ aßigen Abst¨anden, ob die Maschine richtig zentriert ist. Sie erhebt dazu eine Stichprobe und f¨ uhrt einen Vorzeichen-Test zum Signifikanzniveau α = 0, 2 durch. Ist es das Ziel, die Solll¨ ange von 100 cm zu u ¨berpr¨ ufen, so muss auf Abweichungen in beide Richtungen vom Sollwert getestet werden. Damit ist folgendes zweiseitiges Testproblem ad¨ aquat H0 : xmed = 100
gegen
H1 : xmed = 100
Die Stichprobe besteht aus n = 9 Brettern. Unter der Nullhypothese ist die Anzahl der Bretter in der Stichprobe, die k¨ urzer als 100 cm sind, binomialverteilt mit n = 9 und p = 0, 5. In folgender Tabelle sind die Dichte P(Y = x) und die Verteilungsfunktion F(x) = P(Y ≤ x) dieser Binomialverteilung tabelliert, wobei Y die Teststatistik bezeichnet. Y war definiert als die Anzahl der Beobachtungen, die kleiner als der vorgegebene Sollwert von δ0 = 100 sind. x 0 P(Y = x) 0,0020 P(Y ≤ x) 0,0020
1 0,0175 0,0195
2 0,0703 0,0898
3 0,1641 0,2539
4 0,2461 0,5000
5 0,2461 0,7461
6 0,1641 0,9102
7 0,0703 0,9805
Zum Signifikanzniveau α = 0, 2 ist der kritische Wert qα/2 = q0,1 = 3, da P(Y ≤ 2) ≤ 0, 1 < P(Y ≤ 3) gilt. Beobachtet wurden die folgenden L¨ angen x L¨ ange
1 99,0
2 100,2
3 99,8
4 100,4
5 100,5
6 100,1
7 99,5
8 100,3
9 100,1
Da genau 3 Bretter k¨ urzer als 100 cm sind, ist der Wert der Teststatistik ybeo = 3. Entsprechend der Entscheidungsregel gilt: qα/2 = 3 = ybeo = 3 < n − qα/2 = 6, und H0 kann zum Niveau α = 0, 2 nicht verworfen werden. Alternativ kann auch der p-Wert f¨ ur die Testentscheidung herangezogen werden p-Wert =
2 · [P(Y = 0) + P(Y = 1) + P(Y = 2) + P(Y = 3)]
5.3
Nichtparametrische Tests
=
321
2 · P(Y ≤ 3) = 2 · 0, 2539 = 0, 5068.
Der p-Wert 0,5068 ist erwartungsgem¨ aß gr¨ oßer als α, da ja beide Entscheidungskriterien a¨quivalent sind. H0 kann zum Niveau α = 0, 2 nicht verworfen B werden. Beispiel Schadstoff
B
Nach einem Industrieunfall in einem Chemieunternehmen wurde im Grundwasser ein Schadstoff festgestellt. Der von der EU vorgegebene Grenzwert von 5 ppm wurde nicht u ¨berschritten. Man ist sich jedoch einig, dass schon geringere Konzentrationen des Schadstoffes Sch¨aden an Fauna und Flora in der Umgebung mit hoher Wahrscheinlichkeit verursachen k¨ onnen. Experten nennen einen geringeren Grenzwert von 1 ppm, bei dem man sicher sein kann, dass eine Schadstoffmenge unterhalb dieses Werts keine negativen Auswirkungen auf die Umwelt hat. Die ans¨assige Umweltbeh¨orde entscheidet, dass teure Entgiftungsmaßnahmen nur dann nicht vorgenommen werden m¨ ussen, wenn mindestens 50% der Fl¨ ache im verseuchten Gebiet eine Konzentration von weniger als 1 ppm aufweist. Dazu werden Bodenproben von verschiedenen Stellen genommen und die Schadstoffkonzentrationen im Labor gemessen. Basierend auf dieser Stichprobe soll mit Hilfe eines Vorzeichen-Tests zum Niveau α = 0, 05 eine Entscheidung herbeigef¨ uhrt werden. Probe Menge in ppm Probe Menge in ppm
1 0,5 10 3,4
2 0,8 11 0,8
3 0,4 12 0,1
4 2,3 13 1,2
5 0,6 14 0,7
6 1,6 15 0,2
7 0,2 16 0,8
8 0,3 17 0,9
9 0,9
Die Schadstoffmessungen in ppm werden entsprechend der Herleitung des Vorzeichen-Tests als Xi , i = 1, 2, 3, . . . , 17 bezeichnet. Die Zufallsvariablen angig und identisch wie eine Zufallsvariable X verteilt Xi werden als unabh¨ angenommen. Es stellt sich nun die Frage, ob der Median von X kleiner oder doch gr¨ oßer als der strenge Wert δ0 = 1 ist. Es handelt sich hierbei also um ein linksseitiges Testproblem H0 :
xmed ≥ δ0
gegen
H1 :
xmed < δ0 ,
da nur eine Ablehnung der Nullhypothese die Entscheidung unterst¨ utzen kann, keine Maßnahmen vorzunehmen. In 13 der 17 Proben wurde eine Konzentration geringer als 1 ppm, dem Vergleichswert, festgestellt. Der realisierte
322
5. Verschiedene Situationen – verschiedene Tests
Wert der Teststatistik betr¨agt also ybeo = 13. Die Testentscheidung soll basierend auf dem kritischen Wert herbeigef¨ uhrt werden. Als Signifikanzniveau ist α = 0, 05 gew¨ahlt worden. Dazu brauchen wir nur das Quantil qα = q0,05 der Binomialverteilung mit n = 17 und p = 0, 5. Wir berechnen die Werte der Verteilungsfunktion P(X ≤ x) bis zu dem ersten x, f¨ ur das P(X ≤ x) > 0, 05 gilt 17 17 < 0, 0001 P(X ≤ 0) = 0, 5 · 0 P(X ≤ 1) = P(X ≤ 0) + 0, 517 · 17
P(X ≤ 2) = P(X ≤ 1) + 0, 5
17
P(X ≤ 3) = P(X ≤ 2) + 0, 5
P(X ≤ 5) = P(X ≤ 4) + 0, 5
17 1
17 · 2
17 · 3
P(X ≤ 4) = P(X ≤ 3) + 0, 517 · 17
17 4
17 · 5
< 0, 0001 = 0, 0012 = 0, 0064 = 0, 0245 = 0, 0717
Das Quantil ist gegeben durch q0,05 = 5, denn f¨ ur x = 4 ist der Wert der Verteilungsfunktion noch kleiner als 0,05, f¨ ur x = 5 jedoch schon gr¨oßer als 0,05. Da der obere kritische Wert n − q0,05 = 17 − 5 = 12 ist und der Wert der Teststatistik ybeo = 13 ist, ist ybeo > n − q0,05 und die Nullhypothese kann entsprechend der Entscheidungsregel abgelehnt werden. Das heißt, es werden keine Maßnahmen zur Entgiftung des betroffenen Gebietes getroffen, da man zu 95% sicher sein kann, dass h¨ochstens die H¨alfte des Gebietes eine Schadstoffverschmutzung zwischen 1 ppm und 5 ppm aufB weist. B
Beispiel T¨ agliche Regenmenge
Auf Saramsanu sagt man, dass es im Inland der kleinen Insel st¨ arker regnet als an der K¨ uste. Um diese Behauptung zu u ¨berpr¨ ufen, soll ein Vorzeichen-Test zum Niveau α = 0, 05 durchgef¨ uhrt werden. Der Vorzeichen-Test eignet sich, da u ¨ber die Verteilung der Regenmenge aus Saramsanu keine hinreichende
5.3
Nichtparametrische Tests
323
Information vorliegt. Zur Durchf¨ uhrung werden an mehreren Tagen an jeweils einer Stelle im Inland und einer Stelle an der K¨ uste die Niederschl¨age in Liter pro Quadratmeter gemessen. Wir nehmen dabei an, dass die Beobachtungen voneinander unabh¨ angig sind. Tag Inland K¨ uste
1 16,3 20,2
2 1,9 1,7
3 11,3 0
4 34,8 23,3
5 15,1 14,3
6 19,6 45,0
7 1,5 0,8
8 0,1 0,2
9 56,1 10,8
10 32,8 28,9
Die t¨ agliche Niederschlagsmenge werde im Inland mit X, die an der K¨ uste mit U bezeichnet. Das f¨ ur die Fragestellung ben¨ otigte Testproblem lautet nun H0 :
xmed ≤ umed
gegen
H1 :
xmed > umed ,
wobei wir anhand der Daten u ¨berpr¨ ufen wollen, ob die Nullhypothese verworfen werden kann. Bei n¨ aherer Betrachtung ist festzustellen, dass dieses Testproblem nicht f¨ ur den Vorzeichen-Test definiert worden ist (siehe Hypothesen). Jedoch k¨ onnen wir uns auf die Bemerkung berufen, welche besagt, dass das Testproblem entsprechend umgeformt werden kann. Dazu betrachten wir die Differenz der beiden Regenmengen, bezeichnet mit Z = X − U , welche genau dann den Wert Null annimmt, wenn xmed = umed gilt. Wir betrachten nun also die Zufallsvariable Z = X − U bzw. die Stichprobenvariablen Z1 , . . . , Z10 und formulieren das Testproblem entsprechend. Das obige Testproblem kann dann auch als rechtsseitig geschrieben werden H0 :
zmed ≤ 0 gegen
H1 :
zmed > 0,
wie es f¨ ur den Vorzeichen-Test eingef¨ uhrt wurde. ur Die Teststatistik Y entspricht der Anzahl der Zi , die kleiner sind als 0. F¨ unsere Daten betr¨ agt der Wert der Teststatistik ybeo = 3. Das Quantil q0,05 der Binomialverteilung mit n = 10 und p = 0, 5 ist gegeben durch q0,05 = 2, da P(Y ≤ 1) = 0, 0107 < 0, 05 und P(Y ≤ 2) = 0, 0547 > 0, 05. Die Nullhypothese kann also nicht abgelehnt werden, denn der Wert der Teststatistik ist gr¨ oßer als der kritische Wert: ybeo = 3 > q0,05 = 2. Somit konnte die obige Vermutung einer h¨ oheren Niederschlagsmenge basierend auf der Stichprobe B und der gew¨ ahlten Methode nicht nachgewiesen werden.
324
5. Verschiedene Situationen – verschiedene Tests
Der Wilcoxon-Rangsummen-Test
B
Beispiel IT Branche
Eine noch junge Firma aus dem IT-Bereich m¨ochte ihre Position in der Branche festigen, indem sie ihren Marktanteil und damit verbunden den j¨ ahrlichen Umsatz steigert. Basierend auf den bisherigen Erfahrungen und den Umsatzzahlen beschließt das Unternehmen, zwei favorisierte Verkaufsstrategien auszuprobieren. F¨ ur einen m¨ oglichst fairen Vergleich erfolgt eine zuf¨ allige Zuteilung der beiden Strategien auf je zehn der insgesamt zwanzig Filialen. Unter ansonsten gleichen Bedingungen wird in jeder Filiale die Zeit (in Minuten) bis zur T¨ atigung der ersten 50 Verk¨ aufe gemessen. Die gewinnbringendere Strategie soll dann einheitlich in allen Filialen verwendet werden. Das Bestreben nach einer m¨oglichst zuverl¨ assigen Entscheidung ist nachvollziehbar, da eine im Mittel effizientere Verkaufspsychologie einen h¨ oheren B Umsatz f¨ ur das Unternehmen bedeutet. Allgemein lassen sich solche Entscheidungen mit Hilfe geeigneter statistischer Methoden aus der Sch¨ atz- und Testtheorie treffen. In dem Fallbeispiel kann davon ausgegangen werden, dass die Wartezeiten bis zur T¨atigung der ersten 50 Verk¨ aufe keiner Normalverteilung folgen und dass zu wenig Information zur Annahme einer anderen Verteilung vorliegt. Die Anwendung eines nichtparametrischen Entscheidungsverfahrens erscheint daher sinnvoll. Der Wilcoxon-Rangsummen-Test ist ein Rangtest auf Lagealternativen f¨ ur Daten aus unabh¨ angigen Stichproben mit mindestens ordinalem Messniveau. Er geh¨ ort in die Klasse der nichtparametrischen Verfahren und wird angewendet, wenn zwei unbekannte Verteilungen bez¨ uglich ihrer Lage miteinander verglichen werden sollen oder es sich bei den Verteilungen nicht um Normalverteilungen handelt. Anwendungen dieses Tests finden sich in allen natur- und gesellschaftswissenschaftlichen Fachgebieten. H¨ aufig ist der Vergleich zweier Behandlungen mit dem Ziel, einen m¨oglichen Unterschied in ihrer Wirksamkeit nachzuweisen, von Interesse. Die Bezeichnung Rangtest ergibt sich aus der Tatsache, dass anstelle der eigentlichen Beobachtungen nur deren R¨ ange in die Teststatistik eingehen.
5.3
Nichtparametrische Tests
325
Kann den Daten eine Normalverteilung unterstellt werden, so sollte aus statistischer Sichtweise das parametrische Gegenst¨ uck des Wilcoxon-Rangsummen-Tests, der t-Test, verwendet werden. Voraussetzungen F¨ ur eine Anwendung des Wilcoxon-Rangsummen-Tests m¨ ussen folgende Voraussetzungen erf¨ ullt sein Betrachtet werden zwei Merkmale, dargestellt durch Zufallsvariablen X und Y , die mindestens ordinal skaliert sind. Die Zufallsvariablen X und Y sind stochastisch unabh¨angig. Die Zufallsvariablen X und Y haben die stetigen Verteilungsfunktionen FX (x) und GY (y). Die Verteilungsfunktion GY (z) an der Stelle z ∈ R ergibt sich aus einer Verschiebung der Verteilungsfunktion FX (z) um einen Wert δ ∈ R : FX (z) = GY (z − δ). Dies bedeutet: Beide Verteilungen besitzen die gleiche Gestalt und damit auch die gleiche Streuung, sie unterscheiden sich jedoch in ihrer Lage. Zu testen sei eine Hypothese u ¨ ber die Lageparameter der Zufallsvariablen X und Y . Zu beachten ist, dass es sich hierbei um Voraussetzungen an die Verteilungen FX (x) und GY (y) der Zufallsvariablen X und Y handelt. Die Stichangig und identisch probenvariablen X1 , . . . , Xn sollen voneinander unabh¨ angig und idengem¨aß FX (x) verteilt sein, Y1 , . . . , Ym voneinander unabh¨ tisch verteilt gem¨aß der Verteilung GY (y). Beobachtet werden die Stichproben x1 , . . . , xn und y1 , . . . , ym .
gY(y)
fX(x)
d
326
5. Verschiedene Situationen – verschiedene Tests
Ein positiver Wert von δ bedeutet, dass GY (z) oberhalb von FX (z) liegt, bzw. altnis zu f X (z) nach links verschoben dass die Dichtefunktion g Y (z) im Verh¨ ist. Die Zufallsvariable Y nimmt also mit gr¨ oßerer Wahrscheinlichkeit kleinere Werte an als X. F¨ ur δ < 0 gilt der umgekehrte Sachverhalt. Der Wilcoxon-Rangsummen-Test u ¨ berpr¨ uft die Lageverschiebung der Ver¨ ufung des Parameters δ. Eine Verteilungsfunktion FX (z) durch die Uberpr¨ schiebung liegt vor, wenn δ verschieden von Null ist. (Zur Erinnerung: Die Verteilungsfunktion FX (z) ist um einen Wert δ ∈ R verschoben, wenn gilt FX (z) = GY (z − δ).) Ist die Richtung der vermuteten Verschiebung bekannt, so wird getestet, ob δ gr¨ oßer oder kleiner als Null ist, andernfalls erfolgt ein Test, ob δ von Null verschieden ist. Hypothesen F¨ ur den Parameter δ ∈ R ergeben sich f¨ ur den Test auf Lagealternativen folgende m¨ ogliche Hypothesen Problem (1): Problem (2): Problem (3):
H0 : δ = 0 H0 : δ ≤ 0 H0 : δ ≥ 0
gegen gegen gegen
H1 : δ = 0 H1 : δ > 0 H1 : δ < 0
(zweiseitig) (rechtsseitig) (linksseitig)
In Problem(1) wird getestet, ob generell eine Lageverschiebung der Verahrend Problem (2) und teilungsfunktion FX um einen Wert δ vorliegt. W¨ (3) von einer Lageverschiebung der Verteilungsfunktion FX gezielt in eine Richtung ausgehen.
B
Beispiel Hypothesen
In vielen Reisezentren der Deutschen Bahn wurde lange ein Servicesystem verwendet, das f¨ ur jeden ge¨ offneten Schalter eine eigene Warteschlange vorsieht. Alternativ gibt es die M¨ oglichkeit der Bildung einer gemeinschaftlichen Schlange f¨ ur alle Schalter. Von Interesse ist, ob die Strategie der Bildung einer gemeinschaftlichen Schlange die mittlere Wartezeit der Kunden verk¨ urzt. Bezeichne X die Wartezeit der Kunden bei separaten Warteschlangen und Y die Wartezeit bei einer gemeinschaftlichen Warteschlange. Dann l¨ asst sich das Testproblem wie folgt formulieren H0 : δ ≤ 0 gegen
H1 : δ > 0.
Ein pharmazeutisches Unternehmen hat ein neues Antibiotikum zur Behandlung von Tuberkulose entwickelt. Nun m¨ ochte es dessen Wirkeffizienz
5.3
Nichtparametrische Tests
327
¨ mit der eines herk¨ ommlichen Mittels vergleichen. Bei einer Uberlegenheit soll der neue Wirkstoff das herk¨ommliche Antibiotikum ersetzen. Eine Zielvariable der Untersuchung ist damit die mittlere Behandlungsdauer der Patienten. Seien mit X bzw. Y die Behandlungszeiten bei Anwendung des Standardantibiotikums bzw. des neuen Antibiotikums bezeichnet. Dann muss das Testproblem formuliert werden als H0 : δ ≤ 0
gegen
H1 : δ > 0.
Ein Bauer m¨ ochte Kresse an einen nahe gelegenen Supermarkt verkaufen. Aufgrund seiner Erfahrungen vermutet der Bauer, dass die Aussaat der Kresse auf Watte mit zugesetzten N¨ahrstoffen ertragreicher ist als eine Aussaat auf handels¨ ublicher Erde, die mit Bakterien oder anderen Sch¨ adlingen kontaminiert sein kann. Er entschließt sich, beide Methoden in einem Versuch zu vergleichen, in der Hoffnung, seine Vermutung durch die Daten untermauern zu k¨ onnen. Bezeichne X den Ertrag bei Aussaat der Kresse auf Erde und Y den Ertrag bei Aussaat auf Watte. Dann formulieren sich Null- und Alternativhypothese als H0 : δ ≥ 0
gegen
H1 : δ < 0. B
Beispiel (Fortsetzung 324) IT Branche
Greifen wir zur¨ uck auf das Beispiel aus der Einf¨ uhrung. Die Firma aus der IT-Branche hat das Ziel, unter zwei verschiedenen Verkaufsstrategien die gewinnbringendere herauszufinden. Angenommen das Unternehmen hat schon zu Beginn die Vermutung, dass eine der Strategien (bezeichnet mit Strategie 2) effizienter ist, als die andere (bezeichnet mit Strategie 1). Es erwartet also f¨ ur die Filialen, die Strategie 2 einsetzen, jeweils k¨ urzere Zeiten f¨ ur die ersten 50 Verk¨ aufe, als f¨ ur diejenigen Filialen, die Strategie 1 verwenden. Seien X und Y Zufallsvariablen, die die Zeit bis zur T¨ atigung der ersten 50 Verk¨aufe pro Filiale unter Strategie 1 bzw. Strategie 2 beschreiben. Unter der effizienteren Strategie ist es wahrscheinlicher, k¨ urzere Wartezeiten zu beobachten. Die Verteilungsfunktion von Y sollte also in Bezug auf die von X nach links verschoben sein. Um die Vermutung des Unternehmens zu u ¨berpr¨ ufen, ist also die Hypothese zu testen, dass δ positiv ist.
B
328
5. Verschiedene Situationen – verschiedene Tests
Es ergibt sich damit das Testproblem mit den Hypothesen H0 und H1 : H0 : δ ≤ 0
gegen
H1 : δ > 0 . B
Teststatistik Die mit W bezeichnete Teststatistik errechnet sich aus der Summe der R¨ ange der Stichprobenvariablen X1 , . . . , Xn : W =
n
R(Xi ),
i=1
wobei R(Xi ) der Rang von Xi in der kombinierten Stichprobe ist. Man beachte, dass die R¨ange der Stichprobenvariablen Y1 , . . . , Ym nicht in die Teststatistik eingehen.
Zuweisung der R¨ ange Die Beobachtungen x1 , . . . , xn , y1 , . . . , ym werden zu einer kombinierten Stichprobe z1 , . . . , zn+m zusammengefasst. In der kombinierten Stichprobe werden den Beobachtungen ihre R¨ ange zugeordnet. Die Rangzahlen reichen dabei von 1 bis n + m. Bei gleichen Beobachtungswerten (Bindungen) werden die Durchschnittsr¨ ange zugewiesen.
Die R¨ange R(xi ) bzw. R(yi ), die den Beobachtungen x1 , . . . , xn , y1 , . . . , ym zugeordnet werden, sind selbst Realisierungen einer gleichverteilten Zufallsvariablen R. Damit kann die Verteilung der Teststatistik u ¨ber kombinatorische ¨ Uberlegungen bestimmt werden, die in der einschl¨ agigen Literatur zu finden sind, siehe zum Beispiel B¨ uning, Trenkler (1994). Liegen Bindungen innerhalb einer Stichprobe vor, also zwischen zwei x- oder zwei y-Werten, so bleibt die Teststatistik davon unber¨ uhrt. Bindungen zwischen Beobachtungen der einzelnen Stichproben hingegen haben einen Einfluss auf den Wert der Teststatistik W und somit auch auf die Verteilung von W . Dieser Einfluss ist jedoch begrenzt, wenn die Anzahl der Bindungen gering ist.
5.3
Nichtparametrische Tests
329
Testentscheidung und Interpretation Abh¨ angig von der Wahl des Signifikanzniveaus α gelten f¨ ur die Probleme (1)-(3) folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, wenn ∗ ∗ oder W ≥ w1−α/2 Problem (1): W ≤ wα/2 ∗ W ≥ w1−α W ≤ wα∗
Problem (2): Problem (3):
(zweiseitig) (rechtsseitig) (linksseitig)
Der kritische Wert wα∗ ist das α−Quantil der Verteilung von W . Die Symmetrie der Verteilung der Teststatistik W erlaubt die Berechnung ∗ mit Hilfe von wα∗ . von w1−α Es gilt folgender Zusammenhang: ∗ = n · (m + n + 1) − wα∗ , w1−α
wobei n und m jeweils die Stichprobenumf¨ange f¨ ur die Zufallsvariablen X und Y sind. Dabei m¨ ussen n und m nicht notwendigerweise gleich groß sein. Basierend auf der Testentscheidung, kann nun eine Schlussfolgerung bez¨ uglich der urspr¨ unglichen Problemstellung gezogen werden. Zum Beispiel, ob tats¨achlich eine Lageverschiebung vorliegt und was diese im Zusammenhang mit der urspr¨ unglichen Problemstellung bedeutet. Dabei sollte ersichtlich werden, welche Information aus den Daten gewonnen werden konnte. Auf das Programmpaket R kann zur Berechnung der kritischen Werte nicht zur¨ uckgegriffen werden, da R eine andere Teststatistik verwendet. Beispiel (Fortsetzung 324 327) IT Branche
B
Die Firma aus der IT-Branche hat zur Untersuchung der beiden vorgeschlagenen Strategien die Zeit in Minuten bis zur Abhandlung der ersten 50 Verk¨ aufe pro Filiale gemessen. Zu einem Niveau α = 0, 05 soll u ¨berpr¨ uft werden, ob ¨ sich eine Uberlegenheit der Strategie 2 nachweisen l¨aßt. Es wurden folgende Zeiten (in min) beobachtet Strategie Minuten
101
98
1 210
141
112
58
237
2 86
74
125
330
5. Verschiedene Situationen – verschiedene Tests
Seien X und Y die Zufallsvariablen, die die Zeit bis zur T¨ atigung der ersten 50 Verk¨ aufe pro Filiale unter Strategie 1 bzw. Strategie 2 beschreiben. Das Messniveau von X und Y ist somit metrisch und X und Y haben stetige Verteilungsfunktionen FX (x) und GY (y). (Zu beachten ist jedoch, dass die Zeit nur diskret gemessen werden kann.) Wird von den unterschiedlichen Strategien 1 und 2 abgesehen, sind die Bedingungen f¨ ur alle Filialen ansonsten gleich. Daher kann angenommen werden, ochstens bez¨ uglich dass sich die Verteilungsfunktionen FX (x) und GY (y) h¨ ihrer Lage unterscheiden. Eine Normalverteilung als zugrunde liegende Verteilung ist nicht zu vermuten, da es sich bei X und Y um Wartezeiten handelt. Ist Strategie 2 tats¨achlich u ¨berlegen, so sollte sich dies in signifikant k¨ urzeren Verkaufszeiten widerspiegeln. Die Dichtefunktion der Zufallsvariablen Y (Strategie 2) w¨ urde also nach links verschoben sein, das heißt δ > 0. Das Testproblem lautet damit: H0 : δ ≤ 0
gegen
H1 : δ > 0.
Die Beobachtungen der kombinierten Stichprobe werden, beginnend mit der kleinsten, der Gr¨ oße nach geordnet. Strategie Beobachtungen Rang (ri )
2 y1 58 1
2 y4 74 2
2 y3 86 3
1 x2 98 4
1 x1 101 5
1 x5 112 6
2 y5 125 7
1 x4 141 8
1 x3 210 9
2 y2 237 10
Zur Berechnung der Teststatistik W werden alle R¨ange, die zu Beobachtungen der Zufallsvariablen X geh¨ oren, aufsummiert. Die Realisierung wbeo ergibt sich damit als wbeo =
5
R(xi ) = 1 + 2 + 3 + 7 + 10 = 23.
i=1 ∗ ∗ ist mit n = m = 5 und α = 0, 05 als w1−α = 36 Der kritische Wert w1−α gegeben. ∗ Der kritische Wert w0,95 = 36 ist gr¨ oßer als der Wert der Teststatistik wbeo = 23. Die Nullhypothese kann damit zu einem Signifikanzniveau von α = 0, 05 nicht verworfen werden. Aufgrund der Daten l¨ asst sich also keine ¨ B Uberlegenheit von Strategie 2 nachweisen.
5.3
Nichtparametrische Tests
331
Erh¨ oht sich die Anzahl der Beobachtungen in den einzelnen Stichproben, so l¨ asst sich die Verteilung von W durch eine Normalverteilung approximieren. Als Faustregel gilt, dass m oder n gr¨ oßer als 25 sein sollten. Die standardisierte Teststatistik Z=
W − µW σW
ist f¨ ur m, n −→ ∞ mit m n −→ γ = 0, ∞ unter der Nullhypothese H0 asymptotisch standardnormalverteilt, das heißt Z ∼ N (0, 1). Erwartungswert und die Varianz von W sind gegeben durch 2 und σW = n · m · (n + m + 1)/12.
µW = n · (n + m + 1)/2
Teststatistik Die Teststatistik Z l¨ asst sich also schreiben als W − n · (n + m + 1)/2 . Z= n · m · (n + m + 1)/12 und folgt unter der Annahme δ = 0 einer Standardnormalverteilung N (0, 1).
Testentscheidung F¨ ur große Stichprobenumf¨ ange gelten damit folgende Entscheidungsregeln: Die Nullhypothese H0 wird zum Niveau α verworfen, falls ∗ Problem (1): |Z| > z1−α/2
Problem (2): Problem (3):
Z Z
>
2). Damit kann der Kruskal-Wallis-Test als eine Verallgemeinerung des Wilcoxon Rangsummentests 324 aufgefasst werden. Der Test beruht ebenfalls auf den R¨ angen der Gesamtstichprobe. Ziel des Tests ist es aufzudecken, ob es in den k Grundgesamtheiten irgendwo Unterschiede in der Lage der Verteilungen gibt. Ein solcher Test, der simultan Unterschiede in k Stichproben u ¨berpr¨ uft, wird auch als globaler Test bezeichnet. Der Kruskal-Wallis-Test zeigt nur auf, ob irgendwelche Lageunterschiede bestehen. Man kann aus seinem Ergebnis aber nicht schließen, zwischen welchen der untersuchten Grundgesamtheiten es solche Unterschiede gibt. Dazu w¨aren paarweise Vergleiche zwischen je zwei Stichproben erforderlich. Hierzu werden spezielle so genannte multiple Testprozeduren ben¨ otigt, um das geforderte Testniveau α einzuhalten und damit den Fehler 1. Art f¨ ur den Lagevergleich unter Kontrolle zu halten. Kann den Daten eine Normalverteilung mit gleicher Varianz f¨ ur die k Stichproben unterstellt werden, so sollte aus statistischer Sichtweise das parametrische Gegenst¨ uck des Kruskal-Wallis-Tests, der F-Test 269, verwendet werden, da der F-Test in dieser Situation effizienter ist. Voraussetzungen F¨ ur die Anwendung des Kruskal-Wallis-Tests m¨ ussen folgende Voraussetzungen erf¨ ullt sein: Das interessierende Merkmal X ist mindestens ordinal skaliert mit stetiger Verteilungsfunktion F(x). Die Zufallsvariablen X1 , X2 , . . . , Xk der k Grundgesamtheiten sind voneinander stochastisch unabh¨ angig. Die Zufallsvariable Xi , i = 1, . . . , k besitzt die stetige Verteilungsfunktion FXi (x).
5.3
Nichtparametrische Tests
337
Die Verteilungsfunktion FXi (z), i = 1, . . . , k, an der Stelle z ∈ R ergibt sich aus einer Verschiebung der Verteilungsfunktion F um einen Wert δi ∈ R FXi (z) = F(z + δi ),
f¨ ur alle z ∈ R.
Damit wird unterstellt, dass die Verteilungen des Merkmals in den k Grundgesamtheiten die gleiche Gestalt und Streuung besitzen, sich aber in ihrer Lage unterscheiden k¨ onnen. Außerdem sind die Stichprobenvaangig und idenriablen Xi1 , Xi2 , . . . Xini , i = 1, . . . , k, voneinander unabh¨ tisch verteilt gem¨aß FXi , wobei ni den Stichprobenumfang der i-ten Stichprobe bezeichnet. Die Daten sollten mindestens ordinales Messniveau besitzen.
Hypothesen Der Kruskal-Wallis Test u ¨ berpr¨ uft global die Hypothese, ob alle Stichproben aus der gleichen Grundgesamtheit stammen und somit ein und derselben Verteilung folgen. Er kann nur aufdecken, ob sich mindestens zwei der Verteilungen in ihrer Lage unterscheiden. Er entscheidet nicht, zwischen welchen Verteilungen und in welche Richtung diese Unterschiede bestehen. Damit sind einseitige Hypothesen ausgeschlossen. Das Testproblem formuliert sich daher wie folgt H0 : δ1 = δ2 = . . . = δk = 0
gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, . . . , k. Unter der Nullhypothese haben die Zufallsvariablen X1 , . . . , Xk identische Verteilungsfunktionen. Unter der Alternativhypothese wird angenommen, dass sich f¨ ur mindestens ein Paar i und j, 1 ≤ i, j, ≤ k, die zugeh¨ origen Verteilungsfunktionen bez¨ uglich ihrer Lage unterscheiden, das bedeutet FXi (z) = FXj (z − δ) mit δ = 0.
Beispiel Hypothesen
Um eine Empfehlung an seine Leser herausgeben zu k¨onnen, ist ein Gesundheitsmagazin an einem Vergleich unterschiedlicher Fetak¨ ase interessiert. Es ist bekannt, dass sich Kuh-, Ziegen-, bzw. Schafsmilch in ihrer
B
338
5. Verschiedene Situationen – verschiedene Tests
Zusammensetzung unterscheiden. Daher soll insbesondere untersucht werden, ob damit auch der Kaloriengehalt von Fetak¨ ase aus Kuh-, Ziegenbzw. Schafsmilch voneinander abweicht. H0 : δ1 = δ2 = δ3 = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, . . . , 3. Es ist von Interesse, ob sich der Ertrag von Erdbeeren durch den Einsatz unterschiedlicher D¨ ungemittel steigern l¨ asst. In einer Studie wurden daher drei verschiedene D¨ ungemittel auf jeweils neun gleichfl¨ achigen Erdbeerfeldern mit vergleichbarer Bodenstruktur und auch sonst vergleichbaren Bedingungen eingesetzt. Anschließend soll anhand des Gewichts der pro Feld geernteten Menge an Erdbeeren u ¨ berpr¨ uft werden, ob ein Unterschied zwischen den Ertr¨agen unter den D¨ ungemitteln besteht. H0 : δ1 = δ2 = δ3 = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, . . . , 3. Mehrere Angeh¨ orige einer Krankenkasse beschweren sich u ¨ber zu lan¨ ge Wartezeiten bei verschiedenen Arzten. Dabei f¨allt der Krankenkasse auf, dass es sich bei den eingegangenen Beschwerden relativ h¨aufig um Zahn¨ arzte handelt. Daher m¨ ochte die Krankenkasse u ¨ berpr¨ ufen, ob sich ¨ die mittlere Wartezeit der Patienten je nach Fachgebiet der Arzte unterscheidet. H0 : δ1 = δ2 = . . . = δk = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, . . . , k, wobei k die Anzahl der von der Krankenkasse untersuchten Fachrichtungen ist. B B
Beispiel (Fortsetzung 335) Kognitive F¨ ahigkeiten
¨ Greifen wir zur¨ uck auf das Beispiel 335. Zur Uberpr¨ ufung der Wahrnehmungs- und Koordinationsf¨ ahigkeit in Abh¨ angigkeit vom Alter sollten sechs-, sieben- und achtj¨ ahrige Kinder einzelne Bilder aus einer Bildergeschichte in der richtigen Reihenfolge anordnen. Das Ziel ist nun, Unterschiede zwischen den verschiedenen Altersgruppen hinsichtlich der f¨ ur diese Aufgabe ben¨otigten Zeit aufzudecken.
5.3
Nichtparametrische Tests
339
Seien X1 , X2 und X3 die Zufallsvariablen, die in den drei Altersgruppen jeweils die Zeit bis zur Bew¨altigung der gestellten Aufgabe messen. Damit ist zu u ¨berpr¨ ufen, ob sich die Verteilungsfunktionen der Zufallsvariablen hinsichtlich ihrer Lage unterscheiden. Es ergibt sich damit folgendes Testproblem mit den Hypothesen H0 und H1 H0 : δ1 = δ2 = δ3 = 0
gegen
H1 : δi = 0 B
f¨ ur mindestens ein i, i = 1, 2, 3.
Zuweisung der R¨ ange 328 Die k Stichproben werden zu einer Gesamtstichprobe vom Umfang n = k i=1 ni vereinigt. Alle Beobachtungen der kombinierten Stichprobe werden der Gr¨ oße nach geordnet. Den geordneten Werten werden in aufsteigender Reihenfolge die R¨ange rij , i = 1, . . . , k und j = 1, . . . , ni zugewiesen. M¨ogliche Rangwerte sind die nat¨ urlichen Zahlen 1, 2, . . . , n. Der Wert rij bezeichnet den Rang der j-ten Beobachtung der i-ten Stichprobe innerhalb der kombinierten Gesamtstichprobe. Bei gleichen Beobachtungswerten (Bindungen) werden die Durchschnittsr¨ ange bestimmt und zugewiesen. Damit ergibt sich ri =
ni
rij
j=1
als Rangsumme der i-ten Stichprobe.
Teststatistik Unter der Nullhypothese gilt f¨ ur den Erwartungswert der Rangsumme der i-ten Stichprobe ni · (n + 1) . E(Ri ) = 2 ¨ Zur Uberpr¨ ufung der Nullhypothese H0 betrachtet man im Wesentlichen, wie stark die tats¨achlich beobachteten Rangsummen von den unter H0 erwarteten abweichen. Dies geschieht in Form einer gewichteten Summe der quadrierten Abweichungen. Die Teststatistik H wird definiert als 1 12 · (Ri − E(Ri ))2 . n · (n + 1) i=1 ni k
H=
Die Verteilung der Teststatistik unter H0 kann durch kombinatorische ¨ Uberlegungen bestimmt werden.
340
5. Verschiedene Situationen – verschiedene Tests
Testentscheidung und Interpretation Große Abweichungen der beobachteten Rangsummen von den unter H0 erwarteten sprechen gegen die Nullhypothese. Die Teststatistik nimmt in solchen F¨ allen große Werte an. Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls H ≥ h∗1−α . Der kritische Wert h∗1−α ist das (1 − α)-Quantil der Verteilung von H. F¨ ur mehr als 3 Stichproben (k > 3) und gr¨ oßere Stichprobenumf¨ ange nimmt der Rechenaufwand zur Bestimmung der Verteilung von H schnell zu. In diesen F¨allen kann die Verteilung von H unter der Nullhypothese H0 gut durch die χ2 −Verteilung mit (k − 1) Freiheitsgraden approximiert werden. Damit gilt die folgende Entscheidungsregel Testentscheidung basierend auf der χ2 -Verteilung Die Nullhypothese wird zum Niveau α verworfen, falls H ≥ χ2k−1;1−α , wobei k der Anzahl der Stichproben entspricht. Die Testentscheidung basierend auf der χ2 -Verteilung erm¨oglicht uns wieder die Berechnung des kritischen Werts oder des p-Werts mit dem Programmpaket R 294. B
Beispiel (Fortsetzung 335 338) Kognitive F¨ ahigkeiten
¨ Zur Uberpr¨ ufung der kognitiven F¨ ahigkeiten wurde die Zeit gemessen, die die Kinder zur Anordnung der einzelner Bilder aus der Bildergeschichte ben¨ otigten. Dabei konnte die Zeit auf halbe Minuten genau erfasst werden. Zum Niveau von α = 0, 05 soll nun u ¨berpr¨ uft werden, ob sich Unterschiede in der Entwicklung zwischen den Kindern nachweisen lassen. Es wurden folgende Zeiten beobachtet Alter Zeit in min
5
3,5
6 Jahre 4 4,5
3,5
4,5
7 Jahre 3 3 3,5
3
2
8 Jahre 2 3 2
Seien X1 , X2 und X3 die Zufallsvariablen, die die Zeit bis zur richtigen Anordnung der Bildergeschichte in den drei Altersgruppen beschreiben. X1 , X2
5.3
Nichtparametrische Tests
341
und X3 sind stetige Zufallsvariablen und haben stetige Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x). Da die Zeit in der Studie diskret gemessen wurde (auf halbe Minuten genau), liegt ordinales Messniveau vor. Wird von dem unterschiedlichen Alter der Kinder abgesehen, sind die Bedingungen f¨ ur alle Sch¨ uler ansonsten gleich. Daher kann angenommen werden, dass sich die ochstens bez¨ uglich ihrer Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) h¨ Lage unterscheiden. Eine Normalverteilung als zugrunde liegende Verteilung ist aufgrund der wenigen Daten und der diskreten Messung problematisch, die Anwendung des Kruskal-Wallis-Tests ist also sinnvoll. Liegen tats¨achlich Unterschiede in den kognitiven F¨ ahigkeiten sechs-, siebenund achtj¨ ahriger Kinder vor, sollte sich dies in signifikant unterschiedlichen Bearbeitungszeiten widerspiegeln. Mindestens eine der Verteilungsfunktionen urde also gegen¨ uber den anderen verder Zufallsvariablen X1 , X2 und X3 w¨ schoben sein. Das Testproblem lautet damit H0 : δ1 = δ2 = δ3 = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, 2, 3. Die Nullhypothese impliziert also keinen Unterschied zwischen den unterschiedlichen Altersgruppen, w¨ahrend die Alternativhypothese eine Differenz annimmt. Die Beobachtungen der kombinierten Stichprobe werden, beginnend mit der kleinsten, der Gr¨ oße nach geordnet. Beob. 2 2 Rang (ri ) Altersgruppe 3
2 2 3
2 2 3
3 5,5 2
3 5,5 2
3 5,5 2
3 3,5 5,5 9 3 1
3,5 9 2
3,5 9 1
4 11 1
4,5 12,5 1
4,5 12,5 2
5 14 1
Zur Berechnung der Teststatistik H werden zun¨achst die Rangsummen der drei Stichproben bestimmt. Dazu werden die R¨ ange der Beobachtungen, die zu einer Stichprobe geh¨ oren, aufsummiert r1
=
9 + 9 + 11 + 12, 5 + 14 = 55, 5
r2
=
5, 5 + 5, 5 + 5, 5 + 9 + 12, 5 = 38
r3
=
3 + 3 + 3 + 5, 5 = 14, 5.
Außerdem werden die unter der Nullhypothese H0 erwarteten Rangsummen bestimmt E(R1 )
=
E(R2 )
=
5 · (14 + 1) n1 · (n + 1) = = 37, 5 2 2 5 · (14 + 1) n2 · (n + 1) = = 37, 5 2 2
342
5. Verschiedene Situationen – verschiedene Tests
E(R3 ) =
4 · (14 + 1) n3 · (n + 1) = = 30. 2 2
Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (38 − 37, 5)2 (14, 5 − 30)2 12 (55, 5 − 37, 5)2 · + + hbeo = 14 · (14 + 1) 5 5 4 = 7, 1379. ur α = 0, 05 gegeben Der kritische Wert h∗1−α ist mit n1 = n2 = 5, n3 = 4 f¨ als h∗0,95 = 5, 6429. Da der kritische Wert h∗0,95 = 5, 6429 kleiner ist als der Wert der Teststatistik hbeo = 7, 1379, kann die Nullhypothese zum Niveau von α = 0, 05 verworfen werden. Damit unterscheiden sich die Zeiten, die sechs-, sieben- und achtj¨ ahrige Sch¨ uler f¨ ur das Ordnen der Bildergeschichte B ben¨ otigen. B
Beispiel (Fortsetzung 337) Erdbeeren
Erinnern wir uns an das Beispiel zu den Hypothesen 337, in dem untersucht werden soll, ob sich der Ertrag von Erdbeeren hinsichtlich des verwendeten D¨ ungemittels unterscheidet. Seien X1 , X2 und X3 die Zufallsvariablen, die den Ertrag der Erdbeeren in Kilogramm pro Feld jeweils f¨ ur die D¨ ungemittel 1, 2 und 3 beschreiben. Sollten sich die Ertr¨ age der Erdbeerfelder bez¨ uglich der D¨ ungung tats¨ achlich unterscheiden, so ist von gegeneinander verschobenen Lagen der Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) auszugehen. Es ergibt sich folgendes Testproblem H0 : δ1 = δ2 = δ3 = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, 2, 3. In der Studie wurden jeweils 9 Felder mit einem D¨ ungemittel behandelt. F¨ ur die insgesamt 27 Felder ergaben sich folgende Ertr¨ age in Kilogramm D¨ ungemittel 1 D¨ ungemittel 2 D¨ ungemittel 3
101 93 45
72 67 44
85 62 79
121 75 55
100 79 61
89 80 63
95 81 67
80 86 51
78 87 60
5.3
Nichtparametrische Tests
343
Die geordnete Gesamtstichprobe ist somit wie folgt gegeben Beobachtungen Rang D¨ ungemittel
44 1 3
45 2 3
51 3 3
55 4 3
60 5 3
61 6 3
62 7 2
63 8 3
67 9,5 2
Beobachtungen Rang D¨ ungemittel
67 9,5 3
72 11 1
75 12 2
78 13 1
79 14,5 3
79 14,5 2
80 16,5 2
80 16,5 1
81 18 2
Beobachtungen Rang D¨ ungemittel
85 19 1
86 20 2
87 21 2
89 22 1
93 23 2
95 24 1
100 25 1
101 26 1
121 27 1
Damit ergeben sich die Rangsummen der drei Stichproben gem¨aß r1
=
11 + 13 + 16, 5 + 19 + 22 + 24 + 25 + 26 + 27 = 183, 5
r2
=
7 + 9, 5 + 12 + 14, 5 + 16, 5 + 18 + 20 + 21 + 23 = 141, 5
r3
=
1 + 2 + 3 + 4 + 5 + 6 + 8 + 9, 5 + 14, 5 = 53.
Die unter der Nullhypothese H0 erwarteten Rangsummen lauten E(Ri ) =
9 · (27 + 1) ni · (n + 1) = = 126, 2 2
f¨ ur i = 1, 2, 3.
Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (183, 5 − 126)2 (141, 5 − 126)2 (53 − 126)2 12 + + hbeo = 27 · (27 + 1) 9 9 9 =
15, 6534.
Da die Stichprobenumf¨ ange ni , i = 1, 2, 3 jeweils gr¨oßer als 5 sind, ist die Teststatistik unter der Nullhypothese H0 approximativ χ2 -verteilt. Der Wert der Teststatistik hbeo = 15, 6534 ist gr¨ oßer als der kritische Wert χ22;0,95 = 5, 9915. Die Nullhypothese H0 kann damit verworfen werden. Zu einem Signifikanzniveau α = 0, 05 kann geschlossen werden, dass der Ertrag von Erdbeeren sich bei Verwendung der verschiedenen D¨ unger unterscheidet. B
344
B
5. Verschiedene Situationen – verschiedene Tests
Beispiel (Fortsetzung 337) Fetak¨ ase
Ein Gesundheitsmagazin m¨ochte untersuchen, ob sich der Kaloriengehalt von Fetak¨ ase hergestellt aus Kuh-, Schafs- bzw. Ziegenmilch unterscheidet. Dazu wurde bei verschiedenen handels¨ ublichen Produkten der Kaloriengehalt pro 100 g Fetak¨ ase ermittelt. Seien X1 , X2 und X3 die Zufallsvariablen, die den Kaloriengehalt (in kcal) der Fetak¨ase aus Kuh-, Schafs- bzw. Ziegenmilch beschreiben. Sollten sich die K¨ ase aus verschiedenen Milchsorten bez¨ uglich ihres Kaloriengehalts unterscheiden, so ist von gegeneinander verschobenen Lagen der Verteilungsfunktionen FX1 (x), FX2 (x) und FX3 (x) auszugehen. Es ergibt sich folgendes Testproblem H0 : δ1 = δ2 = δ3 = 0 gegen
H1 : δi = 0
f¨ ur mindestens ein i, i = 1, 2, 3. In der Studie wurden drei, f¨ unf und vier Fetak¨ aseprodukte der betreffenden Milchsorten untersucht. F¨ ur die insgesamt 12 untersuchten K¨ ase ergaben sich folgende Messwerte in kcal/100 g Fetak¨ ase aus Kuhmilch Fetak¨ ase aus Schafsmilch Fetak¨ ase aus Ziegenmilch
214 237 145
227 242 207
268 266 212
298 285
251
Die geordnete Gesamtstichprobe mit zugewiesenen R¨angen ist somit wie folgt gegeben Beobachtungen Rang Milchsorte
145 1 3
207 2 3
212 3 3
214 4 1
227 5 1
237 6 2
Beobachtungen Rang Milchsorte
242 7 2
251 8 2
266 9 2
268 10 1
285 11 3
298 12 2
Zur Berechnung der Teststatistik H werden zun¨achst die Rangsummen der drei Stichproben bestimmt, d.h. die R¨ ange der Beobachtungen, die zu einer Stichprobe geh¨ oren, werden aufsummiert r1
= 4 + 5 + 10 = 19
r2
= 6 + 7 + 8 + 9 + 12 = 42
r3
= 1 + 2 + 3 + 11 = 17.
Literaturverzeichnis
345
Außerdem werden die unter der Nullhypothese H0 erwarteten Rangsummen bestimmt E(R1 )
=
E(R2 )
=
E(R3 )
=
3 · (12 + 1) n1 · (n + 1) = = 19, 5 2 2 5 · (12 + 1) n2 · (n + 1) = = 32, 5 2 2 4 · (12 + 1) n3 · (n + 1) = = 26. 2 2
Die Realisierung hbeo der Teststatistik ergibt sich damit als ) * (19 − 19, 5)2 (42 − 32, 5)2 (17 − 26)2 12 + + hbeo = 12 · (12 + 1) 3 5 4 =
2, 9526.
Der kritische Wert h∗1−α mit n1 = 3, n2 = 5, n3 = 4 und α = 0, 05 ergibt sich zu h∗0,95 = 5, 6308. Der Wert der Teststatistik hbeo = 2, 9526 ist kleiner als der kritische Wert h∗1−α = 5, 6308. Die Nullhypothese H0 kann damit zum Signifikanzniveau α = 0, 05 nicht verworfen werden. Aufgrund der vorliegenden Daten gibt es also keinen Hinweis darauf, dass sich die Fetak¨ ase der verschiedenen untersuchten B Milchsorten bez¨ uglich ihres Kaloriengehalts unterscheiden.
Literaturverzeichnis
347
Literaturverzeichnis Bartlett, M.S. (1967). it Statistical Methods. 6th ed., The Iowa Stats University Press, Ames. B¨ uning, H., Trenkler G. (1994). Nichtparametrische statistische Methoden. 2. Aufl., de Gruyter, Berlin. Burkschat, M., Cramer, E., Kamps, U. (2004). Beschreibende Statistik. Grundlegende Methoden. Springer, Berlin. Casella, G., Berger, R.L. (1990). Statistical Inference. Duxbury Press, Belmont. Dehling, H., Haupt, B. (2003). Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin. Efron, B., Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall/CRC, Boca Raton. Evans, M., Hastings, N., Peacock, B. (2000). Statistical Distributions. 3rd ed., Wiley, New York. Fahrmeir, L., K¨ unstler, R., Pigeot, I., Tutz, G. (2003). Statistik. Der Weg zur Datenanalyse. 4. Aufl., Springer, Berlin. Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. (1998). Bayesian Data Analysis. Chapman & Hall, London. Larsen, R.J., Marx, M.L. (1986). Mathematical Statistics and its Applications. Prentice-Hall, Englewood Cliffs. Lehmann, E.L., Casella, G. (1998). Theory of Point Estimation. 2nd ed., Springer, New York. Levy, P.S., Lemeshow, S. (1999). Sampling of Populations. Methods and Applications. 3rd ed., Wiley, New York. Mood, A.M., Graybill, F.A., Boes, D.C. (1974). Introduction to the Theory of Statistics, McGraw-Hill, Singapore. Moore, D.S. (2000). The Basic Practice of Statistics. Freeman and Company, New York. Mosler, K., Schmid, F. (2003). Beschreibende Statistik und Wirtschaftsstatistik. Springer, Berlin.
348
Literaturverzeichnis
Mosler, K., Schmid, F. (2004). Wahrscheinlichkeitsrechnung und schließende Statistik. Springer, Berlin. Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996). Applied Linear Statistical Models. 4th ed., Irwin, Chicago. R Development Core Team (2004). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-00-3, URL http://www.R-project.org. Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Wiley, New York.
Index
349
Index Akzeptanzbereich, 191 Alternativhypothese, 176 arithmetisches Mittel, 46 Bedingte Dichte, 22 Verteilung, 23 Bedingter Erwartungswert Eigenschaften, 30 Bernoulli-Experiment, 38 Bernoulliverteilung, 4, 38 Beste Tests, 198 Bias, 66 Bindungen, 315 Binomialkoeffizient, 38 Binomialtest approximativer, 220, 285 exakter, 220, 278 Binomialverteilung, 39 χ2 -Anpassungstest, 220, 290 angigkeitstest, 221, 300 χ2 -Unabh¨ χ2 -Verteilung, 44 Cauchy-Verteilung, 109 Cram´er-Rao-Ungleichung, 82 Dichte bedingte, 22 diskrete, 14 gemeinsame, 19 stetige, 14 Randdichte, 20 Rechenregeln, 18 effizient, 76 Effizienz, 63, 76 Einflussgr¨ oße, 135 Einstichprobenproblem, 217 EMILeA-stat, v Entscheidungsregel, 192 Erfolgswahrscheinlichkeit, 38 Erwartungstreue, 63, 64 asymptotisch, 67
Erwartungswert, 24 bedingter, 29 Eigenschaften, 25 Rechenregeln, 25 Sch¨ atzung, 68 Exakter Test, Fisher, 221, 306 Exponentialfamilie k-parametrige, 105 einparametrige, 101 Exponentialverteilung, 47 F-Test, 218, 219, 260 Lagevergleich, 269 Varianzvergleich, 260 F -Verteilung, 46 Faktorisierungssatz, 95, 96 verallgemeinerter, 97 Fehler 1. Art, 182 Fehler 2. Art, 183 Fisher-Information, 81 Fisher-Neyman, Satz von, 95 Freiheitsgrade, 44–46 Gammafunktion, 44 Gammaverteilung, 47 Gauß-Markov, Satz von, 145 Gauß-Test, 208, 217, 218, 222 Geometrische Verteilung, 40 Gleichverteilung, 42 Grundgesamtheit, 9 G¨ ute, 194 G¨ utefunktion, 194 Eigenschaften, 195 Hypergeometrische Verteilung, 40 Hypothese, 175 einfach, 180 zusammengesetzt, 180 Indikatorfunktion, 102 Intervallsch¨ atzer, 148 Eigenschaften, 150 Intervallsch¨ atzung, 53, 147
350
Index
k-Stichprobenproblem, 219 Kleinste-Quadrate-Sch¨ atzer, 138 Klinischer Versuch, 4 Konfidenzintervall, 148 ¨ Ubersicht, 151 approximative f¨ ur Erwartungswert bei beliebigen Verteilungen, 159 f¨ ur Erwartungswert bei Normalverteilung bekannte Varianz, 153 unbekannte Varianz, 155 f¨ ur Anteil p, 158 f¨ ur Regressionskoeffizienten, 165 f¨ ur Varianz bei Normalverteilung, 155 Eigenschaften, 150 Herleitung f¨ ur Normalverteilung, 151 Simulation, 149 konservativ, 204 Konsistenz, 63, 86 im quadratischen Mittel, 88 schwache, 87 starke, 88 Zusammenhang Konsistenzarten, 91 Konvergenz fast sichere, 88 in Wahrscheinlichkeit, 87 Korrelation, 32 Eigenschaften, 33 Rechenregeln, 33 Korrelationskoeffizient, 32 Bravais-Pearson, 33 Kovarianz, 32 Eigenschaften, 33 Rechenregeln, 33 KQ-Methode, 134 KQ-Sch¨ atzung, Prognose, 138 kritischer Bereich, 190 kritischer Wert, 190 Kruskal-Wallis-Test, 219, 335 Lehmann-Scheff´e, Satz von, 101 Likelihood-Funktion, 116 Interpretation, 117 Likelihood-Quotienten-Test, 210
Macht, 194 Maximum, Verteilung, 37 Maximum-Likelihood-Sch¨ atzung, 119, 120 Median, 13 Methode der kleinsten Quadrate, 134 Minimum, Verteilung, 36 mittlerer quadratischer Fehler, 63, 71 ML-Sch¨ atzer Eigenschaften, 122 Invarianz, 123 Momentensch¨ atzer, 108 MSE, 63, 71 MSE-effizient, 76 Neyman-Pearson-Lemma, 199 Normalverteilung, 42 asymptotisch, 92 Nullhypothese, 176 Ordnungsstatistik, 36 Verteilung, 36 p-Wert, 189 Parameter, 12 Poissonverteilung, 41 Prognosen, 138 Punktsch¨ atzer, unverzerrt, 64 Punktsch¨ atzung, 53, 54 Quantil, 13 Quartil, 13 R, vi, 57, 227, 236, 240, 248, 257, 265, 288, 294, 304, 340 R¨ ange Zuweisung, 328 Randdichte, 20 Rao-Blackwell, Satz von, 97 Rechteckverteilung, 42 Regressionskoeffizienten, 135 Regressionsmodell einfaches lineares, 135 Prognose, 138 Tests, 221, 309 Regularit¨ atsbedingungen, 78
Index
351
konservativ, 204 unverf¨ alscht, 198 Durchf¨ uhrung, 193 Satz Testentscheidung, 192 Faktorisierungssatz, 95, 96 Testergebnisse, Interpretation, 186 verallgemeinerter, 97 Fisher-Information bei Unabh¨ angig- Testproblem, 177 einseitig, 180 keit, 81 linksseitig, 178 Vollst¨ andigkeit und Suffizienz in einrechtsseitig, 178 parametrigen Exponentialfamilien, 104 zweiseitig, 178, 180 Satz von Tests Fisher-Neyman, 95 Regressionsmodell, 221, 309 Gauß-Markov, 145 Teststatistik, 180 Lehmann-Scheff´e, 101 Trennsch¨ arfe, 194 Rao-Blackwell, 97 Sch¨ atzer gleichm¨ aßig bester erwartungstreuer, UMVUE, 77 Unabh¨ angigkeit, 31 77 Rechenregeln, 31 Kleinste-Quadrate, 138 Untersuchungseinheiten, 9 Maximum-Likelihood, 119 unverbundene Stichproben, 244 Momentenmethode, 108 unverf¨ a lscht, 198 Sch¨ atzfunktion, 55 unverzerrt, 64 Signifikanzniveau, 187 St¨ orgr¨ oße, 135 Varianz, 26 Standardabweichung, 26 Eigenschaften, 27 Standardisierung, 43 Rechenregeln, 27 Statistik, 55 Sch¨ atzung, 69 suffiziente, 94 verbundene Stichproben, 243 Stetigkeitskorrektur, 332 Verschiebungssatz, 33 Stichprobe, 10 Verteilung Stichproben bedingte, 23 verbunden, 243 Maximum, 37 unverbunden, 244 Minimum, 36 Stichprobenstandardabweichung, 46 Verteilungsfunktion, 12 Stichprobenvariablen, 35 empirische, 18 stochastisch unabh¨ angig, 31 Rechenregeln, 18 Suffizienz, 63, 93, 94 Verzerrung, 66 Vollst¨ andigkeit, 93, 98 t-Test, 217, 218 Vorzeichen-Test, 217, 317 Einstichprobenfall, 236 Zweistichprobenfall, 242 Wilcoxon-Rangsummen-Test, 218, 324 unverbundene Stichproben, 244 wirksam, 76 verbundene Stichproben, 253 t-Verteilung, 45 Zielgr¨ oße, 135 Test Zufallsvariable, 11 Residuen, 138
352
Index
diskrete, 11 stetige, 11 Zufallsvariablen unabh¨ angige, 31 Zusammenhang Konfidenzintervalle, Tests, 205 Zweistichprobenproblem, 218